Анализ больших наборов данных

Уважаемые пользователи!
Не забывайте оставаться на раздаче после того, как скачали торрент! Помогите скачать и другим - поддержите свободный обмен!
0/0
1.53 Kb
Загрузок: 2
Описание книги:
Эта книга написана ведущими специалистами в области технологий баз данных и веба. Благодаря популярности интернет-торговли появилось много чрезвычайно объемных баз данных, для извлечения информации из которых нужно применять методы добычи данных (data mining).В книге описываются алгоритмы, которые реально использовались для решения важнейших задач добычи данных и могут быть с успехом применены даже к очень большим наборам данных. Изложение начинается с рассмотрения технологии MapReduce - важного средства распараллеливания алгоритмов. Излагаются алгоритмы хэширования с учетом близости и потоковой обработки данных, которые поступают слишком быстро для тщательного анализа. В последующих главах рассматривается идея показателя PageRank, нахождение частых предметных наборов и кластеризация. Во второе издание включен дополнительный материал о социальных сетях, машинном обучении и понижении размерности.Издание будет в равной мере полезна студентам и программистам-практикам.Данная книга представляет собой Стэнфордский курс о добыче данных в вебе (Web Mining) с акцентом на анализе данных очень большого объема. В книге принят алгоритмический подход: извлечение данных — это применение алгоритмов к данным, а не использование данных для «обучения» той или иной машины.Основные рассматриваемые темы:
• распределенные файловые системы и технология распределения-редукции (map-reduce) как средство создания параллельных алгоритмов;
• поиск по сходству, в том числе MinHash и хэширование с учетом близости;
• обработка потоков данных и специализированные алгоритмы для работы с быстро поступающими данными;
• принципы работы поисковых систем, в том числе алгоритм Google Page-Rank, распознавание ссылочного спама и метод авторитетных и хаб-документов;
• частые предметные наборы, в том числе поиск ассоциативных правил, анализ корзины, алгоритм Apriori и его усовершенствованные варианты;
• алгоритмы кластеризации очень больших многомерных наборов данных;
• важные задачи: управление рекламой и рекомендательные системы;
• алгоритмы анализа структуры очень больших графов, в особенности графов социальных сетей;
• методы получения важных свойств большого набора данных с помощью понижения размерности;
• алгоритмы машинного обучения, применимые к очень большим наборам данных.

Оставить комментарий

Кликните на изображение чтобы обновить код, если он неразборчив