В моем докладе речь пойдет об одном из возможных подходов к решению задачи автоматического определения интересов пользователей Интернета. Предлагаемый подход основан на методике Latent Dirichlet Allocation, в основе которой лежит элегантная вероятностная генеративная модель. Мы обсудим применимость этой модели к решению поставленной задачи, а также рассмотрим алгоритм обучения модели и его реализацию с использованием парадигмы MapReduce. В качестве иллюстрации предложенного подхода будут представлены результаты моделирования интересов пользователей проектов Mail.Ru Group. Доклад будет полезен слушателям, интересующимся применением алгоритмов машинного обучения для обработки и анализа больших данных.
Николай Анохин
Программист-исследователь, Mail.Ru Group
Выпускник МФТИ по специальности “Прикладная математика и физика”. С 2010 года занимается задачами машинного обучения и обработки больших данных. Участвовал в успешных проектах в России и за рубежом. В настоящий момент работает в Департаменте Рекламных Технологий компании Mail.Ru Group в должности программиста-исследователя. Разработал и прочитал курс лекций по Data Mining для студентов ВМК МГУ.