Нейросети для PR и маркетинга
Технологии автоматизированной медиааналитики в России получили развитие в начале нулевых. Тогда, в 2003 году, на рынок вышел новый продукт для мониторинга СМИ – Медиалогия. Руководители пресс-служб освободили время для креатива, передав всю статистику машине. Пользователи получили инструмент оперативного мониторинга упоминаний с графической интерактивной аналитикой.
В первой версии Медиалогии применялась обработка текстовых сообщений СМИ на основе созданных вручную синтактико-семантических правил. Поисковый механизм анализировал тексты и размечал в них именованные сущности (объекты), заранее описанные правилами матлингвистического анализа.
Затем система измеряла влиятельность источника, размер и место выхода сообщения, отличала главную, второстепенную или эпизодическую роль упоминания, определяла цитирование, наличие изображений. При помощи текстовых справочников и наборов фактов определялась тональность. Все показатели сводились в МедиаИндекс – показатель качества упоминания в СМИ.
Рис. 1. Динамика количества упоминаний в СМИ и МедиаИндекса
Конечно, система тогда была еще далека от совершенства. Если оценка цитирования или роли упоминаний легко поддавались автоматизации, то определяемая машиной тональность сообщений часто проигрывала человеческому интеллекту, например, в случаях сарказма или одновременного упоминания позитивных и негативных фактов.
Для достижения приемлемого уровня качества обработки текстов Медиалогия начала применять машинное обучение и нейросети. В число используемых Медиалогией технологий сегодня входят: определение именованных сущностей, фактов, языков, классификация сообщений по отраслям, спам фильтры, выявление ботов и аномалий, и многие другие.
Нейросети для определения тональности
Сегодня Медиалогия оценивает тональность как сообщения в целом, так и в отношении к конкретному объекту (компании/бренду/персоне), упоминаемому в сообщении. Для определения тональности сообщений используется классификатор, основанный на нейронной сети.
Остановимся подробнее на технологии. На вход сети подается текст, преобразованный в матрицу, строки которой соответствуют признакам, извлеченным из текста, а столбцы – компонентам «семантических» векторов. В качестве признаков используются различные фрагменты текста: слова, сочетания слов, отдельные последовательности символов. В ходе экспериментов была выбрана модель нейросети, использующая слои долгой краткосрочной памяти (LSTM), показавшая наилучшие результаты. Ключевым фактором для повышения качества предсказаний стала комбинация различных моделей векторных представлений тех самых признаков текста (embeddings), построенных с помощью Word2Vec, FastText, а также предобученных слоев нейросети, натренированных на собственном большом корпусе текстов, в достаточной мере репрезентативном относительно текущего потока сообщений. Последние «обогащают» информацию, извлекаемую из текста, «знаниями», полученными в ходе предобучения нейросети, которые в некотором смысле аналогичны «языковой картине мира», существующей в сознании «живых» носителей языка. Такие «знания» позволяют учитывать особенности тональной оценки для сущностей с отличающимися семантическими свойствами, в том числе корректно обрабатывать случаи, когда один и тот же контекст несет противоположную по тональности оценку.
Цитируемость СМИ
Для определения лидеров рынка СМИ по цитируемости, а также оперативной аналитики наиболее републикуемых материалов Медиалогия создала отдельный продукт.
Аналитика цитируемости СМИ в режиме реального времени основывалась на тех же механизмах оценки объектов, что и продукт для PR. Только в качестве ключевого KPI здесь выступал коэффициент влиятельности источника, цитирующего контент СМИ.
Для решения задачи анализа Индекса Цитируемости (ИЦ) в реальном времени Медиалогия начала применять рекурсивно рассчитываемый показатель, отражающий усредненное за год количество и качество ссылок на источник. Расчет показателя производится в режиме реального времени для каждой статьи. Помимо статистики ссылок из традиционных медиа в показатель Индекса Цитируемости два года назад был добавлен коэффициент социальной влиятельности. В итоге значение ИЦ для медиа вычисляется на основе корпуса текстов из 50 тыс. источников Медиалогии, а также суммы Likes&Shares материалов СМИ в 800 млн аккаунтов соцмедиа.
Технология анализа цитируемости не только замеряет собственные информационные волны, созданные конкретным СМИ, но и сравнивает конкурентов на графиках, выявляет резонансные материалы и строит рейтинги СМИ.
Кластеризация потока сообщений
С появлением потребности замерять «шум» по тому или иному событию Медиалогия ввела новую технологию – анализ событий.
Для оценки масштаба информационных волн в системе появилась группировка сообщений на основе алгоритма потоковой гравитационной кластеризации. Суть метода гравитационной кластеризации заключается в выполнении последовательности шагов. На первом этапе вводится радиус притяжения, определяющий совокупность параметров смысловой и временной близости документов. Если расстояние между двумя текстами меньше радиуса притяжения, то сообщения объединяются в один кластер. В случае, если тексты принадлежат разным кластерам, выполняется проверка их близости для дальнейшего возможного объединения в один крупный кластер.
На выходе пользователи получают рейтинги инфоповодов с учетом частоты упоминаний конкретных тем и влиятельности источников.
Рис. 2. Кластеризация инфоповодов
Управление коммуникациями в соцмедиа
Соцсети поменяли привычки аудитории к потреблению контента. В борьбе за внимание аудитории бренды применяют инструменты аналитики соцмедиа для управления коммуникациями и поиска инсайтов.
Поскольку каждый блогер представляет собой самостоятельное медиа, у маркетологов появилась потребность в оценке влиятельности авторов с учетом их аудитории и отраслезации.
Медиалогия взвешивает каждого автора или сообщество с учетом охвата аудитории и востребованности контента. Показатель влиятельности рассчитывается в режиме реального времени на всем потоке данных из соцмедиа.
У пользователей возникают различные задачи, связанные с анализом текстов в соцмедиа: мониторинг негатива, оценка резонанса инфоповода, выбор целевых аудиторий для рекламы, анализ сильных и слабых мест продуктов, регулярное исследование потребностей и интересов аудитории.
Стандартный набор изучаемых показателей в соцмедиа: лайки, репосты, комментарии, охват аудитории. Эти метрики в Медиалогии используются как по отдельности, так и в виде агрегированного показателя SM Index, который помогает маркетологам мгновенно определить вектор интересов пользователей. Чем выше индекс, тем более резонансным считается контент, и тем сильнее влияние этого контента на целевую аудиторию.
Формула учитывает быстрорастущие информационные кластеры и минимизирует влияние «накрученных» аккаунтов, у которых нет репостеров. Так система ускоряет процесс поиска сообщений, требующих внимания, и отсеивает инфошум.
Традиционная для соцмедиа задача реагирования на отзывы клиентов нашла решение в продукте «Инцидент». Программа агрегирует поток сообщений из соцмедиа по заданным параметрам, размечает тексты и направляет нужные задачи пользователям. В конечном итоге клиентам доступна полная статистика по реагированию, включая сроки ответов по продуктам, типам и значимости сообщений, локациям, менеджерам.
Анализ целевых аудиторий – новая функция Медиалогии для оценки аудитории бренда в соцмедиа. Система собирает показатели пола, возраста, геолокации, дохода, интересов аудитории. По результатам замеров маркетологи видят, кого привлекла та или иная кампания, и насколько точно послания бренда попали в нужную ЦА.
Рис. 3. Анализ аудиторий в соцмедиа
Экспоненциальный рост создаваемого контента в СМИ и соцмедиа требует совершенствования технологий для обработки данных, что формирует непрерывный тренд к развитию систем аналитики. Медиалогия продолжает совершенствовать собственные инструменты текстового анализа и оценки эффективности коммуникаций для обеспечения рынка актуальной медиааналитикой.
Получите бесплатный доступ
к Медиалогии SM на 7 дней
Заполните форму и получите демо-доступ
к Медиалогии для самостоятельного
исследования соцмедиа.
и получение рекламных и информационных сообщений.
Читайте также
Присоединяйтесь
Подпишитесь, чтобы получать новые статьи на почту