Languages

You are here

Большие данные в онлайн-СМИ: подходы и стратегии использования

Научные исследования: 

 

Ссылка для цитирования: Вартанов С.А. Большие данные в онлайн-СМИ: подходы и стратегии использования // Медиаскоп. 2017. Вып. 4. Режим доступа: http://www.mediascope.ru/2375

 

© Вартанов Сергей Александрович
кандидат физико-математических наук, доцент кафедры эконометрики и математических методов экономики Московской школы экономики МГУ имени М. В. Ломоносова (г. Москва, Россия), sergvart@gmail.com

 

Аннотация

В медиаиндустрии Big Data и характерные методы работы с ними находят применение не только в маркетинговых и рекламных проектах, но и в медиаизмерениях. В отличие от измерений телевизионной аудитории, где основным источником Big Data являются данные обратной связи с приставок цифрового ТВ, при измерении интернет-аудитории анализируются значительно более разнородные данные, касающиеся не только данных о посещении сайтов, но и других видов пользовательской активности. Методов анализа таких данных и способов использования полученных результатов во много раз больше, чем в случае телевизионных измерений. При этом опыт крупных игроков западного рынка онлайн-медиа показывает, что, несмотря на подобные трудности, большие данные при правильном подходе могут не только существенно повысить точность аудиторных измерений, но и повлиять на редакционную политику медиа.

Ключевые слова: Интернет, большие данные, медиаизмерения, дата-журналистика.

 

Введение

Проникновение в повседневную жизнь электронных гаджетов, имеющих доступ в Интернет, и связанная с этим цифровизация быта привели к тому, что практически вся человеческая деятельность может быть тем или иным образом зафиксирована и сохранена в виде логов тех устройств, с которыми мы взаимодействуем. Речь здесь идет не только о традиционных журналах посещений сайтов в Интернете, которые ведутся любым браузером, или о cookies, по которым можно восстановить почти всю информацию о деятельности пользователя в Сети. Появление компьютеризированной бытовой техники, способной подключаться к Интернету и записывать диагностическую информацию о любых манипуляциях с ней, появление connected cars, внедрение GPS и ГЛОНАСС в практически каждый смартфон – все это позволяет ежедневно создавать гигантский массив информации о поведении практически любого человека. Более того, благодаря многочисленным социальным сетям и онлайн-мессенджерам даже общение с близкими и коллегами превратилось в постоянный поток данных, которые при правильно организованном процессе сбора и обработки могут дать возможность делать необходимые выводы о любом человеке.

Таким образом, собираемая информация о поведении людей весьма разнообразна. Помимо разнородности, она обладает поистине впечатляющим объемом. Так, по оценкам IBM, в 2012 г. в мире ежедневно создавалось более 2,5 эксабайта (примерно 2,5 млрд гигабайтов) новой информации, а сегодня объем ежегодно фиксируемой информации еще выше, ведь количество данных, фиксируемых на земле, ежегодно удваивается1.

Вся описанная выше информация в совокупности и представляет собой «большие данные» (калька с аналогичного англоязычного термина Big Data, «прижившаяся» в научной литературе). Само по себе понятие Big Data в разных источниках определяется по-разному, однако все определения согласованы с концепцией трех V: volume, velocity, variety (объем, скорость, разнообразие). В отдельных источниках к ним добавляется и четвертая «V» − veracity (достоверность). В широком смысле Big data – это разнородные неструктурированные данные крайне большого объема, увеличение которого происходит ежедневно с большой скоростью.

Очевидно, что с точки зрения социологических и медиаисследований задачи анализа и извлечения таких данных представляют огромный интерес. Кроме того они могут быть использованы в рамках любых коммуникационных кампаний на любом этапе: как при анализе рыночной ситуации и стратегии, так и на этапе оценки эффективности (Назаров, Виговская, 2013). Отдельно следует упомянуть таргетирование рекламных обращений и профилирование наиболее важной для рекламодателя аудитории, которые являются сегодня, наверное, одними из самых востребованных сфер использования «больших данных».

Медиакомпании ежеминутно собирают огромное количество данных обо всех сферах своей деятельности: продажа и реклама, членство и подписки, контент, финансы и сделки и т.д. С другой стороны, эти компании сами являются производителями значительного объема контента в форме текстов, а также аудио-, фото- и видеоматериалов. Все это в совокупности представляет около 70% всего объема данных, загруженных и размещенных в Интернете. Этот объем постоянно растет, и темпы его роста имеют экспоненциальный характер2. Всего за один год, с 2012 по 2013 гг., эта «цифровая вселенная» увеличилась в полтора раза. Более того, подобные темпы роста в ближайшие годы сохранятся. Согласно отчету IDC Digital Universe (IDC, 2014)3, в ближайшие несколько лет объем данных, произведенных и накопленных человечеством, будет ежегодно расти примерно на 40%.

Чтобы оценить масштаб больших данных, имеет смысл сравнить их с данными «маленькими». Привычный для среднего пользователя компьютера объем информации исчисляется мега- и гигабайтами. «Цифровая вселенная» десять лет назад уже описывалась величинами порядка нескольких петабайтов. С тех пор все более интенсивные процессы создания, распространения и потребления контента вывели эту «вселенную» на уровень зеттабайтов – объем накопленных человечеством данных на конец 2015 г. оценивается примерно в 8 зеттабайтов. Один зеттабайт равен триллиону гигабайтов. При этом даже простое перечисление некоторых количественных показателей, характеризующих основные типы данных в «цифровой вселенной», может показать, насколько велик вклад медийных компаний в этот океан информации. Многие из этих показателей растут экспоненциально сами по себе, например, дневное количество твитов, количество загруженных (просмотренных, отправленных друзьям) видео, количество постов в Facebook, количество скайп-сессий. В то время как этот сбор и организация хранения данных являются первыми (и традиционными) шагами в создании Big Data-проекта, их анализ с последующим приведением к пригодному для дальнейшей обработки виду приобретают все более важное значение для медиакомпаний.

Одним из примеров применения больших данных в медиаиндустрии является использование данных обратной связи от приставок цифрового телевидения при измерениях телеаудитории (Каменская, 2011). Другой тип BIG Data, имеющий не меньшее значение для индустрии, чем return path data (RPD), по объему и сложности анализа даже их превышающий, – это данные об аудитории веб-проектов. Здесь методов анализа данных и способов использования полученных результатов в несколько раз больше, чем в случае RPD. Более того, помимо аудиторных исследований, онлайн-СМИ часто применяют большие данные в так называемой дата-журналистике (журналистике метаданных) (Шилина, 2013; Шилина, Левченко, 2014). Способов подобного применения Big Data-ориентированных подходов и технологий также существует довольно много. Все более глубокое проникновение как отдельных технологий обработки больших данных, так и сложных и комплексных подходов к их использованию как в редакционной, так и в маркетинговой политике ведущих изданий приводит к необходимости описания и классификации стратегий использования Big Data.

В настоящей статье предлагается вариант классификации стратегий анализа и использования Big Data сетевыми изданиями, основанный на наиболее очевидном факторе – сфере применения полученных при анализе данных результатов. Два главных направления, где используются эти результаты, − аудиторно-маркетинговое и контентное, и именно их соотношение описывает стратегию использования больших данных каждым изданием. Аудиторно-маркетинговое направление включает в себя профилирование аудитории как издания в целом, так и отдельных его материалов (исследование аудитории), а также основанное на построенных профилях читателей таргетирование рекламы и уже готового контента. В рамках данного направления источником больших данных являются, в первую очередь, читатели издания: анализируется их медиапотребление: история посещения и прочтения материалов на сайте издания, активность в комментариях к этим материалам, типы устройств, с которых читатели предпочитают посещать страницы издания и т.д. Контентное направление применения больших данных в редакционной политике изданий кардинально отличается от маркетингового не только сферой применения (здесь анализ данных применяется уже в процессе генерации контента для издания), но и источником самих этих данных. Помимо данных об аудитории и ее реакции на те или иные материалы (для постоянной коррекции редакционной политики, чтобы достичь наибольшего соответствия контента запросам аудитории), сотрудники издания в рамках этого направления применяют характерные подходы анализа больших данных непосредственно для написания своих статей. Иными словами, вся дата-журналистика, имеющая дело с большими данными, относится именно к этому направлению.

На основе предложенного критерия можно охарактеризовать стратегии использования больших данных практически всеми онлайн-изданиями. Рассмотрим подробнее подходы к использованию Big Data, характерные для каждого из предложенных направлений.

 

Маркетинговые и аудиторно-ориентированные стратегии

Как уже говорилось, в рамках данного направления «в роли» больших данных выступает информация о медиапотреблении аудитории издания: данные учетных записей (как основа для социально-демографических характеристик читателей), техническое обеспечение (например, платформа, с которой читатели заходят на сайт издания), поведение читателей на портале издания (комментарии, тематика предпочитаемых статей, данные о количестве прочитанных статей и т.д.). Собранные данные используются, как правило, для управления рекламными возможностями издания.

Здесь показательным является опыт крупнейших американских информационно-аналитических сайтов, являющихся онлайн-версиями известных газет. В качестве примера онлайн-издания, применяющего маркетинговую стратегию использования больших данных, можно назвать HuffingtonPost.com – интернет-версию одноименной газеты. Этот портал является одним из наиболее посещаемых и быстро растущих информационных сайтов: ежемесячно на него заходит около 22 млн посетителей, а общее число уникальных читателей доходит до 90 млн (Stone, 2014). Редакция HuffingtonPost.com активно использует технологии больших данных для оптимизации контента, идентификации пользователей, персонализации новостной ленты для каждого из них, а также для контроля и оценки эффективности размещения рекламы. Big Data-ориентированные методы используются, помимо прочего, для определения успешности новых моделей размещения рекламы. В частности, речь идет об активно развиваемом изданием направлении естественной (нативной) рекламы, для организации работы с которым было даже создано специальное подразделение. Huffington Post часто сотрудничает с крупными брендами, создавая на основе своего портала суб-порталы. Контент этих сайтов имеет необходимую для рекламодателей направленность, однако его создателями являются авторы, дизайнеры и редакторы Huffington Post. Применяя методы Big Data-анализа, руководство издания выяснило, что подобный способ рекламы товара обеспечивает более высокую запоминаемость бренда. Так, запоминаемость марок, продвигаемых с помощью нативной рекламы, оказалась вдвое выше, чем для спонсорского контента, и на 30% выше, чем при размещении рекламы в других медиа (Stone, 2014).

Маркетинговая стратегия применения больших данных используется и в онлайн-версии Financial Times. Основным источником Big Data для анализа, проводимогоFinancial Times, являются регистрационные данные подписчиков издания (Betts, 2014). Собираемые данные позволяют руководству издания совершенствовать редакционную политику, проводить таргетированные (и потому высокоэффективные) рекламные кампании, и также создавать новые продукты и предложения для читателей на основе собранных в фоновом режиме данных об их интересах и предпочтениях.

В последние годы благодаря ставке на использование больших данных бизнес-модель издания значительно трансформировалась4. Около десяти лет назад, в 2008−2009 гг., Financial Times запустила новую модель интернет-подписки (paywall), основанную на дозированно бесплатном доступе читателей к материалам сайта издания (зарегистрировавшись на сайте, читатель мог бесплатно посмотреть любые десять статей, и только после этого требовалась оплата подписки). Изначально такая модель вводилась, чтобы привлечь интернет-пользователей на онлайн-версию издания и начать получать от нее устойчивый доход. Однако опыт использования подобной системы подписки показал, что данные об аудитории онлайн-версии издания, воспринимавшиеся ранее лишь как побочный продукт, оказались для руководства и редакции Financial Times намного важнее, так как их анализ привел к новому пониманию своей аудитории.

Согласно оценкам Т. Беттса (2014), привычные несколько лет назад паттерны (устоявшиеся практики и способы) потребления контента аудиторией Financial Times претерпели значительные изменения. Основным изменением стал переход львиной доли аудитории в цифровую среду: по состоянию на 2014 г. число подписчиков онлайн-версии издания FT.com значительно превысило число подписчиков бумажной газеты Financial Times. Это превратило сбор данных о пользователях сайта FT.com из сугубо технической задачи IT-отдела в стратегическую: анализ этих данных помогает увеличивать аудиторию и количество подписчиков за счет лучшего понимания их потребностей.

На основе собираемых данных о социально-демографических характеристиках и активности пользователей в Financial Times создаются так называемые «сигнатуры цифрового потребления». В эти сигнатуры включаются данные о потреблении читателем контента из разных разделов сайта (Companies, Markets, World News, Management, Weekend и т.д.). Далее эти сигнатуры используются в различных целях: для изучения контент-предпочтений аудитории, для улучшения обратной связи между редакцией и читателями, для персонализации контента, а также для таргетирования рекламных материалов.

Появление мобильных платформ добавило к данным, собираемым Financial Times, еще один уровень, который также подвергается анализу. В частности, одним из результатов этого анализа стало понимание того, что контент из разных разделов потребляется с помощью разных устройств и в разное время. Например, раздел о досуге (Weekend) пользователи предпочитают читать с помощью мобильных устройств и делают это, как правило, по выходным. В то же время, бизнес-разделы (Management, Finance) собирают наибольшую аудиторию с помощью компьютеров и по будням.

 

Источник: Betts, 2014.

Рисунок 1 . Недельная динамика аудитории онлайн-версии Financial Times в зависимости от типа платформы

 

Индивидуальные профили и сигнатуры оказываются полезными для проведения рекламных кампаний, ориентированных на конкретно заданную аудиторию. При этом среди всех подписчиков издания выделяются представители этой аудитории, а также другие близкие к ним по определенным показателям пользователи, для которых продвигаемый продукт также может представлять интерес.

Иной подход к маркетинговым стратегиям применения данных используется онлайн-версией американской газеты Sacramento Bee (3,2 млн посетителей сайта онлайн-версии, тираж 310 тыс.). Основной концепцией анализа Big Data в Sacramento Bee считают стремление к визуализации всей потенциально полезной информации (Kunken, 2014). В частности, в Sacramento Bee фиксируются и выводятся на карту места проживания текущих и бывших подписчиков (а также указываются причины, по которым последние отказались от подписки), строятся графики показателей CPM (cost per mille, стоимость тысячи контактов для рекламодателей). Аудиторная аналитика, получаемая в визуальном виде, помогает редакции понимать, как, когда и насколько долго внимание читателя задерживается на том или ином материале.

Совместно со своими IT-партнерами Sacramento Bee разработали программу визуализации «пути к покупке», основанную на имеющихся у издания данных о поведении аудитории и призванную помочь рекламодателям таргетировать свою рекламу для специализированных групп (например, садовников). Кроме того, Sacramento Bee работает с данными, предоставляемыми местным бизнесом, объединяя их со своими аудиторными данными.

 

Контент-ориентированные стратегии

Второе направление, которое можно выделить среди распространенных стратегий использования Big Data, затрагивает оптимизацию контента и редакционную политику. В широком смысле такие стратегии можно назвать «контент-ориентированными». В рамках этого направления можно выделить два подхода к анализу данных, отличающихся как их источником, так и конечными целями. Первый подход связан с управлением контентом и во многом опирается на те же методы профилирования аудитории, что и маркетинговые стратегии использования больших данных. Несмотря на то что основным источником больших данных в этом случае, как и в случае маркетинговых стратегий, являются читатели издания (в широком смысле – потребители всего контента, предлагаемого им аудитории, а не только текстовых публикаций), цель проводимого анализа, применяемый инструментарий и, соответственно, результаты анализа принципиально иные.

Применяемые в этом случае технологии больших данных позволяют использовать более точные методы принятия решений в сфере управления как контентом, так и рекламными возможностями издания. Примером издания, стратегия управления контентом которого основана на анализе Big Data, можно снова назвать портал HuffingtonPost.com. Для руководителей портала сторонними разработчиками была создана специальная «приборная доска» (dashboard), в режиме реального времени отображающая всю статистику посещений, комментариев и другой пользовательской активности. Кроме того, тот же программный продукт предоставляет Huffington Post аналитические отчеты, на основе которых издание строит свою редакционную политику. Например, авторы заголовков определяют их эффективность с точки зрения привлечения внимания (и, если требуется, корректируют их) с помощью A/B-тестирования. Этот метод широко распространен в веб-дизайне, он применяется для определения оптимального для посетителей вида веб-сайтов. Однако, в отличие от тестирования сайтов, занимающего определенное время, в случае с читательским интересом к заголовкам информационно-аналитических материалов у редакции практически нет времени на принятие решения. Поэтому аналитическая платформа должна обрабатывать весь читательский трафик за считанные минуты и принимать решение в условиях, на порядок более сложных, чем при обычном A/B-тестировании.

Еще одной важной для оптимизации контента сферой, где Huffington Post применяет технологии Big Data, является «точечная» доставка контента: нужной аудитории, в нужное время и на нужное устройство. Например, проведенный редакцией анализ статистики посещений раздела «Для родителей» выявил, что типичные молодые родители предпочитают заходить на Huffington Post с мобильных устройств (а не с компьютеров), они находятся онлайн в будние дни поздно вечером (после того, как уложили детей спать), однако заняты по выходным. Таким образом, чтобы наиболее эффективно «дотянуться» до этой аудитории, контент из раздела для родителей публикуется именно в будни по вечерам. Это позволяет значительно нарастить пользовательский интернет-трафик на страницы статей и блогов, интересующих целевую аудиторию. В качестве примера СЕО Huffington Post Джимми Мэйманн (2014) приводит статистику одного из таких блогов (10 Ways Living with a Toddler is Like Being in Prison), который благодаря такой организации контента привлек 24 тыс. просмотров в первые 7 часов, причем более 40% просмотров принесли ему ссылки из социальных сетей.

Другой характерной задачей, решаемой в рамках контент-ориентированных стратегий анализа больших данных, является задача управления комментариями. Здесь также показательным является пример Huffington Post.com. Согласно данным, приводимым Дж. Мэйманном (2014), в 2013 г. на портале было оставлено около трехсот миллионов комментариев. Однако, несмотря на столь впечатляющий объем обсуждений, средний уровень «качества» этих комментариев был удручающе низким. Для повышения адекватности комментариев (и, следовательно, улучшения восприятия издания его читателями) руководство Huffington Post прибегло к конджойнт-анализу (совместный анализ) – статистическому методу оценки предпочтений аудитории портала. В ситуации с обсуждением статей читателями этот метод применялся для определения того, насколько «качественными» посетители сайта воспринимают комментарии от анонимов и от зарегистрированных пользователей, и какие характеристики комментариев и комментаторов оказывают влияние на это восприятие. Оказалось, что наиболее «качественными» читатели Huffington Post считали комментарии, написанные зарегистрированными пользователями, проживающими (согласно указанным в профиле данным) в том же регионе. Сообщения от анонимов или от «далеких» пользователей не пользовались успехом у аудитории. Это исследование привело к тому, что Huffington Post отказалось от возможности анонимного комментирования статей, введя обязательную регистрацию. Это позволило повысить уровень удовлетворенности аудитории разделом комментариев к материалам портала, даже несмотря на то, что на первых порах введение обязательной регистрации вызвало неодобрение читателей.

Третья задача, решаемая в рамках управления контентом, – это персонализация материалов, доставляемых до каждого отдельно взятого читателя. Здесь используются практически те же методы профилирования потребителей контента, что и в маркетинговых стратегиях, однако «таргетируются» не рекламные материалы, а сам контент. В качестве примера можно привести разработанную компанией Gravity (подразделение AOL) технологию определения предпочтений интернет-пользователей на основе их истории посещений. Эта технология позволяет изданию доставлять людям потенциально интересный для них контент с помощью так называемой «пассивной персонализации». Неоднократно упоминавшееся в настоящей статье издание Huffington Post, также являющееся подразделением AOL, использует эту технологию для доставки читателям потенциально интересного для них контента. Помимо таргетирования контента, редакция портала HuffingtonPost.com с ее помощью анализирует степень интереса аудитории к своим материалам на уровне каждого отдельного пользователя, фактически получая срез интересов всех пользователей. Также применяемая технология информирует редакцию о том, каким образом пользователи предпочитают получать контент, и помогает улучшать восприятие каждым отдельно взятым пользователем главной страницы портала, а также других наиболее посещаемых им разделов. Согласно оценке Джимми Мэйманна (2014), результатом применения этой технологии стало то, что теперь средний посетитель HuffingtonPost.com за одну сессию просматривает от 10 до 12 статей (и имеется перспектива увеличения этого показателя до 15).

Другим примером использования данных о поведении пользователей для доставки им потенциально интересного для них контента является опыт американской газетыSacramento Bee, использующей систему визуализации аудиторной и финансовой статистики издания или система индивидуального профилирования контента, фокусирующаяся на изучении пользователей онлайн-версии газеты и доставляющая им наиболее подходящий для них контент.

В качестве своей новой миссии редакция Sacramento Bee называет реализацию проекта, который использует пользовательские Big Data для персонализации и доставки желаемого контента читателям, а также для монетизации этого контента. Редакция провела масштабный опрос среди своих читателей, в результате которого выяснилось, что большинство из них готово делиться своими персональными данными и оставаться лояльными изданию в обмен на информированность.

 Чтобы достичь описанных целей, руководство Sacramento Bee сотрудничает со студентами Стэнфордского университета, обучающимися на направлениях журналистики и компьютерных наук. В рамках этого сотрудничества разрабатывается система трекинга и профилирования, применяемая на сайте sacbee.com для персонализации его внешнего вида и наполнения контентом. Эта система добавляет метки (тэги) к онлайновым материалам и фиксирует в персональных данных читателя метки для каждой прочитанной им новости. С другой стороны, разработанная технология сканирует статьи, определяет тип их контента согласно проставленной метке и сопоставляет его с предпочтениями и интересами читателей, позволяя организовать доставку подходящих им контента и рекламы. Сегментация аудитории (и, соответственно, деление материалов на подходящие и неподходящие) при этом может быть основана не только на предпочитаемом типе контента, но и на других подходах (предпочитаемые устройства, особенности читательского поведения, особенности восприятия рекламы и т.д.).

Sacramento Bee сотрудничает с различными компаниями в сфере информационных технологий, предоставляющими программные продукты для реализации подобной сегментации. При этом издание постоянно модернизирует схему подобного взаимодействия, например, вводя программистов в редакцию отдела новостей, превращая своих аналитиков в специалистов по data science и обучая всех сотрудников методам работы с большими данными.

 

Перспективные направления применения Big Data в медиаиндустрии

Принципиально отличным от управления контентом направлением в контент-ориентированных стратегиях применения больших данных в медиаиндустрии является создание новых публикаций на основе анализа больших данных. Использование пользовательских Big Data для исследования аудитории отдельных изданий или даже всех медиа в целом уже перестало восприниматься как нечто прорывное, находящееся «на переднем краю» технологий. Несмотря на то что вопрос овладения всей потенциальной мощью технологий анализа больших данных для аудиторных исследований еще открыт, существуют и другие связанные с Big Data перспективные направления, которые только начинают осознаваться участниками медиарынка как новые возможности развития. Здесь речь идет, например, о подходе, получившем название дата-журналистики (она же журналистика данных). Именно это направление в настоящее время является наиболее активно развивающимся и наиболее перспективным.

Большими данными и инструментами их анализа пользуются журналисты многих изданий при подготовке своих материалов, как традиционных, так и расследовательских. Например, лауреат Пулитцеровской премии 2014 г. Филлип Риз получил эту награду за свое журналистское расследование, основанное на анализе данных о пассажирах автобусных компаний и позволившее вскрыть махинации с перевозками пациентов психиатрических клиник в Неваде. Надо отметить, что Риз является сотрудником издания Sacramento Bee, где занимает должность руководителя дата-центра, хранящего все используемые изданием данные.

Другим показательным примером развития дата-журналистики может служить опыт канала CNN. В CNN, помимо уже привычных аудиторных исследований и оценки рекламных возможностей, технологии больших данных используются для создания своего рода «системы раннего оповещения» (Bale, 2014). Совместно со своими IT-партнерами из компании Dataminr специалисты из CNN разработали основанную на программном интерфейсе взаимодействия с Twitter технологию обработки более чем 500 млн ежедневных твитов. Разработанная технология анализирует в реальном времени все публикуемые сообщения в Twitter, с помощью специального алгоритма распознавая ключевые слова по наиболее важным новостным темам. Эта система может в режиме реального времени выдавать редакции новостей оповещения обо всех событиях, обсуждающихся в данный момент в блогосфере, о динамике активности таких обсуждений и возникновении новых тем. Помимо существенного сокращения времени реакции на новые важные события во всем мире и помощи в формировании актуальной повестки дня, эта система мониторинга Twitter позволяет не только «создавать новости», но и более оперативно проверять и верифицировать информацию, полученную из других источников. Также CNN использует Big Data-технологии для того, чтобы раскрыть потенциал «мудрости толпы», повышая качество своих аналитических материалов.

В качестве еще одного перспективного направления применения больших данных в медиасфере можно назвать разработку технологий «автоматизированной журналистики». Несмотря на столь громкое название, разумеется, нельзя представить себе, что возможна полная автоматизация создания контента в такой сфере, как журналистика, где будущих журналистов готовят по несколько лет, прежде чем допускать до написания серьезных материалов. Тем не менее появление специального инструментария, основанного на анализе бесчисленных источников информации с помощью специальных Big Data-технологий, сделало реальностью ситуации, когда компьютер пишет статьи, создает видео и формирует новостные ленты почти самостоятельно, с минимальным вмешательством человека. Ряд компаний (Narrative Science and Local Labs, Yseop, Automated Insights, Cxense, Wibbitz, Woch.it и некоторые другие) разработали технологии и программные продукты, в определенной мере воплощающие идеи «автоматизированной журналистики» в жизнь. В частности, предложенная компанией Narrative Science программа, получая на вход особым образом структурированную базу данных спортивных событий (матчей, их исходов и информации об их ходе – авторах голов, заменах, карточках и т.д.), создает на основе этих данных грамматически правильный и стилистически адекватный текст отчета об этих событиях. Такой текст требует минимального редактирования со стороны спортивного журналиста. Аналогичные технологии разработаны и для других направлений журналистики – финансовой и деловой (анализируются базы данных биржевых котировок), общественно-политической (анализируются блоги и твиты) и т.д.

 

Заключение

Технологии больших данных занимают все более значимое место в работе онлайн-СМИ, оказывая значительное влияние как на маркетинговые стратегии изданий, так и на редакционную политику. При этом ряд стратегий анализа больших данных и использования их результатов можно назвать «традиционными»: речь идет об анализе и профилировании аудитории на основе их поведения. Подобные стратегии не являются прерогативой только онлайн-СМИ, в том или ином виде подобное профилирование производится, например, и в телевизионной индустрии (Вартанов, 2017). Второй тип стратегий использования больших данных связан с управлением контентом и его созданием. При этом управление контентом также предполагает анализ данных о поведении аудитории издания, однако не с целью таргетирования рекламы, а с целью определения удовлетворенности ее редакционной политикой издания. Наконец, генерация контента, основанная на анализе больших данных, − это не только дата-журналистика, бурно развивающаяся в последнее время, но и «автоматизированная журналистика». В рамках «автоматизированной журналистики» программное обеспечение на основе базы данных, содержащей информацию об описываемых событиях, пишет статьи, создает видео и формирует новостные ленты почти самостоятельно, с минимальным вмешательством человека. Несмотря на то что полностью заменить «живых» журналистов подобные технологии не смогут, они в состоянии существенно облегчить их труд и повысить производительность и скорость их работы.

 



Примечания

  1. Hagen C., Khan K., Ciobo M. et al. (2013) Big Data and the Creative Destruction of Today's Business Models. A.T. Kearney Inc. Режим доступа: https://www.atkearney.com/documents/10192/698536/Big+Data+and+the+Creative+Destruction+of+Todays+Business+Models.pdf
  2. Meeker M. (2014) Internet trends 2014 – code conference. Kleiner Perkins Caufield & Byers. May 28. Режим доступа: http://www.kpcb.com/blog/2014-internet-trends
  3. Executive Summary: Data Growth, Business Opportunities, and the IT Imperatives. EMC Digital Universe with Research & Analysis by IDC, April 2014. Режим доступа: http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm
  4. Indvick L. (2013) The Financial Times Has a Secret Weapon: Data (Interview with J. Ridding, Financial Times CEO). Mashable, April 2. Режим доступа: http://mashable.com/2013/04/02/financial-times-john-ridding-strategy/

 

Библиография

Вартанов С.А. Телевизионные измерения в эпоху Big Data: концепции и примеры // Вестн. Моск. ун-та. Сер.10, Журналистика. 2017. № 3. С. 37–57.

Каменская М. Измерения аудитории цифрового телевидения // Теле-Спутник. 2011. Дек. С. 58−60.

Назаров М.М., Виговская Е.Г. «BIG DATA»: концепт и его приложения к практике маркетинговых коммуникаций // Интернет-маркетинг. 2013. № 5. С. 70−79.

Шилина М.Г. Data Journalism – дата-журналистика, журналистика метаданных как новый формат медиакоммуникации: к вопросу формирования исследовательских подходов // Медиаскоп. 2013. Вып. 1. Режим доступа: http://www.mediascope.ru/node/1263

Шилина М.Г., Левченко В.Ю. Big data, open data, linked data, метаданные в PR: актуальные модели трансформации теории и практики // Медиаскоп. 2014. Вып. 1. Режим доступа: http://www.mediascope.ru/issues/521?page=1

 

Bale P. (2014) Big Data at work in news. Harnessing the power of Big Data for Media 2014. Reuters Institute for the Study of Journalism, University of Oxford, November 2014. Режим доступа: https://reutersinstitute.politics.ox.ac.uk/sites/default/files/2017-04/Big%20Data%20For%20Media_0.pdf

Betts T. (2014) Data: meet reader – bringing customers to life with data. Harnessing the power of Big Data for Media 2014. Reuters Institute for the Study of Journalism, University of Oxford, November 2014. Режим доступа: https://reutersinstitute.politics.ox.ac.uk/sites/default/files/2017-04/Big%20Data%20For%20Media_0.pdf

Kunken D. (2014) How the Sacramento Bee is using data visualization to extend the utility of Big Data sets, and how Big Data will play a role in helping to introduce readers to more of the content that they want. Harnessing the power of Big Data for Media 2014. Reuters Institute for the Study of Journalism, University of Oxford, November 2014. Режим доступа: https://reutersinstitute.politics.ox.ac.uk/sites/default/files/2017-04/Big%20Data%20For%20Media_0.pdf

Maymann J. (2014) How HuffPost leverages Big Data to improve user experience. Harnessing the power of Big Data for Media 2014. Reuters Institute for the Study of Journalism, University of Oxford, November 2014. Режим доступа: https://reutersinstitute.politics.ox.ac.uk/sites/default/files/2017-04/Big%20Data%20For%20Media_0.pdf

Stone M.L. (2014) Big Data for Media. Harnessing the power of Big Data for Media 2014. Reuters Institute for the Study of Journalism, University of Oxford, November 2014. Режим доступа: https://reutersinstitute.politics.ox.ac.uk/sites/default/files/2017-04/Big%20Data%20For%20Media_0.pdf