Новое золото или как большие данные изменят наш мир? - Михаил Левин, Александр Дьяконов - Наука в фокусе - 2014-10-12

12.10.2014

Новое золото или как большие данные изменят наш мир? - Михаил Левин, Александр Дьяконов - Наука в фокусе - 2014-10-12 Скачать

НАРГИЗ АСАДОВА: Добрый день, у микрофона Наргиз Асадова и мой постоянный соведущий Егор Быковский, главный редактор журнала «Наука в фокусе». Привет, Егор.

ЕГОР БЫКОВСКИЙ: Привет, Наргиз. Здравствуйте, все.

Н. АСАДОВА: Сегодня мы будем говорить о больших данных. Вы наверняка слышали такое англоязычное сочетание Big Data. И тема наша звучит так: «Новое золото, или как большие данные изменят наш мир?». Для начала, чтоб подгрузиться в контекст, послушаем новости науки с Мариной Максимовой.

НОВОСТИ НАУКИ

МАРИНА МАКСИМОВА: Объёмы рынка технологий и услуг в сфере больших данных будет ежегодно расти более чем на 25% и к 2018 году достигнет 41,5 млрд долларов, - такое исследование опубликовало агентство IDC. Несмотря на снижение скорости роста (в прошлом пятилетнем прогнозе IDC предрекал рынку рост ежегодно на 27%), этот сегмент по-прежнему будет расти в 6 раз быстрее всего IT-рынка. Исследователи отмечают, что в 2014 году на оборудование пришлось более 48% всего рынка больших данных. И хотя больше всего инвестиций в эти технологии по-прежнему приходится на США, остальные мировые игроки склонны проявлять больше активности, чем раньше.

Так, по данным IDC, в этом году на страны Европы, Ближнего Востока, Африки и Азиатско-Тихоокеанского региона (правда, без учёта Японии) пришлось около 45% рынка оборудования, программного обеспечения и услуг в сфере больших данных.

На российском рынке технологий работы с большими данными наблюдается явное оживление. И новые проекты появляются постоянно. В SAS СНГ говорят, что наблюдают повышение спроса. Счёт проектов в области больших данных идёт на десятки. Там утверждают, что заказчик перешёл от исследовательского интереса к практическому и финансирует только проекты, от которых видит чётко просчитанную бизнес-отдачу, то есть отбирает проекты более придирчиво. В SAS подтвердили, что начиная с прошлого года, российские компании стали активно внедрять технологии больших данных. Растущий спрос связан с потребностью заказчиков, работает с огромными базами, которые насчитывают миллионы клиентов.

Н. АСАДОВА: Это были новости науки с Мариной Максимовой. Сейчас реклама, затем вернёмся в нашу студию.

Н. АСАДОВА: В эфире передача «Наука в фокусе», мы сегодня говорим про большие данные: «Новое золото, или как большие данные изменят наш мир», - такова тема нашего разговора. И настало время представить наших дорогих гостей. Это Михаил Левин, руководитель группы анализа больших данных в Яндексе. Здравствуйте, Михаил.

МИХАИЛ ЛЕВИН: Здравствуйте.

Н. АСАДОВА: И Александр Дьяконов, доктор физико-математических наук, профессор кафедры математических методов прогнозирования Факультета вычислительной математики и кибернетики МГУ. Здравствуйте, Александр.

АЛЕКСАНДР ДЬЯКОНОВ: Здравствуйте.

Н. АСАДОВА: Давайте, наверное, для попробуем дать определение, что же такое большие данные. С кого начнём? Михаил.

М. ЛЕВИН: Давайте я. На самом деле сейчас слова Big Data – это большая тема. И вообще все вокруг норовят обозвать свои данные большими. Для каких-то компаний это начинается с того, что если мои данные не влезают в Excel-табличку, то они уже большие. Конечно, начиналась эта тема всё-таки в области интернет-компаний, у которых собираемые ежедневно логи о действиях пользователей могут достигать десятков терабайт и даже сотен терабайт в день в зависимости от размера компании. И для Яндекса, наверное, большие данные начинаются в районе терабайт, потому что уже всё-таки с этого размера даже на самые современные большие сервера в память эти данные не помещаются, и приходится с ними работать принципиально другими способами, что создаёт свои новые челленджи и методы работы с этими данными.

Н. АСАДОВА: Есть особенности, кроме объёма?

Е. БЫКОВСКИЙ: Человек из Яндекса говорит только о данных. Я думаю, всё-таки мы сейчас поговорим о неструктурированности или большой скорости, или чём-то ещё. Потому что просто размер, по-моему, всё-таки не самое главное.

М. ЛЕВИН: Конечно, это не единственное определение. И, как вы правильно отметили, неструктурированность данных поиска логов – это тоже очень важно для нас. Но в первую очередь именно челлендж для технологий состоит в том, как это всё обработать. И до тех пор пока оно было неструктурированное, оно могло обрабатываться на одной машине, это совсем одного вида программы, одного вида сложности.

Когда нужно уже всё распараллеливать, всё то же самое для работы с теми же неструктурированными данными, эти же алгоритмы, которые отличаются от стандартных баз данных старого поколения, всё равно, для того чтобы их расширить на кластер, требуется значительное усилие.

Н. АСАДОВА: Александр, есть ли вам что добавить?

А. ДЬЯКОНОВ: Возможно, ответ на этот вопрос следовало начать с того, что такое вообще данные. Потому что, мне кажется, представление о том, что это такое, менялось с течением времени. Достаточно просто посмотреть учебники по информатике, по теории информации. Раньше думали, что данные – это последовательность нулей и единиц, хранящихся на компьютере, потом стали понимать, что здесь очень важен контекст. Один и тот же бинарный файл в зависимости от формата мы будем по-разному интерпретировать, соответственно, работать с ним по-разному.

Потом стало понятно, что контекст ещё более важен. Если у меня есть jpeg-файл на компьютере и я понимаю, что это какая-то фотография, меня просят её обработать, а там какое-то изображение, то в зависимости от того, что это такое, то есть это рентгеновский снимок или снимок космоса, я буду применять совершенно разные алгоритмы. Поэтому мне нужна дополнительная метаинформация.

Потом появились файлы принципиально новых форматов, начал развиваться Интернет, начали появляться новые объекты, которые становятся объектами для анализа данных. Скажем, до появления социальных сетей не было потребности в анализе гигантских динамических графов, и они не рассматривались как центральный объект анализа. Потом они появились, и вот сейчас это один из популярнейших объектов для анализа данных непосредственно.

И какие данные будут лет через 10, например, я даже не могу предсказать, потому что кто знает, что будет именно актуально для анализа. Поэтому эта самая неструктурированность развивается просто потому, что развиваются сами данные, эволюционирует это понятие.

А что касается того, когда данные становятся большими, в целом да, было сказано правильно, что в тот момент, когда технологически начинаются трудности с их хранением, с их обработкой и с их анализом. Это может быть связано как с объёмами, так и непосредственно с содержанием самих данных.

Н. АСАДОВА: С их разнообразием. А вот когда читаешь англоязычную литературу, то очень часто встречаешь определение 3v, то есть их объём, их вариативность…

А. ДЬЯКОНОВ: И velocity.

Н. АСАДОВА: А как бы вы перевели velocity применительно к большим данным?

А. ДЬЯКОНОВ: Это скорость их обновления. То есть большие данные – это не просто огромный массив информации. Данные – в том числе когда они постоянно пополняются.

Е. БЫКОВСКИЙ: Скорость их наполнения или скорость их обработки?

А. ДЬЯКОНОВ: И наполнения, и обработки. Естественно, имеется в виду. Во-первых, это скорость их наполнения. Потому что если бы стояла проблема просто обработать большие данные, тут бы она была решена. Просто мы посчитали бы какие-то агрегаты и научились работать. Проблема в том, что данные постоянно меняются.

Н. АСАДОВА: У нас есть такая постоянная рубрика – «статья по теме». Но в этот раз у нас произойдёт замена, и вместо этого вы услышите комментарий эксперта по информационным технологиям Сколковского института науки и технологий Олега Сютина. Вот, что он рассказал о его видении, что такое большие данные и как они изменят наш мир.

ОЛЕГ СЮТИН: Важно понять, почему большие данные вдруг стали таким популярным термином, почему все об этом говорят, почему об этом говорит огромное количество it-компаний, почему они занимаются технологиями больших данных и почему бизнесы начали на эту тему рассуждать. Наверное, ответ на этот вопрос лежит в плоскости выводов и с того, а как, вообще говоря, индустрия информационных технологий сегодня развивается. Потому что, на мой взгляд, большие данные – это результат объективного развития информационных технологий сегодня. И это термин, который в определённом смысле обобщает новую ситуацию, которая создалась из-за того, что развиваются коммуникации, возникла возможность передачи достаточно больших объёмов данных с достаточно высокими скоростями, того, что называется консьюмеризацией, постепенным распространением огромного количества соединённых устройств либо связанных с человеком, то есть «интернет людей», либо не связанных с человеком, то есть «интернет вещей». Это второй фактор.

Третий фактор – это то, что появились возможности распределённой обработки этих данных. Опять же, даже с большими скоростями все эти данные невозможно передавать в одно место в один большой data-центр, где их можно обработать. Поэтому их надо обрабатывать там, где они существуют. И распределённая обработка в этом смысле – это новая технология, которая позволяет это делать.

И четвёртый фактор – это то, что интенсивно развиваются методы обработки этой самой информации. То есть извлечение из неё новых знаний, новых данных и новой информации, которая приносит новую пользу. Это всё, что связано с искусственным интеллектом, машинным обучением и так далее.

И только комбинация четырёх всех этих вещей создало то, что сегодня называется Big Data. И, на мой взгляд, принципиальным моментом является как раз слово «извлечение новой информации». Big Data – это не просто объём, это не просто большой массив данных. Это технология, которая позволяет за счёт совместного использования разных данных из разных источников разного типа, накапливая их с разной скоростью, извлекать из них что-то новое, какую-то новую информацию. Вот это даёт принципиальный момент. И эта новая информация как раз, если мы говорим о влиянии на жизнь человека, она и может быть тем самым результатом, который может это влияние обеспечить.

И это влияние может быть либо новый уровень безопасности, либо новый уровень эффективности, либо новые возможности для бизнеса, или новые возможности для человека и так далее. Наверное, какие-то примеры можно приводить, для того чтобы иллюстрировать такого рода возможности.

Например, один из широко используемых на сегодняшний день примеров с авиационным двигателем, или вообще самолётом: в полёте каждый двигатель генерирует огромное количество, что-то вроде 1 Тб данных за один полёт. Но одно дело, когда вы просто записываете эти данные и потом анализируете, а другое дело – когда вы имеете возможность это делать на лету. И тогда потенциально возможный отказ какой-то детали, который, опять же, может быть предсказан исходя из анализа в совокупности этих данных может быть очень серьёзным фактором той самой безопасности, который может предсказать либо необходимость обслуживания, либо необходимость какой-то экстренной посадки и так далее, если это всё в полёте происходит.

То есть это новые возможности, которые возникают только в том случае, если технологии больших данных применяются. И если мы говорим об эффективности, здесь, опять же, стандартным примером, который можно приводить, является технологии больших данных, используемые как встроенные технологии в том, что называется smart-сети. Как известно, smart-сети, а их сегодня больше ста, насколько мне известно, строится по миру. И многие из них уже либо построены, либо запускаются в ближайший год-два. Это те города, в которых огромное количество датчиков, огромное количество устройств, огромное количество информации собирается, только для того чтобы улучшить жизнь людей. И повысить эффективность городов как таковых с экологической, энергетической и так далее точки зрения.

И, опять же, это не было бы возможно, если бы не было технологий такого рода.

Н. АСАДОВА: Это был Олег Сюкин, эксперт по информационным технологиям Сколковского института науки и технологий. Довольно часто мы слышим о том, что использование Big Data в том контексте, который мы обрисовали, изменит очень много в нашем мире, в частности, приведёт к изменению в отраслях, и, может быть, какие-то отрасли вообще исчезнут. Давайте об этом поговорим.

Е. БЫКОВСКИЙ: И появятся. Вообще, кстати, он подошёл к самому интересному, потому что самое главное в больших данных – это большие ответы. На самом деле главное, что это неожиданная информация, неожиданные куски, которые появляются…

Н. АСАДОВА: Появилась такая идея, что, наверное, если теперь есть большие данные, мы можем анализировать поведение людей с помощью этих больших данных, то совершенно не нужна социология, потому что социологам люди врут всё время.

Е. БЫКОВСКИЙ: Кто же будет анализировать, Наргиз?

Н. АСАДОВА: Подожди, а как? Эта отрасль точно изменится.

Е. БЫКОВСКИЙ: Социолог поставит задачу математику или программисту – а давайте вы мне устроите Яндекс.пробки и проанализируете поведение.

М. ЛЕВИН: Совершенно согласен. Социологи должны поставить задачу, и дальше уже в тесном взаимодействии с программистами и так называемыми data-scientist’ами, которые уже выделились из ряда программистов и считаются вполне себе отдельными такими людьми, которые именно работают с данными, в том числе с большими, запускают разного рода машинное обучение, предсказание временных рядов, которое уже дальше, это такой абстрактный уровень, не совсем математика, уже более высокий уровень, но всё ещё не какие-то сервисы, как Пробки или какие-то конкретные бизнес-задачи, как рекомендательные системы. Это такой промежуточный уровень, на котором они работают и создают эти сервисы.

Конечно, наверное, в первую очередь такие вещи стали появляться именно в интернет-компаниях. Те же Пробки уже много лет существуют, про них чего говорить? Там анализируется очень много, во-первых, по объёму информации, во-вторых, понятно, что там есть и треки пользователей, на основе которых строится прогноз пробок, и граф дорог, на который нужно накладывать эти треки, и другие источники данных о том, как идёт движение – камеры и партнёрские данные.

Е. БЫКОВСКИЙ: Интересно насчёт всяких неожиданных следствий, неожиданных больших ответов. Яндекс.Пробки – они же призваны были сначала отвечать только на вопрос, есть ли где-нибудь в городе пробки. Ещё есть применение?

М. ЛЕВИН: Вообще говоря, эти данные о том, кто где ездит, просто золотые для планирования дорог. И мы публиковали аналитические отчёты на тему того, где, собственно, видится, судя по нашим данным, возможное существенное улучшение в планировании шоссе, исходящих и входящих в Москву, с помощью которых можно было бы сильно упростить движение. И я надеюсь, что будет какое-то сотрудничество с использованием данных Яндекс с теми, кто занимается этим дорожным планированием.

Н. АСАДОВА: Александр, можете вы какие-то животрепещущие примеры привести?

А. ДЬЯКОНОВ: Я по поводу социологии просто прокомментирую, потому что тут есть такая область, в которой часто многие дилетанты попадают в ловушку. Потому что создают статистику по тем же авариям, публикуются отчёты, что машины жёлтого цвета реже всего попадают в аварию, журналисты сразу же это везде пишут, что вот смотрите.

Н. АСАДОВА: Перекрашивайте свои автомобили.

А. ДЬЯКОНОВ: То есть, например, цвет более заметный или менее заметный, и так далее. Дело в том, что если внимательно посмотреть на данные, по которым делается этот вывод, то правильные выводы совершенно другие. Допустим, у нас есть две компании, обе производят автомобили. У первой автомобили абсолютно надёжные, а у второй постоянно ломаются тормоза и так далее.

Е. БЫКОВСКИЙ: Причём, все жёлтые.

А. ДЬЯКОНОВ: Причём, первая компания производит, допустим, автомобили исключительно чёрного цвета, а вторая – чёрного и жёлтого. В итоге мы смотрим статистику по авариям. Соответственно, там практически все жёлтые машины попадают в аварию, а процент чёрных меньше. Делается вывод, что дело в цвете, а на самом деле дело не в цвете, а в производителе.

Поэтому по поводу неожиданных применений больших данных, то есть, например, в социологии они могут быть применены, но каждый раз, когда сталкиваешься с анализом данных, надо понимать, что это надо делать очень грамотно.

М. ЛЕВИН: Я соглашусь с Александром по поводу вот этих неправильных выводов и хочу дополнить. На самом деле люди ожидают от больших данных именно знаний, больших ответов. А на самом деле я считаю, что правильно ожидать в первую очередь не знаний, а каких-то моделей, которые предсказывают будущее с какой-то точностью, а, во-вторых, предписывают то, какие действия нужно произвести. И, в общем-то, всё это можно дальше встраивать в автоматические системы, которые анализируют данные, предсказывают будущее и принимают на основе этого решения. Таким образом оптимизировать либо какой-то бизнес, либо проводить какие-то исследования. Это то, что в первую очередь происходит, когда люди используют какое-то машинное обучение. И уже потом…

Н. АСАДОВА: Хороший пример – урбанистика, который вы называли. Я видела проект, и… стрелки делала несколько работ на основе анализа больших данных. Выяснили, например, в какие кафе ходят москвичи, а куда ездят приезжие.

Е. БЫКОВСКИЙ: Как они это сделали? На каждого по датчику повесили?

Н. АСАДОВА: Они анализировали данные Foursquare, где чек-инятся люди. То есть такие маленькие большие данные. И в зависимости от того можно строить свой бизнес. Например, если ты ориентируешься на иностранцев, то твой бар, ресторан должен находиться совершенно не в том месте, куда бы ходили москвичи, допустим.

М. ЛЕВИН: Это как раз пример того, когда люди, проанализировав данные, получают промежуточные знания и затем уже делают выводы в бизнесе. Существуют и совсем уж автоматизированные вещи. Например, какой-нибудь бизнес сетевой делает периодически активную коммуникацию клиентам. Он просто рассылает информацию о том, что будут скидки на определённый вид товаров. Делается это на данный момент как раз с помощью анализа данных и попытки выяснить, а кому что порекомендовать. На самом деле это всё может быть заменено полностью на автоматизированные системы, которые ещё лучше будут угадывать, кому что персонально нужно порекомендовать. Ну или, например, казалось бы, наука, в которой главное – это знание, но по пути в ней уже начинают использовать какие-то технологии, которые сложно проинтерпретировать.

Эксперименты в ЦЕРНе, в которых участвует Яндекс как раз, в них что происходит? Физики запускают эксперименты, в которых происходит какое-то огромное количество столкновений, из которых просто огромное количество данных в секунду поступает, которые они еле-еле успевают записывать. После чего нужно из этого огромного массива данных, во-первых, найти событие, которые как-то выделяются и как-то могут свидетельствовать о том, что проявилась какая-то частица, а, во-вторых, нужно расклассифицировать эти события, и буквально из миллиарда событий найти те 7-10-50, которые выглядят подозрительно и по которым в итоге принимается решение, что статистически значимо мы доказали существование какого-нибудь бозона Хиггса. Это то, что там в реальности происходит.

Н. АСАДОВА: Александр.

А. ДЬЯКОНОВ: Ещё может быть применение в том же образовании. Например, в странах, где популярны системы сдачи в виде тестов, анализируются показатели студентов, в каких он тестах участвовал, как отвечал, причём, там эта статистика собирается автоматически, она достаточно подробная. То есть мы буквально знаем, сколько минут уделял студент ответу на каждый вопрос, ошибся, не ошибся, как ответил, стал ли исправлять и так далее.

И меня раньше удивляло… Оказывается, они создают специальные рекомендательные системы, то есть системы, которые обучаются на всей этой информации и для конкретного студента перед сдачей теста прорешивает за него этот тест, предугадывает, где он ошибётся и рекомендует ему повторить определённые темы. То есть, как вы знаете, там в принципе все ответы известны заранее. Проблема в том, что, может быть, не хватает времени ко всем вопросам подготовиться. Система подсказывает, в каких местах ты можешь ошибиться. Известны всякие системы типа антиплагиат, которые проверяют те же самые сочинения на наличие плагиата.

Е. БЫКОВСКИЙ: И диссертации.

А. ДЬЯКОНОВ: Антиплагиат создавался вначале для проверки курсовых. Потом уже для диссертаций.

В издательском деле то же самое. Интересно, что мои коллеги из Нью-Йорка сказали, что сейчас один из самых успешных старт-апов – это как раз автоматический рецензент, то есть если раньше люди приносили рукописи в издательство, вручную просматривали, то сейчас научили это делать программу, и хотя она тоже имеет определённую ошибку…

Е. БЫКОВСКИЙ: Рецензент или референт?

А. ДЬЯКОНОВ: Рецензент. То есть предварительная оценка рукописи на то, стоит ли их более подробно изучать и дальше пускать…

Н. АСАДОВА: Всё это очень интересно и даже захватывающе, я бы сказала. Но сейчас мы должны прерваться на рекламу и новости, а затем вернёмся в эту студию.

НОВОСТИ

Н. АСАДОВА: 17:35 в Москве, у микрофона по-прежнему Наргиз Асадова и Егор Быковский, главный редактор журнала «Наука в фокусе». Говорим сегодня про большие данные: «Новое золото, или как большие данные изменят наш мир?». И наши гости – Михаил Левин, руководитель группы анализа больших данных в Яндексе, и Александр Дьяконов, доктор физико-математических наук, профессор кафедры математических методов прогнозирования Факультета вычислительной математики и кибернетики МГУ. В первой части мы приводили разные примеры, как анализ больших данных может изменить наш мир и скорее всего в ближайшее время изменит. Но мы не проговорили про анализ. Я бы хотела, чтобы вы мне больше рассказали про то, какие методы анализа используются и в какую сторону двигается эта наука. Александр, может быть, вы начнёте?

Е. БЫКОВСКИЙ: Давайте, может быть, начнём со старых примеров. Александр когда-то рассказывал прекрасный пример…

Н. АСАДОВА: Да, про советскую аналитическую школу.

Е. БЫКОВСКИЙ: Это не совсем большие данные, но близко к тому.

А. ДЬЯКОНОВ: Но это история, да, можно с этого начать. Да, это история про становление школы анализа данных у нас в России. Научная школа академика Журавлёва. Изначально он занимался больше логикой, дискретной математикой. К таким прикладным задачам пришёл в каком-то смысле случайно. Партия правительства поставила тогда задачу поиска золота, причём, золотоносных месторождений африканского типа. Это такие очень узкие и тонкие слои золота, находящиеся на определённой глубине, горизонтальные, в них сложно попасть бурением. То есть можно недобурить, перебурить. И, соответственно, зато они достаточно большие, и поэтому их выгодно находить.

На территории Советского Союза не было известно их нахождение. Поэтому в мире всего было известно семь, причём, было полное подробное описание по ним, то есть были известны значения так называемых признаков, то есть проба почвы, сейсмическая активность для местности, цвет камней, снимки из космоса и так далее. Кроме того, подробные описания существовали для мест, где предполагалось это золото, но его не нашли. Геологи с этой задачей пришли к математикам, потому что вроде бы как задача была похожа на математическую, фактически у нас значение некой функции, в семи точках она равняется единичке, в нескольких точках она равняется нулю, надо её научиться экстраполировать на все точки. С точки зрения математики тогдашней это была задача нерешабельная, потому что как работать с такими функциями?

Тогда как раз были изобретены методы, которые были больше основаны на поиске таких логических закономерностей, то есть специально под описание этих объектов исследовались, где может быть золото, то есть находились несжимаемые описания, которые, условно говоря, голосовали за то, что здесь золото есть и золота нет. И по ним потом устраивались такие процедуры голосования.

Академик Глушков тогда назвал этот алгоритм шаманским, но, несмотря на это, его заслушали даже, по-моему, на заседании Совета министров, то есть лично Косыгин его слушал, и ему доверились, с помощью него нашли на территории СССР золото именно африканского типа. Потом он был обобщён на поиск различных других месторождений.

Н. АСАДОВА: А как сейчас в современном мире аналитика этих самых больших данных происходит?

М. ЛЕВИН: На самом деле я могу продолжить на тему, которую поднял Александр. Может быть, вы знаете про то, что есть такое начинание, как Яндекс Терра. Это такой союз Яндекса и геологоразведки, который начался несколько лет назад, то есть это такая совместная компания, для которой Яндекс предоставляет вычислительные мощности, чтобы обрабатывать эти огромные данные геологоразведки. А задача сейчас ставится у них вполне в формате современного машинного обучения. У них есть такой огромный куб 1 км х 1 км х 1 км или даже 10 км в глубину, и они пытаются, взорвав, какие-то датчики поставив на поверхности, определив, как идёт волна, восстановить весь вид функции плотности по всему этому кубу. И известны только какие-то граничные условия, на небольшой глубине можно сделать замеры. Нужно пытаться восстанавливать всю функцию плотности на этом кубе.

Н. АСАДОВА: И как будет выглядеть результат этого проекта? Как бы вы хотели их видеть? В смысле к чему это всё?

М. ЛЕВИН: Будут находить какие-то полезные ископаемые.

Е. БЫКОВСКИЙ: Пустить упругие волны хоть через всю Землю и смотреть, что они покажут…

М. ЛЕВИН: Это же зависит от разрешения инструментов. С какой частотой поставить датчики и с какой частотой по времени снимать с них показания. Дальше от этого объёма зависит напрямую и точность…

Н. АСАДОВА: То есть цель – понять, как устроен весь этот куб?

М. ЛЕВИН: В общем – да.

Е. БЫКОВСКИЙ: С точностью до сантиметров, получается?

М. ЛЕВИН: С точностью до сантиметров не нужно. Но понятно, что если поставить на поверхности больше датчиков, то можно с большей точностью предсказывать, что происходит внутри.

Е. БЫКОВСКИЙ: Происходит поиск полезных ископаемых таким способом?

М. ЛЕВИН: К сожалению, я глубокие детали на эту тему не знаю.

Н. АСАДОВА: В смысле это востребовано геологоразведкой?

М. ЛЕВИН: Да, это такой совместный проект, тут у нас даже в школе анализа данных Яндекса. Словосочетание «школа анализа данных», которую Александр изначально назвал. У нас есть своя такая школа. У нас будет небольшая специализация, посвящённая именно геологоразведке, в которой ребята будут и в компании «Яндекс терра» заниматься этой задачей, и проходить какие-то курсы по машинному обучению параллельно.

Н. АСАДОВА: А такие школы, я смотрю, есть теперь в каждом уважающем себя учебном заведении или большой компании. Я видела, в МГУ тоже есть клуб молодых аналитиков данных, что-то связанное с Big Data.

А. ДЬЯКОНОВ: Есть разные курсы.

Н. АСАДОВА: Я видела, что они объявляли набор ещё в начале этого года.

Е. БЫКОВСКИЙ: Ну а как ты хочешь? Конечно, с позапрошлого года из каждого утюга мы слышим про большие данные. Должен кто-то заниматься их анализом, обработкой.

Н. АСАДОВА: Да, непременно, конечно.

А. ДЬЯКОНОВ: У нас сейчас идёт параллельно несколько курсов на факультете, который называется «Большие данные».

Н. АСАДОВА: Прозвучало словосочетание машинное обучение. Вот об этом не могли бы вы более подробно рассказать на примере здравоохранения?

А. ДЬЯКОНОВ: Машинное обучение – формально эта дисциплина делится на несколько видов обучения. Есть, скажем, обучение с учителем – это когда у вас есть данные, но они тем или иным образом размечены. То есть, скажем, на примере здравоохранения у вас есть анализы пациентов, и вам известно, что вот эти пациенты успешно перенесли операцию, а вот эти неуспешно. Соответственно, вам нужно разработать алгоритм, который по новым анализам, то есть по данным нового пациента предсказывает, как он перенесёт операцию. Пример, аналогичный тому из геологии, который я сказал. Это так называемое обучение с учителем.

Есть обучение без учителя, когда у вас есть просто сами данные без меток. И вам нужно восстановить как-то структуру этих данных, разбить на группы, записать их в более удобном виде. Например, у вас есть данные сотового оператора, вам как-то нужно разбить на группы похожих абонентов, чтобы таргетированный тариф для каждой из этих групп создать. Или у вас есть описание поведения игроков на бирже, и вам нужно найти игрока, поведение которого не похоже на остальные, может, для того, чтобы понять, почему не похоже, может, он пользуется запрещённой инсайдерской информацией, это повод для расследования.

Есть разные другие виды обучения. Это два основных. Есть обучение с подкреплением, когда вы можете предпринять некие действия, и вот эти метки получают в результате этих действий. И так далее, и так далее. Два самых популярных я назвал.

М. ЛЕВИН: Хотелось бы дополнить Александра, в том числе про тему здравоохранения. На самом деле он справедливо разбил машинное обучение на такие теоретические области, которые зависят от того, а что вообще известно. А также оно разбивается, например, на то, а с какими данными мы работаем. Например, совершенно отдельная здесь от стандартного машинного обучения область – это computer vision. Это на самом деле не «компьютерное зрение», как его переводят, это скорее распознавание.

И вот, что удивительно: те же самые алгоритмы, которые работают с картинками в поиске Яндекса по картинкам или в поиске похожих картинок по картинке, они же могут быть применены, например, в анализе медицинских изображений. Например, людям делают определённые снимки, на которых врачи ищут признаки раковых опухолей. И уже известны примеры, когда эту деятельность частично автоматизируют в том смысле, что врач просматривает тысячи этих снимков и может просто от усталости пропускать какие-то снимки с опасными опухолями. Если к этому подключить алгоритм, который иногда изредка ошибается, но почти всегда работает правильно и напоминает врачу, как-то делает ему предупреждение, что этот снимок опасный, посмотрите внимательнее, то это существенно понижает вероятность после этого человеческой ошибки.

Е. БЫКОВСКИЙ: Мы приблизились к теме, которую ты задала с самого начала: какие профессии могут исчезнуть? Может исчезнуть, например, профессия диагноста. Я шучу, конечно, но в каждой шутке есть доля шутки. Некоторые профессии, тот же юрист, особенно низовой, вполне может через некоторое время не понадобиться, потому что это первичная обработка каких-то данных.

Н. АСАДОВА: Пример. Юридическая контора устроена таким образом, что есть старший юрист, а есть их помощники, которые отсматривают большое количество подобных дел, которые являются референтами. Они отбирают из сотни десять, и потом старший юрист эти 10 просматривает и делает какие-то выводы для себя. Если пользоваться такого рода большими данными, которые могут сравнивать содержание всех этих дел, то машина без этого человека легко и очень быстро отберёт те самые 10 релевантных дел. И эти люди просто не потребуются. Есть ли у вас ещё какие-нибудь, приходят ли в голову такие примеры, когда появление больших данных, вернее, отраслей, связанных с большими данными, убьют какие-то профессии, уволят людей? Когда машины уволят людей.

М. ЛЕВИН: Пока безумный, но пример из не такого далёкого будущего про call-центры. Люди звонят, и часто у них проблемы довольно-таки одинаковые, которые можно было бы либо обработать автоматическим голосом, когда его научатся лучше синтезировать и лучше распознавать, что спрашивают. А можно было бы и даже предотвращать эти звонки. То есть если мы понимаем, что у человека сломался интернет и он сейчас будет звонить в техподдержку и выяснять, что происходит, то мы могли бы ему заблаговременно отправить СМС с текстом, что мы уже знаем про проблему и с ней разбираемся, он не будет звонить, это существенно дешевле для бизнеса, чем содержать техподдержку.

Н. АСАДОВА: Александр, я знаю, что вы даже занимались подобного рода задачей, когда умные SMS придумывали.

А. ДЬЯКОНОВ: Да, было дело. Я хочу сказать, что есть не только опасность того, что профессии исчезнут, но благодаря большим данным профессии появляются. Мы сейчас говорим про алгоритмы, но алгоритмы пишут люди на самом деле.

Н. АСАДОВА: Значит, все должны срочно перестать быть юристами, а стать программистами. Те, кто хочет.

Е. БЫКОВСКИЙ: Придётся.

А. ДЬЯКОНОВ: Сейчас эта профессия достаточно модная. Причём, есть некий недостаток именно квалифицированных аналитиков, а решать задачи анализа данных… На самом деле мы здесь сейчас сказали вскользь про машинное обучение, но на самом деле все эти алгоритмы достаточно понятны. То есть это алгоритмы здравого смысла. То есть часто там не бывает сверхсложной математики, хотя в какие-то разделы придётся погрузиться, но их можно решать сходу. На самом деле это тоже один из таких трендов последних лет, когда просто-напросто многие компании выкладывают свои данные в интернете и просят сообщество решить эти задачи. Иногда предлагая денежные призы. То есть есть такой яркий пример с компанией Netflix, когда они миллион долларов предложили за решение задачи.

Н. АСАДОВА: А что за задача была?

А. ДЬЯКОНОВ: Задача рекомендаций. То есть люди смотрят фильмы, ставят какие-то определённые оценки. Мы должны порекомендовать людям очередную порцию фильмов, причём, угадать, что этим фильмам действительно они поставят высокие оценки.

Министерство здравоохранения США выкладывало задачу на целых 3 млн долларов. Правда, эти деньги так никто и не получил, потому что там нужно было создать алгоритм, который перекрывает некий порог. Некоторые компании являются посредниками в таком деле между бизнесом и наукой.

В России компания Алгомост тоже выкладывает задачи и просит решить, причём, участвовать может любой желающий. Сейчас там задача по социальным сетям, то есть дан граф социальной сети, и просят предсказать, как он будет развиваться в дальнейшем. Для упрощения, чтоб не было связано с технологией Big Data, чтобы это действительно смог любой студент посчитать на компьютере, всё упрощено, дано 100 000 пользователей социальной сети, то есть не для реальных нескольких миллионов. Тем не менее каждый может попробовать, посмотреть, получится у него или нет, потому что известен случай, когда люди совсем других специальностей, например, физики или экономисты вдруг становились хорошими исследователями и аналитиками благодаря участию в подобных конкурсах.

М. ЛЕВИН: Хочу отметить, что на самом деле data-scientist – это работа, в которой не просто сейчас не хватает людей, а есть разные аналитические отчёты, которые показывают, что за ближайшие несколько лет будет не хватать сотен тысяч таких специалистов. Но это, конечно, речь идёт про менее квалифицированный пласт людей, потому что сейчас многие сотрудники компаний просто переименовываются из business intelligence analyst’ов в data-scientist, хотя принципиально их работа от этого не меняется. Конечно, на таких совсем уже глубоко квалифицированных людей, которые понимают и математику, которая стоит за машинным обучением, и могут правильно применять методы, а также применять их в незнакомых ситуациях и как-то их модифицировать для новых задач, их нужно меньше, но их тоже нужно очень много, и искать их на открытом рынке практически нереально. Говорю как человек, который вот этим постоянно занимается.

Именно поэтому у Яндекса есть школа анализа данных, которая направлена именно как раз на подготовку таких высококвалифицированных специалистов, то есть к нам приходят ребята, которые заканчивают или на старших курсах учатся и на МГУ, и на Физтехе, и на ВМК, имеют очень хорошую фундаментальную подготовку, и мы их готовим уже в области математики, которая нужна для машинного обучения, в прикладных областях, обработки текстов, изображений. И те 80-100 человек, которых мы выпускаем каждый год, это уже действительно специалисты такого уровня, которых не стыдно сравнивать с ведущими американскими вузами на самом деле.

Е. БЫКОВСКИЙ: Думаю, что вы не единственная большая компания, которая этим занимаются. В конце концов большие компании очень часто готовят для себя специалистов. Поскольку вы как раз в этой области работаете.

Н. АСАДОВА: Я знаю, что ещё Сбербанк этим активно занимается.

М. ЛЕВИН: Дело не в том, что мы готовим для себя. Эти люди работают не только у нас. Они вполне себе уходят работать и в такие компании, как Google, Facebook, Microsoft и пользуются там большим спросом, поскольку их просто не хватает физически.

Е. БЫКОВСКИЙ: А Google для себя не завёл такую школу?

М. ЛЕВИН: Нет, такую школу завести непросто. При этом у Google есть такое нечестное преимущество – Стэндфорд и MIT под носом, но, вообще говоря, сделать школу такого уровня мало кто себе может позволить. Есть разные корпоративные университеты. Все уже давно привыкли к этому, даже немножко приелось. Но просто именно уровень математической подготовки и глубины образования совершенно разный у всех.

Н. АСАДОВА: Мы тут говорим про большие данные и про то, как они изменят мир. И когда я готовилась, начала фантазировать, представила себе умные города, smart city, которые строят, порядка сотни уже, где всё напичкано датчиками, где каждое твоё движение отслеживается, город знает, датчики знают, что ты ешь, когда ты ешь, куда ты ходишь, с кем ты встречаешься и так далее.

Е. БЫКОВСКИЙ: Фильм ужасов рассказываешь?

Н. АСАДОВА: Я веду к чему? К антиутопии. Когда я всё это начала представлять, я поняла, что очень страшно. И вспомнила другой пример. На самом деле из нашей жизни. Нашумевший анекдот исторический, который в прошлом году мне рассказывали. Что одна девушка забеременела и решила сделать так, чтобы мир не узнал, что она беременна, потому что если вы в соцсети написали, сразу вам реклама, одежда для беременных, детские памперсы, что-нибудь ещё такое. Она решила скрыть. Она не писала в соцсетях, она запретила мужу, чтоб он писал в соцсетях, она никому не говорила, она через интернет не покупала никакую себе одежду для беременных, она вообще никак не интересовалась. Естественно, когда ходила в магазины и покупала там вещи, она тоже старалась не расплачиваться кредиткой, потому что это тоже всё отслеживается уже сейчас. И она расплачивалась наличными. В итоге на девятом месяце к ней пришли из FBI, потому что её поведение было слишком нетипичным для сегодняшнего времени, в общем, Большой брат смотрит за вами. Это очень страшно. Нас именно такая жизнь ждёт?

М. ЛЕВИН: На самом деле смотрите. Люди с одной стороны относятся к этому с большой опаской, когда за ними начинают всячески следить и всё записывать, что они делают, с другой стороны они легко расстаются со своим privacy, как только видят в этом какую-то непосредственную пользу для себя. То есть если внимательно присмотреться, то большая часть приложений для тех же android’ов обладают тем свойством, что они практически просят доступ ко всему, что есть на телефоне, тем не менее люди видят это и соглашаются, потому что они понимают, что да, это штука, которая непосредственно сейчас в данный момент и дальше несколько лет будет мне помогать. И в обмен на какой-то дополнительный комфорт люди готовы отдавать свою информацию. Конечно, нужны какие-то законы и правила, ограничивающие то, каким образом нужно её использовать, какая-то агрегация, деперсонализация, но если таким образом получится добиться использования этого в благих целях, то я думаю, что люди будут готовы к этому.

Е. БЫКОВСКИЙ: Использование только в благих целях – это оксюморон.

Н. АСАДОВА: Вы знаете, в самом названии нашей передачи прозвучало словосочетание «Новое золото». Это значит, что на больших данных кто-то очень сильно озолотится. Скажите, кто это будет. Это будут держатели больших данных, и если да, то можно ли перечислить, кому принадлежат те самые большие…

Е. БЫКОВСКИЙ: Или обрабатывать.

Н. АСАДОВА: Да, или те люди, которые будут придумывать сервисы, которые используют эти большие данные.

М. ЛЕВИН: Появится же целая индустрия. На самом деле, если говорить про золото, то у нас уже в этих больших данных есть золото, потому что если говорить про интернет-рекламу и рекламу на поиске, на которой Яндекс зарабатывает подавляющую часть своих денег, и Google на порядок больше, то есть улучшение алгоритмов, которые там работают, которые используют эти большие данные, логи действий пользователей на пару процентов, генерируют напрямую увеличение выручки на эти же пару процентов, а это уже речь идёт о десятках миллионов долларов или сотнях и, может быть, миллиардах в случае Google. Соответственно, те компании, которые начали и которые первыми вступили в эту область, уже готовятся к тому, чтобы пробовать и по-другому эти данные свои использовать и зарабатывать на них. Но это происходит абсолютно во всех индустриях. Постепенно и банки, и сотовые операторы, и какие-то нефтегазовые компании просто обязаны собирать данные. Они у них сейчас лежат мёртвым грузом у многих. Или они начинаю их как-то исследовать и использовать для бизнес-нужд, но не очень эффективно, то есть частично. И постепенно они будут всё больше и больше их использовать, для того чтобы решать бизнес-задачи. На этом заработают как они сами, так и те, кто придут им помочь более правильно, более умно эти данные использовать.

Е. БЫКОВСКИЙ: Александр, вы же тоже как-то работаете на этом рынке? Скажите, есть ли какая-то осмысленная потребность у больших компаний, или большинство из них катятся на этом тренде – а давайте что-нибудь сделаем с Big Data, может быть, что-нибудь и получится. То есть люди идут от слов «большие данные», а не от слов «большие ответы» или «большие решения».

А. ДЬЯКОНОВ: В начале передачи тоже говорили про это, что на самом деле многие компании, если у них появляется слишком много данных, сразу объявляют, что у нас большие данные. Фраза Big Data – это больше маркетинговая фраза, которая…

Е. БЫКОВСКИЙ: Если бы мы сидели здесь 10 лет назад, мы бы сказали, что у нас есть большие данные, в тетрадь уже не лезут, поэтому они стали большие.

А. ДЬЯКОНОВ: Да. А что касается анализа данных, то это вовсе не какая-то отдельная область, которая недавно появилась и захватывает мир, потому что даже все те примеры, которые у нас были, скажем, показ баннера, зарабатывают уже на рекламу, условно говоря, а анализ данных просто обеспечивает то, что мы более эффективно показываем и так далее. То есть сам анализ данных делает процесс эффективнее. На последнем докладе Белому дому про Big Data, кстати, в Америке делаются такие доклады, у нас почему-то в российском правительстве такие доклады не делаются…

Н. АСАДОВА: Я думаю, что если ещё не делаются, то будут очень скоро.

А. ДЬЯКОНОВ: Хотелось бы.

Е. БЫКОВСКИЙ: Вот они послушают нашу передачу и немедленно сделают доклады.

А. ДЬЯКОНОВ: Посмотрим. Там как раз выделились две основные функции анализа данных. Первое – это то, что делает процессы быстрее и эффективнее. А второе - что анализ данных сохраняет жизни. Это можно проиллюстрировать и исследованием того же Гугла, когда они стали выявлять эпидемии по поисковым запросам, то есть раньше это делалось по отчётам клиник с задержкой 11 дней, а теперь это делается просто из-за того, что какая-то часть населения начинает вбивать в поисковик, что делать при большой температуре, и сразу определяется, что заболевание здесь есть.

Н. АСАДОВА: Очаг заболевания.

А. ДЬЯКОНОВ: Да, это делается на базе каких-то данных с тех же браслетов специальных. Скажем, в Финляндии анализируют данные с сотовых телефонов, в которых встроены различные датчики – гироскоп, акселерометр… Определяют, что некоторые престарелые люди могли упасть из-за того, что пришли такие резкие сигналы с телефона, тут же следует звонок на телефон, и если человек не отвечает, к нему выезжает бригада скорой помощи.

Е. БЫКОВСКИЙ: Умеет софтово отличать просто падение от падения вместе с телом.

А. ДЬЯКОНОВ: Тот мир, который вы описали, да, он в целом страшный, что появляется возможность следить за людьми, но, с другой стороны, появляются и некоторые такие бонусы.

Н. АСАДОВА: Как всегда, у всего есть две оборотные стороны. К сожалению, наша передача подошла к концу, я благодарю вас за участие в ней и напоминаю нашим слушателям, что с нами в студии были Михаил Левин, руководитель группы анализа больших данных в Яндексе, и Александр Дьяконов, доктор физико-математических наук, профессор кафедры математических методов прогнозирования Факультета вычислительной математики и кибернетики МГУ. Спасибо вам большое. С вами как всегда были Наргиз Асадова и Егор Быковский. Мы с вами прощаемся до следующего воскресенья.

Е. БЫКОВСКИЙ: Спасибо. Всем удачного конца воскресного дня. До свидания.