Купить мерч «Эха»:

Куда движется российский Интернет? - Илья Сегалович - Большой Дозор - 2012-03-27

27.03.2012
Куда движется российский Интернет? - Илья Сегалович - Большой Дозор - 2012-03-27 Скачать

О. БЫЧКОВА: Добрый вечер. Добрый день. Это программа «Большой дозор». У микрофона Ольга Бычкова и Татьяна Лысова, главный редактор газеты «Ведомости». Наш гость – это Илья Сегалович, директор по технологиям и разработке компании «Яндекс». Добрый вечер.

И. СЕГАЛОВИЧ: Здравствуйте.

О. БЫЧКОВА: А у вас по-прежнему так называется ваша должность?

И. СЕГАЛОВИЧ: Не меняется в последнее время.

О. БЫЧКОВА: На самом деле не важно, как она называется, потому что Илья Сегалович – один из тех людей, кто является самым главным и определяющим в «Яндексе». «Яндекс» - это Сегалович.

Т. ЛЫСОВА: И Волож все-таки.

И. СЕГАЛОВИЧ: Кричит и машет руками.

О. БЫЧКОВА: Мы сегодня будем говорить о том, куда движется российский Интернет, что происходит. В начале сразу хотела вас спросить, лично хотела задать вопрос. Вот эта позавчерашняя история с переводом часов прогрессивным человечеством, к которому мы в этот раз не относимся, потому что мы не переходили с летнего на зимнее и, соответственно, с зимнего на летнее.

И. СЕГАЛОВИЧ: Мы идем впереди прогресса.

О. БЫЧКОВА: Но мы теперь совпали просто с прогрессом, как часы, которые остановились, но два раза в сутки показывают правильное время. Слава богу, прогрессивное человечество теперь снова к нам вернулось, мы его дождались. Как вы пережили эту историю? У многих абсолютно обычных людей и совершенно частных пользователей были разные сюжеты с настройкой гаджетов, с будильниками в айфонах, которые прозвенели не туда, куда надо. Кто-то недоспал, кто-то что-то пропустил. Это всё ерунда, а у вас-то целая махина такая.

И. СЕГАЛОВИЧ: У махины есть целая служба, которая следит за такими казусами. Более того, у нас есть недавно созданная служба катастроф, в которой есть менеджеры.

О. БЫЧКОВА: Так и называется?

И. СЕГАЛОВИЧ: Катастрофы в кавычках, не надо воспринимать буквально, мы не создаем катастрофы, а просто мы пытаемся вовремя реагировать на них, чтобы это было адекватно. Под катастрофами понимаются не только катастрофы, а гораздо шире, что-то необычное, важное, что происходит сию минуту. И для каких-то таких важных событий, типа смена времени или несмена времени, есть такой отдельный маленький проектик, в частности, там показывают часы на «Яндексе», еще что-то такое. Т.е. предпринимаются какие-то действия, чтобы люди могли получить сиюминутную помощь. Что касается меня лично, у меня не типичная ситуация: я слежу за всякими новинками, у меня все самые современные устройства, их всё время меняю. Это ужасно, но я вынужден всё время обновлять операционную систему. У меня самые свежие версии, поэтому я не заметил и семья не заметила. «Яндекс» отработал.

О. БЫЧКОВА: «Яндекс» рисовал часики на главной странице и напоминал: мы не переводим часы, время московское такое-то. А то народ бы совершенно сошел с ума.

Т. ЛЫСОВА: Илья, я хотела бы поговорить с вами про поиск, то, что интересует абсолютно всех, кто пользуется Интернетом. Даже самые начинающие пользователи чаще всего начинают именно с того, что им нужна почта и поиск, а не скачивание игр или фильмов. Уже давно «Яндекс» не является единственной поисковой системой. Было время счастливое в вашей жизни, когда «Яндекс» довольно сильно был впереди других конкурентов, пока на наш рынок не вышел Google. Этому уже много лет. Сейчас у вас идет довольно напряженная, как я понимаю, конкуренция. Но, с точки зрения клиентов, простых ваших клиентов, расскажите, в чем, на ваш взгляд, заключается качество поиска, почему так получается, что два хороших поисковика могут выдавать сильно отличающиеся результаты?

О. БЫЧКОВА: Как правило, так и делают.

Т. ЛЫСОВА: Что сильно затрудняет выбор для клиента. Хотя я знаю, что есть устойчивые фанаты как Google, так и «Яндекса» и между ними всё время возникают споры, что лучше. Вы сами для себя по каким критериям оцениваете ваш результат, результаты конкурента, как часто вы меняете алгоритмы, что еще можно улучшить? Как это всё работает?

И. СЕГАЛОВИЧ: Мы занимаемся поиском очень давно, пожалуй, дольше всех поисковых систем, мы с 90-го года этим занимаемся, задолго до Google. Я не могу сказать, что мы всегда были лидерами. Был период, когда мы были третьими, в 90-е годы. В общем-то, монопольными лидерами мы тоже не были. Всегда был Rambler, всегда был «Апорт»t.

О. БЫЧКОВА: Этого никто не помнит.

И. СЕГАЛОВИЧ: Сейчас уже не помнят. Но на самом деле в начале 2000-х была вполне конкурентная среда. И это довольно интересная ситуация в России. Мы не единственная в этом смысле страна. Между прочим, такая же страна США, или такая же страна Корея, или такая же страна маленькая Чехия, еще есть примеры – Китай, скажем. В этих странах поисковая система не единственная, там люди знают о существовании других поисковых систем. Модель такого разнообразия, выбора, когда вы знаете второй бренд. Т.е. для вас хлопья – это не только Kellogg's и больше ничего, а есть еще три бренда, которыми вы тоже пользуетесь, Nescafe или Nestle, предположим.

И это знание о существовании других брендов в поиске, оно довольно интересное, и оно очень полезно для всех участников. Потому что в ситуации, когда поисковая система одна, она может очень многими вещами пренебрегать, делать немножечко спустя рукава, просто потому что 98% рынка… Условно говоря, в Португалии поисковая система икс, зачем ей делать какую-то поддержку португальской морфологии? Не нужно. Всё прекрасно. Если ни одного конкурента нет на португальском языке, то зачем нам что-то такое делать.

В этом смысле Россия счастливая страна, и это очень хорошо, что у нас конкуренция, это помогает лучшим мировым игрокам быть в форме, очень стараться, страшно работать изо всех сил день и ночь. И это замечательно, мы для этого и существуем. Мы в этом смысле существуем для того, чтобы им было весело жить не только на русском рынке, но и на соседних рынках, и даже на тех, где они еще не ожидают, что мы там будем.

Потому что у нас, несмотря на то, что мы как команда меньше по численности, но по количеству сервисов мы гораздо больше сфокусированы на поиске и гораздо с большим количеством экспертиз про нашу страну, про наш язык, про наши данные. У нас лучше данные географические, социальных данных у нас больше. Я сейчас не собираюсь нас сравнивать, я пытаюсь обосновать существование такого феномена, как многопоисковая страна.

О. БЫЧКОВА: Местные есть местные.

И. СЕГАЛОВИЧ: А что касается качества, то это, конечно, наш центральный фокус, это то, на что мы больше всего смотрим, то, на что тратим больше всего сил, внимания, времени, понимания, головы, рук – всего. Лучших умов. У нас много разных способом измерять, мы называем их метриками. Есть метрики, которые мы называем в каком-то смысле ручные, но они случайные. Т.е. мы людям показываем случайные запросы, случайные документы, они не знают, из какой поисковой системы это взято, они стараются очень объективно поставить оценки. Причем мы сверяем, чтобы эти оценки были от разных людей. Например, если вы поставили тройку, а я поставил двойку, это плохо, надо, чтобы мы хорошо работали, чтобы у нас были близкие оценки.

Т. ЛЫСОВА: А что это за люди? Это у вас есть внутренняя служба качества?

И. СЕГАЛОВИЧ: Это штат. Они не сидят в компании. Мы их постоянно меняем. Это такой довольно широкий штат, несколько сотен человек по всем регионам России – в Москве, Санкт-Петербурге... У них довольно подробные, тщательные инструкции. Это основная метрика. Кроме того, есть много вспомогательных, дополнительных метрик. Например, можем хотеть измерять по какому-то классу запросов. Например, можем поставить задачу, чтобы по запросам, задаваемым из каких-то городов, с учетом региональной специфики, т.е. тем, кому нужно находить локальный результат. Тривиальный пример – пицца. Более сложный пример – куда пойти гулять. Куда пойти погулять – прекрасный ответ на московских сайтах. Но он совершенно не релевантен во Владивостоке. Надо показывать совершенно другие форумы, местные. Или, предположим, мэр, дурацкий запрос – мэр. Вообще-то, в каждом городе он должен находить своего мэра.

Это такие смешные примеры, но это про то, что такой класс запросов существует, и мы для него отдельно делаем какие-то маркеры, отдельные специальные измерители, полуручные, полуавтоматические. Таких систем у нас десятки, если не сотни. Отдельно про спам, отдельно, например, про порнографию, еще какие-то темы, отдельно про то, насколько много дубликатов, одинаковых материалов. Отдельные методы измерения, чтобы информация поступала как можно быстрее. Это тоже отдельное направление работы, целая команда работает, чтобы как можно скорее информация поступала, наиболее релевантная, в ответы.

А если говорить о поведении пользователя, о том, как мы собираем обратную информацию, это очень интересная вещь. Потому что у нас огромное количество пользователей, они задают огромное количество запросов. Я пришел не подготовленный, я сейчас назову цифру, может быть, она неправильная - у нас 150 млн. запросов в день, может быть, 170 уже. Это очень много. Это значит, что у нас огромный объем данных о том, какие запросы люди задают, как они ведут себя, если они недовольны, если они вынуждены изменить запрос. Мы понимаем, что вот он задал запрос, а потом поменял его. И мы понимаем, что он задал запрос, а потом выбрал результат и сразу с него ушел, ему этот результат не понравился, а вот этот, наоборот, понравился, он на нем остался. Вот такую информацию мы агрегированно собираем и смотрим.

Например, у нас такой есть метод: у нас есть система «а» и система «б», старая и новая, мы хотим понять, новая лучше или хуже. Мы проверили руками, асессором по огромному количеству запросов, у нас тестовая выборка – 30 тысяч запросов, мы по ней проверили, всё замечательно, плюс 3% качества, я преувеличиваю, говорю какие-то абстрактные вещи, такого уже давно не бывает, плюс 0,3% качества – замечательно.

Теперь нужно понять, а верно ли, что это лучше. Ну хорошо, мы как-то руками это пощупали, а теперь давайте это на массовом пользователе проверим. У нас есть специальные способы. Например, есть такой способ: давайте будем показывать по очереди один и другой результат и смотреть, в каком ответе люди лучше себя ведут. А самый красивый, хитрый способ – это когда берутся две системы и перемешиваются, как гребеночка, через один, причем случайно.

Т. ЛЫСОВА: Т.е. вы чередуете разные алгоритмы.

И. СЕГАЛОВИЧ: Да, мы чередуем разные алгоритмы и смотрим. На самом деле это очень тонкий и точный способ измерения, когда можно очень быстро, буквально за несколько часов понять, какой алгоритм лучше. Короче говоря, это совершенно увлекательная область деятельности – измерение качества. И это одна из наших центральных компетенций.

Т. ЛЫСОВА: И как часто у вас меняются алгоритмы?

И. СЕГАЛОВИЧ: На самом деле постоянно сейчас. У нас несколько сотен человек в поиске, грубо говоря, 600 человек работает над поиском.

О. БЫЧКОВА: Именно конкретно над поиском.

И. СЕГАЛОВИЧ: Над поисковой системой, над всеми аспектами. Я просто боюсь утомить пользователей всеми интересными подробностями. Одновременно тестируется несколько десятков разных алгоритмов. Некоторые из них, как я сказал, по очереди, некоторые на маленькой выборке пользователей, на 2%. Т.е. мы постоянно делаем разные изменения. Это не сказка, это промышленный путь огромной компании.

Т. ЛЫСОВА: Как раз интересно понять. Потому что для большинства пользователей поисковая система - это такой черный ящик, и как она работает, откуда она берет свои ответы, по какому принципу она ответы выдает…

И. СЕГАЛОВИЧ: Наверное, написал один программист. (СМЕЮТСЯ).

Т. ЛЫСОВА: Но, с другой стороны, для многих людей это практически окно в мир. Как бы это пафосно, а с другой стороны, тревожно для вас ни звучало, мне кажется, что с точки зрения информации любого свойства сейчас поисковая система – это важнее, чем телевидение. В частности, этим, как мы уже прекрасно знаем, продиктовано внимание к вашей компании, в том числе и со стороны властей, в том числе со стороны руководителей. Совершенно естественно, с точки зрения государства, возможно были, есть или наверняка будут попытки каким-то образом повлиять на результаты поиска в правильную сторону. Это могут быть попытки, как совершенно объективно продиктованные требованиями закона – допустим, не выдавать какую-то информацию, которая априори нарушает закон, так и в худшем случае это могут быть попытки того, что называется цензурой. Если начать с объективных причин, есть ли, были ли уже и существуют ли уже у «Яндекса» какие-то продиктованные законодательством ограничения на выдачу результатов поиска?

И. СЕГАЛОВИЧ: Очень важную тему вы затронули. Надо сказать, что поисковые системы сами понимают свою ответственность, в том числе своим смыслом существования они видят то, что можно назвать нейтральностью, прозрачностью, универсальностью для пользователей. Т.е. обеспечить полноценный доступ к информации, такой же, какой обеспечивают интернет-провайдеры. Если вы набираете DNS, это система доменных имен, т.е. вы набираете имя сайта, например echo.msk.ru, на самом деле вы задаете поисковой системе, но не «Яндексу», а DNS, это поисковая система, это довольно простая поисковая система, но очень эффективная. Вы говорите – найди мне, пожалуйста, этот сайт. Дальше этот поиск срабатывает, вам возвращается некий адрес цифровой, и дальше по этому цифровому адресу ваш компьютер понимает, куда пойти, послать пакетик, получить пакетик, нарисовать сайтик. Вот в этом месте существуют определенные правила, законы универсального, прозрачного доступа. И мы, поисковые системы по крайней мере, и мировые, и «Яндекс», мы стремимся себя в этом смысле позиционировать так же прозрачно, как и интернет-провайдер, в том смысле, что мы предоставляем доступ…

Т. ЛЫСОВА: К тому, что есть.

И. СЕГАЛОВИЧ: И мы зеркалируем ее. Мы нейтральны, у нас нет чувств.

Т. ЛЫСОВА: Вы ее не фильтруете, не цензурируете.

И. СЕГАЛОВИЧ: И это наша позиция, это первая фраза, которая была написана Леной Колмановской в документах «Яндекса». Сентябрь 1997 года, первая фраза была такая: ««Яндекс» - зеркало Интернета. И дальше пошел какой-то текст. Это кусочек нашей очень важной конституции, которую мы свято, бережно соблюдаем. Теперь что касается законодательства. Законодательство в РФ до последнего времени было довольно либеральным, может быть, и сейчас является, пожалуй, одним из самых либеральных в смысле того, какой контент в Интернете может быть размещен. Недавно, несколько лет назад появился ограниченный список ресурсов, которые должны быть запрещены провайдерами. Как-то это не очень эффективно сделано, потому что эти ресурсы плохо прописаны, решения суда не очень технически грамотно организованы, этот список довольно короткий и довольно бессмысленный, с точки зрения большинства блогеров, которые об этом пишут, аналитиков. Я не пытаюсь как-то критиковать этот список, я просто подчеркиваю, что если говорить о конкретных решениях суда, есть несколько десятков конкретных ресурсов, которые там перечислены.

Т. ЛЫСОВА: Но эти решения суда адресованы и провайдеру.

И. СЕГАЛОВИЧ: Они адресованы провайдерам. В этом смысле если провайдер удалил, у нас этого тоже нет. Ведь одно из свойств нашей поисковой системы – быть быстрым зеркалом. Если что-то удалено, мы должны быстро понять, что это удалено. Вот если оно удалено, а у нас осталось, то мы, конечно, обязаны быстро удалить.

Т. ЛЫСОВА: А как быстро у вас из кэша удаляются?

И. СЕГАЛОВИЧ: Есть разные способы ускорить этот процесс. Но, вообще говоря, должно быстро исчезать, особенно если речь идет о каком-то контенте, который удален по решению суда. Я не готов сейчас называть какие-то сроки. Это мировая практика. Есть отдельная история, это история про контент, связанный с правообладанием, копирайтный контент. Здесь Россия немножечко отстает, потому что есть каша разных законов в разных областях. Совершенно очевидным образом отсутствует правильно прописанный закон об ответственности за размещение неавторского контента, соотношение прав очень плохо прописано. Там основная проблема, что есть патентные копирайтные «тролли». Какие-то буквы отечественного закона, которые на самом деле не должны быть применены, но если их трактовать вот так, а не так, то там получается полная свобода действий этим «троллям», они могут злобствовать, свирепствовать, на них нет никакой управы.

У американцев есть Digital Millennium Copyright Act (DMCA), это довольно старый документ, 10-летней давности, который они сейчас пытаются обновить на гораздо более агрессивный набор документов, в Европе этот документ называется ACTA, в Америке он называется PIPA и SOPA. Я не помню, как точно это расшифровывается, знаю, что вся прогрессивная американская общественность крайне встревожена тем, что PIPA и SOPA вот-вот примут. Кажется, напрямую это не пройдет. Есть Лос-Анджелес, индустрия Голливуда, которая страдает из-за того, что у них какие-то барыши пропадают, и есть Сан-Франциско, индустрия Интернета, которая, наоборот, за свободу в каком-то смысле. Не то чтобы за безграничную свободу, речь не об этом. Речь идет о какой-то подвижке определенной границы не на тысячу километров, а на какие-то метры или десятки сантиметров. И там, и там две больших индустрии, поэтому мы наблюдаем за борьбой титанов.

О. БЫЧКОВА: Спрашивают как раз: «Как вы думаете, за кем будет победа: за юзерами и пиратами или параноидальными правительствами и жадными корпорациями?»

И. СЕГАЛОВИЧ: Очень хороший вопрос.

О. БЫЧКОВА: На самом деле это ведь вопрос не только бизнесов, жадности, параноидальности или пиратства. Это вопрос того, что меняется само качество этого контента, просто качество жизни меняется, происходит что-то более серьезное, чем просто желание у кого-то украсть, а кому-то не дать украсть.

И. СЕГАЛОВИЧ: Обессмысливаются очень многие традиционные запреты, традиционные представления о том, как устроено правообладание, как устроен копирайт, сколько лет это должно соблюдаться, каким родственникам. Цифровая жизнь, она сильно меняет наш уклад правовой, изменения происходят. Я не являюсь поклонником ни пиратов, с одной стороны, ни вот этих «жадных и параноидальных». Я не могу сказать, что у меня ярко выраженная позиция. Я считаю, что надо найти, надо искать этот баланс. Мы со своей стороны пытаемся помочь этот баланс найти в России. Мы по своей инициативе пытаемся сейчас прописать какой-то отечественный аналог DMCA так, чтобы была продуманная процедура. Если есть какая-то заявка от правообладателя, чтобы была какая-то встреча, чтобы можно было понять, кто эти люди, имеют ли они права, а нет ли здесь троллинга. Должна быть прописанная процедура, для этого нужно несколько законов изменить. Просто мы не дождались изменения законодательства, вот мы и занялись этим, хотя это не наша обязанность.

Т. ЛЫСОВА: Илья, я хотела бы закончить предыдущий вопрос. Есть совершенно конкретные ситуации, когда контент нарушает закон: допустим, детская порнография, сайты, пропагандирующие убийство, или сайты, где размещена информация, как сделать оружие или взрывчатые вещества. Пока эти сайты не закрыты решением суда, вы, как зеркало, этот контент отражаете. Правильно ли я поняла, что сейчас у вас политика такая.

И. СЕГАЛОВИЧ: Есть вещи, которые можно сделать автоматически, есть вещи, которые нельзя сделать автоматически.

Т. ЛЫСОВА: И были ли к вам уже запросы, просьбы, требования до решения, пока этот сайт существует, и вы можете…

О. БЫЧКОВА: 30 секунд. Начните сейчас отвечать, а продолжим после новостей.

И. СЕГАЛОВИЧ: Мы пока довольно последовательно и твердо стоим на позиции, что мы зеркало. Т.е. если сайт есть…

О. БЫЧКОВА: Не вдаваясь.

Т. ЛЫСОВА: Просьбы подобные уже были?

И. СЕГАЛОВИЧ: Постоянно идут обращения, даже были суды.

О. БЫЧКОВА: Мы сейчас сделаем перерыв на новости и рекламу. Я напомню, что с нами Илья Сегалович, директор по технологиям и разработке компании «Яндекс». Это программа «Большой дозор». Продолжим эту тему сразу после небольшого перерыва.

НОВОСТИ

О. БЫЧКОВА: Мы продолжаем программу «Большой дозор». Наш гость - Илья Сегалович, директор по технологиям и разработке компании «Яндекс». Мы продолжим тему или к следующей перейдем?

Т. ЛЫСОВА: К следующей теме цензуры.

О. БЫЧКОВА: А вот с темой не цензуры, может быть, рекламы. Александр из Самары спрашивает: «Что такое продвижение сайта в поисковой системе?»

И. СЕГАЛОВИЧ: Большая индустрия вокруг поисковых систем выстроена. Это, с одной стороны, сами поисковые системы предоставляют большой набор, чтобы сайты получили пользователи, то, что называется рекламой на поисковой системе, в «Яндексе» эта систем называется «Яндекс-Директ», наша реклама. И компании, которые занимаются строительством сайтов, они еще пытаются сделать достаточно разумные вещи (как правило, разумные, но далеко не всегда), связанные с тем, чтобы улучшить вашу позицию в поиске. Это достигается достаточно простыми приемами, например, правильным прописыванием заголовков, правильным расписыванием текста и так далее, т.е. чтобы сайт ваш соответствовал тем запросам, по которым бы его находили. Это существенная, важная часть любого сайтостроительства и давно уже профессиональной деятельности. Поэтому многие люди обращаются к специальным продвиженцам.

Т. ЛЫСОВА: Вы не затрагиваете вредную часть этой деятельности.

О. БЫЧКОВА: Недобросовестную.

И. СЕГАЛОВИЧ: Я, честно говоря, не хочу специальным образом… Всегда, когда речь идет про Интернет – как раз к «Эхо Москвы» это не относится, потому что «Эхо Москвы» очень позитивно относится к Интернету, - очень часто начинают задавать такие вопросы: а как с порнографией (неразборчиво), это обычное явление, оно не является несмываемым клеймом, которое искажает жизнь Интернета. Да, конечно, поисковые системы довольно неплохо справляются с не очень элегантными способами продвижения. Индустрия в этом месте существует, услуги такие есть. В общем, ситуация вполне бытовая, рабочая, щит и меч полувоенных рабочих отношений.

Т. ЛЫСОВА: Но извините, по сути, в худшем проявлении эти люди портят вам качество выдачи, потому что они думают не о клиенте… Ваша-то задача – противостоять.

И. СЕГАЛОВИЧ: Правильно. Но нельзя обвинять человека только за то, что он хочет хорошо жить и ничего не делать. Это же естественно.

Т. ЛЫСОВА: Мы не их обвиняем. Интересно, как вы с этим боретесь.

И. СЕГАЛОВИЧ: Мы со страшной силой боремся. У нас принцип зеркала относится к информации, а не к накрутке этой информации. В том месте, в котором есть накрутка, наш принцип зеркала говорит: вот насколько накрутили, настолько же обратно и раскрути. Наше умение в этом и состоит. Насколько оно заточено, это умение, это мы пытаемся как раз измерить разными измерителями, в том числе и качество поиска, и специальным измерением, как нас заспамили. У нас таких метрик очень и очень немало. Мы, например, смотрим за тем, что по каким-то обычным запросам, по которым не должно быть только… Скажем, по запросу «вода» хорошо бы видеть информацию про воду, а не только про доставку воды. У нас специальные тесты, тысячи запросов есть, которые специально следят за тем, чтобы нас не сожрали эти ребята.

Еще раз, сейчас поисковые системы – это сотни разных признаков, факторов, составляющих, компонентов, из которых строится поиск. Система обучения сложная и комплексная, в том числе в ней очень много про то, чтобы раскручивать закрученное. Там замечательные ребята сидят, они очень осторожно и аккуратно это всё делают, измеряют тысячами измерителей и так далее. Это огромный кусок поиска. Это бизнес у нас такой промышленный, с лучшими математиками страны.

Если знаете, мой двоюродный племянник Андрей Райгородский получил премию президента из рук президента буквально месяц назад за труды в теории графов, в алгебре и так далее. Я не хочу сказать, что он главный разработчик всего этого дела, потому что там большой коллектив. Но вот такого уровня люди сидят, его аспиранты, и они работают над тем, чтобы раскрутить закрученное, и очень тщательно, внимательно смотрят, какие там свойства графов, свойства линков, свойства поведения. Эти люди уже пять лет занимаются, лучшие математики страны, это без шуток, с международными премиями. Я не хочу сказать, что победили раз и навсегда. Еще раз повторяю, это ситуация щита и меча. Там тоже выпускники мехмата, там тоже очень хорошие ребята, я их очень уважаю, они тоже думают. И здесь тоже. Всё хорошо. Слово «хорошо» здесь не очень удачное…

О. БЫЧКОВА: Хорошо в смысле дела идут.

И. СЕГАЛОВИЧ: Процесс идет, ситуация рабочая, накаленная.

О. БЫЧКОВА: Борис задает вопрос: «Изменилась ли ситуация с поиском данных в записях социальных сетей? Помнится, ранее не всё удавалось находить». Извините меня, я, может быть, не гостеприимна, но мне кажется, что Google вас опережает в этом отношении.

И. СЕГАЛОВИЧ: Не могу с этим согласиться, потому что у нас в этом месте тоже есть разные маркеры и так далее. Кроме того, может быть, эти данные относятся к годовой давности или к какой-то еще. Потому что мы очень большое внимание уделили именно в последние месяцы тому, что мы называем социальным сигналом, скооперировались с большим количеством разных хороших источников. Хороших в том смысле, что они к нам поступают очень быстро, мгновенно. Есть такое слово - firehose, брандспойт, пожарный шланг, это такой способ передачи открытой информации (подчеркиваю – открытой), который практически невозможно обойти стандартным вебом, пауком, а вот такой прямой перелив этой информации из социальных сетей, из Twitter'а, из блогов прямо в поисковую систему. Вот мы имеем такой firehose от «ВКонтакте», мы имеем такой firehose от LiveJournal, мы имеем такой firehose от Twitter'а.

Т. ЛЫСОВА: Вы договаривались с ними.

И. СЕГАЛОВИЧ: Да, мы договаривались, это специальное сотрудничество. У многих других поисковых систем есть другие firehose от разных систем. Кроме того, мы выстроили разные новые интересные алгоритмы именно ранжирования социального сигнала. Так что, я думаю, пусть присылают примеры запросов, я готов отбиваться. Я думаю, что мы лучше, по крайней мере в последние несколько месяцев.

Т. ЛЫСОВА: А в чем вы хуже? Не можете вы быть лучше во всем. В чем вы хуже?

И. СЕГАЛОВИЧ: Мы не только сами себя измеряем, есть разные публичные измерители, можно посмотреть на разных сайтах. В частности, ребята, которые занимаются оптимизацией… Есть сайт. Там немножечко не квалифицированно, в том смысле, что нет там ресурсов, чтобы делать качественные измерения, это тяжелая ресурсоемкая работа, там несколько человек работают, поэтому они как-то наваяли, понаделали таких базовых измерителей. Там можно понять, по какому-то признаку мы похуже, по скорости индексации или по чему-то такому, я уж не помню. Но в чем мы точно лучше – это, скажем, региональный поиск, у нас намного интереснее выдача, это точно.

Т. ЛЫСОВА: А скорость индексации от чего зависит? Это только программная или аппаратная тоже вещь?

И. СЕГАЛОВИЧ: Там много интересных вещей, но это технологическая история. Т.е. мы работаем над тем, чтобы у нас было здесь очень хорошо. Я думаю, что в ближайшее время у нас будет и здесь всё замечательно.

Т. ЛЫСОВА: Вы такой позитивный, у вас всё хорошо, ни в чем вы не отстаете.

И. СЕГАЛОВИЧ: У нас всё в кипении, мы не спим, мы работаем. Это хвастовство дурацкое, я, наверное, не должен так говорить, но, правда, работается, всё бурлит.

О. БЫЧКОВА: Я хотела задать еще один вопрос по поводу социальных сетей. Как социальные сети влияют на жизнь рядовых пользователей, это мы понимаем. В какой-то момент эта жизнь радикально изменилась, безусловно. А как это повлияло на жизнь такого монстра, как «Яндекс»? Когда вы это почувствовали, на чем и как? Мне просто интересен этот угол зрения. Помимо того, что появились всякие дополнительные опции.

И. СЕГАЛОВИЧ: Почувствовали мы сразу, когда число запросов «Одноклассники»… У нас есть такая страничка, на которой перечислено, по-моему, тысяча 111, то ли сколько-то еще вариантов написания слова «Одноклассники». Просто у нас spellcheker исправляет автоматически. Когда поток запросов стал зашкаливать, когда мы видим, что первые проценты запросов – это запросы именно на поиск социальных сетей, это для нас был хороший знак, что ситуация изменилась. Есть такой аспект этой истории. Социальные сети, по крайней мере отечественные, долгое время, да и сейчас пока еще, они всё же больше про коммуникацию, это такая социальная почта, такой обмен локальными, домашними новостями.

С другой стороны, сами социальные сети осознали свою информационную сущность, значимость и поменяли политику приватности, стали открываться. Еще год назад FaceBook был закрыт. Он изменил политику приватности и стал открытым по умолчанию. Я, правда, не стал делать свой FaceBook открытым, но у всех, кто заново заводит FaceBook и у большинства старичков, у которых в какой-то момент спросили это, и они сказали ОК. Их записи стали открытыми. Эта открытость о том, что на самом деле социальные сети сами хотят, чтобы их видели поисковые системы. Потому что для них важна эта прозрачность.

И поэтому вся эта история про firehose, это пользовательски независимая, нейтральная открытость. Это история о связанности между миром социальным и миром социальных сетей, открытым Интернетом и поисковой системой как зеркалом этого открытого Интернета. Кроме того, есть еще одна история, история про то, что когда я лично член какой-то социальной сети, то у меня взгляд на информацию в линзе моего зеркала, какой-то скос здесь должен произойти. Потому что у меня есть мои друзья, у друзей есть друзья.

О. БЫЧКОВА: Они себе составляют ленту.

И. СЕГАЛОВИЧ: И вот эта лента, она как-то искажена. Мои политические новости сильно отличаются от политических новостей моих друзей, а может быть, и нет. Они немножко повернуты вот так, потому что я это люблю читать, а это не люблю. И как это учесть в поиске. Хорошо бы это тоже научиться учитывать. К сожалению, социальные сети, они не так чтобы охотно делятся с поиском своим основным богатством, своими пользователями. Есть интерфейс открытый, и можно спросить разрешение, но это надо специально спросить у пользователя, пользователь должен сказать – да, я не против, конкретно вот это приложение или этот сайт, вы можете воспользоваться моим всем социальных сетей, с точностью до того, что разрешено, естественно. Я думаю, что в какой-то момент будет больше этого взаимопроникновения именно на уровне персонального пользовательского согласия, когда лично человек говорит: «Дорогой «Яндекс», я «ВКонтакте» такой-то, в FaceBook'е такой-то, когда ты ищешь, учитывай это, пожалуйста. Я уже заметил, ты мне несколько раз помог, я не против, что ты будешь помогать и дальше». Но это пока история не сегодняшнего дня. Google, он, видимо, думал про это, но потом они поняли, что то ли не складывается, то ли еще что-то, но они начали строить свою социальную сеть, Google+. Видимо, они решили, что у них все вокруг враги. Но я не очень верю в эту историю. Мне кажется, скорее это должна быть история про такую открытость, про согласие пользователя. Не должна поисковая система одновременно быть и социальной сетью, как-то нельзя захавать всё.

О. БЫЧКОВА: Захапать.

Т. ЛЫСОВА: Я читала в каком-то из ваших прошлых интервью, что у «Яндекса» были мысли…

И. СЕГАЛОВИЧ: Я часто глупости говорю.

Т. ЛЫСОВА: В сторону социальных сетей. Были попытки и думали над собственной социальной сетью, но потом пришли к выводу, что нельзя объять необъятное и что как-то не клеится у вас.

И. СЕГАЛОВИЧ: Это, наверное, Аркадий говорил.

Т. ЛЫСОВА: Да, или Аркадий говорил. Решили, что вот мы умеем делать поиск, будем делать то, что умеем.

И. СЕГАЛОВИЧ: Может быть, и так. В какой-то момент мы поняли, что нельзя перебить обух плетью. Если люди все пришли в «Одноклассники», нельзя выстроить суперзамечательный, какой-нибудь гипер-удобный сервис, и вдруг чтобы все «Одноклассники» плюнули на свой сайт, на своих друзей и вдруг перешли в этот сайт, потому что там удобно. Социальность – это не сервис, социальность – это люди.

Т. ЛЫСОВА: Есть же такое понятие, как издержки перехода. Я в свое время говорила об этом с Мильнером, как раз мы тоже обсуждали, сколько может существовать этих социальных сетей, сколько может существовать почт. Это то же самое, что касается мобильных операторов. При переключении с одного сетевого сервиса, где у тебя есть контакты, на другой сетевой сервис существуют большие издержки перехода. И поэтому, даже если сделать социальную сеть, которая будет превосходить, степень этого превосходства должна быть какой-то гигантской, чтобы покрыть эти издержки перехода.

И. СЕГАЛОВИЧ: Мне кажется, что эта история вообще не про сервис, это что-то другое, это какая-то вирусность, зараза какая-то.

О. БЫЧКОВА: Мода.

И. СЕГАЛОВИЧ: Это что-то про какую-то заразу.

Т. ЛЫСОВА: Думаете?

И. СЕГАЛОВИЧ: Вот «ВКонтакте» это зараза, все заразились.

Т. ЛЫСОВА: А как вы сами оцениваете попытки «Яндекса» (впрочем, «Яндекс» не единственный, кто это делает) и то, что вы косвенно затронули в предыдущем ответе, попытки угадать пристрастия, интересы, взгляды клиента и подстроить под это выдачу?

И. СЕГАЛОВИЧ: Это отличная тема. Для нас она интересная, потому что мы довольно плотно ей занялись чуть меньше года назад и будем в этом году еще много заниматься. Это то, что мы называем персонализацией поиска. По сей день мы ее делаем на основе вашей предыдущей истории, причем не только на основе предыдущей истории ваших поисков, но и на основе ваших предпочтений. Скажем, мы единственная поисковая система в мире, которая реализовала такой алгоритм языковых предпочтений. Оказывается, у нас в России довольно много людей думают, что они знают английский язык. В каком смысле думают? По нашим наблюдениям, думают процентов 10. Реально знает процента 2.

Это всё измеряется по поведению, по тому, как долго человек остается на английском документе, как часто он задает английские запросы и так далее. Оказывается, можно довольно хорошо дифференцировать ответы наши, нашу выдачу поисковую по запросам как бы английским, но по которым можно дать как русские, так и английские ответы. Условно говоря, Harry Potter, Nokia, iPhone или какой-нибудь известный артист, написанный латиницей. У нас довольно много хорошего контента, у нас много материала, у нас много хороших факторов, мы знаем, какие хорошие английские результаты есть по этому запросу, мы можем замечательно все десять ответов дать английских, а можем, наоборот, постараться и выдать много-много русской информации.

На самом деле можно понять по предыдущему поведению, какие сайты вам не нравятся. Оказывается, есть люди, мы их условно называем англофобами (извините за неудачный термин), это люди, которые категорически не выбирают документы на английском языке. Самые релевантные покажи, самые лучшие – они ни за что туда не пойдут. Им надо, чтобы только по-русски было. Мы видим, что такие есть. И мы для них из кожи вон лезем и даже по запросу Harry Potter изо всех сил выдаем только русские документы. У нас такой алгоритм называется Рейкьявик, почему-то так назвали, уж не помню.

Т. ЛЫСОВА: Теперь я знаю, что я жертва алгоритма Рейкьявик.

И. СЕГАЛОВИЧ: Но это можно отключить. Мы скоро выпустим такой апдейт, будет такая ссылочка – верните мне нейтральный режим…

Т. ЛЫСОВА: Верните мне, пожалуйста.

О. БЫЧКОВА: Там же есть предложение: вы хотите так или хотите так.

И. СЕГАЛОВИЧ: Если мы испортили вам, то обычно внизу пишем, что мы вам немножечко испортили, извините, пожалуйста.

Т. ЛЫСОВА: Потому что иногда специально ищешь англоязычные документы, но тебе в выдаче.

И. СЕГАЛОВИЧ: В моем случае, я кажется, англофил. Хотя это тоже не угадаешь.

О. БЫЧКОВА: А потом иногда надо так, иногда надо так, тоже по-разному случается.

И. СЕГАЛОВИЧ: Согласен.

О. БЫЧКОВА: А можно философическое спросить?

И. СЕГАЛОВИЧ: Давайте.

О. БЫЧКОВА: Пишет Энди Белл: «Заказ Интернета уже приближается…»

Т. ЛЫСОВА: Наступает эра телевидения. (СМЕЮТСЯ).

О. БЫЧКОВА: «Трафик уже падает. Качать нечего. Клиенты толстеют на глазах. Серверы – файлопомойки и не более. Поток информации, генерируемый человечеством, на самом деле падает, ибо население планеты неотвратимо тупеет. Растет только поток спама. Возражайте».

И. СЕГАЛОВИЧ: Просто апокалипсис какой-то.

О. БЫЧКОВА: На самом деле это эмоциональное состояние, которое периодически настигает любого человека.

Т. ЛЫСОВА: Всё плохо. И Путин выборы выиграл опять.

О. БЫЧКОВА: Я не об этом сейчас. Когда на каком-нибудь пятом часу сидения в Интернете ты думаешь: опять всё то же самое, боже мой, сколько уже можно, пойду спать, не могу.

И. СЕГАЛОВИЧ: Я очень сочувствую этому человек, который так написал. Я порой бываю с ним солидарен. На самом деле, если отрезать эмоциональную часть этого послания, там есть такая интересная тема, что качать нечего. Это история про то, что Интернет, он очень сильно меняет свою форму, довольно многое утекает из открытого Интернета в самые разные социальные медиа, социальные сети или, еще интереснее, возникает много сервисов на мобильном, они в приложениях доступны, а в Интернете их уже нет. И этого будет больше, и это тоже нормально. Но это тоже надо уметь искать. Мы, например, недавно сделали поиск по приложениям, очень сильно его сейчас продвигаем в мобильном поиске. Мы считаем, что умение искать приложения тоже очень важно.

Т. ЛЫСОВА: Что значит искать приложения?

И. СЕГАЛОВИЧ: Вам же нужно уметь находить приложения – игры для детей 3 лет. Пойдите найдите что-нибудь такое, это же просто невозможно, просто ерунда какая-то будет находиться. По этому запросу ничего хорошего вы не найдете. А вы знаете, что они есть? Отличные. Такие образовательные, такие обучающие, суперские, и с азбукой, и с рисованием…

Т. ЛЫСОВА: И как их найти?

И. СЕГАЛОВИЧ: «Яндекс» как раз и бьется над тем, чтобы по запросу «игры для детей 3 лет» что-то приличное все-таки найти. Потому что сигнала там мало, это закрытая база данных, там плохо выстроен поиск людьми, которые не знают, что такое поиск. Они хорошие ребята, они великолепные программисты, они делают потрясающие устройства, одна беда – они про поиск ничего не понимают.

О. БЫЧКОВА: А если нет конкретной задачи и ты не знаешь точно, как называется какое-нибудь приложение, то ты убьешься.

И. СЕГАЛОВИЧ: Да, это беда.

Т. ЛЫСОВА: Скажите, пожалуйста, как правильно составлять запрос – такие общие рекомендации, - чтобы получить на 150 страниц совершенно не нужной информации, а хоть что-то более-менее близкое к твоим пожеланиям. Потому что даже если ты слова поставишь в поисковой строке в разном порядке, ты получишь разные результаты запроса. Какой-нибудь бытовой совет.

И. СЕГАЛОВИЧ: Мы когда-то были абсолютно убеждены, что искусство поиска зависит от человека. Так что человека нужно учить искать. И мы даже проводили такие чемпионаты по поиску. У нас были люди, которые за 2 минуты находили абсолютно зубодробительную информацию – одна страничка на каком-то мертвом сервере в глубинах Интернета содержит уникальную информацию… Я сам лично сочинял вопросы, поскольку я один из тех, кто когда-то придумал эту игру. Мы 10 лет в нее играли. Но сейчас мы перестали в нее играть. Во-первых, немножко устали. Во-вторых, мы понимаем, что у пользователя всё больше и больше инструментов в помощь. Вы начинаете набирать запрос – вам уже подсказочка идет. Вы можете опечататься – вам уже опечатку автоматически исправили. Вы не знаете, как по-английски пишется, набрали по-русски это слово – оно у вас автоматически транслитерировалось или перевелось. Или вы думаете, как мне вот это найти, а у вас в конце запроса уже появляется добавочка, такой суффикс, хвостик, который уточняет то, что вам конкретно нужно. Нужны стихи – будут стихи, нужны тексты – будет написан текст. Вот такие помощники, они выстроились. Жизнь пользователя в поисковой системе, она стала гораздо комфортнее. Очень много всяких подсказочек, подпорочек, помощи.

О. БЫЧКОВА: Татьяна пишет: «Спасибо, что исправляете ошибки в поисковой строке, а то я порой набираю такое, что сама себя не понимаю». Это чистая правда.

И. СЕГАЛОВИЧ: Это такой буквенный шум. Я сам набираю такую кашу буквенную. Я влепил ее, ударил, думаю – что я такое набрал, там слов нельзя разобрать, всё перебито, переклеено. И ничего, смотришь - «Яндекс» раскусил, расколошматил, как-то перестроил буквочки и нашел. Это такая компетенция поисковых систем, они как раз про это, они для этого и существуют.

О. БЫЧКОВА: Спасибо вам большое. Тут вам пишут: «Спасибо». И пишут, что у вас плохо, тоже всё рассказывают. Если хотите, потом дадим почитать.

И. СЕГАЛОВИЧ: Да.

О. БЫЧКОВА: Это был Илья Сегалович, директор по технологиям и разработке компании «Яндекс», в программе «Большой дозор». Спасибо вам большое.


Напишите нам
echo@echofm.online
Купить мерч «Эха»:

Боитесь пропустить интересное? Подпишитесь на рассылку «Эха»

Это еженедельный дайджест ключевых материалов сайта

© Radio Echo GmbH, 2024