Mail ru и другие поисковики

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Продолжаем обзор поисковых систем рунета, который мы начали, естественно, с Google. Также мы почтили память канувших в лету поисковиков Рамблер и Aport, ну и теперь очередь пришла препарировать Поиск@Mail.ru.

Его особенность заключается в том, что своим собственным поисковым движком он обзавелся относительно недавно, а всю свою огромную аудиторию собрал благодаря наличию в своем составе очень мощных трафикогенерирующих сервисов.

Собственно, история Майл.ру и начиналась с одного из таких сервисов — предоставления всем желающим бесплатных почтовых ящиков с окончанием @mail.ru. Это уже потом, получив огромную популярность и вкусив плодов славы и больших денег, компания начала превращаться в мега-портал.

Сейчас ей принадлежат такие монстры, как «Одноклассники» и «Мой мир», Афиша, «Вопросы и ответы», Облако@Майл.ру, Агент, Майл Деньги — в общей сумме около 40 крупнейших сервисов в рунете, среди которых затесался и поиск.

Майл.ру — становление и роль поиска Go.mail.ru

Общая аудитория этого гиганта составляет сейчас порядка 80 миллионов посетителей в месяц. Из них больше трети приходится на сервис Почта@майл.ру, четверть — на «Одноклассники» и «Мой мир». Количество посетителей, использующих поисковую системы, подбирается к цифре в 20 миллионов, если верить статистике счетчика LI (http://www.liveinternet.ru/stat/ru/searches.html):

В процентном соотношении это составляет около 10% от общей доли поиска в рунете, что позволяет Mail.ru занимать почетное третье место после таких гигантов, как Яндекс и Google. Если бы этого результата достиг поисковый сервис без учета всего обвеса в виде социальных сетей, крупнейшего в рунете почтового сервиса, блог-платформы, рейтинга сайтов, каталога и прочих рюшечек, то я бы сказал, что это просто замечательный результат.

Однако говорить о поиске в отрыве от всего того, что принадлежит компании Майл.ру Group и где доступна поисковая строка, не приходится. Само по себе качество выдачи, даже по мнению самих разработчиков, не блещет изысками по сравнению с основными конкурентами.

Но давайте обо всем по порядку. Сама официальная страница поисковика расположена по адресу Go.mail.ru и представляет из себя сплав минимализма Гугла, функциональности Яндекса, и имеет возможности подключения картинки аля Bing (Бинг)) (дизайн стал таким совсем не давно и в общем-то вызывает только приятные ассоциации):

Добавить свой ресурс в поиск майла можно будет тут, а о том, как добавить сайт в другие поисковики, читайте по ссылке. Что примечательно, существует и другая поисковая система, расположенная по адресу O.go.mail.ru — это тестовая площадка, где обкатываются все нововведения, которые появятся в основном поиске только через неделю-другую.

Ну и, конечно же, строка поисковика присутствует и на главной странице мультипортала, которая сравнительно недавно претерпела редизайн:

Прошлым летом по телевидению начали демонстрировать ролики рекламирующие именно поисковик Майл.ру, которые вызвали некоторое недоумение и негодование у веб общественности. Ведь все знают, что сейчас он у них работает на базе движка Гугла и нет никакого смысла рекламировать его, как отдельный сервис.

Однако все не так просто и рекламировать его, как отдельный самостоятельный сервис, у этой компании имеются все основания. Но давайте начнем сначала и посмотрим на этот вопрос в историческом масштабе.

Итак, в далеком 1998 году группа программистов, работающих на буржуйскую компанию, но территориально базирующихся в Питере, решила выложить на тестовый сайт свое программное обеспечение по поддержке почтового сервиса (для тестирования и отладки).

Неожиданно возможность получить бесплатный ящик с окончанием @mail.ru вызвало большой интерес у пользователе рунета, и уже через несколько лет число зарегистрированных пользователей превысило миллион (сегодня ежедневный трафик сервиса почты превышает 10 миллионов человек).

Постепенно компания стала обзаводиться новыми сервисами, среди которых были Агент (сегодня это 20 миллионов пользователей ежемесячно), Мой Мир (примерно столько же), Ответы@майл.ру, и относительно недавно приобретенные «Одноклассники» и ICQ.

Всеми этими богатствами сейчас владеет и распоряжается объединенная компания, которой, кстати, принадлежат еще около 40% акций социальной сети Вконтакте и пару процентов Facebook. В общем, люди очень серьезные и состоятельные. Но нас в этой статье больше интересует история развития именно поисковой системы.

Какой движок поиска используется на Mail.ru

Понятно, что такому большому проекту просто необходим был поисковик не только по своим собственным ресурсам, но и по всему интернету, ибо это один из самых необходимых инструментов порталов (точек входа пользователей во всемирную паутину WWW). До 2006 у них использовался движок от русского сегмента Google. Но затем он был заменен на поисковую систему Yandex.ru.

Причем, Яндекс и Гугл тоже заинтересованы в использовании их движка на таком крупном куске пирога размером в половину рунета (по данным статистики Alexa, мультипортал майла имеет 3 место по посещаемости):

Дело в том, что заработать хорошие деньги у этих монстров получается достаточно эффективно только с контекстной рекламы (Яндекс на Директе и Гугл на Адвордсе, соответственно). У меня, кстати, основной доход тоже приносит контекст от РСЯ (рекламная сеть Яндекса).

Вот именно на почве дележа доходов с показа контекстной рекламы Директа в выдаче поиска mail.ru и возникли трения у этих двух гигантов. В результате с 2010 года там опять используется движок поиска от Гугла и крутится реклама Адвордса. Говорят, что Google смог сделать предложение, от которого было трудно отказаться (60 процентов с каждого клика по его контексту).

Но это вовсе не означает, что сейчас на Майл.ру используется именно движок Гугола. Это так и не так одновременно. Дело в том, что он используется при поиске по зарубежному интернету, а вот при рыскании по рунету используется свой собственный движок, который активно разрабатывался компанией с 2006 года.

Движок называется GoGo.ru (при переходе по этому адресу вас перебросит на Go.mail.ru). Т.о. в отличии от Яндекса, поиск Go.mail.ru может искать по всему мировому интернету.

GoGo.ru имеет свои особенности, и именно этот движок определяет качество данной поисковой системы в целом, которое мы имеем возможность наблюдать сейчас. Даже на примере моего скромного блога KtoNaNovenkogo.ru, по данным Метрики можно косвенно оценить качество этого поисковика по показателю отказов пользователей, которые снизошли ко мне с майла:

Как вы можете видеть, процентное соотношение отказов пользователей, пришедших с поисковой системы mail.ru, примерно в три раза выше, нежели у ее основных конкурентов. Да и среднее время, проведенное этими пользователями на моем сайте, не очень высокое.

Однако, это объясняется в основном тем, что в нем вылезли только жирные односложники, по которым в любом поисковике идет высокий процент отказов. Что такое отказы и прочие метрики, которыми оперируют системы статистики различных счетчиков, вы можете узнать из статьи про посещаемость.

Вряд ли движок Гугла при поиске по рунету мог бы дать такие печальные результаты, в связи с чем не совсем понятна аргументация при использовании собственного поиска GoGo.ru, если он априори будет хуже и на его развитие нужно тратить деньги. Загадка, однако.

Еще одной особенностью является его так называемая социализация. Т.к. этой корпорации принадлежит «Мой мир», то со сбором данных с этой социальной сети проблем не возникает, в связи с чем в поисковой выдаче Go.mail.ru появляются рекомендации пользователей этой социалки (было бы здорово, если бы отображался и негатив с «-» для полноты картины):

Вообще, на примере успешного сотрудничества поисковика Bing и социальной сети Фейсбук (вместе с Яху они уже отъели треть рынка в штатах, где Google раньше правил безраздельно), можно сказать, что у социального поиска есть будущее.

Если говорить об алгоритмах работы этой поисковой системы, то имеет место машинное обучение аля Матрикснет. Понятно, что оно требует наличия штата асессоров, которые есть у Майл.ру в количестве около ста человек. В общей сложности используется около 250 факторов ранжирования, среди которых присутствуют, естественно, и поведенческие факторы.

Кстати, в панели Mail.ru для вебмастеров есть возможность отслеживать эти самые поведенческие характеристики для своего сайта, чего нет в панелях Яндекса и Гугла. И тут они сумели выделиться.

Ну, а в будущем разработчики клятвенно обещают реализовать поддержку региональности в Go.mail.ru на манер той, которая есть пока что только у зеркала рунета (кстати, это основной фактор, определяющий популярность данной поисковой системы у обывателей желающих что-то купить, а Гугол остается в основном отвечать на информационные запросы пользователей рунета).

Аудитория этого поисковика имеет постоянное ядро, которое, наверное, образовано теми, кто привык входить в интернет через Майл. Также отмечено, что эта аудитория смещена в сторону регионов, ее средний возраст выше, нежели у основных конкурентов, и в ней имеет место быть больший процент представительниц прекрасного пола.

Продвижение под поисковик Майла на моем примере

Конечно же, это косвенные показатели качества поиска и взятые выборочно для отдельного сайта, но тем не менее. Кстати говоря, если продолжать анализировать мой блог в качестве подопытного кролика, то из показателей того же ливинтернета становится видна еще одна закономерность. Количество посетителей, пришедших на Майла, будет напрямую зависеть от той ссылочной массы, которую накопил ваш проект.

Поясню немного график, но прежде перейду на шепот, чтобы поисковики не услышали того, что будет написано в ближайших абзацах (для этого существуют специальные Html теги, если вы помните). Итак, до лета 2011 года я пропагандировал абсолютно бесплатное продвижение сайта самостоятельно, чтобы не платить за ссылки и работу.

На самом деле все это работает (в том числе и база жирных сайтов, хотя ее я зарядил уже после оранжевой линии), что видно по графику роста трафика с Яндекс и Гугла до первой пунктирной линии оранжевого цвета.

Но вот на поисковую систему Майл.ру мои телодвижения по внутренней оптимизации и бесплатному получению ссылок с профилей вообще никакого впечатления не произвели:

Читайте также:  Onyx boox max 2 обзор

Первая пунктирная линия (оранжевая) знаменует собой победу над жабой (которая душила меня до этого). Где-то в мае прошлого года я решился на эксперимент с закупкой ссылок на биржах ГоГетЛинкс, ГетГудЛинкс и РотаПост.

Ничего в этом сложного не оказалось, в чем вы можете убедиться, ознакомившись с обзорными статьями по работе в Ротапост и Gogetlinks (в GetGoodLinks все аналогично, ибо обе эти биржи имеют одинаковый функционал и принадлежат одному владельцу — Алексею Куракову, который в свое время даже согласился дать интервью для этого блога).

Итак, если вернуться к нашему графику, то именно с этого момента (оранжевая линия) и начинается рост трафика с поиска Майла. Т.е. получается, что обратные ссылки имеют превалирующее значение при ранжировании сайтов в этой поисковой системе. Кстати, в этот период я покупал ссылки исключительно на тематичных площадках, что не замедлило сказаться на существенном росте Тиц (тематического индекса цитирования) к концу лета и началу осени.

Если говорить про остальные поисковики, то Яндекс реагировал на появление ссылочной массы с некоторым лагом (отставанием) по сравнению с Google, который уже через неделю-другую улучшал позиции сайта по тем запросам (а они, в свою очередь, подбирались в Вордстате под семантическое ядро), на которые закупались ссылки (читайте статью про подбор анкоров ссылок).

Гугл быстро реагирует на появление ссылок по сравнению с Яндексом, однако со временем их влияние может снижаться. Видимо за это время успевают учесться поведенческие факторы по данным запросам и отсеивается все наносное и искусственно притянутое за уши. Ну, а mail.ru так вообще только после этого (начала покупки ссылок) сдвинулся с мертвой точки по отношению к моему блогу.

Как вы думает, что обозначает вертикальная пунктирная линия фиолетового цвета на приведенном чуть выше графике? Ну, собственно, в этот период я переключился с уже упомянутых бирж вечных ссылок на биржу статей МираЛинкс.

Для этого было несколько предпосылок, но самой весомой стала та, что мне не нужно было тратить деньги на написание статей или же писать их самому. Я имею в виду статьи, в которые вы вставляете обратные ссылки и размещаете их потом на сайтах донорах через Миралинкс (читайте подробную статью про работу в бирже статей MiraLinks).

Именно возня со статьями для Миралинкса и являлась основным камнем преткновения для моей жабы. Но в Профит Партнере (Цопе рекламной сети Яндекса) у меня на тот момент накопилось изрядное количество бонусов и я их решил конвертнуть в доллары биржи контента и копирайтинга, например, в Адвего (хотя, можно было бы и Текстсейл с Etxt.ru предпочесть):

Ну, а потом я пару месяцев перемещал статьи из Адвего в Миралинкс и проставлял в них нужные мне обратные ссылки (обычно по три штуки на статью, ибо меньше рука не поднималась) с нужными анкорами на нужные целевые страницы блога.

Именно после этого и начался сильный рост трафика с поисковика Майл.ру (после фиолетовой пунктирной линии). Правда и поток посетителей с Google тоже очень быстро начал расти после этого. Настолько быстро, что даже опередил Яндекс, который по обычаю отстает в реакции на внешние раздражители (главное, чтобы вообще среагировал в плюс, а не проигнорировал их). Такая же тенденция сохраняется и по сей день:

Вот такой вот краткий пример продвижения под эту загадочную поисковую систему. Но опять же, все это вилами на воде писано, ибо один единственный сайт не является доказательством чего бы то ни было. Однако, это может быть кому-то и пригодится, особенно в дополнение к собственноручно набранной статистике.

Поиск Mail.ru
URL go.mail.ru
Коммерческий Да
Тип сайта поисковая система
Владелец Mail.ru
Начало работы 2004
Текущий статус активно развивается

Поиск Mail.ru — поисковая система от компании Mail.ru. По данным на сентябрь 2019 года на рынке Рунета он занимает долю около 1,0 – 2,3% [1] [2] (третье место в рейтинге поисковых систем на российском рынке). С 1 марта 2010 года руководителем Поиска Mail.ru является Андрей Калинин [3] .

В течение многих лет в поисковой строке на главной странице Мейл.ру использовался сторонний движок: в 2004—2006 и 2010—2013 годы использовался поиск Google, 2007—2009 годах — решение от Яндекса. С 1 июля 2013 года сервис использует собственные поисковые технологии, которые разрабатывались командой инженеров Mail.ru [4] .

Содержание

История [ править | править код ]

GoGo.Ru [ править | править код ]

Первые поисковые технологии в компании Mail.ru начали разрабатываться в 2004 году под руководством Михаила Костина, прежнего руководителя системы Апорт. Инвестиции в проект составили около 700 тыс. долл.

Сам домен gogo.ru был приобретён компанией Mail.Ru ещё в 2000 году.

Результатом работы стал открытый в 2007 году сайт GoGo.ru. Поисковик имел первый на тот момент в рунете поиск по видео, а также поиск по картинкам.

К отличительным особенностям поисковика можно отнести русскоязычный поиск по видеороликам, а также по базе данных проекта Ответы mail.ru. Также разработчики предусмотрели возможность тематической фильтрации результатов текстового поиска. Выдачу можно ограничить информационными, коммерческими и пользовательскими (форумы и блоги) источниками.

Поисковик мог исправлять опечатки и реализовывать поиск по ключевым словам [5] .

По итогам Российского семинара по оценке методов информационного поиска (РОМИП), формула текстового ранжирования GoGo заняла первое место [6] .

Тем не менее, нужно отметить, что GoGo так и не стал основным поисковиком на главной странице Mail.ru [6] . С 2004 по конец 2006 его роль выполнял Google, в 2007—2009 гг. — Яндекс [7] .

GoGo.ru
URL gogo.ru
Коммерческий Да
Тип сайта поисковая система
Владелец Mail.Ru
Начало работы 2007
Текущий статус Не действует

Результаты выдачи поисковика отличаются от интегрированной системы поиска на базе Яндекс-поиска. По данным специализированных мониторинговых компаний, качество поисковой выдачи системы находилось на адекватном уровне. [8]

К отличительным особенностям поисковика можно отнести русскоязычный поиск по видеороликам, а также по базе данных проекта Ответы mail.ru. Также разработчики предусмотрели возможность тематической фильтрации результатов текстового поиска. Выдачу можно ограничить информационными, коммерческими и пользовательскими (форумы и блоги) источниками.

К февралю 2008 года в базе GoGo.ru насчитывалось около 2,5 млрд документов, 140 млн изображений, 2 млн видеороликов, а также 86 млн ответов на 12 млн вопросов проекта Ответы mail.ru.

На выставке SofTool-2007 GoGo.ru получил первое место на конкурсе «Продукт года» в номинации «Интернет-технологии».

Поисковый движок GoGo.ru также был адаптирован для поиска по российским WAP-сайтам и стал основой для сервиса Мобильный GoGo [9] . На момент запуска 20 августа 2007 года сервис позволял искать информацию по 45 тыс. WAP-ресурсов.

GoGo.ru предоставлял веб-мастерам возможность использования результатов поиска системы на собственных ресурсах с помощью XML. Для этого было необходимо в соответствующем разделе [10] зарегистрировать IP-адрес и e-mail, а также написать скрипт, который будет обращаться к серверу. В день разрешалось генерировать до 10 тысяч запросов. Помимо текстового поиска предоставлялись результаты поиска по картинкам, видео и по отдельным сайтам.

Поиск по видео [ править | править код ]

Поиск по видео на ноябрь 2007 года осуществлялся по 11 видеохостингам: Видео mail.ru, RuTube, Loadup, Rambler Vision, Video.I.UA, МуВи, LiveInternet, Teledu, а также по роликам YouTube и Metacafe, снабжённым русскоязычным описанием. Поисковый движок GoGo.ru был использован при реализации поиска по видео на портале Mail.ru.

Работа с синонимами [ править | править код ]

При обработке запросов в GoGo.ru поддерживается работа с синонимами. По замыслу разработчиков, это должно позволить пользователю сразу получить полные результаты поиска по интересующей теме, даже если он сделал не самый удачный запрос. Обрабатываемые синонимы условно разделяются на три группы:

  • Названия зарубежных торговых марок и имена компаний, которые могут писаться, как на русском, так и на оригинальном языке. Примерами этой группы являются пары слов: «вебмани» — webmoney, «леруа мерлен» — leroy merlin, «форекс» — forex и «тошиба» — toshiba.
  • Заимствованные слова с неустоявшимся написанием. При получении запроса с таким словом поиск производится по всем распространённым вариантам: «каратэ» — «карате», «фитнес» — «фитнэс», «он лайн» — «онлайн», «шопинг» — «шоппинг».
  • Часто встречающиеся опечатки. Поиск в этом случае производится и по ошибочному, и по правильному написанию. Страницы с правильным вариантом написания имеют больший вес при ранжировании. Примерами этой группы синонимов являются слова: «котедж» — «коттедж», «дешовый» — «дешевый», «линолиум» — «линолеум», olimpus — olympus.

На 28 августа 2007 года объём словаря синонимов GoGo.ru составлял 5 тыс. позиций. Пополнялся словарь в полуавтоматическом режиме. Поскольку пользователи часто по очереди делали запросы различных слов с одинаковым смысловым значением («крайслер» и chrysler, «аниме» и «анимэ» и т. д.) чтобы отыскать больше информации. В GoGo.ru использовалась эта особенность для добавления новых синонимов, а именно автоматический анализ запросов одного и того же пользователя, сделанных в ограниченном временном интервале. Затем сформированный список потенциальных синонимов проходил модерацию, отсеивались последовательные запросы с разным смыслом и оставались только подходящие группы слов для пополнения словаря.

Поиск по изображениям [ править | править код ]

К отличительным особенностям поиска по изображениям GoGo.ru можно отнести возможность отделения фотографий от прочих найденных картинок и наоборот. Фильтр работает на основе анализа цветовых характеристик изображения.

С ноября 2007 года для пополнения базы поиска по изображениям помимо индексации картинок поисковым роботом стала использоваться XML-синдикация.

GoGo.ru предоставил фотохостингам возможность ежесуточно синхронизировать свои обновления с индексной базой поисковика, генерируя по предоставленному поисковиком шаблону XML-файлы, в которых содержится информация о новом контенте. В этих файлах, собираемых GoGo.ru, содержатся дополнительные данные по каждому изображению — от его размера до ссылки на личную страницу автора. Разработчики рассчитывают, что эта информация не только улучшит качество поиска, но и позволит в будущем расширить функциональность сервиса (например, за счет внедрения новых фильтров результатов поиска).

К моменту запуска XML-синдикации таким образом «рапортовали» об обновлениях в своих базах 9 фотохостингов Рунета: Фото mail.ru, LiveInternet.ru, 500px.com, Flamber.ru, 35Photo.ru, PhotoForum.ru, Keep4U.ru и Fota.Mota.ru.

История [ править | править код ]

  • 15 июня2007 года — первое упоминание о работе GoGo.ru.
  • 20 августа 2007 года — запуск WAP-поисковика Мобильный GoGo.
  • 23 августа 2007 года — на Mail.ru появился поиск по видео на базе движка GoGo.ru
  • 28 августа 2007 года — запуск новой версии системы для отбора синонимов из пользовательских запросов.
  • 6 сентября 2007 года — количество проиндексированного видео превысило 1 млн роликов.
  • 4 октября 2007 года — первое место в номинации «Интернет-технологии» в конкурсе «Продукт года 2007», выставка Softool 2007.
  • 8 ноября 2007 года — начало индексации фотоконтента в Интернете с помощью XML-синдикации.
  • 10 декабря 2007 года — запущен бесплатный сервис XML-поиска для веб-мастеров.
Читайте также:  Интересные приложения для детей

Go.Mail.ru [ править | править код ]

В 2009 году Яндекс разорвал контракт с Mail.ru об использовании технологий последнего на главной странице портала [6] . Причиной стал отказ размещать логотип Яндекса на поисковике Mail.ru [11] .

В течение 8 месяцев портал работал полностью на собственном движке. В августе 2010 года был заключен контракт с Google, о чём стало известно широкой публике только в декабре того же года [12] . Согласно условиям контракта, на собственный поисковик Mail.ru приходится 40 % выдачи, остальные 60 % выдачи — на Google [7] [13] .

26 января 2011 года был запущен новый AJAX-интерфейс поиска по картинкам [14] . Вместо постраничной выдачи теперь новые картинки подгружаются внизу страницы по мере надобности.

В марте 2011 был запущен «социальный поиск» — теперь страницы в поисковой выдаче будут сопровождаться информерами с количеством рекомендаций пользователей соцсетей [15] .

В июне того же года появился «Поиск по обсуждениям» (go.mail.ru/realtime), позволяющий в режиме реального времени отслеживать обновление информации на новостных лентах, блогах и микроблогах [16] .

В феврале 2012 года был запущен собственный независимый поисковый движок в режиме бета-тестирования по адресу o.go.mail.ru [17] .

11 ноября 2012 года появились инструменты для вебмастеров [18] . В качестве планов было заявлено создание собственной системы контекстной рекламы [13] .

В ноябре 2012 от анонимных источников внутри компании стало известно, что Mail.ru откажется от услуг Google в пользу собственной поисковой технологии в связи с будущим выходом на международный рынок (под брендом my.com) [7] . Также появились данные о создании собственной системы контекстной рекламы [7] Официально о переходе на собственные поисковые разработки Мэйл.ру объявила 1 июля 2013 года [4] . Месячная аудитория сервиса на тот момент составляла 39,5 млн чел [4] с долей около 10 % на рынке [19] . Число сотрудников проекта Go.mail.ru выросло с момента запуска с 15 до 200 чел, а количество проиндексированных документов составляло 10 млрд [19] .

В ноябре 2013 в Google Play появилась новая версия поискового приложения от компании Mail.ru, позволяющего переходить с главного экрана в любые социальные сети и содержащего быстрый доступ к поиску по картинам, видео и новостям. Andro >[20] .

В декабре 2013 внедрена технология «ручного» механизма ранжирования, благодаря чему веб-мастера могут самостоятельно добавлять запрос и документ в индекс Поиска Mail.ru. Это позволяет сайту органически «встроиться» в ранжирование и влиять на выдачу естественным образом. Таким образом, механизм ранжирования становится «ручным»: теперь качество сайтов оценивают не алгоритмы, а люди [21] .

Вот что по этому поводу сообщил [21] Андрей Калинин:

Сначала хотел бы уточнить: в индекс сайты попадают обычным способом. Мы же решили добавить для веб-мастеров, создающих хорошие и достойные сайты, возможность гарантированного попадания ресурсов на верхние позиции выдачи. До сих пор веб-мастерам приходилось не только делать хорошие сайты, но и заниматься поисковой оптимизацией. Но, во-первых, не всем интересно заниматься оптимизацией; а, во-вторых, лучшая оптимизация ещё не гарантирует, что контент сайта окажется максимально качественным. Теперь сами веб-мастера могут указать, какие запросы они считают «своими», и по каким правильно показывать их страницу на первой позиции.»

В январе 2014 добавлен поиск по описанию и контенту мобильных приложений в AppStore и Google Play на основе технологий российского стартапа Osmino. Аналогичный поиск в других поисковых системах и магазинах приложений доступен только по описанию приложения [22] .

Обзор архитектур подготовки данных больших поисковых систем

В прошлый раз мы с вами вспомнили, как стартовал в 2010 году Go.Mail.Ru, и каким Поиск был до этого. В этом посте мы попробуем нарисовать общую картину — остановимся на том, как работают другие, но сначала расскажем о поисковой дистрибуции.

Как распространяются поисковые системы

Как вы и просили, мы решили подробнее остановиться на основах дистрибуционных стратегий самых популярных поисковых систем.

Бытует мнение, что интернет-поиск – один из тех сервисов, которые большинство пользователей выбирает самостоятельно, и победить в этой битве должен сильнейший. Эта позиция нам крайне симпатична – именно ради этого мы постоянно совершенствуем наши поисковые технологии. Но ситуация на рынке вносит свои корректировки, и в первую очередь сюда вмешиваются так называемые «браузерные войны».

Было время, когда поиск не был связан с браузером. Тогда поисковая система была просто очередным сайтом, на который пользователь заходил по своему усмотрению. Представьте себе —Internet Explorer до 7-й версии, появившейся в 2006-м году, не имел строки поиска; Firefox имел строку поиска с первой версии, но сам он при этом появился только в 2004-м году.

Откуда же взялась строка поиска? Придумали её не авторы браузеров — впервые она появилась в составе Google Toolbar, вышедшего в 2001-м году. Google Toolbar добавлял в браузер функциональность «быстрого доступа к поиску Google» – а именно, поисковую строчку в свою панель:

Зачем Google выпустил свой тулбар? Вот как описывает его предназначение Дуглас Эдвардс, бренд-менеджер Гугла в тот момент, в своей книге «I’m Feeling Lucky: The Confessions of Google Employee Number 59»:

«The Toolbar was a secret weapon in our war against Microsoft. By embedding the Toolbar in the browser, Google opened another front in the battle for unfiltered access to users. Bill Gates wanted complete control over the PC experience, and rumors abounded that the next version of Windows would incorporate a search box right on the desktop. We needed to make sure Google’s search box didn’t become an obsolete relic».

«Toolbar был секретным оружием в войне против Microsoft. Интегрировав Toolbar в браузер, Google открыл очередной фронт в битве за прямой доступ к пользователям. Биллу Гейтсу хотелось полностью контролировать то, как пользователи взаимодействуют с ПК: множились слухи, что в следующей версии Windows строка поиска будет устанавливаться прямо на рабочий стол. Необходимо было принять меры, чтобы строка поиска Google не стала пережитком прошлого».

Как распространялся тулбар? Да всё так же, вместе с популярным программным обеспечением: RealPlayer, Adobe Macromedia Shockwave Player и т.п.

Понятно, что другие поисковики начали распространять свои тулбары (Yahoo Toolbar, например), а производители браузеров не преминули воспользоваться этой возможностью получения дополнительного источника доходов от поисковых систем и встроили поисковую строчку к себе, введя понятие «поисковик по умолчанию».

Бизнес-департаменты производителей браузеров выбрали очевидную стратегию: браузер — точка входа пользователя в интернет, настройки поиска по умолчанию с высокой вероятностью будут использоваться аудиторий браузера — так почему бы не продать эти настройки? И они были по-своему правы, ведь интернет-поиск — это продукт с практически нулевой «приклеиваемостью».

На этом пункте стоит остановиться подробнее. Многие возмутятся: «нет, человек привыкает к поиску и пользуется только той системой, которой доверяет», но практика доказывает обратное. Если, скажем, ваш почтовый ящик или аккаунт соц. сети по какой-то причине недоступен, вы не переходите тут же в другой почтовый сервис или другую социальную сеть, ведь вы «приклеены» к своим аккаунтам: их знают ваши друзья, коллеги, семья. Смена аккаунта — долгий и болезненный процесс. С поисковиками же всё совсем иначе: пользователь не привязан к той или иной системе. Если поисковик по каким-то причинам недоступен, пользователи не сидят и не ждут, когда он, наконец, заработает — они просто идут в другие системы (например, мы отчётливо видели это по счётчикам LiveInternet год назад, во время сбоев у одного из наших конкурентов). При этом пользователи не сильно страдают от аварии, ведь все поисковики устроены примерно одинаково (поисковая строка, запрос, страница результатов) и даже неопытный юзер не растеряется при работе с любым из них. Более того, примерно в 90% случаев пользователь получит ответ на свой вопрос, в какой бы системе он его ни искал.

Итак, поиск, с одной стороны имеет практически нулевую «приклеиваемость» (в английском языке есть специальный термин «stickiness»). С другой — какой-то поиск уже предустановлен в браузер по умолчанию, и довольно большое количество людей будет использовать его только по той причине, что им удобно пользоваться именно оттуда. И если поиск, стоящий за поисковой строчкой, удовлетворяет задачам пользователя, то он может продолжить его использовать.
К чему мы приходим? У ведущих поисковых систем не осталось другого выхода, кроме как бороться за поисковые строки браузеров, распространяя свои десктопные поисковые продукты — тулбары, которые в процессе инсталляции меняют дефолтный поиск в барузере пользователя. Зачинщиком этой борьбы был Google, остальным пришлось защищаться. Можно, к примеру, прочитать такие слова Аркадия Воложа, создателя и владельца Яндекса, в его интервью:

«Когда в 2006–2007гг. доля Google на российском поисковом рынке стала расти, мы сначала не могли понять, из-за чего. Потом стало очевидно, что Google продвигает себя путем встраивания в браузеры (Opera, Firefox). А с выходом собственного браузера и мобильной операционной системы Google вообще стал разрушать соответствующие рынки».
Так как Mail.Ru – это ещё и поиск, то он не может стоять в стороне от «браузерных войн». Мы просто вышли на рынок немного позже других. Сейчас качество нашего Поиска заметно выросло, и наша дистрибуция является реакцией на ту самую борьбу тулбаров, которая ведётся на рынке. При этом для нас действительно важно, что всё большее количество людей, которые пробуют пользоваться нашим Поиском, остаются довольны результатами.

К слову, наша дистрибуционная политика в несколько раз менее активна, чем у ближайшего конкурента. Мы видим это по счётчику top.mail.ru, который установлен на большей части сайтов рунета. Если пользователь переходит на сайт по запросу через один из дистрибуционных продуктов (тулбар, собственный браузер, сёрчбокс браузера-партнёра), в URL присутствует параметр cl >
Но давайте от дистрибуции перейдем к тому, как устроены другие поисковые системы. Ведь внутренние обсуждения архитектуры мы, естественно, начинали с изучения архитектурных решений других поисковиков. Я не буду подробно описывать их архитектуры — вместо этого я дам ссылки на открытые материалы и выделю те особенности их решений, которые мне кажутся важными.

Подготовка данных в крупных поисковых системах

Рамблер

Поисковая система Рамблер, ныне закрытая, обладала рядом интересных архитектурных идей. Например, было известно об их собственной системе хранения данных (NoSQL, как сейчас модно называть подобные системы) и распределённых вычислений HICS (или HCS), использовавшейся, в частности, для вычислений на графе ссылок. Так же HICS позволял стандартизировать представление данных внутри поиска единым универсальным форматом.

Читайте также:  Forkplayer для lg в беларуси

Архитектура Рамблера довольно сильно отличалась от нашей в организации спайдера. У нас спайдер был выполнен как отдельный сервер, со своей, самописной, базой адресов скачанных страниц. Для выкачки каждого сайта запускался отдельный процесс, который одновременно качал страницы, парсил их, выделял новые ссылки и мог сразу же по ним пойти. Спайдер Рамблера был сделан значительно проще.

На одном сервере был расположен большой текстовый файл со всеми известными Рамблеру адресами документов, по одному на строку, отсортированный в лексикографическом порядке. Раз в сутки этот файл обходился и генерировались другие текстовые файлы-задания на выкачку, которые выполнялись специальными программами, умеющими только скачивать документы по списку адресов. Затем документы парсились, извлекались ссылки и клались рядом с этим большим файлом-списком всех известных документов, сортировались, после чего списки сливались в новый большой файл, и цикл повторялся снова.

Достоинства такого подхода были в простоте, наличии единого реестра всех известных документов. Недостатки заключались в невозможности пройти по свежеизвлечённым адресам документов сразу же, так как скачивание новых документов могло случиться только на следующей итерации спайдера. Кроме того, размер базы и скорость её обработки была ограничена одним сервером.

Наш же спайдер, наоборот, мог быстро пройти по всем новым ссылкам с сайта, но очень плохо управлялся снаружи. В него было тяжело «влить» дополнительные данные к адресам (необходимые для ранжирования документов внутри сайта, определяющие приоритетность выкачки), трудно было сделать дамп базы.

Яндекс

О внутреннем устройстве поиска Яндекса было известно не так много до тех пор, пока Ден Расковалов не рассказал о нём в своём курсе лекций.

Оттуда можно узнать, что поиск Яндекса состоит из двух разных кластеров:

  • пакетной обработки данных
  • обработки данных в реальном времени (это не совсем уж «реальное время» в том смысле, в котором этот термин используется в системах управления, где просрочка времени выполнения задач может быть критичной. Скорее, это возможность попадания документа в индекс максимально быстро и независимо от других документов или задач; этакий «мягкий» вариант реального времени)

Первый используется для штатной обкачки интернета, второй – для доставки в индекс самых лучших и интересных документов, появившихся только что. Будем рассматривать пока что только пакетную обработку, потому что до обновления индекса в реальном времени нам тогда было довольно далеко, мы хотели выйти на обновление индекса раз в один-два дня.

При этом, несмотря на то, что внешне кластер пакетной обработки данных Яндекса был в чём-то похож на нашу пару качающих и индексирующих кластеров, в нём было и несколько серьёзных отличий:

  • База адресов страниц одна, хранится на индексирующих узлах. Как следствие, нет проблем с синхронизацией двух баз.
  • Управление логикой выкачки перенесено на индексирующие узлы, т.е. узлы спайдера очень простые, качают то, что им указывают индексаторы. У нас спайдер сам определял, что ему и когда скачать.
  • И, очень важное отличие, — внутри все данные представлены в виде реляционных таблиц документов, сайтов, ссылок. У нас же все данные были разнесены по разным хостам, хранились в разных форматах. Табличное представление данных значительно упрощает доступ к ним, позволяет делать различные выборки и получать самую разнообразную аналитику индекса. Всего этого мы были лишены, и на тот момент только лишь синхронизация двух наших баз документов (спайдера и индексатора) занимала неделю, причём нам приходилось останавливать на это время оба кластера.
Google

Google, без сомнений, является мировым технологическим лидером, поэтому на него всегда обращают внимание, анализируют что он сделал, когда и зачем. А архитектура поиска Google, естественно, была для нас самой интересной. К сожалению, свои архитектурные особенности Google открывает редко, каждая статья – большое событие и практически моментально порождает параллельный OpenSource-проект (иногда и не один) реализующий описываемые технологии.

Тем, кому интересны особенности поиска Google, можно с уверенностью посоветовать изучить практически все презентации и выступления одного из самых главных специалистов в компании по внутренней инфраструктуре — Джеффри Дина (Jeffrey Dean), например:

  • «Challenges in Building Large-Scale Information Retrieval Systems» (слайды) благодаря которым можно узнать, как развивался Google, начиная с самой первой версии, которая ещё была сделана студентами и аспирантами Стэнфордского университета и до 2008-го года, до внедрения Universal Search. Есть видеозапись этого выступления и аналогичное выступление в Стэндфорде, «Building Software Systems At Google and Lessons Learned»
  • «MapReduce: Simplified Data Processing on Large Clusters». В статье описывается вычислительная модель, позволяющая легко распараллелить вычисления на большом количестве серверов. Сразу же после этой публикации появилась опенсорсная платформа Hadoop.
  • «BigTable: A Distributed Structured Storage System», рассказ о NoSQL-базе данных BigTable, по мотивам которой были сделаны HBase и Cassandra (видео можно найти тут, слайды — здесь)
  • «MapReduce, BigTable, and Other Distributed System Abstractions for Handling Large Datasets» — описание cамых известных технологий Google.

Основываясь на этих выступлениях, можно выделить следуюшие особенности архитектуры поиска Google:

  • Табличная структура для подготовки данных. Вся база поиска хранится в огромной таблице, где ключом является адрес документа, а метаинформация сохраняется в отдельных колонках, объединённых в семейства. Причём таблица изначально сделана таким образом, чтобы эффективно работать с разреженными данными( т.е. когда значения в колонках есть далеко не у всех документов).
  • Единая система распределённых вычислений MapReduce. Подготовка данных (включая создание поискового индекса) является последовательностью mapreduce-задач, выполняемых над таблицами BigTable или файлами в распределённой файловой системе GFS.

Всё это выглядит довольно разумно: все известные адреса документов сохраняются в одной большой таблице, по ней выполняется их приоритезация, вычисления над ссылочным графом и т.п., в неё приносит содержимое выкачанных страниц паук поиска, по ней в итоге строится индекс.

Есть ещё одно интересное выступление уже другого специалиста Google, Дэниела Пенга (Daniel Peng) про новшества в BigTable, позволившие реализовать быстрое, в течение нескольких минут, добавление новых документов в индекс. Эта технология «снаружи» Google была разрекламирована под названием Caffeine, а в публикациях получила название Percolator. Видео выступления на OSDI’2010 можно посмотреть здесь.

Если говорить очень грубо, то это тот же самый BigTable, но в котором реализованы т.н. триггеры, — возможность загрузить свои кусочки кода, которые срабатывают на изменения внутри таблицы. Если до сих пор я описывал пакетную обработку данных, т.е. когда данные по возможности объединяются и обрабатываются вместе, то реализация того же на триггерах получается совершенно иной. Допустим, спайдер что-то скачал, поместил в таблицу новое содержимое; сработал триггер, сигнализирующий «появился новый контент, его нужно проиндексировать». Немедленно запустился процесс индексации. Получается, что все задачи поисковика в итоге могут быть разбиты на подзадачи, каждая из которых запускается по своему щелчку. Имея большое количество техники, ресурсов и отлаженный код, можно решать задачу добавления новых документов быстро, буквально за минуту — что и продемонстрировал Google.

Отличие архитектуры Google от архитектуры Яндекса, где тоже была указана система обновления индекса в режиме реального времени, в том, что в Google, как утверждается, вся процедура построения индекса выполнена на триггерах, а у Яндекса она есть только для небольшого подмножества самых лучших, самых ценных документов.

Lucene

Стоит упомянуть и ещё об одном поисковике – Lucene. Это свободно распространяемый поисковик, написанный на Java. В некотором смысле, Lucene является платформой для создания поисковиков, например, от него отпочковался поисковик по вебу под названием Nutch. По сути, Lucene — это поисковое ядро для создания индекса и поискового движка, а Nutch — это то же самое плюс спайдер, который обкачивает страницы, потому что поисковик не обязательно ищет по документам, которые находится в вебе.

На самом деле, в самом Lucene реализовано не так много интересных решений, которые могла бы позаимствовать большая поисковая система по вебу, рассчитанная на миллиарды документов. С другой стороны, не стоит забывать, что именно разработчики Lucene запустили проекты Hadoop и HBase (каждый раз, когда появлялась новая интересная статья от Google, авторы Lucene пытались применить озвученные решения у себя. Так, например, возник HВase, который является клоном BigTable). Однако эти проекты давно уже существуют сами по себе.

Для меня в Lucene/Nutch было интересно то, как они использовали Hadoop. Например, в Nutch для обкачки веба был написан специальный спайдер, выполненный целиком в виде задач для Hadoop. Т.е. весь спайдер – это просто процессы, которые запускаются в Hadoop в парадигме MapReduce. Это довольно необычное решение, выбивающееся за рамки того, как Hadoop используется. Ведь это платформа для обработки больших объёмов данных, а это предполагает, что данные уже имеются. А здесь эта задача ничего не вычисляет или обрабатывает, а, наоборот, скачивает.

С одной стороны, такое решение подкупает своей простотой. Ведь спайдеру необходимо получить все адреса одного сайта для обкачки, обходить их друг за другом, сам спайдер тоже должен быть распределённым и запускаться на нескольких серверах. Вот мы и делаем мэппер в виде разделителя адресов по сайтам, а каждый индивидуальный процесс выкачки реализуем в виде редьюсера.

С другой стороны, это довольно смелое решение, потому что сайты обкачивать тяжело — не каждый сайт отвечает за гарантированное время, и вычислительные ресурсы кластера тратятся на то, чтобы он просто ждал ответа от чужого веб-сервера. Причём проблема «медленных» сайтов всегда есть при наличии достаточно большого количества адресов на выкачку. Спайдер за 20% времени обкачивает 80% документов с быстрых сайтов, потом тратит 80% времени в попытках обкачать медленные сайты – и практически никогда не может их обкачать целиком, всегда приходится что-то бросать и оставлять «на следующий раз».

Мы некоторое время анализировали такое решение, и в результате отказались от него. Пожалуй, для нас архитектура этого спайдера была интересна как, своего рода, «отрицательный пример».

Подробнее о структуре нашего поисковика, о том, как мы строили поисковую систему, я расскажу в следующем посте.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock detector