Яндекс запустил поисковый метод «Палех» на базе нейросетей

Автор: Vsoci_ru | Категория: Другое | Дата: 02-11-2016

0

«Такой хвост есть у фантастической Жар-птицы, которая часто появляется на палехской миниатюре». Поэтому мы дали алгоритму название «Палех», — объясняет команда «Яндекса».

Запросы из «длинного хвоста» очень разнообразны, однако среди них можно выделить несколько групп. «Яндекс» использует изображение Жар-птицы как иллюстрацию распределения частотности запросов: высокочастотные (небольшое количество, однако часто встречаются) соответствуют короткому клюву, среднечастотные — крупному туловищу, низкочастотные и редкие — длинному и витиеватому хвосту.

Например, если пользователь принял решение отыскать «фильм про человека, который выращивал картошку на другой планете», система поймет, что идет речь о кинофильме «Марсианин», информирует РГ. Для них и был спроектирован метод «Палех», названный в честь посёлка в Ивановской области, на гербе которого изображена жар-птица (символизирует виды запросов в «Яндексе»). Они призваны улучшить выдачу «Яндекса» по уникальным и низкочастотным запросам.

Новая модель алгоритма поиска может находить смысловые соотношения между пользовательскими запросами и заголовками страниц в web-сети интернет. Мы обучили нейронную сеть переводить миллиарды известных Яндексу заголовков веб-страниц в числа, а точнее — в группы из трехсот чисел каждая. В двумерном пространстве это выглядит вот так, однако в «Яндексе» применяется многомерное пространство.

Представить такую систему координат человеку довольно трудно. Уникальные либо просто редкие появляются около 100 млн раз в день. Тогда получится, что каждое число — это определённая координата по одной из 2-х осей, а каждая веб-страница просто соответствует точке на двумерной координатной плоскости. Подобрать примеры можно при помощи накопленной поиском статистики. Иными словами, мы можем расположить запрос в том же пространстве координат, что и веб-страницу.

«Каждый пример — пара „запрос — заголовок“». Пополнение таковых ассоциаций происходит за счет машинного обучения, а его результатом является трехсотмерный семантический вектор. Он превосходно работает в тех случаях, когда запрос относится к области «длинного хвоста».

Благодаря «Палеху» юзеры смогут получать ответы на сложные запросы из «хвоста».

«Яндекс» использует способ семантического вектора и в остальных собственных сервисах — например, в «Картинках». А именно, данные о том, на какие интернет ресурсы переходили юзеры, вводившие подобные запросы.

«Яндекс» запустил поисковый алгоритм на основе нейросетей

GD Star Rating
loading...

  • Disqus
  • Vkontakte
  • Facebook