Как OLX использует искусственный интеллект для модернизации рекламы

OLX не будет тем же сервисом без машинного обучения, которое понимает наш язык и заботится о качестве рекламы.

История использования элементов искусственного интеллекта в OLX восходит к 2014 году, когда сервис объявил конкурс для студентов имени Свидание Ниндзя , Алгоритмы молодых инженеров оказались настолько хорошими в то время, что они по-прежнему являются сердцем системы модерации рекламы.

Третье издание конкурса OLX собирается предсказать будущее по данным, и я разговариваю с Томеком Грамзой, руководителем отдела разработки в группе OLX, о секретах даты работы ниндзя .

OLX не будет тем же сервисом без машинного обучения, которое понимает наш язык и заботится о качестве рекламы

Томаш Грамза на конференции AWS.

Karol Kopańko, Spider's Web: сегодня OLX - бесспорный король местных объявлений. Как вы думаете, что вы решили, что вы не позволяете Gumtree или Gratka приблизиться к вам на мгновение?

Томаш Грамза, OLX: Прежде всего, качество контента.

Конечно, люди идут туда, где они могут найти лучшие объявления.

С нами вы не найдете неприемлемый контент, продажу защищенных животных, мошенничество, некультурный язык или беспорядок в категориях. Мы даже отвергаем лаконичные рекламные объявления, потому что зачастую неизвестно, что они означают.

Я предполагаю, что есть два способа достичь наилучшей базы данных объявлений. У вас должна быть большая команда модераторов, которая сидит и просматривает рекламу или использует машины.

Мы выбрали второй вариант, используя машинное обучение. Тем не менее, нас постоянно поддерживает команда опытных модераторов.

И как ты здесь просеиваешь мошенников?

Я не хочу раскрывать слишком много информации о нашей кухне, чтобы не помогать мошенникам, но я приведу вам пример мошенничества с детскими колясками, который был довольно популярен в то время. Кто-то бросил объявление о продаже такой тележки, но отправил ее только после уплаты аванса в размере 100 злотых. Предоплата была переведена, но корзина никогда не существовала.

Что мешало отследить такого преступника?

Эти мошенники хорошо знают польское законодательство и всегда действуют ниже определенного финансового уровня, который не квалифицирует их деяние как преступление. Кроме того, они постоянно меняют учетные записи, IP-адреса и компьютеры. Мы применили здесь машинное обучение, чтобы алгоритмы изучали шаблоны поведения мошенников и заранее их нейтрализовали.

А что если появятся новые виды мошенничества?

Затем мы добавляем новые данные в модель и применяем алгоритмы. Мы также находимся в постоянном контакте с полицией, которая предвидит нас о новых видах мошенничества.

Откуда у вас появилась идея использовать алгоритмы для этого? Теоретически, это не ваша проблема, что кто-то отправляет деньги за кошку в мешке.

Это о доверии. А история использования машинного обучения началась в 2014 году, когда большинство сайтов были ориентированы на мобильность, а не на искусственный интеллект. Вместе с Познанским технологическим университетом мы подготовили конкурс, который длился весь семестр, и, кстати, позволили пройти этот курс.

О чем это было?

Мы сделали два набора данных доступными для студентов. В наборе учащихся было миллион объявлений с решениями модератора, или объявление было хорошим или плохим. На тестовом наборе решения не было, потому что на нем мы проверяли правильность алгоритма машинного обучения. Это было, среди прочего, для правильной обработки естественного языка и отлова этих объявлений, которые не должны попадать на сайт.

Десять лучших команд приняли участие в финальном гала-концерте. Победители получили денежные призы, а также предложение о стажировке.

А что случилось с алгоритмом победы?

Сегодня это называется Mobius и является сердцем нашей системы модерации. Победители присоединились к нашей команде и реализовали свой алгоритм. Позже они получили зеленый свет, чтобы реализовать его продуктивно.

Я понимаю, что благодаря этому пользователи чувствуют себя в большей безопасности и имеет ли OLX какие-либо прямые преимущества?

Наши услуги лучше масштабируются, потому что если мы хотим обрабатывать больше трафика, нам не нужно нанимать дополнительных людей.

В этом году вы продолжаете соревнование. Как вы придумываете студенческие задания?

Каждый год, во время каникул, мы работаем с техническим университетом над проблемой, которую мы хотим решить. Это должно быть интересно с научной и деловой точек зрения. В этом году мы задаем вопрос: может ли AI предсказать будущее?

Почему искусственный интеллект предсказывает будущее в OLX?

Благодаря этому мы можем предсказать, какие объявления и когда они будут продавать.

Я понимаю, что вы предоставляете студентам данные с вашего сайта, которые должны кормить алгоритмы?

Это не будет работать без него. Каждый месяц мы публикуем миллионы объявлений, у нас есть информация о том, что искали люди и через какое время продукты были проданы. Мы измеряем интерес в течение всего года и видим такие тенденции, как поиск лыж зимой или велосипед весной. Мы считаем контакты - текстовые сообщения и звонки, а затем обмениваемся выбранными базами с участниками конкурса.

Я полагаю, что что-то подобное с велосипедами было бы относительно легко, но если принять во внимание компьютеры и множество конфигураций, в которых они доступны ... сложный орешек.

В общем, все проблемы машинного обучения не тривиальны. Теоретически мы могли бы поставить перед компьютером эксперта, который, в свою очередь, проанализировал бы рекламу и оценил, когда что будет продаваться, но это отнимает много времени и неэффективно. Представьте, сколько экспертов должно работать, чтобы на вершине нашего движения мы могли оценивать 100 объявлений каждую минуту ...

Машина будет справляться с этим намного лучше, она будет сообщать пользователям (в зависимости от цены и вариантов продвижения), когда их продукт будет иметь возможность продать. Это поможет вам сделать рекламу более привлекательной и выделиться из толпы.

Если вы собираетесь кратко сказать, какими должны быть действия такого ниндзя, который примет участие в вашем соревновании.

Вначале вы должны придумать, как сделать данные доступными для обогащения и обработки, чтобы позже следовать технике машинного обучения и точно настроить ее для данной проблемы. Есть много возможностей, и мы видим, что многие группы пробуют разные подходы и во время соревнований обнаруживают, какие методы для нашей задачи работают лучше, а какие - немного хуже.

Есть много возможностей, и мы видим, что многие группы пробуют разные подходы и во время соревнований обнаруживают, какие методы для нашей задачи работают лучше, а какие - немного хуже

Данные ниндзя победителей 2016/2017.

И какое решение из тех, над которыми вы сейчас работаете, является для вас самой большой проблемой?

Обработка естественного языка.

Почему?

Прежде всего, мы работаем на многих рынках - в Европе, Африке и Азии, поэтому языки могут существенно различаться. На естественном языке информация не структурирована, что делает ее особенно трудной для анализа. Например, одно слово может появляться во многих формах.

Польский язык, наверное, крайний пример здесь.

Определенно. На английском языке перевод слов в основную форму очень прост. На польском языке, где каждое существительное может быть изменено во всех случаях не обязательно. Давайте возьмем слова собака и собаки. Хотя они отличаются только цифрами в языке, только буква «р» является общей для компьютера.

Если польский язык так сложен, не лучше ли перевести польский на английский и вернуть только на компьютер?

Такой путь тоже не идеален. Потому что, действуя на местных рынках, сложно перевести много фраз. Что, например, вы будете делать со словом trabant? В целом переводы Google Translate отлично работают, но в специализированных у нас его нет.

Итак, как вы справляетесь с польским языком?

Мы используем векторное представление языка (вложение слов). Это позволяет представить в виде дружественных к машине не только слова, но и отношения, которые имеют место между ними. Мы пропускаем текст по алгоритму, который сжимает информацию о слове и его окрестности и преобразует его в вектор чисел, понятный для компьютера. Компьютеры любят числа и операции с матрицами. Найти связь между двумя понятиями (векторами) так же просто, как найти сдвиг (новый вектор) между ними.

Хорошо, а если бы вам пришлось повторить это, но по-польски?

Давайте предположим, что наша модель узнала о содержании Википедии и поместила в пространство три слова: женщина, мужчина и король. Если мы вычтем человека из короля, мы получим определенный вектор. Если мы добавим этот вектор к женщине, мы увидим королеву в ее очень близком соседстве. Весь метод основан на кодировании слов, так что отношения между ними могут быть применены к различным выводам.

Насколько сложны такие векторы?

Стандарт, обеспечивающий высочайший уровень детализации, составляет 300 измерений, то есть 300 последовательных чисел. Во многих задачах мы можем ограничиться меньшим количеством измерений, например, 50.

Таким образом, вы можете предположить, что, как мы общаемся на польском языке, так ли это язык машины?

Да, и что интересно, если вы будете преподавать свои алгоритмы, например, на разных языках Википедии, король и король будут очень близки друг к другу. Как и все их синонимы.

И поэтому вы можете использовать одни и те же системы в Польше, Португалии и Казахстане?

Точно. Но в этой модели есть также несколько проблем, которые необходимо решить. Лучше всего снова использовать машинное обучение. Опечатки и синонимы в пространстве так же близки к правильному слову. Если вы введете скутер , мы исправим его на скутере , но мы также ищем объявления с использованием самых популярных синонимов, таких как Google. С другой стороны, если кто-то входит в поисковик плотины , то мы должны знать, что нельзя показывать горцев .

В настоящее время мы также работаем над поисковым помощником, который сможет предсказать намерения пользователя. Это наше дело, что мы стараемся максимально соответствовать тому, что люди хотят найти. Мы должны лучше знать, что они хотели узнать от них.

Таким образом, алгоритмы оказываются более «умными», чем люди. Ранее мы упоминали о студентах, которые пришли на работу в OLX. Не могли бы вы наконец сказать, почему вы должны работать там, где вы работаете?

Мы имеем дело с решениями, которыми пользуются миллионы людей. Почти в каждой стране, где мы присутствуем, у нас есть сервис, который входит в ТОП-10 по популярности. У нас также всегда есть атмосфера стартапа. Мы работаем в небольших командах, которые имеют большую независимость и огромное влияние на их продукцию.

С другой стороны, OLX также является крупной организацией. У нас есть трудовые договоры, различные льготы, частная страховка и отличный офис (но мы также можем работать удаленно). Мы все время многому учимся и расширяем свои компетенции.

Как вы думаете, что вы решили, что вы не позволяете Gumtree или Gratka приблизиться к вам на мгновение?
И как ты здесь просеиваешь мошенников?
Что мешало отследить такого преступника?
А что если появятся новые виды мошенничества?
Откуда у вас появилась идея использовать алгоритмы для этого?
О чем это было?
А что случилось с алгоритмом победы?
Я понимаю, что благодаря этому пользователи чувствуют себя в большей безопасности и имеет ли OLX какие-либо прямые преимущества?
Как вы придумываете студенческие задания?
В этом году мы задаем вопрос: может ли AI предсказать будущее?