Сделав их аудиозаписи доступными посторонним лицам для загрузки в сервисе Толока

Знакомьтесь: это голосовые запросы пользователей Яндекса. “Как они оказались у нас,” — спросите вы. Нет, мы не устраивали глобальную хакерскую атаку и не взламывали серверы Яндекса. Записи, вместе с удобным интерфейсом для их прослушивания и загрузки на компьютер, предоставила сама компания.

Что произошло?

25 мая 2017 на платформе Толока появилось задание по транскрибированию коротких аудиофайлов, из содержания которых стало ясно, что это записи голосовых запросов пользователей Яндекса. Интерфейс позволяет не только прослушивать записи, но и загружать их на компьютеры исполнителей.

Архив запросов, оказавшийся в распоряжении редакции, сформирован как из навигационных, так и поисковых запросов. Имена владельцев отсутствуют, однако встречаются повторяющиеся голоса, из которых можно предположить, что в выборка составлена не по принципу 1 человек — 1 запрос, а по принципу 1 человек — несколько запросов.

Неизвестно количество пользователей, чьи голосовые запросы стали доступны на платформе. Ирония заключается в том, что чем больше людей поучаствуют в транскрибировании, тем точнее будет результат и, стало быть, лучше для Яндекса.


Платформа “Толока” используется для совершенствования поисковых алгоритмов и технологий машинного интеллекта путём обучения на основе человеческих оценок. Задания предоставляются командами различных сервисов Яндекса и партнерами компании.

Получить доступ к заданиям в “Толоке” может любой человек буквально два клика — в списке немногочисленных требований относительно сложным можно назвать лишь наличие учетной записи Яндекса.