Голосовые ассистенты — предвестники персональных роботов

Apple, является законодателем моды в пользовательских интерфейсах и техническом дизайне на протяжении более двух десятилетий. Компании удалось реализовать настолько удобный интерфейс сенсорного управления, что он моментально стал стандартом для всей отрасли, перевернув отношение людей к тому, каким должен быть опыт использования мобильных устройств.

Новый революционный интерфейс сподвиг потребителей отказаться от покупки устройств не обладающих схожими возможностями. Продажи компаний, не почувствовавших смену настроения потребителей, значительно упали. Так, революция, затеянная Apple, стоила лидерства финской компании Nokia, являвшейся крупнейшим на тот момент производителем мобильных устройств.

siri-cue_(6671005)

Затем появилась Siri — персональный помощник и вопросно-ответную систему, являющуюся зачатком голосового интерфейса взаимодействия с устройствами. Apple представила миру Siri в 2011 году, и с тех пор ежегодно совершенствует его, добавляя новые функции, улучшая голосовые возможности и переводя на новые языки.

В ходе презентации 09 сентября, гендиректор Тим Кук и другие ключевые руководители Apple, выйдя на сцену Bill Graham Civic Auditorium в Сан-Франциско, рассказали о следующем поколении продуктов яблочной компании. И новые устройства не разочаровали — Siri уже живет в наших iPhone и реагирует на голосовые команды, но сейчас она интегрирована и в телевизионную приставку Apple TV, что позволит пользователям переключать каналы, узнавать прогноз погоды и результаты спортивных мероприятий просто спросив об этом.

Siri является свидетельством того, насколько далеко мы ушли от первого опыта взаимодействия с компьютерами, базами данных и другими информационными системами. Вспомните MS-DOS… В то время, как большинство используемых сейчас ассистентов, таких как Google Now, способны отвечать на ограниченное количество вопросов, Siri стала достаточно разумной, чтобы адекватно реагировать на довольно подробные, естественные человеческие вопросы, такие как — “Покажи мне серию из Теории большого взрыва с Чарли Шином”, или — “перемотай на восемь минут вперед”. Она стала способна ответил даже на такой вопрос, как — “Что он сказал?” — перемотает назад на 15 секунд к предыдущей фразе актера и воспроизведёт эпизод, отображая субтитры. Как вам? На мой взгляд — впечатляюще.

Это новый интерфейс для управления телевидением, и в целом устройствами, и похоже он изменит опыт взаимодействия людей и компьютеров даже сильнее, чем ранее этот опыт изменило появление так называемого графического интерфейса в операционных системах, в создании которого Apple также сыграла роль.

Голосовое взаимодействие с компьютерами, — это очередная революция пользовательских интерфейсов. При её удачно реализации, приобретенный опыт взаимодействия, человек уже никогда не променяет на столь привычный сегодня графический интерфейс. Понимание того, что за голосом будущее, равно как и нежелание разделить участь Nokia — заставляет всех лидеров отрасли заниматься схожими разработками.

Вслед за Apple своего персонального помощника в 2012 году представила корпорация Google — интегрировав ассистента Google Now в подконтрольную ей платформу Android. Софтверный гигант Microsoft — запустил ассистента Кортана в 2014 году. Пионер систем распознавания речи — американская компания Nuance — разработала ассистента Nina, а главный потенциальный конкурент Google — компания Amazon — ассистента Echo, который играет музыку, читает вслух книги, и может делать по вашей просьбе покупки товаров, представленных в интернет-магазине компании.

Все они отслеживают что вы любите и когда. Программы способны извлечь огромное количество информации из вашего голоса и лексикона — пол, возраст, регион обитания, уровень образования, музыкальные предпочтения и настроение.

Китайский поисковый интернет-гигант Baidu представил Duer — умный интерфейс для дома, интернета вещей (iot) и оказания медицинской помощи. Компания также планирует интегрировать его в разрабатываемую сейчас систему автономного управления автомобилем без участия человека.

Facebook-M-640x640

Недавно Facebook рассказала о скорых планах запуск ассистента “M”, на данном этапе представляющего собой консьерж-сервис, доступный через приложение для обмена сообщениями. По сути, для Facebook это тестовая платформа. Так, сталкиваясь с проблемой в распознавании запроса, система передает его для решения человеку, — так называемому M-тренеру, который после исполнения вносит изменения, позволяющие в дальнейшем обрабатывать подобные запросы автономно. Основная ценность запуска данной технологии для компании кроется скорее не в возможности размещать рекламу и продвигать товары своих рекламодателей, а в накоплении информации об особенностях пользовательского поведения, которая пригодится в будущем. Сейчас “M” и “Duer” не обладают голосовыми интерфейсами, но распознают запросы, получая информацию из текстовой переписки пользователей.

Российский Яндекс также работает над созданием персонального помощника с голосовым интерфейсом. Недавний факап с фоновой записью всех разговоров пользователей, при обновлении приложения Яндекс.Навигатор, вполне резонно стал для специалистов основанием считать, что компания собирает данные, необходимые для запуска персонального ассистента с голосовым интерфейсом, а софт случайно вышедший наружу является частью тестовой площадки. О работе над ассистентом свидетельствует и, закрытый опрос, проведенный компанией в августе среди пользователей сервиса Яндекс.Толока. Опрос выяснял какого рода помощи ожидают пользователи от голосового ассистента — предлагал сформулировать вопросы и описать ожидаемые результаты (скриншоты опроса имеются в редакции).

Компания не делала официальных заявлений о намерении выпустить персонального ассистента, однако один из основателей компании Илья Сегалович утверждал еще несколько лет назад, что будущее Яндекса — в системах искусственного интеллекта. Ну чтож, курс ясен, технология распознавания речи у компании есть, разработки ведутся. Остаётся пожелать успеха.

Есть и много других: S-Voice компании Samsung, VoiceMate от LG, Ассистент от BlackBerry, Sirius, Hidi компании HTC, Silvia и Braina, и так далее.

Очевидно, что системы распознавания естественной речи находятся на начальном этапе становления, но уже сегодня глядя на и работу мы можем представить будущее таких систем.

Согласно прогнозу Gartner 2015 года, — у умных виртуальных ассистентов есть в запасе 5–10 лет до того, как они получат широкое распространение и станут незаменимыми системами обеспечения жизни человека. Вместе с тем, этот же прогноз приводит данные, что уже сегодня примерно 38% американских потребителей имеют опыт использования сервисов виртуальных ассистентов. Gartner прогнозирует, что к концу 2016 года две трети потребителей будут использовать их каждый день. Transparency Market Research прогнозирует рост мирового рынка услуг виртуальных ассистентов на 39% к 2018 году, а общий объём рынка согласно прогнозу увеличится до более чем $2,1 миллиардов к 2019 году.

Нет никаких признаков того, что тренд изменится. Наши мобильные устройства становятся инструментами для взаимодействия с компьютерными системами с помощью человеческой речи, в результате чего возрастает число сервисов, к которым они подключены через API. Это значит, что такие вещи, как привычный поиск в интернете будут меняться — для поиска информации людям больше не придётся формулировать специальные запросы. Поиск перестанет работать только как текстовый, он станет звуковым и визуальным. Взаимодействие будет происходить через обычную речь, а умные программы будут понимать, что именно хочет найти человек, учитывая при этом множество факторов.

Персональные роботы — новый этап развития голосовых ассистентов.

По мере развития виртуальных ассистентов и умных помощников, — следующим логическим этапом их развития будет интеграция с аппаратной частью. Их базы знаний, такие как Wolfram Alpha или IBM Watson — будут дополнены элементами естественной речи, позволяя нам искать во все возрастающих объёмах информации с меньшей подготовкой и в более человеческой манере — разговаривая с системой.

Уже сейчас голосовые ассистенты и умные помощники, наглядно показывают нам, на что именно будут способны персональные роботы в ближайшем будущем.

Во-первых, голосовой интерфейс будет основным для взаимодействиям со множеством функций персонального робота. Во-вторых, ваш персональный робот будет подключен к различным онлайн-сервисам, таким как календарь, новостной портал, интернет-магазин и так далее. Можно составить длинный список возможностей персонального робота, открывающихся при интеграции голосового интерфейса и онлайн-сервисов, таких как:

  • понимание голосового ввода — персональный робот сможет реагировать на команды, отвечать на вопросы, предоставлять консультации — от медицинских персональных рекомендаций, до проведения обучающих занятий с вашими детьми;
  • предложение личной помощи — планировать встречи, устанавливать напоминания, и контролировать их выполнение, проверять запасы, уведомлять о получении штрафа и напоминать о необходимости его оплатить и так далее;
  • предоставление помощи в передвижениях — подсказывать направление движения, скоростной режим, прогнозировать пробки, найти стоянку автомобилей;
  • взаимодействие с подключенными устройствами (интернет вещей — iot) — управлять телевизором, гаражными воротами, фонарями, камерами наблюдения и так далее;
  • позволит вам покупать вещи и отслеживать доставку приобретенных товаров;
  • взаимодействовать с социальными медиа — отправлять фотографии, делать видеотрансляции, сообщать о происшествии в службу спасения, читать твиты и так далее;
  • определять настроение — распознавать эмоции человека, язык тела;
  • уметь прогнозировать — отследить поведение человека, изменить его настроение к лучшему с учетом изучения его привычек и опыта.

Личные роботы будут широко использовать голосовой интерфейс, сродни тому, что мы видим сегодня в персональных ассистентах, потому что это естественная форма общения человека и она обеспечивает выполнение команд самым простым,быстрым и эффективным способом. Меню из графического интерфейса уйдут в прошлое, а личности новых цифровых помощников — подарят значительно большее удовольствие, чем симпатичные иконки.

Сегодняшние голосовые ассистенты — это экспериментальные площадки, полигоны для выявления компаниями потребностей пользователей, их ожиданий от программного обеспечения завтрашних персональных роботов, которым уготована судьба личных и незаменимых помощников человека.

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.