21 августа 2016, 12:30

Вместо покойника чат-бот

Первая половина 2016 года прошла под знаком нейронных сетей и искусственного интеллекта.

Кадр из фильма "Игры разума"/ © Кинопоиск

Компьютеры поумнели и за счёт технологии "глубокого обучения" сокрушили последний интеллектуальный бастион человечества — обыграли чемпиона мира по игре в го. По магазину приложений победным шагом прошло приложение Prisma, которое из фотографий делало имитацию картин известных художников. Facebook и Microsoft вслед за мессенджером Telegram ринулись внедрять чат-ботов в свои сервисы. За отдельными событиями и незаметно, как электронный разум учится понимать естественный. Насколько далеко зайдёт прогресс и можно ли с помощью искусственного интеллекта (ИИ) в будущем создать цифровую копию личности человека?

От картинок до голоса

Кадр из фильма "Начало"/ © Кинопоиск

Для начала искусственный интеллект научился видеть и слышать. Нейронная сеть оказалась интересным инструментом, принципиально изменившим способ решения задач. Мы привыкли, что компьютерная система получает событие на входе, например начальную скорость и массу ракеты, а потом вычисляет её траекторию, исходя из модели, учитывающей притяжение Земли, сопротивление воздуха и других факторов. А если такой модели нет?

Оказалось, что компьютер можно обучить. Простой пример нейронной сети, когда надо распознать буквы. Давайте все знаки несколько раз напишем на листе в мелкую клеточку, клеточки с контуром буквы запишем в таблицу как единицы, пустые — как нули. У нас нет единой формулы для распознавания всех букв, но есть правила для каждой. Если закрашенные точки расположены примерно на равном расстоянии от центра — это "О", если они сосредоточены на левой и верхней стороне клетки — "Г", а если по горизонтальной оси клетки и опять вдоль верхней части — это "Т".

Такая система может, как и человек, ошибаться, если вертикальная линия будет непонятно расположена, левее центра, но не по левому краю. А где-то может принять неожиданные решения. Если будет только горизонтальная линия по верхнему краю, то система на нейросети скорее всего отцентрует изображение и решит, что это "тире".

На практике всё сложнее, в книжках используются разные шрифты, у людей разный почерк, но в целом принцип именно такой. Несмотря на простоту описания, реальные продукты обладали разной степенью точности, и приятно, что лидером по распознаванию стала российская компания ABBYY.

С голосовым распознаванием всё оказалось ещё сложнее. Хотя программы, переводившие голос в текст, появились в конце 90-х, они не получили массового применения из-за большого количества ложных срабатываний, к которым приводили, например, любые посторонние шумы. Однако к 2012 году произошло накопление критической массы технологий, допускавших распознавание для отдельных задач. "Облачные" сервисы дали вычислительные мощности, многократно превосходящие производительность процессора отдельно выбранного устройства, алгоритмы позволили учитывать контекст запроса и стали применяться в колл-центрах для выбора пользователем темы запроса. Наконец, появление голосовых помощников на смартфонах, таких как Siri, сделало распознавание голоса доступным массовому пользователю.

Обучение методом погружения

Фото: © Canon Information & Imaging Solutions and RocketSpace

Для перехода от распознавания изображения (текста) и голоса к работе с естественной речью потребовались новые технологии. Например, вышеупомянутая ABBYY разработала технологию Comreno, которая за счёт анализа текста позволяла системе "понимать" содержание текста, а не отдельные слова. Это позволяет ИИ общаться с человеком. Татьяна Даниэлян, заместитель директора по разработке технологий компании ABBYY, поясняет: "Технология понимает смысл текста и может сформировать подходящий ответ или предложить уже существующий шаблон. Так работают умные помощники в магазине или навигаторы. Есть ещё одна актуальная область применения — автоматизация техподдержки. Если вопрос клиента уже есть в базе, то система предложит готовый ответ, если нет, то перенаправит к ответственному сотруднику компании".

Сейчас разнообразные системы анализа текстов позволяют не только выискивать посты в соцсетях, но и анализировать их эмоциональную окраску. В чат-ботах пользователи могут задавать вопросы на конкретные темы: стоимость валюты, информацию о погоде, поиск книг или музыки и другие. Microsoft анонсировала персонального ассистента для Skype, который учитывает содержание чата и предлагает соответствующие изменения в календаре или покупку билетов.

В большинстве случаев такие сервисы используют концепцию deep learning (глубокое обучение). Если переложить её на наш пример с распознаванием букв, то листок в клеточку — это плоская или двумерная нейросеть, но можно добавить ещё измерения — брать в расчёт яркость линии, искать прямые, окружности и учитывать, для каких букв они наиболее характерны. Получается многомерная сеть, для обучения которой требуется больше примеров, а для их усвоения — больше ресурсов. Например, создатели популярной программы Prisma отмечали, что одной из самых сложных задач было распределение нагрузки, чтобы успевать обрабатывать запросы пользователей на приемлемом числе серверов.

Deep learning стала новым шагом в развитии ИИ: у компьютера развивается "интуиция" (если под ней понимать неосознанные решения, принимаемые на базе предыдущего опыта), которая позволила ему лучше человека играть в компьютерные игры, го и даже в симуляторе авиасражения. Однако глубокое обучение применяется не просто для игр, оно переводит ИИ из школы в университет. Предполагается, что оно позволит ставить медицинские диагнозы на основе анализов и снимков пациента, а также рассчитывать влияние новых лекарств на организм.

ИИ прикидывается человеком

Фото: © VR+AR+CG+CV+HCI /Facebook AI Research & New York University/Yann LeCun

Более совершенные технологии обучения позволили ИИ имитировать человека. В 2014 году формально был пройден тест Тьюринга. Кстати, и здесь не обошлось без российского следа. Алан Тьюринг предложил следующую логику: если мы в беседе не можем отличить ИИ от человека, значит, между биологическим и компьютерным "разумом" нет разницы.

Практика показала, что такой односторонней проверки недостаточно, да и опрошенные нами эксперты в один голос сказали о простоте теста Тьюринга, реализованного на практике. Ошибочно принять машину за человека должны были всего треть судей. А программисты специально делали программу, которая "косила" под неграмотного подростка: делала ошибки, применяла неправильные выражения — и тем маскировала недостатки ИИ.

Однако незнакомого человека ИИ научился изображать неплохо. "Уже сейчас боты достаточно развиты и совсем не обязательно просто отвечают на поставленный вопрос. Они могут вести вполне естественную беседу, "держа в уме" контекст предыдущего общения с данным человеком и опираясь на свой кругозор", — считает Владислав Шершульский, директор по технологическому сотрудничеству Microsoft в России. В качестве примера он приводит фирменного бота Xiaolce с 40-миллионной аудиторией в Азии, который предназначен для любителей поболтать.

Пока бота от человека трудно отличить только в узконишевых проектах, по мнению Олега Варламова, доктора технических наук и президента компании "Мивар": "В контекстно ограниченном смысловом пространстве текстовую активность вопросно-ответных систем уже и сейчас практически невозможно отличить от человеческой. Например, чат-боты вполне могут эмулировать деятельность игроков в сетевые игры, используя ограниченный набор слов и контекстов или стимулировать активность в узкоспециализированных сетевых сообществах. Конечно, если вступить с таким чат-ботом в диалог на общие темы, то станет ясно, что с вами общается робот, однако в условиях тематического поля его поведение вполне адекватно". Однако он считает, что мы перестанем различать сообщения от роботов и людей уже через три-пять лет.

Более прагматичную оценку дал Альберт Ефимов, руководитель робототехнического центра Фонда "Сколково": "Конечно, в будущем программы для компьютеров смогут почти всё. Вопрос лишь в том, насколько это будущее отдалено от нас. Полагаю, что потребуется ещё 20—30 лет до достижения уровня, когда искины смогут вести эмоционально окрашенный, насыщенный тонким юмором и аллюзиями диалог, того уровня, какой сейчас могут вести между собой культурные и хорошо образованные люди. А диалог, который ведут сейчас между собой малознакомые, малокультурные люди, не имеющие общих тем и интересов в целом, искины нынешнего поколения могут вести уже сейчас".

О смысле цифрового бытия

Если компьютерные программы научились читать и писать, слушать и говорить, а также анализировать текст и вести беседу, может, через некоторое время мы сумеем создать цифровую копию человека? Теоретически для этого надо обучить ИИ на диалогах, которые вёл испытуемый в течение жизни, как обучался ИИ программы Prisma на картинах известных художников, и отвечать в стиле оригинала.

Частично это уже сделано, считает Пётр Левич, директор департамента взаимодействия науки, технологий и общества Московского технологического института и основатель Future Foundation. Он напоминает, что в тесте Meduza тексты, написанные нейронной сетью программистов "Яндекса" на основе альбомов Егора Летова, не смогли отличить от оригинальных песен 40% респондентов. Если применять правила теста Тьюринга, то ИИ испытание выдержал. "Примерно такие же результаты в тестах, где предлагается отличить настоящие картины от сгенерированных нейросетью", — добавляет он.

Однако сложнее обстоит дело с копированием произвольного человека. "Боты смогут предугадывать стиль беседы конкретного человека, если будут обладать достаточной информацией о нём: знать, с кем и о чем он разговаривает, какие книги читает, какие фильмы смотрит, что делает на работе. Этого легче достичь с писателями и философами, оставившими обширное литературное/эпистолярное наследие, так как боты обучаются, обрабатывая большие объёмы информации", — предполагает Владислав Шершульский. Однако и он, и другие опрошенные эксперты полагают, что близкие всё равно смогут отличить бота от копируемой личности. "Алгоритм не будет точной цифровой копией человека, потому что мы способны импровизировать, отвечать на вопросы, опираясь на жизненный опыт", — объясняет Татьяна Даниэлян.

При этом большинство экспертов не видят смысла в создании цифровых двойников, а Альберт Ефимов ещё и напоминает, что фантасты предрекали их трагический финал: "Сюжет о том, что чат-бот полностью обучился на диалогах покойного человека, был хорошо показан в сериале "Чёрное зеркало" (второй сезон "Скоро вернусь"). Это воссоздание в любом случае привело к ещё одной трагедии. Чат-бот вряд ли когда-либо заменит нам собеседника. Потому что внутри этого чат-бота нет ничего".

Права роботов — в серой зоне

Если цифровые личности будут всё-таки созданы, то какие права они будут иметь? Смогут ли диктовать волю хозяина после его биологической смерти? Владислав Шершульский предположил, что бот сможет использоваться в юридических вопросах: "Хорошо составленный юридический документ ("умный контракт") может и не содержать в явном виде решения по конкретной книге, но такое решение должно выводиться из него юридически корректным способом. Прочитав и интерпретировав "умный контракт", бот вполне сможет сформулировать получившееся решение общепонятным языком".

Пётр Левич отмечает, что, хотя в Европе уже задумываются об особом статусе "электронных лиц" для роботов, пока юридические вопросы, касающиеся деятельности ИИ, — это "серая зона". Непонятно, кому в будущем будут принадлежать права на картинки, сгенерированные Prisma, и стихи, созданные нейросетью: оригинальным художникам и наследникам Летова, программистам, создавшим нейросеть, или даже самой нейросети как "электронному лицу"?

Александр Баулин