9 марта 2016, 10:18

Искусственный интеллект одолел одного из величайших мастеров игры го

Компьютер впервые победил одного из сильнейших игроков-людей в интеллектуальную игру, ранее считавшуюся неприступной для искусственного интеллекта.

Программа AlphaGo выиграла первую из пяти партий в го в матче с одним из самых сильных и титулованных игроков в мире — Ли Седолем. Искусственный интеллект играл белыми камнями, а человек — чёрными. Встреча состоялась в Сеуле (Южная Корея).

Фото: Wikipedia

Это первый в мире случай, когда компьютер одолел обладателя 9-го дана. Если AlfaGo удастся победить во всей матчевой встрече, то по значимости для развития технологий это событие можно будет сравнить с поражением Гарри Каспарова от компьютера Deep Blue в 1997 году. За встречей можно было наблюдать в прямом эфире (сейчас доступна запись партии) на YouTube.

Матчевая встреча будет состоять из пяти игр за неделю. Победитель получит от Google один миллион долларов. В случае победы программы эти деньги пойдут на благотворительность.

Ранее, в октябре 2015 года, AlfaGo уже удалось обыграть трёхкратного чемпиона Европы Фань Хуэя, однако он был обладателем всего лишь 2-го дана. Счёт в пользу искусственного интеллекта оказался совершенно разгромным — 5–0, однако многие специалисты высказывали мнение, что победа над столь низким даном не говорит о существенном прорыве в развитии компьютерных программ для го.

Долгое время го считалось наиболее сложной для компьютеров игрой. Например, в том же 1997 году, когда Deep Blue в шести партиях обыграл Каспарова, самая сильная го-программа проиграла 3-му дану Дженис Ким, имея фору в 25 камней. Количество возможных ходов в го превышает число атомов во Вселенной и составляет 2081681993819799846 9947863334486277028 6522453884530548425 6394568209274196127 3801537852564845169 8519643907259916015 6281285460898883144 2712971531931755773 6620397247064840935 вариантов. Также в го очень сложно формализовать и оценить позицию.

В AlfaGo используются метод Монте-Карло для поиска на дереве и свёрточные нейронные сети для глубинного обучения. Компьютер отбирает массив позиций, связанных с тем или иным ходом, после чего разыгрывает большое количество возможных случайных партий, связанных с каждой позицией. На их основе отбираются позиции, ведущие к наибольшему соотношению побед к поражениям. Из них выбирается одна наиболее выгодная, и производится соответствующий ход.