Компьютер победил человека в го. Как так получилось?

Искусственный интеллект научили абстрактному мышлению. Или нет?
Игра Го
Игра Го

Турнир из трех партий в игру го между лучшим игроком планеты и искусственным интеллектом завершен. Компьютер выиграл "всухую", победив во всех поединках. В последней партии человек сдался, хотя на обдумывание следующего хода у него было еще более получаса.

То, что у искусственного интеллекта есть шанс, стало ясно еще год назад, когда та же AlphaGo, созданная в компании DeepMind (дочка Alphabet, в которую входит Google), выиграла у одного из сильнейших игроков корейца Ли Седоля. Но тогда  компьютер, работавший на 2200 процессорах, одну партию из пяти все же проиграл. Специалисты объясняли: го настолько абстрактна, что искусственному интеллекту очень трудно «обучаться» — количество возможных комбинаций черных и белых камней на игровом поле превышает количество атомов в видимой Вселенной (это число было рассчитано в 2005 году и состоит из 171 знака).

После первой партии в нынешнем турнире звучали предположения, что машине кто-то «подсказывает» варианты следующего хода — слишком «человечными» были ходы компьютера. Живой участник в таких играх, как го, сразу «видит» несколько путей развития партии. Машина так «думать» не умеет. Самый простой путь для компьютера — перебрать все возможные варианты и выбрать лучший. Такой метод был характерен для многих компьютерных программ в прошлом, пока не появились нейросети. Набирая «опыт» в решении определенных задач, они постепенно учатся отбрасывать заведомо проигрышные варианты. Для го этого опыта мало, почему до сих пор и считалось, что человек в решении таких задач сильнее машины. 

Но компьютеру можно немного «помочь». С тридцатых годов прошлого века итальянский Энрико Ферми, а следом за ним — математики из Лос-Аламоса разрабатывали метод, получивший название «Монте-Карло». Идея до гениальности проста, а перебор возможных комбинаций в нем отсутствует вовсе. Машина выбирает следующий ход случайным образом и прорабатывает только один вариант игры. А потом — второй, выбранный тоже случайно, затем третий, четвертый… Отработав довольно быстро несколько вариантов, программа сможет выработать собственную стратегию. Правильная она или нет — заранее неизвестно, но чем больше накопленная статистика, тем точнее выбор. Но даже в этом случае программа вряд ли сможет выиграть у человека, ведь решения, построенные на методе Монте-Карло, существовали и до AlphaGo. 

Отличие именно этой программы — в комбинации двух технологий: чтобы сделать ход, нейросеть сначала предсказывает наиболее вероятный ход человека, а затем происходит оценка эффективности возможного сценария по методу Монте-Карло. Что и приводит машину к чистой победе. Так что разработка DeepMind — это уже чуть больше, нежели искусственный интеллект. И последняя игра программы AlphaGo. Разработчики уже заявили: целью была даже не столько победа, которую вполне можно было прогнозировать заранее, сколько попыткой предложить новые стратегии реальным игрокам. А все партии, в которых машина играла сама с собой, будут выложены в открытом доступе.

Соцсети
Сайт сделан в Бреле 2017