Подтвержденный Google DeepMind теперь продемонстрировал, что их расчет AlphaZero не может быть просто использован, чтобы победить Go, но может победить лучших существующих шахматных моторов в шахматах и сёги. Их расчет занял незначительные 4 часа, играя забавы против самого себя, чтобы показать себя, чтобы играть в шахматы на уровне лучше, чем Stockfish 8! В 100 аттракционах AlphaZero набрал 25 побед и 25 ничьих с Белым, в то время как с Dark он набрал 3 победы и 47 ничьих. Он не потерял развлечений, с последним счетом 64:36. Здесь вы можете воспроизвести 10 иллюстраций с помощью нашего нового покера. Прочтите документ DeepMind
Присоединяйтесь к шахматам и сёги, независимо от других. Играйте с
Алгоритм обучения
Дэвид Сильвер, 1 * Томас Хуберт, 1 *
Julian Schrittwieser, 1 *
Иоаннис Антоноглу, 1 Мэтью Лай, 1 Артур Гуес, 1 Марк Ланькто, 1
Лоран Сифре, 1 Дхаршан Кумаран, 1 Thore Graepel, 1
Тимоти Лилликрап, 1 Карен Симонян, 1 Demis Hassabis1
1DeepMind, 6 Pancras Square, Лондон N1C 4AG.
Эти авторы внесли аналогичный вклад в эту работу.
уникальный
Круглый раунд шахмат является наиболее широко рассматриваемой областью.
Наиболее обоснованные программы зависят от сочетания изысканных систем охоты,
а также тщательно собранные оценочные работы, которые были
усовершенствованные человеческими специалистами более чем на несколько лет. Интересно, что программа AlphaGo Zero
по прошествии совершенного сверхчеловеческого исполнения в раунде Go, с помощью чистой поддержки сланца
получая от воссоздания самостоятельной игры. В этой статье мы суммируем этот подход в
единый расчет Альфа-Зеро, который может выполнить, очистить шифер, сверхчеловеческое исполнение в
многие области тестирования. Начиная с нерегулярной игры и без информации о пространстве
но правила аттракционов, AlphaZero совершил в течение 24 часов сверхчеловеческий уровень игры в
воссоздания шахмат и сёги (японские шахматы), а также Go, и убедительно победил
лучше всего на планете для каждой ситуации.
Исследование компьютерных шахмат так же стара, как и сама разработка программного обеспечения. Бэббидж, Тьюринг, Шеннон,
также, фон Нейман сформулировал оборудование, расчеты и гипотезу для изучения и игры в развлечение
шахмат. Шахматы таким образом превратились в удивительное испытание для возраста фальсифицированного сознания
аналитиков, приходящих полный круг в превосходных компьютерных шахматных программах, которые выполняются на
сверхчеловеческого уровня (9, 13). Как бы то ни было, эти структуры глубоко настроены на их область и не могут
быть подведенными к разным вопросам без огромных человеческих усилий.
Долговременное стремление к контрафактному сознанию заключалось в том, чтобы создавать программы, которые могут
возьмите для себя из первых стандартов (26). В последнее время расчет AlphaGo Zero
совершенное сверхчеловеческое исполнение в сессии Go, говоря,
глубокие сверточные нейронные системы (22, 28), подготовленные исключительно благодаря поддержке, полученной от
диверсии самозанятости (29). В настоящей работе мы применяем сравнительный, но полностью мягкий расчет, который мы
1
arXiv: 1712.01815v1 [cs.AI] 5 декабря 2017 г.
позвоните в AlphaZero, в развлечения шахмат и сёги и, кроме того, Go, без дополнительной области
информации, за исключением стандартов развлечения, показывая, что широко полезная поддержка
обучение может выполнить, очистить сланец, сверхчеловеческое выполнение крест-накрест по многим испытаниям
пространства.
Исторический момент для фальсифицированного сознания был достигнут в 1997 году, когда Deep Blue разгромил человека
лучше всего на планете (9). Компьютерные шахматные программы постоянно продвигались вперед
в течение следующих двух десятилетий. Эти проекты оценивают позиции с использованием тщательно отобранных
человеческими гроссмейстерами и преднамеренно настроенными весами, объединились с элитой
альфа-бета, которая расширяет огромное дерево запросов, используя значительное количество хитроумных эвристик и
области конкретных корректировок. В Методах мы изображаем эти ростки, концентрируясь на
2016 Лучший шахматный чемпионат (TCEC) титульный держатель Stockfish (25); другие твердые
шахматные программы, в том числе Deep Blue, используют в основном то же самое, что и проекты (9, 21).
Сёги - это все более сложная диверсия, поскольку это многоцелевое качество, чем шахматы (2,
14): играется на большой доске, и любая пойманная соперничающая часть меняет стороны и может таким образом
отбрасываться в любом месте на доске. Наиболее обоснованные программы сёги, например, компьютер
Ассоциация Сёги (CSA), лучшая на планете Эльмо, как раз в последнее время побеждала человеческих чемпионов
(5). Эти проекты используют сопоставимый расчет для компьютерных шахматных программ, опять же ввиду
чрезвычайно улучшенный веб-индекс альфа-беты с многочисленными специфическими корректировками.
Go подходит для разработки нейронной системы, которая используется в составе AlphaGo на том основании, что принципы
отклонение трансляционно
Podtverzhdennyy Google DeepMind teper' prodemonstriroval, chto ikh raschet AlphaZero ne mozhet byt' prosto ispol'zovan, chtoby pobedit' Go, no mozhet pobedit' luchshikh sushchestvuyushchikh shakhmatnykh motorov v shakhmatakh i sogi. Ikh raschet zanyal neznachitel'nyye 4 chasa, igraya zabavy protiv samogo sebya, chtoby pokazat' sebya, chtoby igrat' v shakhmaty na urovne luchshe, chem Stockfish 8! V 100 attraktsionakh AlphaZero nabral 25 pobed i 25 nich'ikh s Belym, v to vremya kak s Dark on nabral 3 pobedy i 47 nich'ikh. On ne poteryal razvlecheniy, s poslednim schetom 64:36. Zdes' vy mozhete vosproizvesti 10 illyustratsiy s pomoshch'yu nashego novogo pokera. Prochtite dokument DeepMind
Prisoyedinyaytes' k shakhmatam i sogi, nezavisimo ot drugikh. Igrayte s
Algoritm obucheniya
Devid Sil'ver, 1 * Tomas Khubert, 1 *
Julian Schrittwieser, 1 *
Ioannis Antonoglu, 1 Met'yu Lay, 1 Artur Guyes, 1 Mark Lan'kto, 1
Loran Sifre, 1 Dkharshan Kumaran, 1 Thore Graepel, 1
Timoti Lillikrap, 1 Karen Simonyan, 1 Demis Hassabis1
1DeepMind, 6 Pancras Square, London N1C 4AG.
Eti avtory vnesli analogichnyy vklad v etu rabotu.
unikal'nyy
Kruglyy raund shakhmat yavlyayetsya naiboleye shiroko rassmatrivayemoy oblast'yu.
Naiboleye obosnovannyye programmy zavisyat ot sochetaniya izyskannykh sistem okhoty,
a takzhe tshchatel'no sobrannyye otsenochnyye raboty, kotoryye byli
usovershenstvovannyye chelovecheskimi spetsialistami boleye chem na neskol'ko let. Interesno, chto programma AlphaGo Zero
po proshestvii sovershennogo sverkhchelovecheskogo ispolneniya v raunde Go, s pomoshch'yu chistoy podderzhki slantsa
poluchaya ot vossozdaniya samostoyatel'noy igry. V etoy stat'ye my summiruyem etot podkhod v
yedinyy raschet Al'fa-Zero, kotoryy mozhet vypolnit', ochistit' shifer, sverkhchelovecheskoye ispolneniye v
mnogiye oblasti testirovaniya. Nachinaya s neregulyarnoy igry i bez informatsii o prostranstve
no pravila attraktsionov, AlphaZero sovershil v techeniye 24 chasov sverkhchelovecheskiy uroven' igry v
vossozdaniya shakhmat i sogi (yaponskiye shakhmaty), a takzhe Go, i ubeditel'no pobedil
luchshe vsego na planete dlya kazhdoy situatsii.
Issledovaniye komp'yuternykh shakhmat tak zhe stara, kak i sama razrabotka programmnogo obespecheniya. Bebbidzh, T'yuring, Shennon,
takzhe, fon Neyman sformuliroval oborudovaniye, raschety i gipotezu dlya izucheniya i igry v razvlecheniye
shakhmat. Shakhmaty takim obrazom prevratilis' v udivitel'noye ispytaniye dlya vozrasta fal'sifitsirovannogo soznaniya
analitikov, prikhodyashchikh polnyy krug v prevoskhodnykh komp'yuternykh shakhmatnykh programmakh, kotoryye vypolnyayutsya na
sverkhchelovecheskogo urovnya (9, 13). Kak by to ni bylo, eti struktury gluboko nastroyeny na ikh oblast' i ne mogut
byt' podvedennymi k raznym voprosam bez ogromnykh chelovecheskikh usiliy.
Dolgovremennoye stremleniye k kontrafaktnomu soznaniyu zaklyuchalos' v tom, chtoby sozdavat' programmy, kotoryye mogut
voz'mite dlya sebya iz pervykh standartov (26). V posledneye vremya raschet AlphaGo Zero
sovershennoye sverkhchelovecheskoye ispolneniye v sessii Go, govorya,
glubokiye svertochnyye neyronnyye sistemy (22, 28), podgotovlennyye isklyuchitel'no blagodarya podderzhke, poluchennoy ot
diversii samozanyatosti (29). V nastoyashchey rabote my primenyayem sravnitel'nyy, no polnost'yu myagkiy raschet, kotoryy my
1
arXiv: 1712.01815v1 [cs.AI] 5 dekabrya 2017 g.
pozvonite v AlphaZero, v razvlecheniya shakhmat i sogi i, krome togo, Go, bez dopolnitel'noy oblasti
informatsii, za isklyucheniyem standartov razvlecheniya, pokazyvaya, chto shiroko poleznaya podderzhka
obucheniye mozhet vypolnit', ochistit' slanets, sverkhchelovecheskoye vypolneniye krest-nakrest po mnogim ispytaniyam
prostranstva.
Istoricheskiy moment dlya fal'sifitsirovannogo soznaniya byl dostignut v 1997 godu, kogda Deep Blue razgromil cheloveka
luchshe vsego na planete (9). Komp'yuternyye shakhmatnyye programmy postoyanno prodvigalis' vpered
v techeniye sleduyushchikh dvukh desyatiletiy. Eti proyekty otsenivayut pozitsii s ispol'zovaniyem tshchatel'no otobrannykh
chelovecheskimi grossmeysterami i prednamerenno nastroyennymi vesami, ob"yedinilis' s elitoy
al'fa-beta, kotoraya rasshiryayet ogromnoye derevo zaprosov, ispol'zuya znachitel'noye kolichestvo khitroumnykh evristik i
oblasti konkretnykh korrektirovok. V Metodakh my izobrazhayem eti rostki, kontsentriruyas' na
2016 Luchshiy shakhmatnyy chempionat (TCEC) titul'nyy derzhatel' Stockfish (25); drugiye tverdyye
shakhmatnyye programmy, v tom chisle Deep Blue, ispol'zuyut v osnovnom to zhe samoye, chto i proyekty (9, 21).
Sogi - eto vse boleye slozhnaya diversiya, poskol'ku eto mnogotselevoye kachestvo, chem shakhmaty (2,
14): igrayetsya na bol'shoy doske, i lyubaya poymannaya sopernichayushchaya chast' menyayet storony i mozhet takim obrazom
otbrasyvat'sya v lyubom meste na doske. Naiboleye obosnovannyye programmy sogi, naprimer, komp'yuter
Assotsiatsiya Sogi (CSA), luchshaya na planete El'mo, kak raz v posledneye vremya pobezhdala chelovecheskikh chempionov
(5). Eti proyekty ispol'zuyut sopostavimyy raschet dlya komp'yuternykh shakhmatnykh programm, opyat' zhe vvidu
chrezvychayno uluchshennyy veb-indeks al'fa-bety s mnogochislennymi spetsificheskimi korrektirovkami.
Go podkhodit dlya razrabotki neyronnoy sistemy, kotoraya ispol'zuyetsya v sostave AlphaGo na tom osnovanii, chto printsipy
otkloneniye translyatsionno
Присоединяйтесь к шахматам и сёги, независимо от других. Играйте с
Алгоритм обучения
Дэвид Сильвер, 1 * Томас Хуберт, 1 *
Julian Schrittwieser, 1 *
Иоаннис Антоноглу, 1 Мэтью Лай, 1 Артур Гуес, 1 Марк Ланькто, 1
Лоран Сифре, 1 Дхаршан Кумаран, 1 Thore Graepel, 1
Тимоти Лилликрап, 1 Карен Симонян, 1 Demis Hassabis1
1DeepMind, 6 Pancras Square, Лондон N1C 4AG.
Эти авторы внесли аналогичный вклад в эту работу.
уникальный
Круглый раунд шахмат является наиболее широко рассматриваемой областью.
Наиболее обоснованные программы зависят от сочетания изысканных систем охоты,
а также тщательно собранные оценочные работы, которые были
усовершенствованные человеческими специалистами более чем на несколько лет. Интересно, что программа AlphaGo Zero
по прошествии совершенного сверхчеловеческого исполнения в раунде Go, с помощью чистой поддержки сланца
получая от воссоздания самостоятельной игры. В этой статье мы суммируем этот подход в
единый расчет Альфа-Зеро, который может выполнить, очистить шифер, сверхчеловеческое исполнение в
многие области тестирования. Начиная с нерегулярной игры и без информации о пространстве
но правила аттракционов, AlphaZero совершил в течение 24 часов сверхчеловеческий уровень игры в
воссоздания шахмат и сёги (японские шахматы), а также Go, и убедительно победил
лучше всего на планете для каждой ситуации.
Исследование компьютерных шахмат так же стара, как и сама разработка программного обеспечения. Бэббидж, Тьюринг, Шеннон,
также, фон Нейман сформулировал оборудование, расчеты и гипотезу для изучения и игры в развлечение
шахмат. Шахматы таким образом превратились в удивительное испытание для возраста фальсифицированного сознания
аналитиков, приходящих полный круг в превосходных компьютерных шахматных программах, которые выполняются на
сверхчеловеческого уровня (9, 13). Как бы то ни было, эти структуры глубоко настроены на их область и не могут
быть подведенными к разным вопросам без огромных человеческих усилий.
Долговременное стремление к контрафактному сознанию заключалось в том, чтобы создавать программы, которые могут
возьмите для себя из первых стандартов (26). В последнее время расчет AlphaGo Zero
совершенное сверхчеловеческое исполнение в сессии Go, говоря,
глубокие сверточные нейронные системы (22, 28), подготовленные исключительно благодаря поддержке, полученной от
диверсии самозанятости (29). В настоящей работе мы применяем сравнительный, но полностью мягкий расчет, который мы
1
arXiv: 1712.01815v1 [cs.AI] 5 декабря 2017 г.
позвоните в AlphaZero, в развлечения шахмат и сёги и, кроме того, Go, без дополнительной области
информации, за исключением стандартов развлечения, показывая, что широко полезная поддержка
обучение может выполнить, очистить сланец, сверхчеловеческое выполнение крест-накрест по многим испытаниям
пространства.
Исторический момент для фальсифицированного сознания был достигнут в 1997 году, когда Deep Blue разгромил человека
лучше всего на планете (9). Компьютерные шахматные программы постоянно продвигались вперед
в течение следующих двух десятилетий. Эти проекты оценивают позиции с использованием тщательно отобранных
человеческими гроссмейстерами и преднамеренно настроенными весами, объединились с элитой
альфа-бета, которая расширяет огромное дерево запросов, используя значительное количество хитроумных эвристик и
области конкретных корректировок. В Методах мы изображаем эти ростки, концентрируясь на
2016 Лучший шахматный чемпионат (TCEC) титульный держатель Stockfish (25); другие твердые
шахматные программы, в том числе Deep Blue, используют в основном то же самое, что и проекты (9, 21).
Сёги - это все более сложная диверсия, поскольку это многоцелевое качество, чем шахматы (2,
14): играется на большой доске, и любая пойманная соперничающая часть меняет стороны и может таким образом
отбрасываться в любом месте на доске. Наиболее обоснованные программы сёги, например, компьютер
Ассоциация Сёги (CSA), лучшая на планете Эльмо, как раз в последнее время побеждала человеческих чемпионов
(5). Эти проекты используют сопоставимый расчет для компьютерных шахматных программ, опять же ввиду
чрезвычайно улучшенный веб-индекс альфа-беты с многочисленными специфическими корректировками.
Go подходит для разработки нейронной системы, которая используется в составе AlphaGo на том основании, что принципы
отклонение трансляционно
Podtverzhdennyy Google DeepMind teper' prodemonstriroval, chto ikh raschet AlphaZero ne mozhet byt' prosto ispol'zovan, chtoby pobedit' Go, no mozhet pobedit' luchshikh sushchestvuyushchikh shakhmatnykh motorov v shakhmatakh i sogi. Ikh raschet zanyal neznachitel'nyye 4 chasa, igraya zabavy protiv samogo sebya, chtoby pokazat' sebya, chtoby igrat' v shakhmaty na urovne luchshe, chem Stockfish 8! V 100 attraktsionakh AlphaZero nabral 25 pobed i 25 nich'ikh s Belym, v to vremya kak s Dark on nabral 3 pobedy i 47 nich'ikh. On ne poteryal razvlecheniy, s poslednim schetom 64:36. Zdes' vy mozhete vosproizvesti 10 illyustratsiy s pomoshch'yu nashego novogo pokera. Prochtite dokument DeepMind
Prisoyedinyaytes' k shakhmatam i sogi, nezavisimo ot drugikh. Igrayte s
Algoritm obucheniya
Devid Sil'ver, 1 * Tomas Khubert, 1 *
Julian Schrittwieser, 1 *
Ioannis Antonoglu, 1 Met'yu Lay, 1 Artur Guyes, 1 Mark Lan'kto, 1
Loran Sifre, 1 Dkharshan Kumaran, 1 Thore Graepel, 1
Timoti Lillikrap, 1 Karen Simonyan, 1 Demis Hassabis1
1DeepMind, 6 Pancras Square, London N1C 4AG.
Eti avtory vnesli analogichnyy vklad v etu rabotu.
unikal'nyy
Kruglyy raund shakhmat yavlyayetsya naiboleye shiroko rassmatrivayemoy oblast'yu.
Naiboleye obosnovannyye programmy zavisyat ot sochetaniya izyskannykh sistem okhoty,
a takzhe tshchatel'no sobrannyye otsenochnyye raboty, kotoryye byli
usovershenstvovannyye chelovecheskimi spetsialistami boleye chem na neskol'ko let. Interesno, chto programma AlphaGo Zero
po proshestvii sovershennogo sverkhchelovecheskogo ispolneniya v raunde Go, s pomoshch'yu chistoy podderzhki slantsa
poluchaya ot vossozdaniya samostoyatel'noy igry. V etoy stat'ye my summiruyem etot podkhod v
yedinyy raschet Al'fa-Zero, kotoryy mozhet vypolnit', ochistit' shifer, sverkhchelovecheskoye ispolneniye v
mnogiye oblasti testirovaniya. Nachinaya s neregulyarnoy igry i bez informatsii o prostranstve
no pravila attraktsionov, AlphaZero sovershil v techeniye 24 chasov sverkhchelovecheskiy uroven' igry v
vossozdaniya shakhmat i sogi (yaponskiye shakhmaty), a takzhe Go, i ubeditel'no pobedil
luchshe vsego na planete dlya kazhdoy situatsii.
Issledovaniye komp'yuternykh shakhmat tak zhe stara, kak i sama razrabotka programmnogo obespecheniya. Bebbidzh, T'yuring, Shennon,
takzhe, fon Neyman sformuliroval oborudovaniye, raschety i gipotezu dlya izucheniya i igry v razvlecheniye
shakhmat. Shakhmaty takim obrazom prevratilis' v udivitel'noye ispytaniye dlya vozrasta fal'sifitsirovannogo soznaniya
analitikov, prikhodyashchikh polnyy krug v prevoskhodnykh komp'yuternykh shakhmatnykh programmakh, kotoryye vypolnyayutsya na
sverkhchelovecheskogo urovnya (9, 13). Kak by to ni bylo, eti struktury gluboko nastroyeny na ikh oblast' i ne mogut
byt' podvedennymi k raznym voprosam bez ogromnykh chelovecheskikh usiliy.
Dolgovremennoye stremleniye k kontrafaktnomu soznaniyu zaklyuchalos' v tom, chtoby sozdavat' programmy, kotoryye mogut
voz'mite dlya sebya iz pervykh standartov (26). V posledneye vremya raschet AlphaGo Zero
sovershennoye sverkhchelovecheskoye ispolneniye v sessii Go, govorya,
glubokiye svertochnyye neyronnyye sistemy (22, 28), podgotovlennyye isklyuchitel'no blagodarya podderzhke, poluchennoy ot
diversii samozanyatosti (29). V nastoyashchey rabote my primenyayem sravnitel'nyy, no polnost'yu myagkiy raschet, kotoryy my
1
arXiv: 1712.01815v1 [cs.AI] 5 dekabrya 2017 g.
pozvonite v AlphaZero, v razvlecheniya shakhmat i sogi i, krome togo, Go, bez dopolnitel'noy oblasti
informatsii, za isklyucheniyem standartov razvlecheniya, pokazyvaya, chto shiroko poleznaya podderzhka
obucheniye mozhet vypolnit', ochistit' slanets, sverkhchelovecheskoye vypolneniye krest-nakrest po mnogim ispytaniyam
prostranstva.
Istoricheskiy moment dlya fal'sifitsirovannogo soznaniya byl dostignut v 1997 godu, kogda Deep Blue razgromil cheloveka
luchshe vsego na planete (9). Komp'yuternyye shakhmatnyye programmy postoyanno prodvigalis' vpered
v techeniye sleduyushchikh dvukh desyatiletiy. Eti proyekty otsenivayut pozitsii s ispol'zovaniyem tshchatel'no otobrannykh
chelovecheskimi grossmeysterami i prednamerenno nastroyennymi vesami, ob"yedinilis' s elitoy
al'fa-beta, kotoraya rasshiryayet ogromnoye derevo zaprosov, ispol'zuya znachitel'noye kolichestvo khitroumnykh evristik i
oblasti konkretnykh korrektirovok. V Metodakh my izobrazhayem eti rostki, kontsentriruyas' na
2016 Luchshiy shakhmatnyy chempionat (TCEC) titul'nyy derzhatel' Stockfish (25); drugiye tverdyye
shakhmatnyye programmy, v tom chisle Deep Blue, ispol'zuyut v osnovnom to zhe samoye, chto i proyekty (9, 21).
Sogi - eto vse boleye slozhnaya diversiya, poskol'ku eto mnogotselevoye kachestvo, chem shakhmaty (2,
14): igrayetsya na bol'shoy doske, i lyubaya poymannaya sopernichayushchaya chast' menyayet storony i mozhet takim obrazom
otbrasyvat'sya v lyubom meste na doske. Naiboleye obosnovannyye programmy sogi, naprimer, komp'yuter
Assotsiatsiya Sogi (CSA), luchshaya na planete El'mo, kak raz v posledneye vremya pobezhdala chelovecheskikh chempionov
(5). Eti proyekty ispol'zuyut sopostavimyy raschet dlya komp'yuternykh shakhmatnykh programm, opyat' zhe vvidu
chrezvychayno uluchshennyy veb-indeks al'fa-bety s mnogochislennymi spetsificheskimi korrektirovkami.
Go podkhodit dlya razrabotki neyronnoy sistemy, kotoraya ispol'zuyetsya v sostave AlphaGo na tom osnovanii, chto printsipy
otkloneniye translyatsionno
No comments:
Post a Comment
Note: Only a member of this blog may post a comment.