Forside » Software Spil » Nyudviklet AI blev sat til at lære sig selv Go - og slog alle |
Nyudviklet AI blev sat til at lære sig selv Go - og slog alleFirmaet DeepMind har udsendt en udgivelse der beskriver skabelsen af en ny AI, der kan spille det avancerede spil Go. |
|||||||||||||||||||||||||
Det er ikke længe siden at den første AI formåede at slå verdens bedste spillere i Go. Problemet var at denne machine learning algoritme bestod af 2 neurale netværk. Det første blev trænet ved hjælp af mennesker, der var eksperter i spillet Go. Dette netværk var dedikeret til at evaluere de mest sansynlige træk en menneskelig modstander ville lave. Det andet netværk var trænet til at forudsige vinderen efter ethvert givent træk. De 2 algoritmer blev kombineret af software, og sammenlagt krævede det applikationsspecifikke processorer ved navn "tensor processing units", udviklet af Google. Resultatet var at algoritmen kunne slå selv de bedste mennesker i spillet Go, men problemet er at denne fremgangsmåde kun kan bruges på områder hvor der allerede eksisterer menneskelige eksperter, og man vil formentligt ikke få at se ting som mennesker ikke ville overveje at gøre. Folkene hos DeepMind besluttede sig derfor for at lave en AI der kunne lære sig selv at spille Go. Dette blev opnået ved hjælp af en process ved navn reinforcement learning. Den nye algoritme er blevet døbt AlphaGo Zero, og den blev trænet ved blot at spille mod en anden instans af sig selv. Begge instanser af AlphaGo Zero blev givet reglerne for Go, og sat til at spille med tilfældige træk indenfor disse regler. Når et træk var udført, så algoritmen på om det resulterede i et bedre udfald af spillet. Over tid resulterede dette i en meget sofistikeret spillestil. DeepMind kørte nemlig de to instanser mod hinanden i 3 dage, hvilket svarede til næsten 5 millioner spil - og et gennemsnit på 0,4 sekund per træk. Da træningen var færdig, blev en af instanserne sat op på en maskine med blot 4 stk. tensor processing units, og derefter sat til at spille mod en mennesketrænet AI, der kørte på flere computere og ialt 48 tensor processing units. AlphaGo Zero vandt stort med 100-0. Faktisk var AlphaGo Zero allerede i stand til at slå menneketrænede AIs efter blot 1 dag, og på dag 4 begyndte den konsistent at vinde over den første AI der kunne slå de bedste menneskelige modstandere. På dag 25 slog den de mest sofistikerede mennesketrænede AIs, og på dag 40 vandt den 89 spil ud af 100 mod de bedste AIs. Enhver menneskelig spiller der blev sat til at spille mod AlphaGo Zero tabte. AlphaGo Zeros åbningsspil bestod i træk der allerede bruges af de bedste menneskelige spillere - eller variationer på disse. Slutspillet mindede også om noget et menneske ville gøre - men midterspillet var unikt. Her brugte AlphaGo Zero ikke strategier som mennesker kunne se meningen med - i stedet vandt den måder at komme en smule foran på, selv hvis den skulle tabe terræn for at opnå dette. |
![]()
Billede: Flavio Takemoto, FreeImages.com Tags: alphago zero ai artificial intelligence machine learning reinforcement learning go |
||||||||||||||||||||||||
Kommentarer: 0 Visninger: 2236 Gå til kilde
Foreslå rettelser
|