# Metody hraní her

## Teorie

### Hra

Hru definujeme jako **strukturovanou formu aktivity** obvykle určenou pro pobavení, předvedení či vzdělávání.

# Metody hraní her v umělé inteligenci

Hraní her v oblasti umělé inteligence je velmi důležité a proti lidskému mozku má výpočetní technika velkou spoustu výhod.
* Počítač je totiž schopen řešit efektivně komplikované situace s velkým množstvím kombinací a vstupů
    * **příklad**: Mějme hru NIM. Ta spočívá v tom, že existuje zásoba sirek (v tomto případě například 12). Dva hráči poté střídavě odebírají sirky v množství 1-3, které si pro každý tah zvolí. Hráč, který začíná (a předpokládáme, že v žádném svém tahu neudělá chybu), vždy vyhraje. Nyní si zkuste v hlavě představit a vydedukovat **co nejrychleji**, kolik sirek musíte v prvním tahu vzít abyste mohli na konci vyhrát. 
    * Jedná se o velmi triiválí hru, a i tak není pro lidský mozek úplně snadné si představit všechny různé scénáře a vybrat z nich ten, který vede k vaší výhře. Toto počítač zvládne vyřešit ve zlomku sekundy.
* Počítač nerozhodí žádné vnější vlivy, které by rozhodily člověka (například stress)

Tak, jako všude jinde, jsou tady ovšem i nevýhody
* Počítač je hráčem, který pro každý svůj tah zkoumá co nejvíce možných scénářů (pokud to okolnosti umožňují, prozkoumá všechny možnosti) a snaží se vybrat ten, který je pro něj nejvhodnější. To je na jednu stranu obrovská výhoda, na druhou stranu, tato metodu funguje v případě, že jeho lidský protějšek hraje racionálně. Počítač totiž očekává, že soupeř bude hrát tak, že využije vždy pro něj nejlepší tah. Pokud to ovšem protihráč neudělá (ať už záměrně nebo nezáměrně), může stroj velmi snadno "překvapit".
* Má obvykle malou nebo žádnou znalost strategie. Bavíme-li se o hrách, kde počítač nemá možnost (ať už se jedná o nedostatek času nebo nedostatek výkonu) prozkoumat celý stavový prostor, volí svůj tah nejvýhodněji pro daný časový okamžik. Lidský protivník ovšem může razit strategii, která se nyní zdá jako velmi nevýhodná, v určité fázi hry ovšem může vést k vítězství.

## Algoritmy hraní her

Hraní her je úzce spjato s prohledáváním stavového prostoru.
Jak již bylo řečeno výše, počítač se obvykle snaží prozkoumat všechny různé varianty tahů tak, aby byl schopen si vybrat ten nejlepší, přičemž ve svých predikcích často "přemýšlí" o tom, jak v dané konstelaci hry zahraje soupeř. A dost podobně také hraje většina lidských soupeřů, tedy přemýšlí, jaká bude reakce soupeře pokud zvolí zrovna tento jeden tah.

### Rozdělení algoritmů

1. Algoritmy, které prohledávají **celý stavový prostor** do určité hloubky
    * Hloubka může být taktéž rovna výšce grafu, tedy prohledáváme celý stavový prostor.
    * Omezení hloubky má většinou za přičinu to, že stroj nemá dostatečný čas na to, aby mohl nasimulovat všechny možné tahy až do terminální fáze.
    * Vezmeme-li si například *královskou hru*, šachy, v jedné šachové partii je více možných tahů než je atomů v pozorovatelném vesmíru, konkrétně tedy asi 10^120 možných unikátních partií. V tomto případě je pro počítač nemožné v nějakém rozumném čase zjistit tah, který je úplně nejlepší.
2. Algoritmy prohledávající **jen vyhovující část** stavového prostoru.
    * Takový algoritmus samozřejmě musí mít informace o tom, že některé tahy v partii s největší pravděpodobností povedou k prohře a nemá smysl tuto část stavového prostoru dále prohledávat a vyhrazený čas je lepší použít na hlubší prozkoumání atraktivnějších tahů. Tyto znalosti může stroj získat například pozorováním partií dvou lidských hráčů či studiem specifik hry.
3. Cílově orientované algoritmy
    * Algoritmus hledá pouze jeden specifický cíl (slouží například jako podpůrný algoritmus pro jiný, který prohledává stavový prostor a za pomocí těchto dat lze jeho prohledávání optimalizovat)
    
    
### Klíčové otázky
#### 1. Je řešení dobré?
    * Chci kterékoli řešení?
        * Pokud mi stačí, že "vyhraji" a to jakkýmkoli způsobem, lze využít heuristiku a pomocí ní najít první nalezené řešení.
    * Chci nejlepší řešení?
        * Pokud chci z nějakého důvodu najít nejlepší řešení (například totální devastace protistrany pro ukázku síly), musím prohledat celý stavový prostor.
#### 2. Mohu vrátit tah?
    * Ano - například pro některé implementace hry 2048 (dáme možnost hráči během celé hry vrátit několik tahů)
    * Ne - například šachy, hra NIM
#### 3. Máme jistý vstup?
    * Ano - například šachy, hra NIM
    * Ne - poker


### Algoritmy prohledávání stavového prostoru pro hry dvou hráčů s úplnou informací
* Jedná se o hry, kde má každý z hráčů **všechny informace o hře a jejím současném stavu** (například výše zmíněná hra NIM)
* Taková informace se nazývá **pozice**. Obsahuje navíc údaj, který hráč je na tahu
* Abychom mohli informace o hře a možných tazích získat, potřebujeme znát pravidla. Pravidla určují všechny možné (přípustné) tahy pro hráče, který je právě na řadě. Pravidla by taktéž měla zajistit, aby nedošlo k nekonečné hře (pro každou pozici existuje cesta k závěrečné pozici)
* Krokem hry pak rozumíme činnost, při které si hráč, který je právě na řadě. Hráči se v krocích střídají tak dlouho, dokud se nedostaneme do **závěrečné pozice** (výhra hráče A, prohra hráče B či remíza)

#### Znázornění hry
* Hra je znázorněna stromem, kde
    * **uzel** reprezentuje jednotlivou pozici
    * **hrana** reprezentuje přípustný tah
    * **list** odpovídá koncovému stavu hry   
* Například
 ![Graf hry](./assets/images/graph.png)
 
 ### Výpočet ohodnocení
 * Volba heuristiky a výpočtu ohodnocení je velmi důležitá část implementace algoritmu. Je třeba volit takový výpočet, který bude reflektovat realitu a pravidla
 * Vezmeme-li si jako příklad hru Tic-Tac-Toe, což je ve své podstatě hra Piškvorky omezená na pole 3x3 (Dva hráči se střídají při vyplňování pole a cílem hráče je spojit symboly na diagonále, v řádku nebo ve sloupci), můžeme vzít pro výpočet ohodnocení:
 f(n) = počet kompletních řádků, sloupců a diagonál, které může hráč A ještě vyplnit - počet kompletních řádků, sloupců a diagonál, které může vyplnit hráč B
     * Například v situaci
     ![Tic-Tac-Toe hra](./assets/images/tic-tac-toe.png)
     * Má hráč A (kolečko) možnost vyplnit: 
         * První a poslední řádek, první a druhý sloupec, hlavní a vedlejší diagonálu = 6
     * Hráč B (křížek) má možnost vyplnit:
         * Druhý a poslední řádek, první a poslední sloupec, hlavní a vedlejší diagonálu = 6
     * Ohodnocení uzlu tedy bude **0**
                              
 
 #### Minimax
 
 * Používá ohodnocení uzlů, které pak používá pro rozhodnutí, kterou cestou se vydat.
 * Ohodnocení uzlů může být určenou kteroukoli heuristikou, zpravidla se vyjadřuje pravděpodobnost, s jakou lze ve hře a tímto tahem dosáhnout vítězství či počet možných různých tahů vedoucí k vítězství.
 * Na úrovni hráče (říkejme mu hráč A) proto vybíráme **maximum** (hráč A chce co největší pravděpodobnost/ počet tahů vedoucí k vítězství)
 * Na úrovni protihráče (říkejme mu hráč B) proto vybíráme **minimum** (hráč B chce to nejmenší pravděpodobnost že hráč B vyhraje/ co nejmenší počet možných tahů pro jeho výhru)
 * Minimax můžeme omezit do určité hloubky (tedy vidí jen na X kroků dopředu)
 * **Pseudokód**
 
       function minimax(position, depth)
       if (position is leaf OR depth = 0)
           return leaf_value(position)
       else 
           value = -inf
           for all child of position do
               value = max(value, -minimax(child, depth -1)
           end for
           return value
       end if
       end function
       
       function leaf_value(position)
       if is_loss(position)
           return -MAX
       else if is_win(position)
           return MAX
       else
           // draw
           return 0
       end if
            
  * Například:
     ![Minimax graf](./assets/images/minimax.png)
     
 
 #### Alfa-beta
 * Jedná se o obdobu minimaxu s tím rozdílem, že pokud víme, že některá větev je špatná (resp. horší než doposud nejlepší nalezená větev), nemusíme ji už procházet. Víme totiž, že pro nás není relevantní a soupeř by se jí (opět, budeme-li předpokládat racionální chování) mohl bez obtíží vyhnout.
 * Tím dojde k tomu, že ušetříme nějaký čas, který můžeme využít například k hlubšímu prohledávání stavového prostoru, což může mít za následek optimalizaci nejvhodnějšího tahu
 * **Pseudokód**
 
       function alphabeta(position, depth, apha, beta, maximizing)
       if (position is leaf OR depth = 0)
           return leaf_value(position)
       else if maximizing
           value = -inf
           for all child of position do
               value = max(value, alphabeta(child, depth -1, alpha, beta, false)
               alpha = max(alpha, value)
               if (alpha >= beta)
                   // beta cut
                   break 
                end if
            end for
            return value
       else 
           value = inf
           for all child of position do
               value = min(value, alphabeta(child, depth -1, alpha, beta, true)
               beta = min(beta, value)
               if (alpha >= beta)
                   // alpha cut
                   break 
                end if
            end for
            return value
        end if
       
               
  * Například:
     ![Alfabeta graf](./assets/images/alphabeta.png)
  * **POZOR**: To, že bude zpracování proti minimaxu optimálnější nemusí být vždy pravda. Předpokládejme, že ve výše zmíněném případě by byly uzly (a případně jejich potomci) přeskládani do jiného pořadí. Pak by v určité konstelaci nemuselo k žádnému řezu dojít a algoritmus alfa-beta by se choval stejně jako minimax. 

# Praktická část

## Hra NIM s minimaxem

## Tic-Tac-Toe s minimaxem

## Tic-Tac-Toe s Alfa-Betou

# Zdroje
