#### [RL-X-BJ-01]
## OpenAI gym Blackjack-v0 
## _solved with Monte Carlo_
---
[Blackjack-v0 doc](https://gym.openai.com/envs/Blackjack-v0/)

[Blackjack-v0 src](https://github.com/openai/gym/blob/master/gym/envs/toy_text/blackjack.py)

---

### 1. El Entorno _Blackjack_
---
#### Descripción
El Blackjack es un juego de cartas donde el objetivo es obtener cartas que sumen una valor lo más próximo a 21 sin pasarse. En este entorno simulado de gym el agente (_jugador_) juega sólo contra el crupier (_dealer_).

Se juega con la baraja inglesa. Para determinar el valor total de las cartas de los jugadores, se aplican las siguientes reglas:
- Las cartas del 2 al 10 suman su valor numérico
- Las cartas de figuras (J, Q, K) tienen valor 10
- El as (1) puede sumar 1 ó 10, a elección del jugador
- Se juega sin comodines

Al empezar el juego, tanto el jugador como el crupier, reciben dos cartas. Las dos cartas del jugador están boca arriba por una sola del crupier.

El jugador puede solicitar nuevas cartas (hit=1), una a una, hasta que decida plantarse (stick=0) o se pase de 21 (bust).

Una vez que el jugador se planta, el crupier le dará la vuelta a su carta y sacará nuevas cartas hasta que su suma sea 17 o mayor. Si el crupier se pasa, gana el jugador.

Si ninguno de los dos, jugador y crupier, se pasan, el resultado (win, lose, draw) se decide en función de quién se quedó más cerca de 21. 

<br>

#### Observaciones
Consiste en una tupla con tres valores: la suma actual del jugador, el valor de la carta vista del crupier, y si el jugador tiene o no un as.

<br>

#### Acciones
El espacio discreto de acciones que puede tomar el agente es el siguiente:

- 0: plantarse
- 1: pedir carta

<br>

#### Recompensas
La recompensa por ganar es **+1**, por el empate es **0*+, y por perder es **-1**.

<br>

###### NOTA: 
Este entorno se corresponde con la versión del problema de blackjack descrito en el Ejemplo 5.1 del libro [Reinforcement Learning: An Introduction by Sutton and Burton](http://incompleteideas.net/book/the-book-2nd.html).




### 2. Probando el entorno con un agente humano
---
El siguiente código nos permite interactuar como juagador con el entorno Blackjack-v0 de gym.

<br>

#### El Agente:

In [2]:
class BJConsoleHumanAgent():
    def __init__(self, env):
        self._env = env
        self._state = None
        
    @property
    def state(self):
        return self._state
    
    @state.setter
    def state(self, state):
        self._state = state
        
    def action(self):
        return int(input("action [stick=0 | hit=1]? "))

#### El juego:

In [6]:
import gym
from IPython.display import clear_output

env = gym.make("Blackjack-v0")
agent = BJConsoleHumanAgent(env)

total_games = 0
total_reward = 0
total_wins = 0
total_losses = 0
total_draws = 0

while True:
    clear_output(wait=True)
    print("New Blackjack game...")

    agent.state = env.reset()
    total_games += 1
    
    done = False
    while not done:
        print("\nCurrent state:", agent.state)
        action = agent.action()
        new_state, reward, done, _ = env.step(action)
        agent.state = new_state

    print("\nGame done...")
    print("Finale state:", agent.state)
    total_reward += reward
    if reward == 1:
        print("You win!!")
        total_wins += 1
    elif reward == -1:
        print("You lose!!")
        total_losses += 1
    else:
        print("Draw!!")
        total_draws += 1
        
    new = str()
    while new not in('Y','N'):
        new = input("New game [Y/N]? ").upper()
    if new == 'N':
        break

# STATS
clear_output(wait=True)
print("\nStats:")
print("------")
print("Total games:", total_games)
print("Total wins:", total_wins)
print("Total losses:", total_losses)
print("Total draws:", total_draws)
print("Total reward:", total_reward)


Stats:
------
Total games: 1
Total wins: 1
Total losses: 0
Total draws: 0
Total reward: 1.0
