# Taller 2: Agentes que Aprenden
### [Introducción a los Sistemas Inteligentes 2019-1](https://fagonzalezo.github.io/iis-2019-1/)
### Universidad Nacional de Colombia, Bogotá

---

**Fecha límite de entrega**: _Viernes 5 de Julio_ antes de la medianoche


Cerciórese de reiniciar y correr el notebook en su totalidad antes de enviarlo. Verifique que todas las salidas se muestran de manera correcta.

Integrantes del grupo (máximo 3):

* Nombre_1 ID_1
* Nombre_2 ID_2
* Nombre_3 ID_3

**Instrucciones de envío:**

Este notebook debe enviarse a través del siguiente [File Request](https://www.dropbox.com/request/hgzbkYaErd1LPK6y5N9j) antes de la medianoche de la fecha límite. El archivo debe nombrarse como  isi-taller1-unalusername1-unalusername2-unalusername3.ipynb, donde unalusername es el nombre de usuario asignado por la universidad (incluya los nombres de usuario de todos los miembros del grupo).

---

El objetivo de este taller es construir un agente que sea capaz de aprender a jugar el juego de *Snake*:

<img src="https://cloud.githubusercontent.com/assets/2750531/24808769/cc825424-1bc5-11e7-816f-7320f7bda2cf.gif" alt="Snake snapshot" width="320"/>

El agente se entrenará usando aprendizaje supervisado. Tendremos dos versiones del agente, uno con un campo de visión limitado y otro basado en características que se calculan a partir del estado del ambiente.

Al igual que en el [taller 1](https://nbviewer.jupyter.org/github/fagonzalezo/iis-2019-1/blob/master/taller1.ipynb)  vamos a usar como base este [proyecto](https://github.com/YuriyGuts/snake-ai-reinforcement) desarrollado por [Yuriy Guts](https://github.com/YuriyGuts).



## 1. Agente basado en un clasificador

El agente contará con una visión del campo restringida a las 9 celdas a partir de la cabeza de la serpiente (exceptuando la celda que contiene la cabeza), las cuales aparecen marcadas con un recuadro amarillo en la siguiente imagen:

<img src="snakePerception.png" alt="Snake snapshot" width="320"/>

### 1.a Ambiente campo de visión restringida

Extienda la clase `snakeai.gameplay.environment.Environment` de tal manera que el método `get_observation()` retorne las 8 observaciones.

In [2]:
from snakeai.gameplay.environment import Environment

class RestEnvironment(Environment):
    """
    Partial observation environment. Same as base class environment, overloads 
    `get_observation` so that only the cells around and in front of the snake head 
    are returned. 
    (From Environment doc): Represents the RL environment for the Snake game that implements the game logic,
    provides rewards for the agent and keeps track of game statistics.
    """
    def __init__(self, config, verbose=0):
        super().__init__(config, verbose)

    @property
    def observation_shape(self):
        """ Get the shape of the state observed at each timestep. """
        return 8

    def get_observation(self):
        """ 
        Observe the state of the environment. 
        Returns a tuple of 8 elements (x0, x2, ..., x7) where xi stores the state of the
        corresponding position:
        x_0: front_front_left
        x_1: front_front_center
        x_2: front_front_right
        x_3: front_left
        x_4: front_center
        x_5: front_right
        x_6: side_left
        x_7: side_right
        """
        return (0, 0, 0, 0, 0, 0, 0)
    
    def show_field(self):
        return self.field.__str__()

### 1.b Generación de ejemplos de entrenamiento

Para entrenar el modelo de aprendizaje supervisado que controlará al agente necesitamos ejemplos de entrenamiento. Estos ejemplos los vamos a generar con base en el agente que planea que se desarrolló en el [taller 1](https://nbviewer.jupyter.org/github/fagonzalezo/iis-2019-1/blob/master/taller1.ipynb). La idea es que mientras se ejecuta este agente recolectemos observaciones y la acción que se ejecutó a continuación. La acción que se ejecuta a continuación será nuestro atributo de clase. Las percepciones serán nuestros atributos de entrada. Para esto se sugiere modificar el `MasterMindPlanningAgent` desarrollado en el [taller 1](https://nbviewer.jupyter.org/github/fagonzalezo/iis-2019-1/blob/master/taller1.ipynb) de manera que siempre que calcule una acción (método `act`) grabe las 8 características calculadas a partir de la observación y la acción a ejecutar. 

In [None]:
class DataCollectionAgent(AgentBase):
    """ 
    Represents a Snake agent that use planning for calculating an action and records
    the perceptions and corresponding actions.
    """

    def __init__(self):
        pass

    def begin_episode(self):
        pass

    def act(self, observation, reward):
        raise NotImplementedError
    
    def plan(self, observation):
        raise NotImplementedError 

    def end_episode(self):
        pass

### 1.c Entrenamiento del modelo de clasificación

* Divida los ejemplos recolectados en entrenamiento/validación y prueba. 
* Utilice los datos de entrenamiento/validación para explorar los parámetros de un clasificador SVM.
* Utilice los datos de entrenamiento/validación para explorar los parámetros de un clasificador Random Forest.
* Usando los mejores parámetros encontrados pruebe los dos tipos de modelo sobre el conjunto de prueba. Reporte diferentes métricas y matrices de confusión. Discuta los resultados obtenidos.

### 1.d Agente basado en un clasificador

Utilice los modelos creados en el ítem anterior para crear un agente que tome sus decisiones basado en un clasificador. Evalue el desempeño del agente en términos de la longitud máxima que alcanza en diferentes ambientes, de diferentes tamaños, con y sin obstáculos.

In [None]:
class ClassifierBasedAgent(AgentBase):
    """ 
    Represents a Snake agent that use planning for calculating an action and records
    the perceptions and corresponding actions.
    """

    def __init__(self):
        pass

    def begin_episode(self):
        pass

    def act(self, observation, reward):
        raise NotImplementedError
    
    def plan(self, observation):
        raise NotImplementedError 

    def end_episode(self):
        pass

## 2. Agente basado en un clasificador con características avanzadas
Vamos a extender el agente del ítem anterior para que use características más sofisticadas.


- **a)**  Cree una clase `AdvEnvironment` que extienda `Environment` y modifique el método `get_observation` para que retorne diferentes características a partir del campo de juego. Ejemplos de características:
  * Las 8 características del ítem anterior
  * Distancia de la cabeza a la fruta
  * Longitud de la serpiente
  * Distancia de la cabeza a la cola
  * etc.
- **b)** Cree un agente `AdvDataCollectionAgent` que recolecte los ejemplos de entrenamiento.
- **c)** Repita el punto 1.c con las nuevas características
- **d)** Cree un agente `ClassifierBasedAgent` basado en el nuevo clasificador. Evalue el desempeño del agente en términos de la longitud máxima que alcanza en diferentes ambientes, de diferentes tamaños, con y sin obstáculos. Contraste los resultados con los obtenidos con el agente del punto anterior. Discuta.