# Sokoban

En aquesta pràctica desenvoluparem un agent capaç de resoldre el joc Sokoban. El joc consisteix en un tauler de caselles quadrades en el qual hi ha un robot, un conjunt de caixes i un conjunt de posicions d'emmagatzematge. El robot pot moure's en les quatre direccions cardinals i pot arrossegar una caixa si aquesta es troba en una casella adjacent al robot. L'objectiu del joc és arrossegar totes les caixes a les posicions d'emmagatzematge.

<img src="https://lawer.github.io/mia/apunts/3.-Búsqueda en espai d'estats/graf.png" width="75%">

Si no coneixes el joc Sokoban, pots jugar-hi en línia a [Sokoban Online](http://www.sokobanonline.com/play).

## Exercici 1

Implementa la classe `SokobanState` que representa un estat del joc Sokoban. La classe ha de tenir els següents atributs:
- `action`: L'acció que s'ha aplicat per arribar a l'estat. L'estat inicial té l'acció "START".
- `cost`: El cost de l'acció que s'ha aplicat per arribar a l'estat. L'estat inicial té cost 0.
- `parent`: L'estat pare de l'estat actual. L'estat inicial no té estat pare.
- `width`: L'amplada del tauler. Per defecte, el tauler té 5 caselles d'ample.
- `height`: L'altura del tauler. Per defecte, el tauler té 5 caselles d'alt.
- `robots`: La posició dels robots. Per defecte, hi ha un únic robot a la posició (0, 0).
- `boxes`: La posició de les caixes. Per defecte, hi ha una única caixa a la posició (0, 0).
- `storage`: La posició de les posicions d'emmagatzematge. Per defecte, hi ha una única posició d'emmagatzematge a la posició (0, 0).
- `obstacles`: La posició dels obstacles. Per defecte, no hi ha obstacles.
- `__str__`: Representació gràfica de l'estat del problema. Mostra els robots com a 'R', les caixes com a 'B', les posicions d'emmagatzematge com a 'S' i els obstacles com a 'O'. Les parets i els límits del tauler es mostren com a '#'.
- `__hash__`: Retorna un hash de l'estat. Necessari per a poder utilitzar l'estat com a clau d'un diccionari.
- `__lt__`: Retorna si el cost de l'estat actual és menor que el cost d'un altre estat.
- `__eq__`: Retorna si l'estat actual és igual a un altre estat.

## Exercici 2
Utilitzant com a base la classe `Problema`, implementa la classe `ProblemaSokoban` que representa un problema de Sokoban. Hauràs de sobrescriure, com a mínim, els següents mètodes: 
- `accions`: Retorna les accions possibles per a un estat. Les accions es representen com una tupla (robot, direcció).
- `accio`: Retorna l'estat que resulta d'aplicar una acció a un estat.
- `es_resultat`: Retorna si un estat és un estat final. Un estat és final si totes les caixes estan en una posició d'emmagatzematge.

In [41]:
class Problema(object):
    """Aquesta és la classe abstracta per a un problema formal. Una nova àrea crea una subclasse d'aquesta, sobrescrivint `accions` i `accio`, i potser altres mètodes.
    L'heurística per defecte és 0 i el cost d'acció per defecte és 1 per a tots els estats.
    Quan crees una instància d'una subclasse, especifica els estats `inicial` i `final`
    (o proporciona un mètode `es_resultat`) i potser altres arguments de paraula clau per a la subclasse."""

    def __init__(self, inicial=None, final=None, **kwds):
        self.__dict__.update(inicial=inicial, final=final, **kwds)

    def accions(self, state):         raise NotImplementedError

    def accio(self, state, action):   raise NotImplementedError

    def es_resultat(self, state):     return state == self.final

    def cost_accio(self, s, a, s1):   return 1

    def h(self, estat):               return 0

    def __str__(self):
        return '{}({!r}, {!r})'.format(
            type(self).__name__, self.inicial, self.final)

## Exercici 3

Implementa l'algorisme `UCS` per a resoldre un problema de Sokoban. L'algorisme ha de retornar l'estat final, el cost de l'estat final i la ruta per arribar a l'estat final. La ruta és una llista d'estats que comença en l'estat inicial i acaba en l'estat final. Si no es pot arribar a l'estat final, l'algorisme ha de retornar `None` per a tots els valors.

Utilitza l'algorisme `UCS` per a resoldre el següent problema de Sokoban:

In [43]:
inicial = SokobanState(
    "START", 0, None, 5, 5,  # dimensions
    ((2, 1), (2, 3)),  # robots
    frozenset(((1, 1),)),  # boxes
    frozenset(((0, 0),)),  # storage
    frozenset(((1, 0), (2, 0), (3, 0), (1, 4), (2, 4), (3, 4)))  # obstacles
)
soko = ProblemaSokoban(inicial)

## Exercici 4

Pensa una heurística que sigui admissible per a un problema de Sokoban i implementa-la.

Implementa l'algorisme `Greedy` per a resoldre un problema de Sokoban. L'algorisme ha de retornar l'estat final, el cost de l'estat final i la ruta per arribar a l'estat final. La ruta és una llista d'estats que comença en l'estat inicial i acaba en l'estat final. Si no es pot arribar a l'estat final, l'algorisme ha de retornar `None` per a tots els valors.

Utilitza l'algorisme `Greedy` per a resoldre el mateix problema de Sokoban:

In [44]:
inicial = SokobanState(
    "START", 0, None, 5, 5,  # dimensions
    ((2, 1), (2, 3)),  # robots
    frozenset(((1, 1),)),  # boxes
    frozenset(((0, 0),)),  # storage
    frozenset(((1, 0), (2, 0), (3, 0), (1, 4), (2, 4), (3, 4)))  # obstacles
)
soko = ProblemaSokoban(inicial)

Estats visitats Greedy: 14
Cost: 4
🚧🚧🚧🚧🚧🚧🚧
🚧❌🚧🚧🚧⬜🚧
🚧⬜📦🤖⬜⬜🚧
🚧⬜⬜⬜⬜⬜🚧
🚧⬜⬜🤖⬜⬜🚧
🚧⬜🚧🚧🚧⬜🚧
🚧🚧🚧🚧🚧🚧🚧


🚧🚧🚧🚧🚧🚧🚧
🚧❌🚧🚧🚧⬜🚧
🚧📦🤖⬜⬜⬜🚧
🚧⬜⬜⬜⬜⬜🚧
🚧⬜⬜🤖⬜⬜🚧
🚧⬜🚧🚧🚧⬜🚧
🚧🚧🚧🚧🚧🚧🚧


🚧🚧🚧🚧🚧🚧🚧
🚧❌🚧🚧🚧⬜🚧
🚧📦⬜⬜⬜⬜🚧
🚧⬜🤖⬜⬜⬜🚧
🚧⬜⬜🤖⬜⬜🚧
🚧⬜🚧🚧🚧⬜🚧
🚧🚧🚧🚧🚧🚧🚧


🚧🚧🚧🚧🚧🚧🚧
🚧❌🚧🚧🚧⬜🚧
🚧📦⬜⬜⬜⬜🚧
🚧🤖⬜⬜⬜⬜🚧
🚧⬜⬜🤖⬜⬜🚧
🚧⬜🚧🚧🚧⬜🚧
🚧🚧🚧🚧🚧🚧🚧


🚧🚧🚧🚧🚧🚧🚧
🚧📦🚧🚧🚧⬜🚧
🚧🤖⬜⬜⬜⬜🚧
🚧⬜⬜⬜⬜⬜🚧
🚧⬜⬜🤖⬜⬜🚧
🚧⬜🚧🚧🚧⬜🚧
🚧🚧🚧🚧🚧🚧🚧


## Exercici 5

Implementa l'algorisme `A*` per a assegurar que obtenin la ruta òptima. Compara el tamany de la ruta, els estats visitats i el temps d'execució amb l'algorisme `Greedy` amb els següents problemes de Sokoban:

(Nota: Pots utilitzar la funció `time.time()` per a calcular el temps d'execució d'un algorisme.)

In [46]:
estat_facil = SokobanState(
    "START", 0, None, 5, 5,  # dimensions
    ((2, 1), (2, 3)),  # robots
    frozenset(((1, 1),)),  # boxes
    frozenset(((0, 0),)),  # storage
    frozenset(((1, 0), (2, 0), (3, 0), (1, 4), (2, 4), (3, 4)))  # obstacles
)

soko_facil = ProblemaSokoban(estat_facil)

estat_mitja = SokobanState(
    "START", 0, None, 6, 4,  # dimensions
    ((2, 1), (2, 2)),  # robots
    frozenset(((1, 1), (4, 2))),  # boxes
    frozenset(((2, 1), (2, 2))),  # storage
    frozenset()  # obstacles
)

soko_mitja = ProblemaSokoban(estat_mitja)

estat_dificil = SokobanState(
    "START", 0, None, 6, 6,  # dimensions
    ((0, 0), (0, 2), (0, 4)),  # robots
    frozenset(((1, 0), (1, 2), (1, 4))),  # boxes
    frozenset(((5, 0), (5, 2), (0, 5))),  # storage
    frozenset()  # obstacles
)

soko_dificil = ProblemaSokoban(estat_dificil)

In [None]:
# Si els temps d'execució són molt elevats amb A* pots parar l'execució i tornar més endavant, quan farem millores a l'algorisme.

final, cost, ruta = greedy(soko_facil)
print("Cost Greedy:", len(ruta) - 1)

final, cost, ruta = a_star(soko_facil)
print("Cost A*:", len(ruta) - 1)

final, cost, ruta = greedy(soko_mitja)
print("Cost Greedy:", len(ruta) - 1)

final, cost, ruta = a_star(soko_mitja)
print("Cost A*:", len(ruta) - 1)

final, cost, ruta = greedy(soko_dificil)
print("Cost Greedy:", len(ruta) - 1)

final, cost, ruta = a_star(soko_dificil)
print("Cost A*:", len(ruta) - 1)


## Exercici 6

Que has observat? Quin algorisme és més eficient en qüestió de temps i estats visitats? Troba la solució òptima sempre? Per què?

## Exercici 7

L'últim exemple pot resultar molt lent. Una de les causes és que, al tindre molt d'espai lliure, l'heurística no és molt informativa. Tenim molts estats que són igual de bons candidats per a ser l'estat final i l'algorisme `A*` ha d'explorar molts d'aquests estats.

Per solucionar aquest problema, podem utilitzar el `tie breaking`. Aquesta tècnica consisteix en afegir un factor de desempat a la funció d'heurística. D'aquesta manera, si dos estats tenen la mateixa heurística, l'algorisme `A*` explorarà primer l'estat amb el factor de desempat més gran. 

Utilitza l'algorisme `A*` millorat per tindre una solució a `soko_dificil`.

In [54]:
estat, cost, ruta = a_star_millorat(soko_dificil)
print("Cost A* millorat:", len(ruta) - 1)

Estats visitats A*: 11831
Cost A* millorat: 14
