<img src="unicamp.png" width="150" height="150">

## MO444/MC886 - Aprendizado de Máquina e Reconhecimento de Padrões

Esse trabalho foi feito pelos seguintes membros:

- Lucas Zanco Ladeira - 188951
- Rafael Scherer - 204990 

O código original deste projeto está disponível no [repositório do Github](https://github.com/lucaslzl/mo444_p3_genref). 

## Algoritmos Evolutivos e Métodos de Aprendizado por Reforço

### Parte I - Algoritmos Evolutivos

<b>Declaração do problema</b><br>
"Nesta parte, seu grupo deve aplicar uma técnica de computação evolucionária para resolver o problema do Pac-man. O trabalho
consiste em encontrar uma solução adequada para o problema, avaliando-o segundo diversos parâmetros."

### Descrição

A interação entre o agente (pac-man) e o ambiente é feita utilizando a seguinte [ferramenta](http://cs.brynmawr.edu/Courses/cs372/fall2017/Code/search.zip.), com a versão para Python 3. É possível passar como parâmetro o agente a ser utilizado, sendo que, as possíveis ações do agente compreendem os movimentos a serem executados no jogo, sendo eles:
- North
- West
- East
- South
- Stop

A seguir está disponível a implementação do agente, o qual itera a lista de movimentos. Após o último elemento da lista a única ação feita é de <i>Stop</i>.

In [None]:
from search.game import Agent, Directions


class SuperAgent(Agent):


    def __init__(self, moves=None):

        self.moves = moves
        self.iteration = 0


    def getAction(self, state):

        self.iteration += 1

        if  self.iteration < len(self.moves) and self.moves[self.iteration-1] in state.getLegalPacmanActions():
            return self.moves[self.iteration-1]
        else:
            return Directions.STOP

Para interagir com o ambiente e encontrar uma solução, foi escolhido utilizar um algoritmo genético. Considerando as características deste tipo de meta-heurística, agora iremos definir alguns parâmetros e estratégias implementadas.

<b>População</b>

A população é gerada aleatoriamente para explorar o conjunto de soluções possíveis. Cada gene da população compreende 200 movimentos do Pac-man. Portanto, o agente apenas faz alguma ação nos 200 primeiros movimentos, após isso o agente fica parado até que algum fantasma o encontre. O tamanho da população escolhido é de 100 genes. O código a seguir foi utilizado para gerar aleatoriamente os genes.

In [None]:
import numpy as np

MOVES = [Directions.NORTH, Directions.EAST, Directions.SOUTH, Directions.WEST]

def generate_gene(size:int = 200):

    return np.random.choice(MOVES, size)


def generate_population(size:int = 100):

    population = []

    for i in range(size):
        population.append(generate_gene())
    
    return population

<b>Configuração da Ferramenta</b>

É possível utilizar a ferramenta de 2 maneiras, a) chamando o código pelo terminal e passando os parâmetros, b) importando as classes e chamando o método <i>runGames</i> da classe pacman. Escolhemos utilizar com a segunda opção. Sendo assim, para configurar a ferramenta é necessário gerar um dicionário com os parâmetros como é apresentado no código a seguir. É obtido o nome do layout a ser executado, o agente, são criados 4 fantasmas aleatórios, desligada a parte gráfica, entre outras configurações.

In [None]:
def gen_args(layout_name, agent):

    args = {}

    args['layout'] = layout.getLayout(layout_name)
    args['pacman'] = agent
    args['ghosts'] = [RandomGhost(i+1) for i in range(4)]

    args['display'] = textDisplay.NullGraphics()
    args['numGames'] = 1
    args['record'] = False
    args['catchExceptions'] = False
    args['timeout'] = 1

    return args

<b>Função de <i>Fitness</i></b>

Com a população e o dicionário dos parâmetros é possível executar um jogo. Como utilizamos o score dado pela ferramenta, então a execução dos jogos se refere a nossa função <i>fitness</i> (com nome de evaluate no código). O código a seguir descreve a execução considerando cada membro da população e obtenção do score. É retornado apenas 1 score para cada membro da população e esse descreve o avanço do agente dada cada lista de movimentos.

In [None]:
def evaluate(population, maze='tinyMaze'):
    
    scores = []

    for p in population:

        args = gen_args(maze, SuperAgent(p))
        games = runGames(**args)
        score = games[-1].state.getScore()
        scores.append(score)
    
    return scores

<b><i>Loop</i> Principal</b>

Definidas as funções de geração de população, configuração e <i>fitness</i>, agora será apresentado o <i>loop</i> principal e as funções que geram uma nova população a cada iteração. A função <i>run</i> recebe como parâmetro o nome do labirinto e qual é a iteração (quantidade de execuções do experimento) para gerar arquivos distintos. Primeiramente é gerada uma nova população e criado um dicionário para armazenar os resultados. Então, o loop é executado 100 vezes. A biblioteca <i>tqdm</i> cria uma barra de carregamento para ajudar a acompanhar a execução. A função <i>evaluate</i> já foi apresentada. A próxima função salva os scores no dicionário <i>history</i>. As próximas 4 funções fazem a seleção, crossover, mutação e replacement para gerar uma nova população. Por fim, após é obtido o melhor gene da última população e os resultados são salvos.

In [None]:
def run(maze, iteration):

    population = generate_population()
    history = {
        'mini': [],
        'maxi': [],
        'mean': [],
        'scores': []
    }
    
    for i in tqdm(range(100)):

        scores = evaluate(population, maze)
        history = get_stats(history, scores)

        psel = select(population, scores)
        pcro = crossover(population)
        pmut = mutation(population)
        prep = replacement(population, psel, pcro, pmut)
        
        population = prep

    history['best'] = get_best(population, scores)
    save_history(history, maze, iteration)

<b>Select</b>

The select function has the goal to obtain the top <i>x</i> genes of the population according to the score. So, first <i>qty</i> stores how many elements should be selected. Then, we sort the list and select the elements.

In [None]:
def select(population, scores):
    
    # Get how many elements will be selected
    qty = int(len(population)*BEST_RATE)
    
    # Get top qty elements from list
    # Ref: https://stackoverflow.com/questions/13070461/get-indices-of-the-top-n-values-of-a-list
    indexes = sorted(range(len(scores)), key=lambda i: scores[i], reverse=True)[:qty]
    selected = np.array(population)[indexes].tolist()

    return selected

<b>Crossover</b>

The crossover function has the goal to obtain the top <i>x</i> genes of the population according to the score and make crossover transformation. The crossover implemented selects pairs of genes and a split position to create new genes. A <i>new_x</i> gene comprehends the first gene of the pair from the start to the split position, and the second gene from the split position to the end. A <i>new_y</i> goes through the same transformation but it uses the second gene of the pair from the start to the split position and the first gene from the split position to the end of the gene. The crossover occurs $\frac{qty}{2}$ times. And generates <i>qty</i> new genes.

In [None]:
def crossover(population):

    # Get how many elements will be selected
    qty = int(len(population)*CROSSOVER_RATE)

    crossed = []

    # Get two random elements and apply crossover
    for i in range(qty//2):

        # Get two random indexes
        x = random.randrange(len(population))
        y = random.randrange(len(population))

        # Get random genes
        x = population[x]
        y = population[y]

        # Get crossover split position
        split = random.randrange(len(x))
        new_x = np.array(x)[:split].tolist() + np.array(y)[split:].tolist()
        new_y = np.array(y)[:split].tolist() + np.array(x)[split:].tolist()

        crossed.append(new_x)
        crossed.append(new_y)

    return crossed

<b>Mutation</b>

The mutation function has the goal to obtain the top <i>x</i> genes of the population according to the score and make mutations. A mutation comprehends to select a random gene, select randomly a position of the gene, and change to a random move.

In [None]:
def mutation(population):
    
    # Get how many elements will be selected
    qty = int(len(population)*MUTATION_RATE)

    mutated = []

    for i in range(qty):
        
        # Get a random index
        x = random.randrange(len(population))

        # Get random gene
        x = population[x]

        sel_move = np.random.choice(MOVES, 1)[0]
        sel_pos = random.randrange(len(x))

        x[sel_pos] = sel_move

        mutated.append(x)

    return mutated

<b>Replacement</b>

The replacement function has the goal to create the new population with the genes that were obtained from select, crossover and mutation. In addition, it adds randomly selected genes to fill the population until the size.

In [None]:
def replacement(population, psel, pcro, pmut):
    
    replaced = []

    replaced.extend(psel)
    replaced.extend(pcro)
    replaced.extend(pmut)

    qty = int(len(population)*REPLACEMENT_RATE)
    rep = np.random.choice(len(population), qty)

    rep = np.array(population)[rep].tolist()

    replaced.extend(rep)

    return replaced

<b>Definições</b>

No enunciado do trabalho foi mencionada a necessidade de definir claramente algumas características da solução. Essas características e suas definições são:

- O modelo evolutivo adotado: algoritmo genético.
- Variações nos parâmetros: mapa utilizado e tamanho da população.
- Função de Fitness adotada: score resultante dado pela ferramenta.
- Tamanho da população: 100 e 10.
- Critério de parada: até atingir o fim do jogo.
- Técnica de seleção: 40% genes mais bem avaliados.
- Técnica de crossover: corte na lista de ações e troca.
- Técnica de mutação: escolhe movimento aleatório e troca por outro.
- Método de replacement: 20% da população aleatoriamente.
- Taxa de mutação: 20%.
- Taxa de crossover: 20%.

### Metodologia

A solução foi executada para populações de tamanho 100 e 10, com os seguintes labirintos e quantidade de iterações:
- smallClassic (10x)
- mediumClassic (3x)
- originalClassic (2x)

Como para os mapas maiores a solução demora mais de 6 horas por iteração, elas foram executadas um menor número de vezes.

### Resultados

<b>Considerações Finais</b>

## Contribuições
<br>
O membro do grupo <b>Lucas Zanco Ladeira</b> contribuiu com toda a implementação, validação e escrita da parte I deste trabalho.

O membro do grupo <b>Rafael Scherer</b> contribuiu com toda a implementação, validação e escrita da parte II deste trabalho.