# Pokémon
### Trabalho da Udacity Brasil

**Aluno:** Paulo Vitor Pereira Cotta

A proposta do trabalho é executar processos onde os pokémons possam batalhar entre rodadas, sendo que cada treinador possa escolher apenas um pokémon.

A ideia é saber em que cada rodada qual Pokémon possa vencer.

O DataSet escolhido foi retirado da plataforma Kaggle, conforme link a seguir: https://www.kaggle.com/terminus7/pokemon-challenge/kernels.

**Segue uma introdução sobre o local que será utilizado:
Kanto (em japonês: カントー地方, Kantō-chihō) é um país ou região fictícia, da série Pokémon. Sua geografia é baseada na região de Kanto, uma região da ilha de Honshu, no Japão, de onde vem seu nome. A semelhança entre as formações de baía vistas no mapa do jogo e as formações reais de Sagami Bay, Suruga Bay e a Baía de Tokyo é particularmente impressionante.
Kanto localiza-se a leste de Johto; presumivelmente, eles formam um pequeno continente.
Fonte: Wikipédia: https://pt.wikipedia.org/wiki/Kanto_(Pok%C3%A9mon)**

In [79]:
import numpy as np
import pandas as pd

import sklearn
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

pokemon = pd.read_csv('pokemon.csv')

# Impressão de alguns dados do DataSet pokemon.csv
pokemon.head()

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,4,Mega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,5,Charmander,Fire,,39,52,43,60,50,65,1,False


Agora o problema em nossa mão é que, dado alguns recursos sobre cada Pokemon, como seu ataque, defesa ou seu valor de velocidade, etc, precisamos prever o vencedor de uma batalha Pokemon aleatória que nunca ocorreu antes.

In [2]:
# Verificar typer e NaNs

pokemon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 12 columns):
#             800 non-null int64
Name          799 non-null object
Type 1        800 non-null object
Type 2        414 non-null object
HP            800 non-null int64
Attack        800 non-null int64
Defense       800 non-null int64
Sp. Atk       800 non-null int64
Sp. Def       800 non-null int64
Speed         800 non-null int64
Generation    800 non-null int64
Legendary     800 non-null bool
dtypes: bool(1), int64(8), object(3)
memory usage: 69.6+ KB


Um conjunto de dados é a coleta de grande quantidade de dados sobre um tópico específico. Este conjunto de dados nos fornece informações como os Pontos de Vida, ataque, Defesa Especial e tempo em que o Pokémon é lendário **TRUE** ou não **FALSE**. A tabela acima mostra os dados dos primeiros 5 Pokemon, mas há um total de 800 Pokemon (significa 800 linhas) no conjunto de dados.

In [3]:
pd.value_counts(pokemon['Legendary'])

False    735
True      65
Name: Legendary, dtype: int64

In [4]:
# Combate dos pokémons

combat = pd.read_csv('combats.csv')

combat.head()

Unnamed: 0,First_pokemon,Second_pokemon,Winner
0,266,298,298
1,702,701,701
2,191,668,668
3,237,683,683
4,151,231,151


In [5]:
# Combate 

cols = ["First_pokemon","Second_pokemon","Winner"]
new_combat_data=combat[cols].replace(pokemon.Name)
new_combat_data.head()

Unnamed: 0,First_pokemon,Second_pokemon,Winner
0,Pupitar,Shiftry,Shiftry
1,Tornadus Incarnate Forme,Virizion,Virizion
2,Natu,Litwick,Litwick
3,Magcargo,Golett,Golett
4,Kabuto,Heracross,Kabuto


In [80]:
# Teste Winner

# Troca o true e false por números booleans 0 = false e 1 = true
combat.Winner[combat.Winner == combat.First_pokemon] = 0
combat.Winner[combat.Winner == combat.Second_pokemon] = 1

In [81]:
# Normalização dos dados

##########################################
# Processo de normalização dos dados a partir das colunas definidas
##########################################
def normalization(data_df):
    stats=["HP","Attack","Defense","Sp. Atk","Sp. Def","Speed","Legendary"]
    stats_df=pokemon[stats].T.to_dict("list")
    one=data_df.First_pokemon.map(stats_df)
    two=data_df.Second_pokemon.map(stats_df)
    temp_list=[]
    for i in range(len(one)):
        temp_list.append(np.array(one[i])-np.array(two[i]))
    new_test = pd.DataFrame(temp_list, columns=stats)
    for c in stats:
        description=new_test[c].describe()
        new_test[c]=(new_test[c]-description['min'])/(description['max']-description['min'])
    return new_test

In [82]:
# Normaliza

data = normalization(combat)
data = pd.concat([data,combat.Winner], axis=1)

# Evitar as colunas NaNs
data.dropna().head()
data.dropna(axis=1).head()

# Evitar as colunas NaNs
# Trata as mesmas com zero
data['HP']=data['HP'].fillna(0)
data['Attack']=data['Attack'].fillna(0)
data['Defense']=data['Defense'].fillna(0)
data['Sp. Atk']=data['Sp. Atk'].fillna(0)
data['Sp. Def']=data['Sp. Def'].fillna(0)
data['Speed']=data['Speed'].fillna(0)
data['Legendary']=data['Legendary'].fillna(0)
data['Winner']=data['Winner'].fillna(0)

print(data)

             HP    Attack   Defense   Sp. Atk   Sp. Def     Speed  Legendary  \
0      0.448052  0.440000  0.523256  0.449153  0.518072  0.429412        0.5   
1      0.465368  0.557143  0.495349  0.618644  0.375904  0.523529        0.5   
2      0.469697  0.542857  0.476744  0.533898  0.469880  0.661765        0.5   
3      0.471861  0.417143  0.662791  0.646893  0.566265  0.500000        0.5   
4      0.383117  0.357143  0.534884  0.562147  0.373494  0.426471        0.5   
5      0.474026  0.557143  0.500000  0.615819  0.481928  0.764706        0.5   
6      0.491342  0.462857  0.530233  0.519774  0.457831  0.485294        0.5   
7      0.339827  0.428571  0.430233  0.322034  0.397590  0.382353        0.0   
8      0.500000  0.534286  0.620930  0.350282  0.424096  0.458824        0.5   
9      0.491342  0.371429  0.604651  0.505650  0.469880  0.382353        0.5   
10     0.480519  0.485714  0.418605  0.350282  0.385542  0.411765        0.5   
11     0.562771  0.600000  0.330233  0.5

In [9]:
# Labels

x_label = data.drop("Winner",axis=1)
y_label = data["Winner"]

## Decision Trees

![alt text](http://i.imgur.com/FDwpwFJ.jpg "Árvore Pokémon")

Suponha que temos uma tarefa de prever o animal com base nas características como tipo, altura, peso ou velocidade do animal. Esta tarefa pode ser facilmente modelada usando uma árvore de decisão. Então, em cada ponto da árvore de decisão, fazemos uma pergunta e, dependendo da resposta, dividimos a árvore em sub-árvores. Este processo é repetido até prevermos um animal. Assim, dado um conjunto de dados, um Classificador de Árvore de Decisão fará as perguntas certas (aumentando o Ganho de Informações) em cada ponto, de modo a dividir a árvore de forma a aumentar a confiança para cada previsão (aumentando a pureza do resultado).

Como as florestas são uma coleção de árvores, o Random Forest Classifier usa várias árvores de decisão e, finalmente, combina os resultados de cada árvore de decisão para prever seu resultado final.

Por fim, foi criado um classificador de floresta aleatório da seguinte maneira. Os n_estimators fornecem o Número de árvores de decisão valor=100 usados para fazer a floresta.

In [10]:
# Treino

from sklearn.model_selection import train_test_split

# Tratamento de NaN
np.isnan(x_label.any())
np.isnan(x_label.any())

# Tratamento de Finite
np.isfinite(y_label.all())
np.isfinite(y_label.all())

x_train, x_test, y_train, y_test = train_test_split(x_label, y_label, test_size=0.25, random_state=42)

#### Floresta com 100 árvores de decisão

Reiterando a tarefa, dois Pokemon com seu conjunto de recursos (velocidade, ataque, etc) qual deles vai ganhar.

O treinamento do classificador no conjunto de dados de Pokémon (ou seja, x_train) e minimizamos a perda entre os valores previstos e reais (y_train) no conjunto de treinamento. Treinar aqui significa encontrar as relações entre os diferentes recursos do conjunto de dados para fazer previsões.

Em seguida, calculamos a precisão de nosso classificador, que é de 65% (significa que nosso classificador irá prever resultados corretos para 95 de 100 partidas), o que é uma boa precisão para começar.

Até agora, concluímos todas as etapas necessárias desde a criação de um classificador até o treinamento e agora será testado efetuando uma batalha Pokémon.

In [85]:
# Saída da Acurácia do treino

print('Versão do SKLearn {}.'.format(sklearn.__version__))

clf = RandomForestClassifier(n_estimators=100)
model = clf.fit(x_train, y_train)
pred = model.predict(x_test)
print('Acurácia de = ', accuracy_score(pred, y_test)*100) # Teste inicial 65% de acurácia

Versão do SKLearn 0.20rc1.
Acurácia de =  65.24


In [17]:
# Testes

test_data=pd.read_csv('tests.csv')

test_data.head()

Unnamed: 0,First_pokemon,Second_pokemon
0,129,117
1,660,211
2,706,115
3,195,618
4,27,656


In [19]:
# Verificando os NaNs

test_data.info()

test_data['First_pokemon'] = test_data['First_pokemon'].fillna(0)
test_data['Second_pokemon'] = test_data['Second_pokemon'].fillna(0)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 2 columns):
First_pokemon     10000 non-null int64
Second_pokemon    10000 non-null int64
dtypes: int64(2)
memory usage: 156.3 KB


In [20]:
new_test_data=test_data[["First_pokemon","Second_pokemon"]].replace(pokemon.Name)

new_test_data['First_pokemon'] = new_test_data['First_pokemon'].fillna(0)
new_test_data['Second_pokemon'] = new_test_data['Second_pokemon'].fillna(0)

new_test_data.head()

Unnamed: 0,First_pokemon,Second_pokemon
0,Staryu,Koffing
1,Klink,Espeon
2,Reshiram,Hitmonchan
3,Ampharos,Dwebble
4,Fearow,Joltik


In [23]:
# Processo preditivo normalização

final_data = normalization(test_data)

final_data.head()

Unnamed: 0,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Legendary
0,0.47806,0.454545,0.390244,0.537037,0.530864,0.640625,0.5
1,0.443418,0.484848,0.512195,0.243827,0.419753,0.234375,0.5
2,0.616628,0.560606,0.539024,0.861111,0.530864,0.528125,1.0
3,0.593533,0.545455,0.487805,0.753086,0.641975,0.484375,0.5
4,0.535797,0.645455,0.52439,0.518519,0.533333,0.59375,0.5


In [25]:
final_data.info()

final_data['HP'] = final_data['HP'].fillna(0)
final_data['Attack'] = final_data['Attack'].fillna(0)
final_data['Defense'] = final_data['Defense'].fillna(0)
final_data['Sp. Atk'] = final_data['Sp. Atk'].fillna(0)
final_data['Sp. Def'] = final_data['Sp. Def'].fillna(0)
final_data['Speed'] = final_data['Speed'].fillna(0)
final_data['Legendary'] = final_data['Legendary'].fillna(0)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 7 columns):
HP           9981 non-null float64
Attack       9981 non-null float64
Defense      9981 non-null float64
Sp. Atk      9981 non-null float64
Sp. Def      9981 non-null float64
Speed        9981 non-null float64
Legendary    9981 non-null float64
dtypes: float64(7)
memory usage: 547.0 KB


In [83]:
# Preditivo

pred = model.predict(final_data)
# Processo de avaliação dos dados e direcionar qual pokémon é o vencedor
test_data["Winner"] = [test_data["First_pokemon"][i] if pred[i]==0 else test_data["Second_pokemon"][i] for i in range(len(pred))]

#### Processo explicativo da predição

As duas colunas correspondem aos Pokémon que vão competir. Será alimentado esses dois Pokemon no classificador e ele retornará o vencedor mais provável para essa batalha. Lembre-se de que o classificador não está apenas predizendo aleatoriamente o vencedor. Na verdade, ele está analisando vários parâmetros cuidadosamente para chegar à decisão correta.

In [84]:
# Avaliando vencedores
import random

combats_name = test_data[cols].replace(pokemon.Name)

# Recupero o e faço um random para impressão dos dados dos pokémons
print(random.randint(0, len(combats_name)))

combats_name[0:random.randint(0,total)]

1568


Unnamed: 0,First_pokemon,Second_pokemon,Winner
0,Staryu,Koffing,Staryu
1,Klink,Espeon,Espeon
2,Reshiram,Hitmonchan,Reshiram
3,Ampharos,Dwebble,Dwebble
4,Fearow,Joltik,Fearow
5,Seadra,Gligar,Gligar
6,Monferno,Sunflora,Monferno
7,Chansey,Nidoqueen,Chansey
8,Cyndaquil,Gothorita,Cyndaquil
9,Pelipper,Rufflet,Rufflet


## Conclusão

Foi visto que um problema bem básico que pode ser resolvido usando o Machine Learning. Os conceitos abordados neste trabalho formam a base da maioria das abordagens de Machine Learning. A explicação dos conceitos da maneira mais simples, para que possa ter uma compreensão justa de como o Machine Learning funciona e pode ser usado no mundo real.