<img src="imagens/logo_oficial.jpg"/>

# Série Fogo no Parquinho: Valores Ausentes (Missing)

### Importações

In [None]:
# Pacotes Python aqui. 
import pandas as pd
import statistics as st
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score,mean_squared_error

## Declarações de Funções

In [117]:
def treinar_avaliar_resultados(features_x,label_y):
    x_train, x_test, y_train, y_teste = train_test_split(features_x,label_y,test_size = 0.20,random_state = 7)
    print('-------------------------------------------------------------------------------------')
    print('Total da AMOSTRA: ',len(features_x))
    print('Total da AMOSTRA de TREINAMENTO: ',len(x_train))
    print('Total da AMOSTRA de TESTE: ',len(x_test))
    print('-------------------------------------------------------------------------------------')
    print('Iniciando o treinamento do modelo. ')
    clf = tree.DecisionTreeRegressor(random_state = 7)
    clf = clf.fit(x_train, y_train) 
    print('Modelo treinado: ', type(clf))
    print('-------------------------------------------------------------------------------------')
    print('Avaliação das métricas do modelo. ')
    previsoes = clf.predict(x_test)
    print('R2 é : ',r2_score(y_teste, previsoes))
    print('Média de erros ao quadrado é: ',mean_squared_error(y_teste, previsoes))

## Leitura de Base de Dados

In [91]:
pokemons = pd.read_csv('bases/Pokemon.csv')

In [92]:
print('Tamanho total LINHAS: ',len(pokemons))

Tamanho total LINHAS:  800


In [93]:
# Visualizar o tipo de cada dado e nome da coluna
pokemons.dtypes

#              int64
Name          object
Type 1        object
Type 2        object
Total          int64
HP             int64
Attack         int64
Defense        int64
Sp. Atk        int64
Sp. Def        int64
Speed          int64
Generation     int64
Legendary       bool
dtype: object

In [94]:
# Visualizando alguns registros
pokemons.head(5)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False


In [95]:
# Verificando a existência de valores NULOS em qualquer coluna
pokemons.isnull().sum()

#               0
Name            0
Type 1          0
Type 2        386
Total           0
HP              0
Attack          0
Defense         0
Sp. Atk         0
Sp. Def         0
Speed           0
Generation      0
Legendary       0
dtype: int64

## Teste 1: Avaliando o Modelo excluindo todas as linhas se qualquer uma das colunas contiver valor MISSING

In [None]:
# 800 - 386 = 414 restante

In [96]:
# Pode excluir as linnhas ou colunas
# axi s{0 or ‘index’, 1 or ‘columns’}, default 0
pokemons = pokemons.dropna(axis='index')

In [97]:
pokemons.isnull().sum()

#             0
Name          0
Type 1        0
Type 2        0
Total         0
HP            0
Attack        0
Defense       0
Sp. Atk       0
Sp. Def       0
Speed         0
Generation    0
Legendary     0
dtype: int64

In [98]:
print('Tamanho total LINHAS após REMOÇÃO DOS NULOS: ',len(pokemons))

Tamanho total LINHAS após REMOÇÃO DOS NULOS:  414


## Divisão entre FEATURES e LABEL

In [99]:
# Prever o HP do Pókemon. Projeto de regressão.
features_x = pokemons.drop(['Name','HP'], axis = 1)
label_y = pokemons['HP']

In [100]:
features_x

Unnamed: 0,#,Type 1,Type 2,Total,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Grass,Poison,318,49,49,65,65,45,1,False
1,2,Grass,Poison,405,62,63,80,80,60,1,False
2,3,Grass,Poison,525,82,83,100,100,80,1,False
3,3,Grass,Poison,625,100,123,122,120,80,1,False
6,6,Fire,Flying,534,84,78,109,85,100,1,False
...,...,...,...,...,...,...,...,...,...,...,...
795,719,Rock,Fairy,600,100,150,100,150,50,6,True
796,719,Rock,Fairy,700,160,110,160,110,110,6,True
797,720,Psychic,Ghost,600,110,60,150,130,70,6,True
798,720,Psychic,Dark,680,160,60,170,130,80,6,True


In [101]:
label_y

0      45
1      60
2      80
3      80
6      78
       ..
795    50
796    50
797    80
798    80
799    80
Name: HP, Length: 414, dtype: int64

## Tratamento das Variáveis Categóricas. Técnica: One-Hot encoding

In [102]:
features_x = pd.get_dummies(features_x, drop_first = True)
features_x

Unnamed: 0,#,Total,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Type 1_Dark,...,Type 2_Ghost,Type 2_Grass,Type 2_Ground,Type 2_Ice,Type 2_Normal,Type 2_Poison,Type 2_Psychic,Type 2_Rock,Type 2_Steel,Type 2_Water
0,1,318,49,49,65,65,45,1,False,0,...,0,0,0,0,0,1,0,0,0,0
1,2,405,62,63,80,80,60,1,False,0,...,0,0,0,0,0,1,0,0,0,0
2,3,525,82,83,100,100,80,1,False,0,...,0,0,0,0,0,1,0,0,0,0
3,3,625,100,123,122,120,80,1,False,0,...,0,0,0,0,0,1,0,0,0,0
6,6,534,84,78,109,85,100,1,False,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,600,100,150,100,150,50,6,True,0,...,0,0,0,0,0,0,0,0,0,0
796,719,700,160,110,160,110,110,6,True,0,...,0,0,0,0,0,0,0,0,0,0
797,720,600,110,60,150,130,70,6,True,0,...,1,0,0,0,0,0,0,0,0,0
798,720,680,160,60,170,130,80,6,True,0,...,0,0,0,0,0,0,0,0,0,0


In [103]:
# Antes: 11 colunas
features_x.shape

(414, 43)

## Divisão entre Dados de Treino e Teste

In [104]:
x_train, x_test, y_train, y_teste = train_test_split(features_x,label_y,test_size = 0.20,random_state = 7)

In [105]:
print('Tamanho total: ',len(pokemons))
print('Tamanho total do TREINAMENTO: ',len(x_train))
print('Tamanho total do TESTE: ',len(x_test))

Tamanho total:  414
Tamanho total do TREINAMENTO:  331
Tamanho total do TESTE:  83


## Treinamento do Algoritmo

In [112]:
clf = tree.DecisionTreeRegressor(random_state=7)
clf = clf.fit(x_train, y_train)

## Previsões e Avaliação de Resultados

In [114]:
previsoes = clf.predict(x_test)

In [115]:
# R2 é chamado Coeficiente de Determinação. Explica o percentual da variabilidade dos dados da target pode ser explicado pelas FEATURES. 0 - 1
print('R2 é : ',r2_score(y_teste, previsoes))
print('Média de erros ao quadrado é: ',mean_squared_error(y_teste, previsoes))

R2 é :  -0.09138067265436578
Média de erros ao quadrado é:  535.3373493975904


## Teste 2: Avaliando o Modelo com a Imputação de Valores Missing.

In [119]:
# Leitura da base
pokemons = pd.read_csv('bases/Pokemon.csv')

# Imputação de valores nulos.
pokemons = pokemons.fillna('Desconhecido')
print(pokemons.isnull().sum())
print('Tamanho total: ',len(pokemons))

# Definição de features e y
features_x = pokemons.drop(['Name','HP'],axis = 1)
label_y = pokemons['HP']

# Tratamento das variáveis categóricas
features_x = pd.get_dummies(features_x, drop_first = True)

treinar_avaliar_resultados(features_x,label_y)


#             0
Name          0
Type 1        0
Type 2        0
Total         0
HP            0
Attack        0
Defense       0
Sp. Atk       0
Sp. Def       0
Speed         0
Generation    0
Legendary     0
dtype: int64
Tamanho total:  800
-------------------------------------------------------------------------------------
Total da AMOSTRA:  800
Total da AMOSTRA de TREINAMENTO:  640
Total da AMOSTRA de TESTE:  160
-------------------------------------------------------------------------------------
Iniciando o treinamento do modelo. 
Modelo treinado:  <class 'sklearn.tree._classes.DecisionTreeRegressor'>
-------------------------------------------------------------------------------------
Avaliação das métricas do modelo. 
R2 é :  0.5021302130707862
Média de erros ao quadrado é:  353.75


## Teste 3: Avaliando o Modelo com a Imputação de Valores Missing: Média

In [120]:
# Leitura da base
pokemons = pd.read_csv('bases/Pokemon.csv')

# Imputação de valores nulos. Type 2
pokemons = pokemons.fillna('Desconhecido')
print(pokemons.isnull().sum())

# Calculando média para duas variáveis
media_hp = st.mean(pokemons['HP'])
media_total = st.mean(pokemons['Total'])
print('Média HP: ',media_hp)
print('Média Total: ',media_total)

# Simular mais valores nulos
for item in range(0,80):
    pokemons.loc[item,'HP'] = None
    pokemons.loc[item,'Total'] = None

print('Antes da imputação dos valores')
print(pokemons.isnull().sum())

# Substituindo os valores NULOS
pokemons['HP'] = pokemons['HP'].fillna(media_hp)
pokemons['Total'] = pokemons['Total'].fillna(media_total)

# Definição de features e y
features_x = pokemons.drop(['Name','HP'],axis = 1)
label_y = pokemons['HP']

print('Depois da imputação dos valores')
print(pokemons.isnull().sum())

# Tratamento das variáveis categóricas
features_x = pd.get_dummies(features_x, drop_first = True)
treinar_avaliar_resultados(features_x,label_y)

#             0
Name          0
Type 1        0
Type 2        0
Total         0
HP            0
Attack        0
Defense       0
Sp. Atk       0
Sp. Def       0
Speed         0
Generation    0
Legendary     0
dtype: int64
Média HP:  69.25875
Média Total:  435.1025
Antes da imputação dos valores
#              0
Name           0
Type 1         0
Type 2         0
Total         80
HP            80
Attack         0
Defense        0
Sp. Atk        0
Sp. Def        0
Speed          0
Generation     0
Legendary      0
dtype: int64
Depois da imputação dos valores
#             0
Name          0
Type 1        0
Type 2        0
Total         0
HP            0
Attack        0
Defense       0
Sp. Atk       0
Sp. Def       0
Speed         0
Generation    0
Legendary     0
dtype: int64
-------------------------------------------------------------------------------------
Total da AMOSTRA:  800
Total da AMOSTRA de TREINAMENTO:  640
Total da AMOSTRA de TESTE:  160
---------------------------------------

## Teste 4: Avaliando o Modelo com a Imputação de Valores Missing: Mediana

In [122]:
# Leitura da base
pokemons = pd.read_csv('bases/Pokemon.csv')

# Imputação de valores nulos. Type 2
pokemons = pokemons.fillna('Desconhecido')
print(pokemons.isnull().sum())

# Calculando média para duas variáveis
mediana_hp = st.median(pokemons['HP'])
mediana_total = st.median(pokemons['Total'])
print('Mediana HP: ',mediana_hp)
print('Mediana Total: ',mediana_total)

# Simular mais valores nulos
for item in range(0,80):
    pokemons.loc[item,'HP'] = None
    pokemons.loc[item,'Total'] = None

print('Antes da imputação dos valores')
print(pokemons.isnull().sum())

# Substituindo os valores NULOS
pokemons['HP'] = pokemons['HP'].fillna(mediana_hp)
pokemons['Total'] = pokemons['Total'].fillna(mediana_total)

# Definição de features e y
features_x = pokemons.drop(['Name','HP'],axis = 1)
label_y = pokemons['HP']

print('Depois da imputação dos valores')
print(pokemons.isnull().sum())

# Tratamento das variáveis categóricas
features_x = pd.get_dummies(features_x, drop_first = True)
treinar_avaliar_resultados(features_x,label_y)

#             0
Name          0
Type 1        0
Type 2        0
Total         0
HP            0
Attack        0
Defense       0
Sp. Atk       0
Sp. Def       0
Speed         0
Generation    0
Legendary     0
dtype: int64
Mediana HP:  65.0
Mediana Total:  450.0
Antes da imputação dos valores
#              0
Name           0
Type 1         0
Type 2         0
Total         80
HP            80
Attack         0
Defense        0
Sp. Atk        0
Sp. Def        0
Speed          0
Generation     0
Legendary      0
dtype: int64
Depois da imputação dos valores
#             0
Name          0
Type 1        0
Type 2        0
Total         0
HP            0
Attack        0
Defense       0
Sp. Atk       0
Sp. Def       0
Speed         0
Generation    0
Legendary     0
dtype: int64
-------------------------------------------------------------------------------------
Total da AMOSTRA:  800
Total da AMOSTRA de TREINAMENTO:  640
Total da AMOSTRA de TESTE:  160
------------------------------------------

## Teste 5: Avaliando o Modelo com a Remoção das Coluna de Valores Nulos em qualquer coluna

In [123]:
# Leitura da base
pokemons = pd.read_csv('bases/Pokemon.csv')

print('Antes da remoção de COLUNAS com valores NULOS')
print(pokemons.isnull().sum())

# Definição de features e y
features_x = pokemons.drop(['Name','HP','Type 2'],axis = 1)
label_y = pokemons['HP']

print('Após remoção de COLUNAS com valores NULOS')
print(pokemons.isnull().sum())

# Tratamento das variáveis categóricas
features_x = pd.get_dummies(features_x, drop_first = True)
treinar_avaliar_resultados(features_x,label_y)

Antes da remoção de COLUNAS com valores NULOS
#               0
Name            0
Type 1          0
Type 2        386
Total           0
HP              0
Attack          0
Defense         0
Sp. Atk         0
Sp. Def         0
Speed           0
Generation      0
Legendary       0
dtype: int64
Após remoção de COLUNAS com valores NULOS
#               0
Name            0
Type 1          0
Type 2        386
Total           0
HP              0
Attack          0
Defense         0
Sp. Atk         0
Sp. Def         0
Speed           0
Generation      0
Legendary       0
dtype: int64
-------------------------------------------------------------------------------------
Total da AMOSTRA:  800
Total da AMOSTRA de TREINAMENTO:  640
Total da AMOSTRA de TESTE:  160
-------------------------------------------------------------------------------------
Iniciando o treinamento do modelo. 
Modelo treinado:  <class 'sklearn.tree._classes.DecisionTreeRegressor'>
---------------------------------------------