In [106]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns
import plotly.express as px
from ydata_profiling import ProfileReport
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.tree import DecisionTreeClassifier




In [86]:
path = 'pokemons.csv'
df = pd.read_csv(path)

In [87]:
df

Unnamed: 0,Nome,Tipo,Habilidades,Geração
0,Bulbasaur,"Planta, Venenoso","Raio Solar, Veneno Ácido",Primeira
1,Ivysaur,"Planta, Venenoso","Raio Solar, Veneno Ácido",Primeira
2,Venusaur,"Planta, Venenoso","Raio Solar, Veneno Ácido",Primeira
3,Charmander,Fogo,"Chama, Investida de Fogo",Primeira
4,Charmeleon,Fogo,"Chama, Investida de Fogo",Primeira
...,...,...,...,...
1242,Cursola,Fantasma,"Bola Sombria, Confusão",Oitava
1243,Runerigus,"Fantasma, Terra","Bola Sombria, Terremoto",Oitava
1244,Stonjourner,Rocha,"Pedra Afiada, Investida",Oitava
1245,Eiscue,Gelo,"Raio de Gelo, Tumulto",Oitava


In [88]:
df.head()

Unnamed: 0,Nome,Tipo,Habilidades,Geração
0,Bulbasaur,"Planta, Venenoso","Raio Solar, Veneno Ácido",Primeira
1,Ivysaur,"Planta, Venenoso","Raio Solar, Veneno Ácido",Primeira
2,Venusaur,"Planta, Venenoso","Raio Solar, Veneno Ácido",Primeira
3,Charmander,Fogo,"Chama, Investida de Fogo",Primeira
4,Charmeleon,Fogo,"Chama, Investida de Fogo",Primeira


In [89]:
profile = ProfileReport(df, title = 'Pokemon data-base', explorative = True)
profile.to_file('pokemon_report.html')
profile.to_widgets()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Render widgets:   0%|          | 0/1 [00:00<?, ?it/s]

VBox(children=(Tab(children=(Tab(children=(GridBox(children=(VBox(children=(GridspecLayout(children=(HTML(valu…

In [90]:
df.drop_duplicates(inplace = True)

In [91]:
df[df['Nome'] == 'Indeedee']

Unnamed: 0,Nome,Tipo,Habilidades,Geração
803,Indeedee,"Psíquico, Normal","Confusão, Investida",Quarta
1145,Indeedee,"Psíquico, Normal","Confusão, Desejo",Oitava


In [92]:
df.isnull().sum()

Nome           0
Tipo           0
Habilidades    0
Geração        0
dtype: int64

In [93]:
df['Tipo'].value_counts()

Tipo
Água                 78
Normal               78
Planta               56
Psíquico             49
Fogo                 40
                     ..
Noturno, Normal       1
Psíquico, Gelo        1
Elétrico, Sombrio     1
Elétrico, Dragão      1
Voador, Aço           1
Name: count, Length: 209, dtype: int64

In [94]:
grafico = px.treemap(df, path =['Tipo'])
grafico

In [95]:
grafico = px.treemap(df,  path = ['Geração','Tipo','Nome'])
grafico

In [96]:
grafico = px.treemap(df, path = [ 'Tipo', 'Habilidades'])
grafico

In [97]:
mlb = MultiLabelBinarizer()

In [98]:
x = mlb.fit_transform(df['Habilidades'].str.split(', '))
y = mlb.classes_

In [99]:
x_train, x_test, y_train, y_test = train_test_split(x, df['Tipo'], test_size = 0.3, random_state = 42)

In [107]:
model = DecisionTreeClassifier(random_state= 42)
model.fit(x_train, y_train)

In [108]:
previsoes = model.predict(x_test)
previsoes

array(['Normal, Voador', 'Gelo, Terrestre', 'Aço, Fantasma',
       'Fantasma, Fogo', 'Normal, Fada', 'Noturno, Psíquico',
       'Planta, Venenoso', 'Normal', 'Fogo', 'Normal', 'Fada', 'Fantasma',
       'Inseto', 'Aço, Fada', 'Venenoso', 'Fantasma', 'Água, Terrestre',
       'Rocha', 'Inseto', 'Elétrico', 'Normal, Voador', 'Fogo',
       'Pedra, Voador', 'Água', 'Inseto, Elétrico', 'Aço, Fantasma',
       'Água', 'Psíquico', 'Inseto, Rocha', 'Lutador', 'Elétrico', 'Gelo',
       'Normal', 'Elétrico', 'Fogo, Sombrio', 'Rocha, Psíquico', 'Terra',
       'Normal, Voador', 'Terrestre', 'Água', 'Fogo', 'Água',
       'Inseto, Elétrico', 'Planta, Psíquico', 'Normal, Voador', 'Planta',
       'Inseto', 'Normal', 'Fogo', 'Inseto', 'Água, Gelo',
       'Lutador, Fantasma', 'Lutador', 'Sombrio, Metal', 'Água, Elétrico',
       'Normal', 'Gelo', 'Fantasma', 'Terrestre', 'Normal, Psíquico',
       'Terrestre', 'Planta', 'Noturno', 'Normal, Voador', 'Normal',
       'Água, Noturno', 'Planta', 'In

In [109]:
y_test

626        Normal, Voador
220       Gelo, Terrestre
678         Aço, Fantasma
930        Fantasma, Fogo
174                  Fada
              ...        
528             Terrestre
1074         Água, Inseto
394           Água, Metal
453     Venenoso, Lutador
983     Normal, Terrestre
Name: Tipo, Length: 352, dtype: object

In [110]:
print(accuracy_score(y_test, previsoes))

0.6306818181818182


In [111]:
print(classification_report(y_test, previsoes))

                     precision    recall  f1-score   support

                Aço       0.00      0.00      0.00         0
        Aço, Dragão       0.00      0.00      0.00         1
          Aço, Fada       0.00      0.00      0.00         0
      Aço, Fantasma       0.50      1.00      0.67         1
             Dragão       0.44      1.00      0.62         4
   Dragão, Elétrico       0.50      1.00      0.67         1
   Dragão, Fantasma       0.67      1.00      0.80         2
       Dragão, Fogo       1.00      1.00      1.00         1
      Dragão, Metal       0.00      0.00      0.00         1
   Dragão, Psíquico       1.00      1.00      1.00         1
  Dragão, Terrestre       0.00      0.00      0.00         1
     Dragão, Voador       1.00      1.00      1.00         1
           Elétrico       0.65      0.92      0.76        12
      Elétrico, Aço       0.00      0.00      0.00         1
   Elétrico, Dragão       0.00      0.00      0.00         1
     Elétrico, Fada    


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Recall is ill-defined and being set to 0.0 in labels with no true samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Recall is ill-defined and being set to 0.0 in labels with no true samples. Use `zero_division` parameter to control this behavior.


Precision is ill-defined and being set to 0.0 in labels with no predicted samples. Use `zero_division` parameter to control this behavior.


Recall is ill-defined and being set to 0.0 in labels with no true samples. Use `zero_division` parameter to control this behavior.



In [112]:
grafico = px.treemap(df, path = [y_test, previsoes])
grafico