In [1]:
import warnings
warnings.filterwarnings("ignore")

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from IPython.display import display
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, BernoulliNB
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, precision_score, recall_score

In [3]:
dataframe = pd.read_csv('PokemonDB.csv')
dataframe.describe()

Unnamed: 0,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed
count,1190.0,1190.0,1190.0,1190.0,1190.0,1190.0
mean,70.852941,80.957983,74.586555,72.756303,72.05042,69.695798
std,26.886443,32.11965,30.718212,32.658636,27.637522,30.204376
min,1.0,5.0,5.0,10.0,20.0,5.0
25%,51.25,56.0,51.0,50.0,50.0,45.0
50%,70.0,80.0,70.0,65.0,70.0,67.0
75%,85.0,100.0,90.0,95.0,90.0,90.0
max,255.0,190.0,250.0,194.0,250.0,200.0


# Binning/Discretizar

In [4]:
discretizar = [ 'HP','Attack','Defense','Sp. Atk','Sp. Def','Speed']

bins = [1, 50, 100, 150, 200, 255]
labels = ['muy bajo', 'bajo', 'medio', 'alto', 'muy alto']

In [5]:
for atributo in discretizar:
    columna_procesada = f'{atributo}_discretizado'
    dataframe[columna_procesada] = pd.cut(dataframe[atributo], bins=bins, labels=labels, right=False)


In [6]:
dataframe.columns

Index(['Name', 'Type', 'HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def',
       'Speed', 'HP_discretizado', 'Attack_discretizado',
       'Defense_discretizado', 'Sp. Atk_discretizado', 'Sp. Def_discretizado',
       'Speed_discretizado'],
      dtype='object')

# Elimino las columnas que no voy a usar para el algoritmo de Naive Bayes

In [7]:
dataframe = dataframe.drop(['HP', 'Attack', 'Defense', 'Sp. Atk', 'Sp. Def','Speed'], axis=1)

# Codeo las variables discretizadas y name

In [8]:
for columna in dataframe.columns:
    if columna != 'Type':
        le = LabelEncoder()
        dataframe[columna] = le.fit_transform(dataframe[columna])

# Codeo la variable a predecir

In [9]:
label_encoder_type = LabelEncoder()
dataframe['Type'] = label_encoder_type.fit_transform(dataframe['Type'])

In [10]:
X = dataframe.drop(columns=['Type'])
y = dataframe['Type']

# 2 Splits distintos para comparar modelos
en este caso usamos dos splits de tamaño distinto


In [11]:
X_train_primero, X_test_primero, y_train_primero, y_test_primero = train_test_split(X, y, test_size=0.2, random_state=42)

In [12]:
X_train_segundo, X_test_segundo, y_train_segundo, y_test_segundo = train_test_split(X, y, test_size=0.3, random_state=42)

Entrenar el clasificador Naive Bayes

In [13]:
nb_classifier_primero = GaussianNB()
nb_classifier_primero.fit(X_train_primero, y_train_primero)

Evaluar los resultados del primer set con su set de pruebas

In [14]:
y_pred_primero = nb_classifier_primero.predict(X_test_primero)

precision = precision_score(y_test_primero, y_pred_primero, average='weighted')

recall = recall_score(y_test_primero, y_pred_primero, average='weighted')

accuracy = accuracy_score(y_test_primero, y_pred_primero)

print(f'Conjunto de test 1 - Precisión: {precision:.2f}')
print(f'Conjunto de test 1 - Exhaustividad: {recall:.2f}')
print(f'Conjunto de test 1 - Exactitud: {accuracy:.2f}')

Conjunto de test 1 - Precisión: 0.21
Conjunto de test 1 - Exhaustividad: 0.14
Conjunto de test 1 - Exactitud: 0.14


Segundo Clasificador

In [15]:
nb_classifier_segundo = GaussianNB()
nb_classifier_segundo.fit(X_train_segundo, y_train_segundo)

Predecir el resultado del segundo split con su test de prueba

In [16]:
nb_classifier_segundo.fit(X_train_segundo, y_train_segundo)
y_pred_segundo = nb_classifier_segundo.predict(X_test_segundo)

In [17]:
precision_segundo = precision_score(y_test_segundo, y_pred_segundo, average='weighted')
recall_segundo = recall_score(y_test_segundo, y_pred_segundo, average='weighted')
accuracy_segundo = accuracy_score(y_test_segundo, y_pred_segundo)

print(f'Conjunto de test 2 - Precisión: {precision_segundo:.2f}')
print(f'Conjunto de test 2 - Exhaustividad: {recall_segundo:.2f}')
print(f'Conjunto de test 2 - Exactitud: {accuracy_segundo:.2f}')

Conjunto de test 2 - Precisión: 0.12
Conjunto de test 2 - Exhaustividad: 0.12
Conjunto de test 2 - Exactitud: 0.12
