## Bibliotecas

In [2]:
import pandas as pd

from sklearn.model_selection import StratifiedKFold
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

## Leer dataset

In [3]:
dataset = pd.read_csv('../datasets_creados/data_kmeans.csv')
dataset.head()

Unnamed: 0,Nombre,Puntuación,Dificultad,Categoria numerica,Categoria
0,,0.0,10.0,2,Malo
1,Aunque Me Borren Seguiré *A Todos Los Pseudoal...,3.8,5.8,0,Regular
2,Fanny Adan Sosa,8.5,1.9,3,Excelente
3,Rafael Aguilar García,7.7,2.4,1,Bueno
4,Fernando Aguilar Sanchez,8.4,1.9,3,Excelente


## Dividir rasgos y clases

In [4]:
x = dataset.iloc[:, [1,2]].values
y = dataset.iloc[:, 3].values

## Dividir prueba y entrenamiento

In [5]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, random_state=0)

## Busqueda de parámetros optimizados

In [6]:
# --> Validacion cruzada
skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=0)

# --> Parametros a evaluar
parametros = [
    {'var_smoothing': [1e-9, 1e-8, 1e-7, 1e-6, 1e-5]},
    {'var_smoothing': [1e-10, 1e-11, 1e-12, 1e-13, 1e-14]}
]

# --> Crear objeto de busqueda
busqueda = GridSearchCV(
    estimator=GaussianNB(),
    param_grid=parametros,
    scoring='accuracy',
    cv=skf                       # Entero si esta balanceado el dataset
)

# --> Entrenar objeto de busqueda
busqueda = busqueda.fit(x_train, y_train)


## Resultados

In [7]:
print(f"[+]Mejor exactitud: {100*busqueda.best_score_} %")
print(f"[+]Mejores parametros: {busqueda.best_params_}")


[+]Mejor exactitud: 94.0374331550802 %
[+]Mejores parametros: {'var_smoothing': 1e-09}


## Comprobación

In [8]:
classifier = GaussianNB(var_smoothing=1e-09)
classifier.fit(x_train, y_train)

print(f"Puntuación: {round(100*(classifier.score(x_test, y_test)), 2)}%")


Puntuación: 94.05%
