# Tutorial de Big Data (UdeSA) 2025
## Tutorial 7 
### Clasificacion: Logit, LDA, KNN, QDA & Naive Bayes

**Objetivo:** entender la "diferencia" entre clasificación y regresión. Utilizar Bayes, análisis de discriminante lineal y KNN. Análisis de la curva ROC.

Veremos:
- Clasificación
- Medidas de precisión
- Curva de ROC
- Análisis de discriminante lineal (LDA) y cuadrático (QDA)
- KNN
- Naive Bayes



In [None]:
import os  
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt  
import statsmodels.api as sm     

from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, recall_score 
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from sklearn.metrics import RocCurveDisplay
#from sklearn.metrics import plot_roc_curve
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier

#### Nueva situación: 'y' es una variable cualitativa. ¿Qué hacer? 

- ¿Por qué en el caso de 'y' cualitativa la regresión linear no es una opción apropiada?

1. Puede no haber una forma de transformar una variable cualitativa con más de 2 niveles en una variable cuantitaiva que nos 'sirva' para una regresión lineal: puede que 'y' no tenga un orden. Por ejemplo, si la 'y' hace referencia a enfermedades. ¿Cómo asignarles un valor? Implicaría asumir un orden y también que la diferencia entre las enfermedades es equivalente...

2. En el caso binario (2 niveles) podemos transformar la variable a una variable numérica. Por ejemplo: y=1 pobre e y=0 no pobre. Sin embargo, con una regresión  lineal podría ocurrir que generemos predicciones fuera del intervalo [0, 1] y por ende no podremos interpretarlo como probabilidades...

Entonces...
#### Vamos a clasificar 'y' (variable cualitativa) en base a 'x'

- ¿Estamos ante un caso de aprendizaje supervisado o no supervisado? 

Vamos a trabajar con bases donde tenemos el output esperado. Por lo tanto, nuestros modelos serán casos de aprendizaje supervisado.
     
- ¿Qué es el clasificador de Bayes? 

Clasificar según el estado más probable minimiza el riesgo esperado. Por ej: si la probabilidad de que una persona me pague un credito es mayor que 0.5, predigo que pagará el credito. 

#### Modelos:
    
1. Regresión logística 
2. Análisis de discriminante lineal
3. KNN

Vamos a construir un clasificador con los datos de training. Queremos que funcione bien no solo en el conjunto de entrenamiento sino también en el conjunto de test.

#### REGRESIÓN LOGÍSTICA CON SCIKIT-LEARN

Algoritmo de clasificación que se usa para predecir la probabilidad de una variable dependiente categórica. El modelo logit predice $P(Y=1)$ como una función de $X$. Se modela la probabilidad de una forma tal que los outputs serán valores entre 0 y 1 para cualquier valor de $X$.


Ahora utilizaremos la función [LogisticRegression()](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)

Se pueden proveer muchos parámetros opcionales para esta función:

- **fit_intercept**: Boolean que decide si calcular el intercepto (True) o considerarlo igual a cero (False). Por default es True.
- **penalty**: Se determina se usar algún tipo de regularización. Posibles valores: ‘l1’, ‘l2’, ‘elasticnet’, None. El valor por defecto es default es ‘l2’, es decir que se aplica regularización.


In [None]:
# Creamos un vector de x e y para fines del ejemplo.
np.random.seed(25)
X = np.random.normal(size=100)
print(X)

# Recordatorio: para la regresión lineal creamos un vector aleatorio así:
# y = 2 + 3*x + np.random.rand(50, 1)
# Ahora lo crearemos de la siguiente forma para que tenga más sentido usar una regresión logística
y = (X > 0).astype(float) # si no pusiera astype sería un array de True y False

# Alteramos los valores de X y sumamos variación con el "error"
X[X > 0] *= 4
X += .5 * np.random.normal(size=100)
X = X.reshape((-1, 1)) # para tenerlo como columna
#print(X)

In [None]:
# Graficamos para ver si nos quedó un vector que 1s y 0s
plt.scatter(X, y, color='orange', zorder=20, marker="|")
plt.xlabel('x')
plt.ylabel('Y')

In [None]:
# Ajustamos el clasificador con el método fit() 
log_reg = LogisticRegression(penalty=None).fit(X, y)

# Predicciones (probabilidad)
y_pred_score = log_reg.predict_proba(X)[:,1]   # Por qué seleccionamos la columna 1?

# Gráfico de resultados
plt.figure(figsize=(6, 4))
plt.scatter(X, y_pred_score, color='red', zorder=20)
plt.show()

In [None]:
# Convertimos las probabilidades en Y con valores 1 o 0 (usando el clasificador de Bayes)
y_pred = np.where(y_pred_score > 0.5, 1, y_pred_score)
y_pred = np.where(y_pred_score <= 0.5, 0, y_pred)

plt.figure(figsize=(6, 4))
plt.scatter(X, y_pred, color='red', zorder=20)
plt.show()

In [None]:
# Equivalente a lo anterior es usar predict() (clasifica en 0s y 1s)
y_pred_2 = log_reg.predict(X)
print(pd.crosstab(index=y_pred, columns=y_pred_2))

# Y graficamos los resultados
plt.figure(figsize=(6, 4))
plt.scatter(X, y_pred_2, color='red', zorder=20)
plt.show()

#### REGRESIÓN LOGÍSTICA CON STATSMODELS

In [None]:
# Podemos repetirlo con statsmodels
# Primero agregamos la columna de 1s y hacemos el ajuste
X_sm = sm.add_constant(X) 
logit_model = sm.Logit(y, X_sm)
result = logit_model.fit()
print(result.summary2()) 
#También podríamos vn: print(result.summary2().as_latex())


In [None]:
y_pred_score_sm = result.predict(X_sm)

# El método where requiere una condición como primer parámetro, 
# que cuando es True devuelve el segundo valor y cuando es False devuelve tercero. 
y_pred_sm = np.where(y_pred_score_sm > 0.5, 1, y_pred_score_sm)
y_pred_sm = np.where(y_pred_score_sm <= 0.5, 0, y_pred_sm)

print(pd.crosstab(index=y_pred, columns=y_pred_sm))

#### El método predict() de statsmodels, ¿a qué metodo se parece en scikit-learn?

### Medidas de precisión 

Dependiendo la prioridad del problema seguramente vamos a querer usar diferentes métricas. Scikit learn tiene muchas métricas que pueden explorar en el módulo [metrics](https://scikit-learn.org/stable/modules/model_evaluation.html)

- Sensitivity o Recall o True Positive Rate: TP rate = TP/P
- Specificity o True Negative Rate: 1 - FP rate = TN/N
- False Positive Rate o False Alarm Rate: FP rate = FP/N
- False Negative Rate: FN rate = FN/P
- Precision o Positive Predicted Value: TP/(TP+FP)
- Accuracy: (TP+TN)/(P+N)

Nota: Cuidado con las traducciones! "Accuracy" lo pueden encontrar traducido como "precisión" y eso puede generar confusión con la medida "precision" (o positive predicted value). Mi sugerencia es traducir "accuracy" como "exactitud".


[Matriz de confusión](https://www.unite.ai/what-is-a-confusion-matrix/)
<center>
<img src="https://www.unite.ai/wp-content/uploads/2019/12/Preventive_Medicine-e1576294312614.png" width="1000">

</center>

In [None]:
matriz_confusion = confusion_matrix(y, y_pred)

print('Confusion Matrix:')
print(matriz_confusion) 
print('Accuracy Score:', accuracy_score(y, y_pred))

# Nota importante: en Python la matriz de confusión tiene:
# en las filas los valores ciertos
# y en las columnas los valores predichos

La matriz de confusión de sklearn pone en las filas las Y reales y las columnas las Y predichas. Muestra así los valores:

                               predicción
                         real   tn fp
                                fn tp

In [None]:
# Para los casos donde la predición (la y) es binaria podemos usar lo siguiente:
tn, fp , fn, tp = confusion_matrix(y, y_pred).ravel()   # Ravel transforma la matriz en un 1D array
# equivalente a: [tn, fp] , [fn, tp] = confusion_matrix(y, y_pred_2)

print("Verdadero 0: ", tn)
print("Falso 1: ", fp)
print("Falso 0: ", fn)
print("Verdadero 1: ", tp)

In [None]:
confusion_matrix(y, y_pred).ravel()

In [None]:
# accuracy: (tp + tn) / (p + n)
accuracy = accuracy_score(y, y_pred)
print('Accuracy: %f' % accuracy)

# recall: tp / p = tp / (tp + fn)
recall = recall_score(y, y_pred)
print('Recall: %f' % recall)

### Curva ROC                  
ROC: Receiver Operating Characteristics
![roc.JPG](attachment:roc.JPG)

Veremos como utilizar las funciones:

-  [roc_curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html#sklearn.metrics.roc_curve): computa la curva de ROC
- [roc_auc_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html#sklearn.metrics.roc_auc_score): Computa el area bajo la curva de ROC de los scores predichos.
- [RocCurveDisplay](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.RocCurveDisplay.html#sklearn.metrics.RocCurveDisplay): Sirve para visualizar la curva de ROC. Con el mismo fin existe [plot_roc_curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.plot_roc_curve.html#sklearn.metrics.plot_roc_curve)

In [None]:
auc = roc_auc_score(y, y_pred_score)
print('AUC: %.3f' % auc)

In [None]:
fpr, tpr, thresholds = roc_curve(y, y_pred_score)
np.set_printoptions(suppress = True) #If True, always print floating point numbers using fixed point notation, 
#                                     in which case numbers equal to zero in the current precision will print as zero. 
print('Thresholds:', thresholds)
print('FPR:', fpr)
print('TPR:', tpr)

Ojo! Notar que Entre los umbrales hay uno que toma valor 2. El rango del umbral es de 0 a 1, ya que es una probabilidad. Pero scikit learn suma 1 al último valor en el array de thresholds (Notar que el anteúltimo umbral es 1, y el último es 2).

In [None]:
display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=auc, estimator_name='Reg_log')
display.plot()  
plt.plot([0, 1], [0, 1], color='red', linestyle='--', linewidth=.5)
plt.show() 

#### Repitamos el ejercicio partiendo la base en train y test

In [None]:
# Entrenaremos con el 70% de la base de datos y el resto se usarán para testear 
# el modelo obtenido
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)


In [None]:
# Estimo:
# Ajustamos el clasificador con el metodo fit() 
log_reg = LogisticRegression(penalty=None).fit(X_train, y_train)
y_test_pred_score = log_reg.predict_proba(X_test)[:,1]
y_test_pred = log_reg.predict(X_test)


In [None]:
# AUC y ROC
auc = roc_auc_score(y_test, y_test_pred_score)
print('AUC: %.4f' % auc)
fpr, tpr, thresholds = roc_curve(y_test, y_test_pred_score, drop_intermediate=False)  # drop_intermediate=False nos da mas thresholds ('c') para probar
print('Thresholds:', thresholds)
print('FPR:', fpr)
print('TPR:', tpr)

In [None]:
display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=auc, estimator_name='Reg_log')
display.plot()  
plt.plot([0, 1], [0, 1], color='red', linestyle='--')
plt.show() 

### Análisis discriminante lineal

[LinearDiscriminantAnalysis()](http://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.LinearDiscriminantAnalysis.html): Es un clasificador que utiliza un límite lineal para distinguir las categorías, generado a través del ajuste de densidades condicionales de las clases y utilizando la regla de Bayes.

El modelo ajusta una densidad gaussiana a cada clase, asumiendo que todas las clases comparten la misma matriz de covarianza.

El modelo también se puede utilizar para reducir la dimensionalidad de la entrada proyectándola en las direcciones que aportan mayor distinción, para ello se utiliza el método `transform`.

#### Trabajaremos con el dataset de flores iris (muy usado para ejemplos de sklearn)
[The Iris Dataset](https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html)


In [None]:
iris = datasets.load_iris()
#print(type(iris))

In [None]:
iris

The Iris dataset represents 3 kind of Iris flowers (Setosa, Versicolour and Virginica) with 4 attributes: sepal length, sepal width, petal length and petal width.

Linear Discriminant Analysis (LDA) tries to identify attributes that account for the most variance between classes. In particular, LDA, in contrast to PCA, is a supervised method, using known class labels.

Fuente: [Comparison of LDA and PCA 2D projection of Iris dataset](https://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_vs_lda.html#sphx-glr-auto-examples-decomposition-plot-pca-vs-lda-py)

In [None]:
X = iris.data
y = iris.target
print(X, y)

In [None]:
target_names = iris.target_names
target_names

In [None]:
# Separamos la muestra en datos de entrenamiento y de validación 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
                                                    random_state=4) 

In [None]:
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape) #vemos lo tamaños de cada subconjunto

In [None]:
lda = LinearDiscriminantAnalysis(n_components=2) # Number of components (<= min(n_classes - 1, n_features)) for dimensionality reduction.
lda = lda.fit(X_train, y_train)

In [None]:
# Podemos ver algunas partes de la formula en LDA, el vector de medias por clase de Y
lda.means_

In [None]:
lda.classes_ # las clases

In [None]:
lda.priors_ # proporciones de Y de cada clase, prob(Y=k) prior

In [None]:
X_r = lda.transform(X_train) # Project data to maximize class separation.
X_r

In [None]:
plt.figure()
# Graficar los puntos de cada clase. 
#Se toman las coordenadas de la primera y segunda columna de X_r, indexando los valores según y, la clase.  
plt.scatter(X_r[y_train == 0, 0], X_r[y_train == 0, 1], alpha=.8, color='navy', label='setosa')
plt.scatter(X_r[y_train == 1, 0], X_r[y_train == 1, 1], alpha=.8, color='turquoise', label='versicolor')
plt.scatter(X_r[y_train == 2, 0], X_r[y_train == 2, 1], alpha=.8, color='darkorange', label='virginica')
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('LDA of IRIS dataset')

plt.show()

In [None]:
# Predecimos con el modelo de Análisis discriminante lineal sobre las X test
y_test_pred_lda = lda.predict(X_test)

In [None]:
accuracy_lda = accuracy_score(y_test, y_test_pred_lda)
print("La exactitud del modelo es: %.2f" %accuracy_lda)

In [None]:
confusion_matrix(y_test_pred_lda,y_test)

### KNN
[KNeighborsClassifier()](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html?highlight=kneighborsclassifier#sklearn.neighbors.KNeighborsClassifier): Clasificador de vecinos más cercanos

A continuación veremos un ejemplo de clasificación de las flores en la base de datos iris nuevamente y probaremos ajustando el parámetro k (cantidad de vecinos) para obtener el modelo con mayor precisión

Fuente: [MachineLearning — KNN using scikit-learn](https://towardsdatascience.com/knn-using-scikit-learn-c6bed765be75)

In [None]:
# Vamos a probar con distintos tamaños de k (cantidad de vecinos)
k_range = range(1,10)
scores = {}      # Para guardar la accuracy en un diccionario
scores_list = [] # Para guardar la accuracy en una lista
for k in k_range:
        knn = KNeighborsClassifier(n_neighbors=k)
        knn.fit(X_train, y_train)
        y_pred_knn = knn.predict(X_test)
        scores[k] = accuracy_score(y_test, y_pred_knn)
        scores_list.append(accuracy_score(y_test, y_pred_knn))

In [None]:
# Observemos el diccionario con las métricas
scores

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

# Graficamos la precisión en base a la cantidad de vecinos
plt.plot(k_range, scores_list)
plt.xlabel('Value of K for KNN')
plt.ylabel('Testing Accuracy')

#### Los valores de K entre 3 y 10 tienen la misma precisión, que es 97,77, por lo que podemos usar cualquier valor de esos. Elegiremos K = 3 como nuestro modelo final

In [None]:
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)


In [None]:
y_test_pred_knn = knn.predict(X_test)
accuracy_knn = accuracy_score(y_test, y_test_pred_knn)
print("La exactitud del modelo es: %.3f" %accuracy_knn)     

#### Otro ejemplo del libro ISLP

Vamos a usar datos del S&P Stock Market. 
Esta base contiene los retornos porcentuales del S&P 500 stock index por 1250 días, desde inicios de 2001 hasta el final de 2005. Para cada fecha, tenemos:
- Lag1, Lag2,..., Lag5: retornos porcentuales de cada uno de los días anteriores.
- Volume: volumen de acciones negociadas (número de acciones diarias negociadas en miles de millones de dólares)
- Today: retorno porcentual de hoy
- Direction: variable binaria que toma valores "Down" y "Up" indicando si el mercado tuvo un retorno positivo o negativo.


In [None]:
!pip install ISLP

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import statsmodels.api as sm
from ISLP import load_data

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score 
from sklearn.metrics import roc_curve, roc_auc_score, RocCurveDisplay

In [None]:
# Cargamos los datos de Smarket.
smarket = load_data('Smarket')
smarket

In [None]:
print(smarket.head(5))
print('\nColumnas:\n', smarket.columns)

In [None]:
smarket.corr(numeric_only=True) # con la opcion numeric_only=True hacemo que no tenga en cuenta Direction (string)

In [None]:
smarket.plot(y='Volume', linewidth=.5)

In [None]:
print(smarket['Direction'].value_counts())

print(smarket.groupby('Direction').mean())

Vamos a usar el modelo de **regresión logística** para predicir 'Direction' usando los lags 1 a 5 y Volume. 

In [None]:
y = smarket['Direction']
y = y.replace('Up', 1)
y = y.replace('Down', 0)
 
X = smarket[['Lag1', 'Lag2', 'Lag3', 'Lag4', 'Lag5', 'Volume']]
X = sm.add_constant(X)

In [None]:
logit_model = sm.Logit(y.astype(float),X.astype(float))
result = logit_model.fit()
print(result.summary2())

El signo negativo del coeficiente Lag1 indicaría que si el mercado ayer tuvo un retorno positvo es menos probable que hoy lo tenga. Sin embargo, los pvalores son altos, por los que no hay evidencia de una asociación fuerte entre las variables y el output 

In [None]:
y_new = result.predict(X) 
# Usamos todos los datos para estimar el modelo. Probabilidad del que índice S&P suba, para cada uno de los días

# Clasificador de Bayes
y_new = np.where(y_new>0.5, 1, y_new)
y_new = np.where(y_new<=0.5, 0, y_new)


In [None]:
conf_mat = confusion_matrix(y, y_new) #Python pone en las filas las Y y en las columnas las Y hat (y predichas)

print('Confusion Matrix:\n', conf_mat) 
print('Accuracy Score:',accuracy_score(y, y_new)) # Cantidad de (vp+vn) sobre total
# Acá, la matriz de confusión tiene en las filas los valores ciertos y en las columnas los valores predichos

In [None]:
auc = roc_auc_score(y, y_new) #Area under curve
print('AUC: %.2f' % auc)
fpr, tpr, thresholds = roc_curve(y, y_new)

In [None]:
display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=auc, estimator_name='Reg_log')
display.plot()  
plt.plot([0, 1], [0, 1], color='red', linestyle='--')
plt.show() 

A primera vista, pareciera que la regresión logística funciona apenas mejor que adivinar al azar

In [None]:
# Repetimos pero partiendo la base entre train y test:
train = smarket[smarket.Year < 2005]
test = smarket[smarket.Year >= 2005]
    
ytrain = train['Direction']
ytrain = ytrain.replace('Up', 1)
ytrain = ytrain.replace('Down', 0) 

ytest = test['Direction']
ytest = ytest.replace('Up', 1)
ytest = ytest.replace('Down', 0)

Xtrain = train[['Lag1', 'Lag2', 'Lag3', 'Lag4', 'Lag5', 'Volume']]
Xtrain = sm.add_constant(Xtrain) 

Xtest = test[['Lag1', 'Lag2', 'Lag3', 'Lag4', 'Lag5', 'Volume']]
Xtest = sm.add_constant(Xtest)

In [None]:
# Regresión logística
logit_model = sm.Logit(ytrain.astype(float),Xtrain.astype(float))
results = logit_model.fit()
print(results.summary2())

# Probabilidades predichas
y_pred = results.predict(Xtest)

# Clasificador de Bayes
y_pred=np.where(y_pred>0.5, 1, y_pred)
y_pred=np.where(y_pred<=0.5, 0, y_pred)

# Matriz de confusión
conf_mat = confusion_matrix(ytest, y_pred) 

print('Confusion Matrix:\n', conf_mat) 
print('Accuracy Score:',accuracy_score(ytest, y_pred)) # Cantidad de (vp+vn) sobre total
# Recordar: acá la matriz de confusión tiene en las filas los valores ciertos y en las columnas los valores predichos

También vamos a usar LDA

In [None]:
# LDA
lda = LDA()
lda.fit(Xtrain, ytrain)
results_lda = lda.predict(Xtest)

# Probabilidades
y_pred_lda = pd.Series(results_lda.tolist())

# Matriz de resultados
conf_mat2 = confusion_matrix(ytest, y_pred_lda)
print(conf_mat2)   

In [None]:
# AUC y ROC
auc = roc_auc_score(ytest, y_pred_lda)
print('AUC LDA: %.2f' % auc)
fpr, tpr, thresholds = roc_curve(ytest, y_pred_lda)

display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=auc, estimator_name='LDA')
display.plot()  
plt.plot([0, 1], [0, 1], color='red', linestyle='--')
plt.show() 

In [None]:
auc_lda = roc_auc_score(ytest, y_pred_lda)
print('AUC LDA: %.2f' % auc_lda)
fpr, tpr, thresholds = roc_curve(ytest, y_pred_lda)


### Analisis discriminantes Cuadrático
Seguimos el ejemplo de predecir las subas (*Up*) y bajas (*Down*)

In [None]:
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis as QDA

In [None]:
qda = QDA() 
qda.fit(Xtrain, ytrain)
results_qda = qda.predict(Xtest)

In [None]:
# Probabilidades
y_pred_qda = pd.Series(results_qda.tolist())

# Matriz de resultados
conf_mat3 = confusion_matrix(ytest, y_pred_qda)
print(conf_mat3)   

In [None]:
# AUC y ROC
auc = roc_auc_score(ytest, y_pred_qda)
print('AUC QDA: %.2f' % auc)
fpr, tpr, thresholds = roc_curve(ytest, y_pred_qda)

display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=auc, estimator_name='QDA')
display.plot()  
plt.plot([0, 1], [0, 1], color='red', linestyle='--')
plt.show() 

### Naive Bayes
También podemos hacer la predicción de $Pr(Y=k|X)$ y la regla de Bayes, levantando el supuesto de normalidad de $X|Y$, pero haciendo el supuesto de independencia de $X$. Implementamos la funcion [GaussianNB()](https://scikit-learn.org/dev/modules/generated/sklearn.naive_bayes.GaussianNB.html), para el modelo de clasificador de Naive Bayes, pero también podriamos estimar las densidades con metodo de Kernels.  



In [None]:
from sklearn.naive_bayes import GaussianNB

In [None]:
NB = GaussianNB() 
NB.fit(Xtrain, ytrain)

In [None]:
y_pred_nb= NB.predict(Xtest) 

# Matriz de resultados
conf_mat4 = confusion_matrix(ytest, y_pred_nb)
print(conf_mat4)  

In [None]:
# AUC y ROC
auc = roc_auc_score(ytest, y_pred_nb)
print('AUC QDA: %.2f' % auc)
fpr, tpr, thresholds = roc_curve(ytest, y_pred_nb)

display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=auc, estimator_name='Naive Bayes')
display.plot()  
plt.plot([0, 1], [0, 1], color='red', linestyle='--')
plt.show() 