# **Aprendizaje supervisado**
# SL14. Curvas de análisis para modelos de clasificación


In [None]:
import pandas as pd
import numpy as np
import warnings

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB

import matplotlib.pyplot as plt
warnings.filterwarnings('ignore')

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## <font color='blue'>**Modelo de Predicción de Supervivientes en Titanic.**</font>

In [None]:
df = pd.read_csv('/content/drive/MyDrive/UDD/Modulo 5- Aprendizaje Supervisado/VGroup/files/titanic.csv', index_col = 0)
df[['Pclass', 'Sex','Embarked']] = df[['Pclass', 'Sex','Embarked']].astype('category')
df['Age'] = df.Age.fillna(df.Age.mean())
df.dtypes

In [None]:
X = df[['Pclass', 'Sex','Age','Parch','Fare','Embarked']]
y = df.Survived

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 123)

In [None]:
pip install category_encoders

In [None]:
from category_encoders import OneHotEncoder
from sklearn.preprocessing import StandardScaler

In [None]:
ohe = OneHotEncoder(use_cat_names = True)
X_train_enc = ohe.fit_transform(X_train)
X_test_enc = ohe.transform(X_test)

In [None]:
sc = StandardScaler()
X_train_sc = sc.fit_transform(X_train_enc)
X_test_sc = sc.transform(X_test_enc)

In [None]:
lr = LogisticRegression(random_state = 123)
lr.fit(X_train_sc, y_train)
y_pred = lr.predict(X_test_sc)
y_pred_train = lr.predict(X_test_sc)
y_proba = lr.predict_proba(X_test_sc)

print('Score Train:', lr.score(X_train_sc, y_train))
print('Score Test:', lr.score(X_test_sc, y_test))

In [None]:
lr.coef_

In [None]:
lr.intercept_

In [None]:
pip install scikit-plot

In [None]:
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from scikitplot.metrics import plot_confusion_matrix, plot_roc, plot_cumulative_gain, plot_precision_recall, plot_lift_curve

In [None]:
confusion_matrix(y_test, y_pred)

In [None]:
plot_confusion_matrix(y_test, y_pred, title = 'Matriz de Confusión',text_fontsize = 'large', title_fontsize = 'large', figsize = (10,8))
plt.show()

In [None]:
print(classification_report(y_test, y_pred, digits = 4))

## <font color='blue'>**¿Cómo Elegir el Mejor Modelo?**</font>

## Curva Precision-Recall

Esta curva presenta el trade-off Precision-Recall de todos los puntos de corte. De esa manera se puede escoger el punto de corte que optimice la métrica que se quiere escoger o utilizar el área bajo la curva como una métrica de medida.

<img src='https://drive.google.com/uc?export=view&id=1ZHKnkQ5Hm-y2dnvqW2mYbAu1L-7-AH0o' width="600" align="center" style="margin-right: 20px">

In [None]:
plot_precision_recall(y_test, y_proba, title = 'Curva Precision-Recall', plot_micro = False, classes_to_plot = [0,1], figsize = (10,8))
plt.show()

In [None]:
y.value_counts() #Debido a que Titanic es un dataset relativamente desbalanceado, podría ser una métrica más honesta

La utilización de esta curva es particularmente útil cuando se trabaja con clases desbalanceadas. Normalmente se utiliza el área bajo la curva (AUC) como una medida, donde 1 representa un modelo perfecto.

## Curva Receiver Operating Characteristic - ROC

Esta curva representa el trade-off entre el recall (también llamado sensibilidad) y 1 - Especifidad, donde la Especifidad representa el Recall de la otra clase (para problemas binarios). Al igual que la curva representa este trade-off para todos los puntos de corte posible.

Adicionalmente existe una interpretación alternativa, en la cual la curva ROC representa la probabilidad de que un punto de la clase positiva tenga una mayor probabilidad que un punto de la clase negativa. Es decir, la probabilidad de que el modelo pueda ordenar las predicciones correctamente por probabilidad.

<img src='https://drive.google.com/uc?export=view&id=1He2TUyM75fd6ja-aSQq3nB04Y5FV6FEN' width="600" align="center" style="margin-right: 20px">

In [None]:
plot_roc(y_test, y_proba, plot_micro = False, plot_macro = False, title = 'Curva ROC', figsize = (10,8))
plt.show()

## Curva Ganancia

La curva de Ganancia corresponde a una curva que mide qué porcentaje de la data es necesario para encontrar un cierto porcentaje de la clase requerida.

<img src='https://drive.google.com/uc?export=view&id=1ktbS930bK68Pb6t5Qw3HF1M0K8Am672C' width="600" align="center" style="margin-right: 20px">

Esta métrica suele ser una métrica muy importante en marketing en donde se puede garantizar un cierto porcentaje de acierto si es que se contacta una cierta muestra con mayor probabilidad de la población a predecir.

In [None]:
plot_cumulative_gain(y_test, y_proba, title = 'Curva de Ganancia', figsize = (10,8))
plt.show()