
# Modelos de clasificación
## Regresión logistica

Cargamos las librerías necesarias

In [1]:
import pandas as pd
import numpy as np
import seaborn as sb

import matplotlib.pyplot as plt
%matplotlib inline

### Statsmodels

Para desarrollar un regresión logística en Python podemos hacer uso de dos librerías unna de ellas es **statsmodels**, usaremos el dataset **Titanic** que usamos en clases anteriores.

In [2]:
import statsmodels as model

En la carga de los datos podemos quitar aquellas columnas que no serán de interes.

In [None]:
df_titanic = pd.read_csv("data/titanic.csv").drop(["name", "ticket", "cabin", 
                                                                "boat", "body", "home.dest"], 
                                                               axis = 1)

In [None]:
df_titanic.head()

In [None]:
df_titanic.groupby("survived").size()

In [None]:
df_titanic.groupby("survived").mean()

In [None]:
sb.factorplot('sex',data=df_titanic,kind = "count")

In [None]:
sb.factorplot('pclass', data=df_titanic, hue='survived', kind="count")

In [None]:
sb.factorplot('embarked',data=df_titanic,hue='survived',kind="count")

In [None]:
sb.boxplot(x="pclass", y="fare", hue = "survived", data=df_titanic, palette="Set3")

In [None]:
sb.pairplot(df_titanic, hue="survived", palette="husl",  aspect=1)

In [None]:
df_titanic.describe()

Siempre debemos tener en cuenta los tipos de variables con las cuales trabajaremos. De ser necesario cambiar 

In [None]:
df_titanic.pclass=df_titanic.pclass.astype('category',copy=False)

In [None]:
datos_numericos = df_titanic.select_dtypes(include=['float64', "int64"])
datos_categoricos = df_titanic.select_dtypes(exclude=['float64', "int64"])

In [None]:
#df_titanic.age.fillna(df_titanic.age.mean(), inplace=True)
#df_titanic.fare.fillna(df_titanic.fare.mean(), inplace=True)

In [None]:
for col in datos_numericos.columns:
    datos_numericos[col].fillna(datos_numericos[col].mean(), inplace=True)

In [None]:
#datos_categoricos_codificados = pd.get_dummies(datos_categoricos, drop_first=True)
datos_categoricos_codificados = pd.get_dummies(datos_categoricos)

In [None]:
df_titanic_final = pd.concat([datos_numericos, datos_categoricos_codificados], axis=1)

In [None]:
df_titanic_final.head()

In [None]:
df_titanic_final = df_titanic_final.drop(["pclass_2", "pclass_3", "sex_male"], axis=1)

In [None]:
X=df_titanic_final.drop('survived', axis=1)
y=df_titanic_final['survived']

In [None]:
import statsmodels.api as sm

In [None]:
logit_model=sm.Logit(y,X, iter = 10)
result=logit_model.fit()
print(result.summary2())

In [None]:
np.where(df_titanic['sex'] =='male', 1, 0)

In [None]:
df_titanic['pclass']=np.where(df_titanic['pclass'] ==1, 1, 0)
df_titanic['sex_female']=np.where(df_titanic['sex'] =='female', 1, 0)

In [None]:
df_titanic_2 = df_titanic.copy()

In [None]:
df_titanic_2.head()

In [None]:
df_titanic_2=df_titanic_2.drop(["sex", "parch", "embarked", "fare"], axis = 1)
df_titanic_2.head()

In [None]:
for col in df_titanic_2.columns:
    df_titanic_2[col].fillna(df_titanic_2[col].mean(), inplace=True)

In [None]:
X=df_titanic_2.drop("survived", axis=1)
y=df_titanic_2['survived']

In [None]:
X.describe()

In [None]:
import statsmodels.api as sm
logit_model=sm.Logit(y,X)
result=logit_model.fit()
print(result.summary2())

In [None]:
df_titanic_2.groupby("survived").mean()

## Con el módulo de Scikit Learn

Cargamos `LogisticRegression` del modulo **linear_model**  del **sklearn** para ejecutar la regresión logística

In [None]:
from sklearn.linear_model import LogisticRegression

Cargamos `metrics` del **sklearn** para obtener las princiaples métricas de evaluación del modelo

In [None]:
from sklearn import metrics

Cargamos `train_test_split` del modulo **model_selection** para obtener los datos de entrenamiento y evaluación del modelo

In [None]:
from sklearn.model_selection import train_test_split

Particionamos nuestros datos y ajustamos un modelo de regresión logística. 

In [None]:
X.head()

In [None]:
y[:10]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
estimador_logis = LogisticRegression()
estimador_logis.fit(X_train, y_train)

In [None]:
X.shape

In [None]:
X_train.shape, X_test.shape

In [None]:
predicciones = estimador_logis.predict(X_test)

predicciones[:10]

In [None]:
predicciones_probabilidades = estimador_logis.predict_proba(X_test)
predicciones_probabilidades[:10]

In [None]:
plt.hist(predicciones_probabilidades);

In [None]:
probs_df = pd.DataFrame(predicciones_probabilidades)

In [None]:
df_resultados = X_test.reset_index().copy()
df_resultados["objetivo"] = y_test.tolist()
df_resultados["prediccion"] = predicciones
df_resultados = pd.concat([df_resultados, probs_df], axis=1)
df_resultados[["objetivo", "prediccion", 0, 1]].head(10)

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, predicciones)

In [None]:
df = pd.DataFrame({"clase_real":y_test,
                   "clase_pred": predicciones,
                   "probabilidades_0":estimador_logis.predict_proba(X_test)[:,0],
                    "probabilidades_1":estimador_logis.predict_proba(X_test)[:,1],
                  })
df["sum_probas"] = df.probabilidades_0 + df.probabilidades_1

In [None]:
df.sample(10)
#df.head(10)

In [None]:
df.query("probabilidades_1>0.4 & clase_pred==0").head(10)

In [None]:
df.query("probabilidades_0>0.5 & clase_pred==1")

In [None]:
def probabilidades_a_clases(predicciones_probabilidades, umbral=0.5):
    predicciones = np.zeros([len(predicciones_probabilidades), ])
    predicciones[predicciones_probabilidades[:,1]>=umbral] = 1
    return predicciones

In [None]:
predicciones_probabilidades[:10]

In [None]:
probabilidades_a_clases(predicciones_probabilidades, umbral=0.40)[:10]

In [None]:
pred_1 = probabilidades_a_clases(predicciones_probabilidades, umbral=0.40)
confusion_matrix(y_test, pred_1)

In [None]:
predicciones_en_umbral = probabilidades_a_clases(predicciones_probabilidades, 0.8)

In [None]:
sensibilidad_umbral = metrics.recall_score(y_test, predicciones_en_umbral)
sensibilidad_umbral

In [None]:
precision_umbral = metrics.average_precision_score(y_test, predicciones_en_umbral)
precision_umbral

In [None]:
from ipywidgets import widgets, fixed, interact
@interact(umbral=widgets.FloatSlider(min=0.001, max=0.999, step=0.001, value=0.001))
def evaluar_umbral(umbral):
    predicciones_en_umbral = probabilidades_a_clases(predicciones_probabilidades, umbral)
    sensibilidad_umbral = metrics.recall_score(y_test, predicciones_en_umbral)
    precision_umbral = metrics.average_precision_score(y_test, predicciones_en_umbral)
    exactitud_umbral = metrics.accuracy_score(y_test, predicciones_en_umbral)
    roc_auc = metrics.roc_auc_score(y_test, predicciones_en_umbral)
    mc_umbral = confusion_matrix(y_test, predicciones_en_umbral)
    print( """
    Precision: {:.3f}
    Sensibilidad:{:.3f}
    Exacitud:{:.3f}
    Area_ROC:{:.3F}
    """.format(
        precision_umbral,
        sensibilidad_umbral,
        exactitud_umbral,
        roc_auc
    ))
    print("Matriz de confusión")
    print(mc_umbral)

In [None]:
def evaluar_umbral(umbral):
    predicciones_en_umbral = probabilidades_a_clases(predicciones_probabilidades, umbral)
    precision_umbral =  metrics.average_precision_score(y_test, predicciones_en_umbral)
    sensibilidad_umbral = metrics.recall_score(y_test, predicciones_en_umbral)
    return precision_umbral, sensibilidad_umbral


rango_umbral = np.linspace(0., 1., 1000)
sensibilidad_umbrales = []
precision_umbrales = []

for umbral in rango_umbral:
    precision_umbral, sensibilidad_umbral = evaluar_umbral(umbral)
    precision_umbrales.append(precision_umbral)
    sensibilidad_umbrales.append(sensibilidad_umbral)

In [None]:
plt.plot(sensibilidad_umbrales, precision_umbrales);
plt.ylabel("Precision")
plt.xlabel("Ratio de Verdaderos positivos (sensibilidad)")
plt.title("Curva Precision-Recall");

In [None]:
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
logit_roc_auc = roc_auc_score(y_test, estimador_logis.predict(X_test))
fpr, tpr, thresholds = roc_curve(y_test, estimador_logis.predict_proba(X_test)[:,1])
plt.figure()
plt.plot(fpr, tpr, label='Logistic Regression (area = %0.2f)' % logit_roc_auc)
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic')
plt.legend(loc="lower right")
plt.savefig('Log_ROC')
plt.show()

In [None]:
def evaluar_modelo(clases_reales, predicciones, probabilidades):
    exactitud = metrics.accuracy_score(clases_reales, predicciones)
    precision = metrics.average_precision_score(clases_reales, predicciones)
    sensibilidad = metrics.recall_score(clases_reales, predicciones)
    roc_auc = metrics.roc_auc_score(clases_reales, predicciones)
    f1 = metrics.f1_score(clases_reales, predicciones)
    print("""
    Exactitud: {:.3f}
    Precisión: {:.3f}
    Sensibilidad: {:.3f}
    Area bajo curva (AUC): {:.3f}
    Puntuación F1: {:.3f}
    """.format(
        exactitud, 
        precision,
        sensibilidad,
        roc_auc,
        f1
    ))
    
evaluar_modelo(y_test, predicciones, predicciones_probabilidades)