# Model

1. Dividir el set de datos entre valores dependientes (y) e independientes (X). Y sería la columna
que se quiere predecir (“churn”).
2. Generar sets de testeo y entrenamiento.
3. ¿Es necesario escalar las features? Hacerlo si fuera necesario.
4. Probar por lo menos dos modelos y seleccionar uno. Explicar porque lo selecciono y qué
métricas uso para decidir.

<hr/>

In [86]:
# Libraries

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
plt.close("all")

import seaborn as sns

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score
from sklearn.preprocessing import StandardScaler


In [97]:
df_churn = pd.read_csv('../data/preprocessed/churn_preprocessed.csv')

In [88]:
df_churn.dtypes

Unnamed: 0.1          int64
Unnamed: 0            int64
customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure              float64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges        float64
Churn                object
dtype: object

In [98]:
df_churn.sample(5)

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
5290,6299,6299,9541-PWTWO,Female,0,No,No,52.0,Yes,Yes,...,Yes,Yes,Yes,Yes,Two year,Yes,Bank transfer (automatic),80.95,4233.95,No
701,702,702,1766-GKNMI,Male,0,No,No,29.0,Yes,Yes,...,No,No,No,Yes,Month-to-month,Yes,Electronic check,84.9,2516.2,No
5955,6966,6966,6598-KELSS,Male,0,No,Yes,50.0,No,No phone service,...,No,No,Yes,No,One year,Yes,Bank transfer (automatic),43.05,2208.05,No
4720,5729,5729,4072-IPYLT,Female,0,Yes,Yes,36.0,Yes,No,...,No,No,No,No,Month-to-month,No,Credit card (automatic),51.05,1815.0,No
2655,3660,3660,2259-OUUSZ,Male,0,No,No,7.0,No,No phone service,...,Yes,Yes,No,No,One year,Yes,Credit card (automatic),35.5,249.55,No


## Features selection

In [99]:
df_churn = df_churn.drop(['Unnamed: 0.1', 'Unnamed: 0', 'customerID'], axis=1)

### Train-test split

In [100]:
X = df_churn.drop('Churn', axis=1)
y = df_churn.Churn

In [101]:
X_train, X_test, y_train, y_test = train_test_split(X,y, stratify=y, random_state=12)

Churn = Yes shows same proportion of the dataframe before and after split x, y, train and test. It means that stratify= y is keeping proportions through dataframe splitting process.

In [102]:
df_churn.Churn.value_counts()['Yes'] / df_churn.shape[0]

0.26492042440318303

In [103]:
y_train.value_counts()['Yes'] / y_train.shape[0]

0.26480990274093724

In [104]:
y_test.value_counts()['Yes'] / y_test.shape[0]

0.26525198938992045

Dummies

In [105]:
X_train = pd.get_dummies(X_train, drop_first=True)
X_test = pd.get_dummies(X_test, drop_first=True)
X_train.sample(5)

Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges,TotalCharges,gender_Male,Partner_Yes,Dependents_Yes,PhoneService_Yes,MultipleLines_No phone service,MultipleLines_Yes,...,StreamingTV_No internet service,StreamingTV_Yes,StreamingMovies_No internet service,StreamingMovies_Yes,Contract_One year,Contract_Two year,PaperlessBilling_Yes,PaymentMethod_Credit card (automatic),PaymentMethod_Electronic check,PaymentMethod_Mailed check
642,1,49.0,89.85,4287.2,0,0,0,1,0,0,...,0,0,0,1,1,0,1,0,0,0
1466,0,67.0,25.25,1733.15,0,1,0,1,0,1,...,1,0,1,0,0,1,1,1,0,0
329,1,17.0,82.65,1470.05,0,0,0,1,0,1,...,0,0,0,0,0,0,1,1,0,0
2214,0,68.0,79.6,5461.45,1,0,0,1,0,0,...,0,0,0,0,1,0,0,1,0,0
5248,1,1.0,73.0,73.0,0,0,0,1,0,0,...,0,0,0,0,0,0,1,0,1,0


## Model

In [106]:
# Instanciado del modelo

logistic_regression = LogisticRegression(penalty='none') # sin regularización
logistic_regression.fit(X_train, y_train);

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [96]:
y_test_pred = logistic_regression.predict(X_test)
y_test_pred

ValueError: could not convert string to float: 'Male'

El método .predict_proba() devuelve un array con dos probabilidades para cada instancia del test set: 
p(y=0) y p(y=1), en ese orden.

La primera columna es la probabilidad de pertenecer a la clase 0 (negativa), y la segunda columna a la clase 1 (positiva).

In [107]:
y_test_pred_proba = logistic_regression.predict_proba(X_test)
y_test_pred_proba

array([[0.97318928, 0.02681072],
       [0.42107385, 0.57892615],
       [0.61237735, 0.38762265],
       ...,
       [0.98441381, 0.01558619],
       [0.66592092, 0.33407908],
       [0.20667753, 0.79332247]])

### Métricas generales

In [108]:
accuracy_score(y_test, y_test_pred)

0.7937665782493368

In [109]:
logistic_regression.intercept_

array([-0.26550982])

In [110]:
logistic_regression.coef_

array([[ 1.63263288e-01, -5.54846107e-02,  6.73556403e-03,
         2.13185043e-04, -3.59964842e-02, -5.80328156e-03,
        -1.37306796e-01, -6.24025585e-01,  3.58515768e-01,
         2.82987186e-01,  7.81770932e-01, -7.31154438e-02,
        -7.31154438e-02, -4.52830445e-01, -7.31154438e-02,
        -2.30857054e-01, -7.31154438e-02, -1.19842828e-01,
        -7.31154438e-02, -3.93840283e-01, -7.31154438e-02,
         1.47298320e-01, -7.31154438e-02,  1.65960118e-01,
        -5.25781258e-01, -8.44376887e-01,  3.21548877e-01,
        -1.23583537e-01,  2.77466536e-01,  4.10135029e-03]])

Matriz de confusión

In [111]:
confusion = confusion_matrix(y_test, y_test_pred)

TP = confusion[1, 1]
TN = confusion[0, 0]
FP = confusion[0, 1]
FN = confusion[1, 0]

In [112]:
print('TP: ', TP,' TN: ', TN,' FP: ',FP,' FN: ',FN )
print('Accuracy=', (TP+TN)/ (TP+TN+FP+FN))
print('Total de casos correctamente predichos (TP+TN) =',(TP+TN))
print('Total de casos (TP+TN+FP+FN) =',(TP+TN+FP+FN))

TP:  209  TN:  988  FP:  120  FN:  191
Accuracy= 0.7937665782493368
Total de casos correctamente predichos (TP+TN) = 1197
Total de casos (TP+TN+FP+FN) = 1508


### Métricas específicas

**RECALL:** Si su valor es bajo, es porque hay presencia de falsos negativos. Por eso, esta medida es sensible a los FN.

Comparado con accuracy_score, esta medida se enfoca en los casos positivos, así muestra cómo funciona nuestro modelo en relación al objeto de interés de nuestro negocio.

Útil cuando la ocurrencia de falsos negativos es inaceptables.

In [113]:
recall_score(y_test,y_test_pred, pos_label='No')

0.8916967509025271

**PRECISION:** Si su valor es bajo, es porque hay presencia de falsos positivos. Por eso, esta medida es sensible a los FP.

Util cuando necesitamos estar seguros de los verdaderos positivos.

In [114]:
precision_score(y_test, y_test_pred, pos_label='No')

0.8379983036471587

**Specificity:** (especificidad o true negative rate (TNR)) es la proporción de negativos correctamente predichos sobre el total de casos negativos.

Mide qué tan "específico" es el clasificador al predecir las instancias positivas. Se calcula como el número de verdaderos negativos (TN) sobre todos los casos que son negativos (TN+FP).

Si su valor es bajo, es porque hay presencia de falsos positivos. Por eso, esta medida es sensible a los FP.

Otro ejemplo donde importa una alta especificidad, es si predecimos que una persona está enferma al cual debemos suministrarle una droga potente, y no lo está realmente.

In [78]:
print('Specificity=', (TN)/ (TN+FP))
print('Total de casos negativos predichos correctamente (TN) =',(TN))
print('Total de casos negativos (TN+FP) =',(TN+FP))

Specificity= 0.8916967509025271
Total de casos negativos predichos correctamente (TN) = 988
Total de casos negativos (TN+FP) = 1108


**F1-Score:** Como regla general, cuanto mayor es esta métrica, mejor es el modelo.

Pero para tener un f1-score alto, es necesario que tanto recall como precision sean altos, mientras que un f1-score bajo puede ser el resultado de un valor bajo en por lo menos una de estas métricas o en ambas a la vez.

In [115]:
f1_score(y_test,y_test_pred, pos_label='No')

0.8640139921294273

La ventaja de usar la media armónica (en vez de la media aritmética) es que el resultado del f1-score no es sensible a valores altos de una de las dos variables (recall o precision).

Por otro lado, no todos los valores extremos son ignorados, ya que los que son muy bajos si tienen peso en el resultado final.

### IMPORTANTE

* Debemos tener en cuenta Recall cuando no podemos aceptar los falsos negativos.
* Specificity cuando no debemos aceptar falsos positivos.
* Precision cuando debemos estar seguros de los verdaderos positivos.

**Cuál es la pregunta de negocio? Qué métrica se quiere maximizar?**
En base a esto decidiremos cuales son las mejoras a aplicar en los siguientes pasos, pero independientemente de ello primero es necesario si las métricas que ya tenemos pueden mejorar con la regularización de los features.

### Regularización

In [116]:
scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [117]:
logistic_regression = LogisticRegression(penalty='l1', solver= 'liblinear')
logistic_regression.fit(X_train_scaled, y_train);

In [118]:
y_test_pred = logistic_regression.predict(X_test_scaled)
y_test_pred

array(['No', 'Yes', 'No', ..., 'No', 'No', 'Yes'], dtype=object)

In [24]:
accuracy_score(y_test, y_test_pred)

0.7970822281167109

In [119]:
confusion = confusion_matrix(y_test, y_test_pred)

In [120]:
TP = confusion[1, 1]
TN = confusion[0, 0]
FP = confusion[0, 1]
FN = confusion[1, 0]
print('TP: ', TP,' TN: ', TN,' FP: ',FP,' FN: ',FN )

TP:  211  TN:  991  FP:  117  FN:  189


In [121]:
print('Accuracy=', (TP+TN)/ (TP+TN+FP+FN))
print('Total de casos correctamente predichos (TP+TN) =',(TP+TN))
print('Total de casos (TP+TN+FP+FN) =',(TP+TN+FP+FN))

Accuracy= 0.7970822281167109
Total de casos correctamente predichos (TP+TN) = 1202
Total de casos (TP+TN+FP+FN) = 1508


In [124]:
recall_score(y_test, y_test_pred, pos_label='No')

0.894404332129964

In [125]:
precision_score(y_test, y_test_pred, pos_label='No')

0.8398305084745763

In [126]:
print('Specificity=', (TN)/ (TN+FP))
print('Total de casos negativos predichos correctamente (TN) =',(TN))
print('Total de casos negativos (TN+FP) =',(TN+FP))

Specificity= 0.894404332129964
Total de casos negativos predichos correctamente (TN) = 991
Total de casos negativos (TN+FP) = 1108


In [127]:
f1_score(y_test,y_test_pred, pos_label='No')

0.8662587412587412

No se observa que las métricas hayan mejorado con la regularización.

<hr/>

## Mejoremos las métricas

Para ello se probarán distintas estrategias.
* Selección de features importantes.
* Ajustes de hiperparámetros con gridsearch.