In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from IPython.display import display_html
import plotly.express as px


In [None]:
df = pd.read_csv('BankChurners.csv')

In [None]:
display_html(df.head())

Veamos el tipo de objeto para ver cuales son variables categóricas

In [None]:
df.shape

In [None]:
df.dtypes

Se chequea si existen valores nulos.

In [None]:
df.isnull().sum()

Se chequea si el identificador de cliente (CLIENTNUM) es único

In [None]:
df.CLIENTNUM.nunique()/df.shape[0]

Podemos eliminar CLIENTNUM porque no hay identificadores repetidos

In [None]:
df.drop(columns='CLIENTNUM', inplace=True)

# Gráficos 
## Categoría de ingresos según el género

In [None]:
sns.displot(x=df["Income_Category"], 
            hue=df["Gender"],         
            height=8,
            aspect=2)

## Cantidad de personas que cancelan la tarjeta según sus ingresos

In [None]:
df['Attrition_Flag'].value_counts(normalize=True)

Del total que dejan la tarjeta, veamos como se distribuyen en función de su nivel de eduación

In [None]:
df[df['Attrition_Flag'] == 'Attrited Customer']['Education_Level'].value_counts(normalize=True)

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(25,6))
sns.countplot(x=df[df['Attrition_Flag'] == 'Attrited Customer']['Marital_Status'], ax=axes[0])
sns.countplot(x=df[df['Attrition_Flag'] == 'Attrited Customer']['Education_Level'], ax=axes[1])

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(25,6))
sns.countplot(x=df[df['Attrition_Flag'] == 'Attrited Customer']['Income_Category'], ax=axes[0])
sns.histplot(x=df[df['Attrition_Flag'] == 'Attrited Customer']['Customer_Age'], ax=axes[1])

## Total_Revolving_Bal vs Credit_Limit 
Saldo renovable es la parte del gasto de la tarjeta de crédito que no se paga al final de un ciclo de facturación vs límite de facturación por tipo de cliente y por género

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(18,6))
sns.scatterplot(data=df, x='Total_Revolving_Bal', y='Credit_Limit', hue='Attrition_Flag', ax=axes[0])
sns.scatterplot(data=df, x='Total_Revolving_Bal', y='Credit_Limit', hue='Gender', ax=axes[1])

## Distribución de la edad de los clientes en función de nivel de eduación, ingresos, categoría de tarjeta,

In [None]:
fig, axes = plt.subplots(nrows=3, ncols=1, figsize=(15,8))
sns.set_style("whitegrid")
sns.violinplot(x=df['Education_Level'], y=df['Customer_Age'], data=df, palette="Set3", ax=axes[0])
sns.violinplot(x=df['Income_Category'], y=df['Customer_Age'],data=df,palette="Set3", ax=axes[1])
sns.violinplot(x=df['Card_Category'], y=df['Customer_Age'], data=df,palette="Set3", ax=axes[2])
fig.tight_layout()

## Distribución del límite de la tarjeta en función de categoría de trajeta, educación, edad, estado marital

In [None]:
fig, axes = plt.subplots(nrows=4, ncols=1, figsize=(15,12))
sns.violinplot(x="Card_Category",y="Credit_Limit",data=df,palette="Set3",ax=axes[0])
sns.violinplot(x="Education_Level",y="Credit_Limit",data=df,palette="Set3",ax=axes[1])
sns.violinplot(x="Customer_Age",y="Credit_Limit",data=df,palette="Set3",ax=axes[2])
sns.violinplot(x="Gender",y="Credit_Limit",data=df,palette="Set3",ax=axes[3])
fig.tight_layout()

## Cantidad total de transacciones por tipo de cliente y por género

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(18,6))
sns.histplot(data=df, x='Total_Trans_Ct', hue='Attrition_Flag', ax=axes[0])
sns.histplot(data=df, x='Total_Trans_Ct', hue='Gender', ax=axes[1])

## Cambios en los montos de las transacciones y Cambios en la cantidad de transacciones por tipo de cliente y género

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(18,6))
sns.histplot(data=df, x='Total_Ct_Chng_Q4_Q1', hue='Attrition_Flag', ax=axes[0])
sns.histplot(data=df, x='Total_Amt_Chng_Q4_Q1', hue='Gender', ax=axes[1])

# Variables categóricas
Se analizan las variables categóricas para ver su composición.

In [None]:
for col in df.select_dtypes(['object']).columns:
    print(col)
    print('Valores únicos: ', df[col].nunique())
    print(df[col].value_counts(normalize=True))
    print('\r\n')

*Marital_Status*, *Income_Category* y *Educational Level* tiene valores denominados "Unknown". <br>
Se analiza si existen registros en los cuales los "unknown" coincidan en las tres columnas.

In [None]:
df_unknowns = df[(df['Income_Category'] == 'Unknown') & 
                 (df['Marital_Status'] == 'Unknown') & 
                 (df['Education_Level'] == 'Unknown')]

df_unknowns.describe()

Los regristros cuyas columnas *Income_Category*, *Marital_Status* y *Education_Level* coinciden con la clase *"unknown"* son  7 y todos ellos corresponden al género femenino con tarjeta tipo *"Blue"*.

In [None]:
print(df.shape[0])
df.drop(index=df_unknowns.index, inplace=True)
print(df.shape[0])

# Imputación de "Unknown" variables categóricas

In [None]:
df.Income_Category = df.Income_Category.replace('Unknown',np.nan)
df.Education_Level = df.Education_Level.replace('Unknown',np.nan)
df.Marital_Status = df.Marital_Status.replace('Unknown',np.nan)

Porcentaje de nulos por columna categórica

In [None]:
print_str = 'Income Category nulls: {:.2f}% \nEducation Level nulls: {:.2f}% \nMarital Status nulls: {:.2f}%'
print(print_str.format(df.Income_Category.isnull().sum()/df.shape[0]*100,
                       df.Education_Level.isnull().sum()/df.shape[0]*100,
                       df.Marital_Status.isnull().sum()/df.shape[0]*100))

In [None]:
imputer_method = 'no_modify_distribution'

if imputer_method == 'modify_distribution':
    ## Esta imputación modifica la distribución de la variable.
    from sklearn.impute import SimpleImputer
    imputer = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
    df['Income_Category'] = imputer.fit_transform(df[['Income_Category']])
    df['Education_Level'] = imputer.fit_transform(df[['Education_Level']])
    df['Marital_Status'] = imputer.fit_transform(df[['Marital_Status']])

elif imputer_method == 'no_modify_distribution':
    # Esta imputación no modifica la distribución de la variable.
    df['Income_Category'] = df.Income_Category.apply(lambda x: 
                                                        np.random.choice(df[df.Income_Category.notnull()]['Income_Category']) if pd.isnull(x) 
                                                        else x)

    df['Education_Level'] = df.Education_Level.apply(lambda x: 
                                                        np.random.choice(df[df.Education_Level.notnull()]['Education_Level']) if pd.isnull(x) 
                                                        else x)

    df['Marital_Status'] = df.Marital_Status.apply(lambda x: 
                                                      np.random.choice(df[df.Marital_Status.notnull()]['Marital_Status']) if pd.isnull(x) 
                                                      else x)

Una vez imputadas las variables categóricas, procedemos a convertirlas a numéricas (antes escalo las columnas num y float).

# Escalado de columnas numéricas
Se escalan las columnas numéricas (floatantes y enteras).

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

for col in df.select_dtypes(['float64']).columns:
    df[col] = scaler.fit_transform(df[[col]])  
for col in df.select_dtypes(['int64']).columns: #agrego esto 
    df[col] = scaler.fit_transform(df[[col]])  

In [None]:
df.head()

# Conversión de variables categóricas
Se definen mappers customizados para controlar la manera en la cual se realizan las conversiones.
## Columna *Attrition_Flag*
Mapeo binario:
- Existing customer: 0
- Attrited customer: 1

In [None]:
attrition_mapper = {'Existing Customer': 0, 'Attrited Customer': 1}
df['Attrition_Flag'] = df['Attrition_Flag'].map(attrition_mapper)

## Columna *Gender*
Separamos en dos columnas con el Flag en 1 para determinar la pertenencia:


In [None]:
df =pd.get_dummies(df, columns = ['Gender'])

## *Education_Level*
Utilizaremos un mapping personalizado para el nivel de educación para tener control de cómo mapear las variables categóricas.

In [None]:
education_mapper = {'Uneducated': 0, 'High School':1, 'College':2, 'Graduate': 3,'Post-Graduate': 4, 'Doctorate': 5}
df.Education_Level = df.Education_Level.map(education_mapper)

## *Marital_Status*
Mapeo personalizado.

In [None]:
df =pd.get_dummies(df, columns = ['Marital_Status'])

## *Income_Category*
Mapeo personalizado.

In [None]:
income_mapper = {'Less than $40K': 0,'$40K - $60K':1,'$60K - $80K':2,'$80K - $120K':3, '$120K +':4}
df.Income_Category = df.Income_Category.map(income_mapper)

## *Card_Category*
Mapeo personalizado.

In [None]:
card_mapper = {'Blue': 0,'Silver':1,'Gold':2,'Platinum':3}
df.Card_Category = df.Card_Category.map(card_mapper)

# Outliers
Para las columnas numéricas, chequeamos outliers y los eliminamos con el criterio del rango intercuartílico.

In [None]:
def treat_outiers(dataframe, col, **kwargs):
    """
    Treat outliers considering interquartile range.
    """     
    # Get keyword arguments
    column_action = kwargs.pop('column_action', 'remove')

    q1 = dataframe[col].quantile(0.25)
    q3 = dataframe[col].quantile(0.75)
    iqr = q3 - q1
    outlier_threshold = q3 + (iqr *1.5)
    if column_action == 'remove':
        dataframe = dataframe[dataframe[col] < outlier_threshold]
    
    return dataframe

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(8,8))
sns.set_style("whitegrid")
cols = ['Credit_Limit', 'Avg_Open_To_Buy']

print('DataFrame size before outlier treatment: {0}'.format(df.shape))

ir = 0
for col in cols:
    ax = sns.violinplot(x=col, data=df, ax=axes[ir], label= col + ' --> outliers')
    plt.setp(ax.collections, alpha=.3)
    df = treat_outiers(df, col)        
    sns.violinplot(x=col, data=df, ax=axes[ir], label=col + ' --> without outliers')
    ir += 1
        
fig.tight_layout()

print('DataFrame size after outlier treatment: {0}'.format(df.shape))

# Matriz de correlación
Sólo representamos la parte inferior de la matriz de correlación ya que esta es simétrica.

In [None]:
plt.figure(figsize=(20,6))
corr = df.corr()
# Getting the Upper Triangle of the co-relation matrix
matrix = np.triu(corr)
sns.heatmap(np.abs(corr), annot=True, mask=matrix)

Se elminan aquellas columnas que no presentan correlación significativa.

In [None]:
df.drop(columns=['Dependent_count', 
                 'Education_Level', 
                 'Marital_Status_Divorced', 
                 'Marital_Status_Married',
                 'Marital_Status_Single',
                 'Months_on_book', 
                 'Months_Inactive_12_mon',
                 'Customer_Age'], inplace=True)

In [None]:
plt.figure(figsize=(20,6))
corr = df.corr()
# Getting the Upper Triangle of the co-relation matrix
matrix = np.triu(corr)
sns.heatmap(np.abs(corr), annot=True, mask=matrix)

In [None]:
df.shape

In [None]:
df.head()

# Pairplot
No tiene mucho sentido hacer este gráfico para todas las columnas. <br>
Trato de hacerlo para aquellas que guardan correlación

In [None]:
x = df.loc[:,['Attrition_Flag','Credit_Limit', 'Avg_Open_To_Buy','Total_Trans_Amt','Total_Trans_Ct']]
sns.pairplot(data=x, hue="Attrition_Flag", markers=["o", "s"])

## Separación Entrenamiento / Test

In [None]:
# Se elimina la primera de las columnas (que es nuestro target)
X = df.iloc[:,1:]
y = df.Attrition_Flag

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=33)

## Desbalance de clases
Sólo se aplica sobre el set de entrenamiento.<br>
Un 70%-30%, 75%-25% puede ser un desbalance típico

![image.png](attachment:image.png)

In [None]:
print(y_train.value_counts(normalize=True))
g = sns.countplot(x=y_train)
g.set_xticklabels(['Existing Customer','Attrited Customer'])
plt.show()

### Undersampling
Puede producir una pérdida de información valiosa.

In [None]:
from imblearn.under_sampling import RandomUnderSampler
undersampling = RandomUnderSampler(sampling_strategy=1)
X_train_under, y_train_under = undersampling.fit_resample(X_train, y_train)

In [None]:
print(y_train_under.value_counts(normalize=True))
g = sns.countplot(x=y_train_under)
g.set_xticklabels(['Existing Customer','Attrited Customer'])
plt.show()

### Oversampling
Aumeta la cantidad de valores de clase minoritaria. Puede producir overfitting.

In [None]:
from imblearn.over_sampling import RandomOverSampler
oversampling = RandomOverSampler(sampling_strategy=1)
X_train_over, y_train_over = oversampling.fit_resample(X_train, y_train)

In [None]:
print(y_train_over.value_counts(normalize=True))
g = sns.countplot(x=y_train_over)
g.set_xticklabels(['Existing Customer','Attrited Customer'])
plt.show()

### SMOTE
Técnica de oversampling que crea nuevos puntos sintéticos de la clase minoritaria. <br>
Sólo funciona para datos numérticos ya que dentro del computo hace un cálculo de distancia.

In [None]:
from imblearn.over_sampling import SMOTE
over_smote = SMOTE(sampling_strategy=1)
X_train_smote, y_train_smote = over_smote.fit_resample(X_train, y_train)

In [None]:
print(y_train_smote.value_counts(normalize=True))
g = sns.countplot(x=y_train_smote)
g.set_xticklabels(['Existing Customer','Attrited Customer'])
plt.show()

Creo una lista con el datasete de entrenamiento desbalanceado, submuestreado, sobremuestreado y sobremuestreado SMOTE

In [None]:
labels = ['Imbalance dataset', 'Undersampled dataset', 'Oversampled dataset', 'Oversampled dataset (SMOTE)']
X = [X_train, X_train_under, X_train_over, X_train_smote]
y = [y_train, y_train_under, y_train_over, y_train_smote]

In [None]:
## Modelos

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.neighbors import KNeighborsTransformer, KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier

In [None]:
models = [ KNeighborsClassifier(n_neighbors=5),           
         DecisionTreeClassifier(criterion='gini', max_depth=8),
         RandomForestClassifier(n_estimators=10, criterion='entropy'),
         LogisticRegression(penalty='l1', C=1, solver='liblinear'),
         XGBClassifier(booster= "gbtree", verbosity= 0, eval_metric='mlogloss')
         ] 

for model in models:    
    print('\r')
    print(type(model).__name__)
    print(model.get_params())

# Hiperparámetros
Se realiza la búsqueda de hiperparámetros a través de GridSearch considerando KFold para crossvalidate.

In [None]:
from sklearn.model_selection import KFold

# Se agregan los folds con un un hiperpárametro cv (cross validate) dentro del GridSearch
folds = KFold(n_splits=4, shuffle=True, random_state=21)

In [None]:
grid_params=[{'n_neighbors': [1,2,3,5,8,15],'weights':['uniform', 'distance'], 'metric':['euclidean', 'manhattan']},
                 {'criterion': ['gini', 'entropy'], 'max_depth': [1, 2, 5, 7, 10, 13]},
                 {'criterion': ['gini', 'entropy'], 'max_depth': [8, 9, 12, 13]},
                 {'C':[1, 10], 'penalty':['l1', 'l2']},
                 {"booster": ["gbtree", "gblinear", "dart"], "verbosity": [0]}
                ]

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
import warnings
warnings.filterwarnings('ignore')

plot_scores = False

best_params = []

# Criterio: maximizar el f1 que es el que hace un equilibrio entre presición y recall
scores = ['f1']

for qq in range(len(labels)):
    print('----------> ',labels[qq], ' <----------')
    for kk in range(len(models)):
        for score in scores:
            print('Classifier: ', models[kk])
            print('Parameters: ', grid_params[kk])

            grid = GridSearchCV(models[kk],
                                param_grid=grid_params[kk],
                                cv=folds,
                                scoring=score)

            grid.fit(X[qq], y[qq])
            print("Best parameters set found on development set: ", grid.best_params_)
            best_params.append(grid.best_params_)
            print()

            if plot_scores:
                print("Grid scores on development set:")
                print()
                means = grid.cv_results_['mean_test_score']
                stds = grid.cv_results_['std_test_score']
                for mean, std, params in zip(means, stds, grid.cv_results_['params']):
                    print("%0.3f (+/-%0.03f) for %r"
                          % (mean, std * 2, params))
                print()

                print("Detailed classification report:")
                print()
                print("The model is trained on the full development set.")
                print("The scores are computed on the full evaluation set.")
                print()
                y_true, y_pred = y_test, grid.predict(X_test)
                print(classification_report(y_true, y_pred))
                print()

Se muestran la lista de los mejores hiperparámetros para el dataset balanceado (undersampled SMOTE)

In [None]:
best_params = best_params[-len(models):]
best_params

## Clasificación

In [None]:
from sklearn.pipeline import make_pipeline

Se evaluán 4 modelos de clasificación (podrían ser más) con sus respectivas métricas con el dataset:
- desbalanceado, 
- submuestreado (undersampling), 
- sobremuestreado (oversampling) y 
- sobremuestreado SMOTE (oversampling SMOTE)

Importante, un recall bajo implica que no estoy pudiendo identificar quienes van a dejar la tarjeta. Es decir, de todos los que dije que iban a abandonar la tarjeta, cuantos se están yendo. <br>
Generalmente, depende mucho del problema, pero entre 66% y 70% de recall y precisión está bien.

In [None]:
import warnings
warnings.filterwarnings('ignore')

from yellowbrick.features import FeatureImportances
from yellowbrick.classifier import ConfusionMatrix, ClassificationReport, ROCAUC


classes = ['Attrited Customer', 'Existing Customer']
plt_confusion_matrix = False

# Se analizan los datasets desbalanceados, submuestreados, sobremuestrados y sobremuestreado SMOTE.
# Los modelos se parametrizan según lo obtenido con GridSearch.

# Loop sobre etiquetas: 'Imbalance dataset', 'Undersampled dataset', 'Oversampled dataset', 'Oversampled dataset (SMOTE)'
for k in range(len(labels)):    
    # Loop sobre los modelos
    for mid in range(len(models)): 
        # Parametrización del modelo según GridSearch
        model = models[mid]
        model.set_params(**best_params[mid])
        print(labels[k], ' ------> ', model) 
        
        # Pipeline        
        training_pipeline = make_pipeline(model)
        # Entrenamiento
        training_pipeline.fit(X[k], y[k])
        # Predicción
        y_pred = training_pipeline.predict(X_test)                        

        # Visualización con yellowbrick
        fig, axes = plt.subplots(nrows=1, ncols=3, figsize=(20,6))
        
        # Visualizaciones a mostrar
        visualgrid =[
                    ConfusionMatrix(model, ax=axes[0], classes=classes),
                    ClassificationReport(model, ax=axes[1], classes=classes),
                    ROCAUC(model, ax=axes[2], classes=classes),
                    ]

        for viz in visualgrid:
            viz.fit(X[k], y[k])
            viz.score(X_test, y_test)
            viz.finalize()
            
        plt.suptitle(labels[k] + ': ' +  type(model).__name__ , fontsize=16)
        plt.subplots_adjust(top=0.8)
        plt.show()   

* Los árboles tienen buen desempeño incluso con clases desbalanceadas.
* La curva ROC-AUC, mide qué tan bien un modelo es capaz de diferencia diferentes clases.
* La diagonal punteada muestra el clasificador aleatorio (tirar la moneda).
* Los distintos puntos de la curva, son distintos umbrales de clasificación.


In [None]:
def plot_roc_curve(fpr, tpr, title_str):
    plt.figure(figsize=(12,7))    
    plt.plot([0, 1], [0, 1], color='red', linestyle='--')
    for i in range(0, len(fpr)):
        plt.plot(fpr[i], tpr[i], label=str(models[i]))
        
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title(title_str)   
    plt.legend()   
    plt.grid(which='both')

In [None]:
from sklearn.metrics import roc_curve, roc_auc_score

In [None]:
fpr_list = []
tpr_list = []

for i in range(0, len(models)):
    model=models[i]
    print(model)
    pipe_model = make_pipeline(model)
    model.fit(X_train_smote, y_train_smote)
    # Para SVM hay que pasarle como hiperparámetros probabilities=True
    y_pred = model.predict_proba(X_test)
    y_pred = y_pred[:,1]
    fpr, tpr, threshold = roc_curve(y_test, y_pred)
    fpr_list.append(fpr)
    tpr_list.append(tpr)
    print('Area Under Curve (AUC): ', roc_auc_score(y_test, y_pred))
    print()

In [None]:
plot_roc_curve(fpr_list, tpr_list, title_str='ROC Curve --> SMOTE')

# Explicabilidad

## Explicación general
La idea es tener la capacidad de explicar las prediccciones de los resultados de un modelo desde el punto de vista técnico. <br>
SHAP: Shapley additive explanation. Viene de la teoría de juego. <br>

In [None]:
import shap

lo que necesita recibir la librería shap es el modelo.

In [None]:
model_to_explain = training_pipeline
print(model_to_explain)

Se crea un explainer para explicar como el modelo calcula las probabilidades de pertenecer o no a alguna de las clases.

In [None]:
explainer = shap.KernelExplainer(model_to_explain.predict, X_test)

Se calculan los shap_values que representan las importancia de cada uno de los atributos para predecir los resultados. <br>
Por cuestiones de memoria, sólo evalúo los primeros N.

In [None]:
N = 3
shap_values = explainer.shap_values(X_test.iloc[:N,: ])

Un vez calculados los shap values, los graficamos.

In [None]:
shap.summary_plot(shap_values,
                  X_test.iloc[:N,: ])

Sobre la izquierda tenemos las variables que usamos para la estimación. Arriba se encuentran las más relevantes, abajo las menos.
Si los shap_values están alrededor de cero, no aportan a la predicción de clases; es decir, no son relevantes/importantes para tomar la decisión de si van (o no) a dejar la tarjeta. <br>
Cada punto representa la cantidad de observaciones y el color representa la relevancia. <br>
Notar que:
- Para altas cantidad de transacciones (Total_trans_Ct), los valores negativos de shap values nos dicen de que es poco probable que el cliente deje la tarjeta.
- Para bajas cantidades de transacciones (Total_trans_Ct), los valores positivos de shap values nos dicen de que es más probable que el cliente deje la tarjeta.

## Explicación particular (no va a hacer churn)
A continuación se analiza un caso particular, una observación puntual del dataset de testing y evaluamos como está clasificado el modelo. <br>
Tomamos la primer fila del dataset de test.

In [None]:
X_test.iloc[1,:]

In [None]:
pd.DataFrame(y_test).iloc[1,:]

Vemos que se está clasificando como 0 (es decir, no va a hacer churn)

In [None]:
shap.initjs()
shap.force_plot(explainer.expected_value, shap_values[1], X_test.iloc[1,:])

## Explicación particular (si va a hacer churn)


In [None]:

pd.DataFrame(y_test).iloc[6,:]


In [None]:
shap.initjs()
shap.force_plot(explainer.expected_value, shap_values[2], X_test.iloc[6,:])

# Conclusión

In [None]:
len(models)

In [None]:
results_list = []

fig, axes = plt.subplots(nrows=1, ncols=5, figsize=(20,6))
# Loop sobre los modelos
for mid in range(len(models)): 
    # Parametrización del modelo según GridSearch
    model = models[mid]
    model.set_params(**best_params[mid])
    visualgrid = ClassificationReport(model, ax=axes[mid], classes=classes)

    visualgrid.fit(X_train_smote, y_train_smote)
    visualgrid.score(X_test, y_test)
    visualgrid.finalize()

    results_list.append(visualgrid.scores_)
fig.tight_layout()    


In [None]:
results_attrited = np.zeros((len(models), 3))
results_existing = np.zeros((len(models), 3))
model_name = np.zeros((len(models)), dtype=list)
for k in range(len(models)):
    model_name[k] = type(models[k]).__name__
    results_attrited[k, 0] = results_list[k]['precision']['Attrited Customer']
    results_attrited[k, 1] = results_list[k]['recall']['Attrited Customer']
    results_attrited[k, 2] = results_list[k]['f1']['Attrited Customer']
    
    results_existing[k, 0] = results_list[k]['precision']['Existing Customer']
    results_existing[k, 1] = results_list[k]['recall']['Existing Customer']
    results_existing[k, 2] = results_list[k]['f1']['Existing Customer']    

## Conclusiones Attrited

In [None]:
pd.DataFrame(results_attrited, 
             columns=['Precision', 'Recall', 'F1-score'],
             index=model_name)

## Conclusiones Existing

In [None]:
pd.DataFrame(results_existing, 
             columns=['Precision', 'Recall', 'F1-score'],
             index=model_name)