# Modelo de Clasificación en Beta Bank 

El banco Beta Bank está perdiendo clientes cada mes. Al parecer, se ha descubierto que es mucho más barato salvar a los clientes ya existentes del banco que atraer a nuevos.

Por lo tanto, se necesita realizar un modelo que prediga si un cliente dejará el banco pronto. Dentro de la información que se poseé son los datos sobre el comportamiento pasado de los clientes y la terminación de contratos con el banco. Esto se detallará más adelante todas las variables con las que se cuenta. 

El objetivo de este proyecto es crear un modelo con el máximo valor *F1* posible. Para aprobar la revisión, se necesita un valor *F1* de al menos 0.59. Se puede verificar *F1* para el conjunto de prueba. 

Adicional, se debe medir la métrica *AUC-ROC* y compararla con el valor *F1*. 

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Información-general-del-estudio" data-toc-modified-id="Información-general-del-estudio-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Información general del estudio</a></span></li><li><span><a href="#Inicialización" data-toc-modified-id="Inicialización-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Inicialización</a></span><ul class="toc-item"><li><span><a href="#Librerías" data-toc-modified-id="Librerías-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Librerías</a></span></li><li><span><a href="#Cargar-los-datos" data-toc-modified-id="Cargar-los-datos-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Cargar los datos</a></span></li><li><span><a href="#Estudio-de-información-general" data-toc-modified-id="Estudio-de-información-general-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Estudio de información general</a></span></li></ul></li><li><span><a href="#Preparar-los-datos" data-toc-modified-id="Preparar-los-datos-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Preparar los datos</a></span><ul class="toc-item"><li><span><a href="#Nombres-de-columnas-a-minúsculas" data-toc-modified-id="Nombres-de-columnas-a-minúsculas-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Nombres de columnas a minúsculas</a></span></li><li><span><a href="#Análisis-y-tratamiento-de-valores-ausentes" data-toc-modified-id="Análisis-y-tratamiento-de-valores-ausentes-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Análisis y tratamiento de valores ausentes</a></span><ul class="toc-item"><li><span><a href="#Análisis-de-valores-por-columna" data-toc-modified-id="Análisis-de-valores-por-columna-3.2.1"><span class="toc-item-num">3.2.1&nbsp;&nbsp;</span>Análisis de valores por columna</a></span><ul class="toc-item"><li><span><a href="#Análisis-tenure" data-toc-modified-id="Análisis-tenure-3.2.1.1"><span class="toc-item-num">3.2.1.1&nbsp;&nbsp;</span>Análisis <code>tenure</code></a></span></li></ul></li></ul></li><li><span><a href="#Conversión-tipos-de-datos" data-toc-modified-id="Conversión-tipos-de-datos-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Conversión tipos de datos</a></span></li></ul></li><li><span><a href="#Implementación-de-modelo-(clases-desbalanceadas)" data-toc-modified-id="Implementación-de-modelo-(clases-desbalanceadas)-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Implementación de modelo (clases desbalanceadas)</a></span><ul class="toc-item"><li><span><a href="#Segmentación-features-y-target" data-toc-modified-id="Segmentación-features-y-target-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Segmentación <code>features</code> y <code>target</code></a></span></li><li><span><a href="#Verificación-equilibrio-clase-objetivo" data-toc-modified-id="Verificación-equilibrio-clase-objetivo-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Verificación equilibrio clase objetivo</a></span></li><li><span><a href="#División-de-conjuntos-de-datos" data-toc-modified-id="División-de-conjuntos-de-datos-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>División de conjuntos de datos</a></span></li><li><span><a href="#Implementación-de-modelo-en-datos-de-entrenamiento-y-validación" data-toc-modified-id="Implementación-de-modelo-en-datos-de-entrenamiento-y-validación-4.4"><span class="toc-item-num">4.4&nbsp;&nbsp;</span>Implementación de modelo en datos de entrenamiento y validación</a></span><ul class="toc-item"><li><span><a href="#Árbol-de-decisión" data-toc-modified-id="Árbol-de-decisión-4.4.1"><span class="toc-item-num">4.4.1&nbsp;&nbsp;</span>Árbol de decisión</a></span><ul class="toc-item"><li><span><a href="#Verificación-de-hiperparámetros" data-toc-modified-id="Verificación-de-hiperparámetros-4.4.1.1"><span class="toc-item-num">4.4.1.1&nbsp;&nbsp;</span>Verificación de hiperparámetros</a></span></li><li><span><a href="#Implementación-datos-de-prueba" data-toc-modified-id="Implementación-datos-de-prueba-4.4.1.2"><span class="toc-item-num">4.4.1.2&nbsp;&nbsp;</span>Implementación datos de prueba</a></span></li></ul></li></ul></li></ul></li><li><span><a href="#Implementación-de-modelo-(clases-balanceadas)" data-toc-modified-id="Implementación-de-modelo-(clases-balanceadas)-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Implementación de modelo (clases balanceadas)</a></span><ul class="toc-item"><li><span><a href="#Balanceo-de-clases" data-toc-modified-id="Balanceo-de-clases-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Balanceo de clases</a></span></li><li><span><a href="#Verificación-de-equilibrio-de-clase-objetivo" data-toc-modified-id="Verificación-de-equilibrio-de-clase-objetivo-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Verificación de equilibrio de clase objetivo</a></span></li><li><span><a href="#Implementación-de-modelo-en-datos-de-entrenamiento" data-toc-modified-id="Implementación-de-modelo-en-datos-de-entrenamiento-5.3"><span class="toc-item-num">5.3&nbsp;&nbsp;</span>Implementación de modelo en datos de entrenamiento</a></span><ul class="toc-item"><li><span><a href="#Árbol-de-decisión" data-toc-modified-id="Árbol-de-decisión-5.3.1"><span class="toc-item-num">5.3.1&nbsp;&nbsp;</span>Árbol de decisión</a></span><ul class="toc-item"><li><span><a href="#Verificación-de-hiperparámetros" data-toc-modified-id="Verificación-de-hiperparámetros-5.3.1.1"><span class="toc-item-num">5.3.1.1&nbsp;&nbsp;</span>Verificación de hiperparámetros</a></span></li><li><span><a href="#Implementación-datos-de-prueba" data-toc-modified-id="Implementación-datos-de-prueba-5.3.1.2"><span class="toc-item-num">5.3.1.2&nbsp;&nbsp;</span>Implementación datos de prueba</a></span></li></ul></li><li><span><a href="#Random-Forest" data-toc-modified-id="Random-Forest-5.3.2"><span class="toc-item-num">5.3.2&nbsp;&nbsp;</span>Random Forest</a></span><ul class="toc-item"><li><span><a href="#Verificación-de-hiperparámetros" data-toc-modified-id="Verificación-de-hiperparámetros-5.3.2.1"><span class="toc-item-num">5.3.2.1&nbsp;&nbsp;</span>Verificación de hiperparámetros</a></span></li><li><span><a href="#Implementación-datos-de-prueba" data-toc-modified-id="Implementación-datos-de-prueba-5.3.2.2"><span class="toc-item-num">5.3.2.2&nbsp;&nbsp;</span>Implementación datos de prueba</a></span></li></ul></li></ul></li></ul></li><li><span><a href="#Conclusiones" data-toc-modified-id="Conclusiones-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Conclusiones</a></span></li></ul></div>

## Información general del estudio

A continuación se indica las variables y sus características: 

- `RowNumber` — índice de cadena de datos
- `CustomerId` — identificador de cliente único
- `Surname` — apellido
- `CreditScore` — valor de crédito
- `Geography` — país de residencia
- `Gender` — sexo
- `Age` — edad
- `Tenure` — período durante el cual ha madurado el depósito a plazo fijo de un cliente (años).
- `Balance` — saldo de la cuenta
- `NumOfProducts` — número de productos bancarios utilizados por el cliente
- `HasCrCard` — el cliente tiene una tarjeta de crédito (`Sí` - `1`, `No` - `0`)
- `IsActiveMember` — actividad del cliente (`Sí` - `1`, `No` - `0`)
- `EstimatedSalary` — salario estimado

Variable objetivo:
- `Exited` — el cliente se ha ido (`Sí` - `1`, `No` - `0`)

Por lo tanto, se utilizarán todas estas variables, junto con el historial de varios clientes que ya se han ido a otros bancos, para poder predecir si otros clientes se van a ir o no. 

## Inicialización

Instalación de la librería `imbalanced-learn`

In [1]:
!pip install --user -U imbalanced-learn scikit-learn

Collecting imbalanced-learn
  Downloading imbalanced_learn-0.10.1-py3-none-any.whl (226 kB)
[K     |████████████████████████████████| 226 kB 21.0 MB/s eta 0:00:01
Collecting scikit-learn
  Downloading scikit_learn-1.2.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (9.6 MB)
[K     |████████████████████████████████| 9.6 MB 62.4 MB/s eta 0:00:01
Collecting joblib>=1.1.1
  Downloading joblib-1.2.0-py3-none-any.whl (297 kB)
[K     |████████████████████████████████| 297 kB 47.9 MB/s eta 0:00:01
Installing collected packages: joblib, scikit-learn, imbalanced-learn
Successfully installed imbalanced-learn-0.10.1 joblib-1.2.0 scikit-learn-1.2.2


### Librerías

Se inicia cargando todas las librerías de Python que se utilizarán a lo largo del proyecto. 

In [1]:
# cargar todas las librerías
import pandas as pd
import re
import numpy as np
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, confusion_matrix, recall_score, precision_score
from imblearn.over_sampling import SMOTE
from itertools import product
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier

### Cargar los datos

Se carga los datos de los diferentes archivos

In [2]:
# carga del archivo en DataFrame
data_bank = pd.read_csv("/datasets/Churn.csv")

### Estudio de información general

Comenzamos a revisar el contenido del archivo

In [3]:
# nombre columnas
print("Columns of 'data_bank':", data_bank.columns)
# número filas x columnas
print("")
print("Rows and columns of 'data_bank':", data_bank.shape)

Columns of 'data_bank': Index(['RowNumber', 'CustomerId', 'Surname', 'CreditScore', 'Geography',
       'Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard',
       'IsActiveMember', 'EstimatedSalary', 'Exited'],
      dtype='object')

Rows and columns of 'data_bank': (10000, 14)


Se ha comprobado la información que nos entregaron en un inicio, el cual tenemos un dataset que lo llamamos `data_bank`, que tiene 14 columnas (que fueron descritas en la sección 1.) y un total de 10,000 datos. Verifiquemos cómo están los datos, si hay que realizar o no alguna limpieza en los datos. 

Visualicemos la información inicial y una información resumida de la tabla `data_bank`:

In [4]:
# revisión datos iniciales, tipos de datos
display(data_bank.head())
print("")
print(data_bank.info())

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB
None


Según la información que tenemos, y lo que estamos visualizando, no tenemos un dataset completamente limpio. Por ejemplo, la variable `Tenure`, que significa la cantidad de tiempo (en años) que ha pasado desde que un cliente del banco hizo un depósito a plazo fijo hasta que dicho depósito alcanzó su fecha de vencimiento, tiene valores ausentes. De igual forma, algunas variables no están convertidas en los tipos de datos correctos. 

Es importante preparar los datos de forma correcta para poder realizar un análisis previo a los datos y después aplicar el modelo de clasificación. 

## Preparar los datos

### Nombres de columnas a minúsculas

Para mantener una mejor estructura y presentación en el análisis de datos, se reemplazará los nombres de las columnas `data_bank` a minúsculas, aplicando también el método `snake_case` donde las varibales van a estar separadas por guión bajo (`_`) en vez de que todo esté unido, para poder entender mejor.

Para esto, se define la siguiente función, utilizando la biblioteca `re` (expresiones regulares) para ayudar mejor en la conversión. 

In [5]:
# función para convertir variables a snake_case
def to_snake_case(name):
    # inserta guion bajo antes de cada letra mayúscula y convierte la letra a minúscula
    s1 = re.sub('(.)([A-Z][a-z]+)', r'\1_\2', name)
    # inserta guion bajo entre una letra minúscula y una letra mayúscula y convierte la letra a minúscula
    return re.sub('([a-z0-9])([A-Z])', r'\1_\2', s1).lower()

Con esta función, aplicamos a todas las columnas de `data_bank`

In [6]:
# convierte los nombres de las columnas a snake_case
snake_case_column_names = [to_snake_case(name) for name in data_bank.columns]

# aplica los nombres de las columnas convertidos al DataFrame
data_bank.columns = snake_case_column_names

# verificamos
print(data_bank.columns)

Index(['row_number', 'customer_id', 'surname', 'credit_score', 'geography',
       'gender', 'age', 'tenure', 'balance', 'num_of_products', 'has_cr_card',
       'is_active_member', 'estimated_salary', 'exited'],
      dtype='object')


Hemos cambiado los nombres de las columnas de forma correcta. Ahora, vamos a proceder con el análisis de los valores ausentes. 

### Análisis y tratamiento de valores ausentes

Antes de convertir los tipos de datos, verifiquemos qué datos hay en cada columna junto con sus valores ausentes. Esto es importante para no obtener un error por tener valores ausentes o valores infinitos en las filas de las columnas al momento de cambiar el tipo de dato.

In [7]:
# verificación columnas con valores ausentes
data_bank.columns[data_bank.isnull().any()]

Index(['tenure'], dtype='object')

Como indicamos anteriormente, solo contamos con valores ausentes en `ternure`. 

Comprobemos cuántos valores ausentes tenemos: 

In [8]:
# número de valores ausentes por columna
data_bank.isna().sum()

row_number            0
customer_id           0
surname               0
credit_score          0
geography             0
gender                0
age                   0
tenure              909
balance               0
num_of_products       0
has_cr_card           0
is_active_member      0
estimated_salary      0
exited                0
dtype: int64

En total tenemos 909 valores ausentes en la variable `ternure`. Ahora verifiquemos qué porcentaje representa en relación al total de datos. 

In [9]:
# % de missing values por columna
for col in data_bank.columns:
    pct_missing = np.mean(data_bank[col].isnull())
    print('{} - {}%'.format(col, round(pct_missing*100, 2)))

row_number - 0.0%
customer_id - 0.0%
surname - 0.0%
credit_score - 0.0%
geography - 0.0%
gender - 0.0%
age - 0.0%
tenure - 9.09%
balance - 0.0%
num_of_products - 0.0%
has_cr_card - 0.0%
is_active_member - 0.0%
estimated_salary - 0.0%
exited - 0.0%


Los valores ausentes de la columna `tenure` representan 9.09% de los datos totales. Este valor es menos del 10%, aún así, es un valor alto que hay que considerar qué realizar con estos valores ausentes. 

Para entender mejor esto, es importante revisar cómo está la distribución de los datos de cada columna, y qué datos hay. 

#### Análisis de valores por columna

A continuación se realizar un análisis de la frecuencia de datos de cada columna: 

In [10]:
# frecuencia de datos repetidos por columna en data_bank
for col in data_bank.columns:
    print ('\nFrecuencia de categorías para columna: %s'%col)
    print (data_bank[col].value_counts().head(10))


Frecuencia de categorías para columna: row_number
2049    1
8865    1
6806    1
4759    1
8857    1
2716    1
669     1
6814    1
4767    1
2724    1
Name: row_number, dtype: int64

Frecuencia de categorías para columna: customer_id
15695872    1
15801062    1
15682268    1
15647453    1
15684319    1
15641312    1
15639265    1
15743714    1
15649508    1
15621550    1
Name: customer_id, dtype: int64

Frecuencia de categorías para columna: surname
Smith       32
Martin      29
Scott       29
Walker      28
Brown       26
Yeh         25
Genovese    25
Shih        25
Wright      24
Maclean     24
Name: surname, dtype: int64

Frecuencia de categorías para columna: credit_score
850    233
678     63
655     54
667     53
705     53
684     52
651     50
670     50
683     48
648     48
Name: credit_score, dtype: int64

Frecuencia de categorías para columna: geography
France     5014
Germany    2509
Spain      2477
Name: geography, dtype: int64

Frecuencia de categorías para columna: gend

Con la distribución de los datos, hemos descubierto información importante en cada una de las columnas, aunque hemos visto un primer vistazo, ya que máximo visualizamos los primeros 10 datos que se repiten. 

Por el momento, la columna que más nos importa analizar es `tenure`, por lo que vamos a analizarla con más detalle. 

##### Análisis `tenure`

Analicemos con más detalle la variable `tenure`. Para esto, volvemos a aplicar el método `value_counts` pero verificando los valores nulos, para ver cuántos son: 

In [11]:
# distribución de los datos de tenure
data_bank["tenure"].value_counts(dropna=False)

1.0     952
2.0     950
8.0     933
3.0     928
5.0     927
7.0     925
NaN     909
4.0     885
9.0     882
6.0     881
10.0    446
0.0     382
Name: tenure, dtype: int64

Al parecer tenemos valores ausentes por un problema de información, de recopilación de datos o inconsistencias en el registro. Sea cual sea la razón, vamos a tener que tomar una decisión sobre qué hacer con estos valores ausentes, ya que al momento de aplicar un modelo de machine learning, no puede haber valores nulos. 

En un inicio se pensaba que los valores ausentes podían ser datos con 0.0, sin embargo, si tenemos una categoría con ese valor. Por esta razón, se procede a imputar los datos mediante la moda, pero en base a 4 categorías que creemos que son las que más afectan a la variable `tenure` que son: `geography`, `age`, `num_of_products` y  `is_active_member`.

Las razones son las siguientes: 
- `geography`: es posible que la duración de los depósitos a plazo fijo varíe según el país de residencia.
- `age`: la edad del cliente podría estar relacionada con la duración de los depósitos a plazo fijo, ya que diferentes grupos de edad pueden tener diferentes hábitos de ahorro e inversión.
- `num_of_products`: la cantidad de productos bancarios utilizados puede estar relacionada con la duración de depósitos a plazo fijo.
- `is_active_member`: los clientes más activos podrían tener diferentes preferencias de duración de depósitos a plazo fijo en comparación con los menos activos. 

En base a esta información, procedemos a crear la siguiente función `fill_tenure_na`, el cual calcula la moda de la columna `tenure`, donde si la moda no está vacía, reemplaza los valores `NaN` en la columna con la moda, y en cambio, si está vacía, se devuelve la información de `tenure`. 

In [12]:
# función fill_tenure_na
def fill_tenure_na(group):
    mode = group["tenure"].mode()
    if not mode.empty:
        return group["tenure"].fillna(mode.iloc[0])
    else:
        return group["tenure"]

Listo, ahora calculemos la moda global de la columna `tenure`. 

In [13]:
# moda global de 'tenure'
global_mode = data_bank["tenure"].mode().iloc[0]
global_mode

1.0

Ahora, procedemos a realizar una agrupación con las 4 variables mencionadas anteriormente. La idea con esta agrupación es utilizar para aplicar en la función que creamos `fill_tenure_na` en cada grupo. 

In [14]:
# agrupación por 'geography', 'age', 'num_of_products' y 'is_active_member'
grouped = data_bank.groupby(["geography", "age", "num_of_products", "is_active_member"])

Aplicamos la función `fill_tenure_na` en base a la agrupación `grouped`, y reseteamos el índice para eliminar el índice jerárquico que se creó por el `groupby`. 

In [15]:
# cálculo de la moda de 'tenure' para cada grupo y se reemplaza los valores ausentes
data_bank["tenure"] = grouped.apply(fill_tenure_na).reset_index(drop=True)
data_bank.head()

Unnamed: 0,row_number,customer_id,surname,credit_score,geography,gender,age,tenure,balance,num_of_products,has_cr_card,is_active_member,estimated_salary,exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,2.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,7.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,10.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,4.0,125510.82,1,1,1,79084.1,0


Perfecto, ahora comprobamos si tenemos aún valores ausentes:

In [16]:
# verificación valores ausentes
print(data_bank["tenure"].isna().sum())

17


Efectivamente, tenemos aún 17 valores asuentes, por lo que procedemos a reemplazar con la moda global: 

In [17]:
# Rellena cualquier valor ausente restante con la moda global
data_bank["tenure"].fillna(global_mode, inplace=True)

Y volvemos a comprobar: 

In [18]:
# verificación valores ausentes
print(data_bank["tenure"].isna().sum())

0


Listo, ahora veamos nuevamente la distribución de los datos: 

In [19]:
# distribución de los datos de tenure
data_bank["tenure"].value_counts(dropna=False)

1.0     1139
2.0     1085
3.0     1033
7.0     1007
8.0     1001
5.0      995
6.0      978
4.0      969
9.0      940
10.0     450
0.0      403
Name: tenure, dtype: int64

A nivel general, se cambió el valor de todas las categorías de los años del plazo fijo, lo cual nos indica que si se pudo reempalzar de forma los valores porque se tomó en cuenta la información de 4 categorías y no solo de una o dos. 

### Conversión tipos de datos

Listo, ahora en base a la información que vimos en la sección `3.2.1`, es decir, qué datos tenemos en cada columna, procedemos a realizar los siguientes cambios de tipos de datos: 

- `customer_id`: como es un identificador, debe estar como un tipo de dato `str`.
- `tenure`: como son años, y no se tiene decimales, es mejor manejarlo como `int`.

In [20]:
# conversión tipos de datos
data_bank['customer_id'] = data_bank['customer_id'].astype(str)
data_bank['tenure'] = data_bank['tenure'].astype(int)

Por último, creemos que la columna `row_number` no aportará en nuestro análisis posterior ya que es el índice o registro desde 1 hasta 10,000. 

In [21]:
# eliminar columna 
data_bank = data_bank.drop('row_number', axis=1)

Finalmente, nuestros datos quedarían de la siguiente forma:

In [22]:
# información general
data_bank.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customer_id       10000 non-null  object 
 1   surname           10000 non-null  object 
 2   credit_score      10000 non-null  int64  
 3   geography         10000 non-null  object 
 4   gender            10000 non-null  object 
 5   age               10000 non-null  int64  
 6   tenure            10000 non-null  int64  
 7   balance           10000 non-null  float64
 8   num_of_products   10000 non-null  int64  
 9   has_cr_card       10000 non-null  int64  
 10  is_active_member  10000 non-null  int64  
 11  estimated_salary  10000 non-null  float64
 12  exited            10000 non-null  int64  
dtypes: float64(2), int64(7), object(4)
memory usage: 1015.8+ KB


In [23]:
# vistazo primeras columnas
data_bank.head()

Unnamed: 0,customer_id,surname,credit_score,geography,gender,age,tenure,balance,num_of_products,has_cr_card,is_active_member,estimated_salary,exited
0,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,15647311,Hill,608,Spain,Female,41,2,83807.86,1,0,1,112542.58,0
2,15619304,Onio,502,France,Female,42,7,159660.8,3,1,0,113931.57,1
3,15701354,Boni,699,France,Female,39,10,0.0,2,0,0,93826.63,0
4,15737888,Mitchell,850,Spain,Female,43,4,125510.82,1,1,1,79084.1,0


## Implementación de modelo (clases desbalanceadas)

Listo, ahora que está listo nuestros datos, podemos realizar el análisis con la implementación de uno o más modelos de clasificación. Para esto, primero hay que trabajar en la segmentación del conjunto de datos. 

### Segmentación `features` y `target`

Para poder implementar cualquier modelo de machine learning, debemos separar las variables entre características (`features`) y objetivo (`target`), donde nuestra variable objetivo será `exited`, ya que es la variable que vamos a categorizar en base a la información que tenemos. 

Sin embargo, analizando a fondo, las variables `customer_id` y `surname` no van a agregar ningún valor o análisis al momento de implementar los modelos. Por esta razón, también se quitará estas columnas en la variable `features`. 

In [24]:
# declarar features y target
features = data_bank.drop(["exited", "customer_id", "surname"], axis=1)
target = data_bank["exited"]

# comprobamos
print(features.shape)
print(target.shape)

(10000, 10)
(10000,)


A continuación podemos ver un resumen de las variables: 

In [25]:
# resumen
target.head()

0    1
1    0
2    1
3    0
4    0
Name: exited, dtype: int64

In [26]:
# resumen
features.head()

Unnamed: 0,credit_score,geography,gender,age,tenure,balance,num_of_products,has_cr_card,is_active_member,estimated_salary
0,619,France,Female,42,2,0.0,1,1,1,101348.88
1,608,Spain,Female,41,2,83807.86,1,0,1,112542.58
2,502,France,Female,42,7,159660.8,3,1,0,113931.57
3,699,France,Female,39,10,0.0,2,0,0,93826.63
4,850,Spain,Female,43,4,125510.82,1,1,1,79084.1


Según la información que analizamos en las columnas `geography` y `gender`, en cada una de las columnas tenemos 3 y 2 categorías respectivamente. Como vamos a aplicar modelos de aprendizaje supervisado, muchos de estos modelos no pueden manejar directamente variables categóricas. 

Por lo tanto, debemos aplicar el método de One-Hot Encoding el cual las variables se convierten en representaciones numéricas donde el modelo puede entender y procesar. 

In [27]:
# aplicación de one-hot enconding en geography y gender
features = pd.get_dummies(features, columns=["geography", "gender"])

In [28]:
# Verificamos la información
features.head()

Unnamed: 0,credit_score,age,tenure,balance,num_of_products,has_cr_card,is_active_member,estimated_salary,geography_France,geography_Germany,geography_Spain,gender_Female,gender_Male
0,619,42,2,0.0,1,1,1,101348.88,1,0,0,1,0
1,608,41,2,83807.86,1,0,1,112542.58,0,0,1,1,0
2,502,42,7,159660.8,3,1,0,113931.57,1,0,0,1,0
3,699,39,10,0.0,2,0,0,93826.63,1,0,0,1,0
4,850,43,4,125510.82,1,1,1,79084.1,0,0,1,1,0


### Verificación equilibrio clase objetivo

Listo, ahora que tenemos la información separada, verifiquemos qué tan equilibrado está nuestra clase objetivo. Para esto, vamos a contar el total de datos que tenemos y obtener el porcentaje. 

In [29]:
# conteo de clases
class_counts = target.value_counts()
# porcentajes
class_percentages = class_counts / len(target) * 100
# imprimimos
print("Cantidades de cada clase:")
print(class_counts)
print("\nPorcentajes de cada clase:")
print(class_percentages)

Cantidades de cada clase:
0    7963
1    2037
Name: exited, dtype: int64

Porcentajes de cada clase:
0    79.63
1    20.37
Name: exited, dtype: float64


Al parecer si tenemos la clase desbalanceada, ya que la mayoría de los clientes aún no han dejado el banco (`0`) pero un 20% si lo ha dejado (`1`). 

Por el momento no vamos a equilibrar las clases, ya que queremos qué resultados obtenemos con clases desequilibradas. 

### División de conjuntos de datos

Procedemos a dividir nuestra fuente de datos en conjunto de entrenamiento, de validación y de prueba. De esta forma nos aseguramos a mantener una cierta calidad en el modelo, y cuando implementemos, no sepa todas las respuestas antes de aprender el conjunto de entrenamiento. 

Como no tenemos un conjunto de prueba, vamos a dividir nuestra fuente de datos en 3:1:1 (60% datos de entrenamiento, 20% datos de validación y 20% datos de prueba). 

Con el dataset de validación ayudará a identificar modelos sobreajustados, y con el conjunto de prueba nos ayudará para una evaluación final del modelo entrenado. 

In [30]:
# Se divide primero en conjunto de entrenamiento_validacion y prueba
features_train_val, features_test, target_train_val, target_test = train_test_split(features, target, test_size=0.2, random_state=4299)

# Luego, se divide el conjunto de entrenamiento_validacion en entrenamiento y validación
features_train, features_val, target_train, target_val = train_test_split(features_train_val, target_train_val, test_size=0.25, random_state=4299)

A continuación, comprobamos que nuestro dataset esté separado correctamente: 

In [31]:
# impresión del tamaño de los conjuntos de datos
print("Tamaño del conjunto de entrenamiento:", len(features_train))
print("Tamaño del conjunto de validación:", len(features_val))
print("Tamaño del conjunto de prueba:", len(features_test))

Tamaño del conjunto de entrenamiento: 6000
Tamaño del conjunto de validación: 2000
Tamaño del conjunto de prueba: 2000


In [32]:
# verificación distribución de datos
total = len(features)
train_ratio = len(features_train) / total
val_ratio = len(features_val) / total
test_ratio = len(features_test) / total

print("Proporción del conjunto de entrenamiento:", train_ratio)
print("Proporción del conjunto de validación:", val_ratio)
print("Proporción del conjunto de prueba:", test_ratio)
print("Total:", train_ratio + val_ratio + test_ratio)

Proporción del conjunto de entrenamiento: 0.6
Proporción del conjunto de validación: 0.2
Proporción del conjunto de prueba: 0.2
Total: 1.0


Perfecto, el dataset está dividido de forma correcta en entrenamiento (60%), validación (20%) y prueba (20%). 

### Implementación de modelo en datos de entrenamiento y validación

Ahora que tenemos correctamente los datos, podemos investigar qué modelo se ajusta mejor a nuestros datos. 

#### Árbol de decisión

##### Verificación de hiperparámetros

Procedemos a empezar con el modelo del árbol de decisión. 

A continuación, se utilizará un for loop que ayudará a verificar qué hiperparámetro es mejor al momento de aplicar el árbol de decisión, con una máxima profundidad de 50. A partir de esto, obtendremos el `accuracy_score` que se utiliza específicamente en problemas de clasificación para evaluar la precisión del modelo. 

In [33]:
# variables iniciales
best_result = 0
best_depth = 0

# for loop para árbol de decisión con mejor hiperparámetro
for depth in range(1, 51):
        # aplicamos el modelo de árbol de decisión con distintos hiperparámetros
        model = DecisionTreeClassifier(max_depth=depth, random_state=4299)
        
        # entrenamos el modelo con el conjunto de entrenamiento
        model.fit(features_train, target_train)
        
        # predicciones con el conjunto de validación
        predictions_valid = model.predict(features_val) 

        # precisión
        result = accuracy_score(target_val, predictions_valid)
        
        # mejor resultado
        if result > best_result:
            best_result = result
            best_depth = depth
            
print(f"La mejor puntuación de exactitud del conjunto de validación (max_depth = {best_depth}): {best_result}")

La mejor puntuación de exactitud del conjunto de validación (max_depth = 6): 0.867


El modelo de Árbol de decisión llega a un umbral de exactitud de 0.867 con una profundidad máxima de 6, siendo una buen resultado. 

Por lo tanto, podríamos decir que el árbol de decisión con el hiperparámetro `max_depth = 6` nos ayudará a predecir de forma correcta si un cliente se a va ir del banco o no.  

##### Implementación datos de prueba

Implementemos el modelo del árbol de decisión con un `max_depth` igual a 6 en los datos de prueba, calculando el `accuracy`:

In [34]:
# Entrenamos el modelo con el conjunto de entrenamiento y validación
model = DecisionTreeClassifier(max_depth=6, random_state=4299)
model.fit(features_train_val, target_train_val)

# Predecimos las etiquetas para el conjunto de prueba
predictions_test = model.predict(features_test)

# Calculamos la precisión en el conjunto de prueba
accuracy = accuracy_score(target_test, predictions_test)

print(f"Precisión en el conjunto de prueba (max_depth = 6): {accuracy}")

Precisión en el conjunto de prueba (max_depth = 6): 0.8635


Con los datos de prueba, llegamos a una precisión del 0.8635, siendo bastante alto. Este parámetro mide la proporción de instancias clasificadas correctamente en relación con el total de instancias. Hay que tomar en cuenta que esta métrica no siempre es la mejor cuando las clases están desequilibradas. 

Es importante calcular las distintas métricas para poder obtener mejores conclusiones, por ejemplo la matriz de confusión: 

In [35]:
# cálculo matriz de confusión
conf_matrix = confusion_matrix(target_test, predictions_test)

# impresión
print("Matriz de confusión:")
print(conf_matrix)

Matriz de confusión:
[[1549   59]
 [ 214  178]]


La matriz de confusión con los datos obtenidos representan lo siguiente: 
- 1549 (TN): Verdaderos negativos - El número de clientes que realmente NO abandonaron el banco (clase 0) y fueron clasificados correctamente como NO abandonadores por el modelo.
- 59 (FP): Falsos positivos - El número de clientes que realmente NO abandonaron el banco (clase 0) pero fueron clasificados incorrectamente como abandonadores (clase 1) por el modelo, lo cual se equivocó en 59 clientes. 
- 214 (FN): Falsos negativos - El número de clientes que realmente abandonaron el banco (clase 1) pero fueron clasificados incorrectamente como NO abandonadores (clase 0) por el modelo, lo cual se equivocó en 214 clientes.
- 178 (TP): Verdaderos positivos - El número de clientes que realmente abandonaron el banco (clase 1) y fueron clasificados correctamente como abandonadores por el modelo.

Según esta información, lo que realmente nos interesa saber es qué tan bueno el modelo permite clasificar de forma correcta los clientes que van a abandonar el banco (clase 1), por lo tanto, 214 clientes no pudo identificarlos bien. Aquí es el problema de tener desbalanceado las clases, por lo que es importante mejorar esto para la próxima. 

Ahora, para tener todo más claro, calcularemos las siguientes métricas, `recall` y `precision`:

In [36]:
# Calcular precision_score
precision = precision_score(target_test, predictions_test)

# Calcular recall_score
recall = recall_score(target_test, predictions_test)

print(f"Precisión: {precision}")
print(f"Recall: {recall}")

Precisión: 0.7510548523206751
Recall: 0.45408163265306123


Hemos obtenido una precisión del 0.7510, esto quiere decir que el modelo predice un 75.10% de las veces que un cliente abandonará el banco. Sin embargo, hay que tomar en cuenta que no proporciona información sobre cuántos clientes que abandonan realmente el banco, el modelo no pudo identificar correctamente (falsos negativos).

En recall obtuvimos un 0.4540, siendo un valor bastante bajo. Esta métrica indica que de todos los clientes que realmente abandonan el banco, el modelo pudo identificar correctamente el 45.41% de los clientes que realmente abandonaron el banco. Este dato hace en relación al valor de 214 (FN). 

Por último, calculemos el valor de F1 y AUC-ROC, donde para que nuestro modelo sea aceptable, el valor de F1 debe ser de al menos 0.59. 

In [37]:
# cálculo valor F1
f1 = f1_score(target_test, predictions_test)

# cálculo métrica AUC-ROC, probabilidades de la clase positiva (1) 
probabilities_test = model.predict_proba(features_test)[:, 1]
auc_roc = roc_auc_score(target_test, probabilities_test)

print(f"Valor F1 en el conjunto de prueba: {f1}")
print(f"Métrica AUC-ROC en el conjunto de prueba: {auc_roc}")

Valor F1 en el conjunto de prueba: 0.5659777424483308
Métrica AUC-ROC en el conjunto de prueba: 0.8292775599045588


En base a los valores obtenidos, el valor F1 combina tanto la precisión como el recall. Con un valor de 0.5659 indica que el modelo tiene un rendimiento moderado en términos de equilibrio entre los dos términos, sin embargo, no llegamos al valor mínimo que es 0.59, aunque estamos cerca, pero no es viable nuestro modelo. Esto se debe al desbalanceo de la clase objetivo. 

En cambio la métrica AUC-ROC toma en cuenta la distinción entre clases, en este caso, si un cliente abandona o no el banco. Un valor de AUC-ROC de 0.8292 en el conjunto de prueba indica el modelo tiene un buen rendimiento en términos de distinguir entre clientes que abandonan y no abandonan el banco, pero no es perfecto y aún hay margen de mejora. Esto se debe al valor de F1 que hay que mejorar. 

## Implementación de modelo (clases balanceadas)

### Balanceo de clases

Hemos visto que la implementación del modelo de árbol de decisión con clases desbalanceadas no logramos tener un *F1* mayor a 0.59, aunque estamos cerca ya que fue de 0.56. 

Por lo tanto, debemos balancear la clase objetivo para poder tener un mejor modelo que prediga de forma correcta si un cliente del banco va a dejar de ser cliente. 

Para hacer esto, se va a aplicar a los datos del banco el método de **oversampling**, el cual se enfoca en agregar más datos de la clase minoritaria mediante la duplicación de registros existentes o la generación de ejemplos sintéticos. Una forma de generar estos datos es a través de Synthetic Minority Over-sampling Technique (SMOTE) con la biblioteca `imbalanced-learn` y su función `SMOTE`.

Por lo tanto, se balanceará los datos de entrenamiento. Se utiliza tanto `feature` y `target` que ya se asignó en la sección `4.1`.

In [38]:
# se divide primero en conjunto de entrenamiento_validacion y prueba
features_train_val, features_test, target_train_val, target_test = train_test_split(features, target, test_size=0.2, random_state=4299)

# luego, se divide el conjunto de entrenamiento_validacion en entrenamiento y validación
features_train, features_val, target_train, target_val = train_test_split(features_train_val, target_train_val, test_size=0.25, random_state=4299)

# se crea el objeto SMOTE y se aplica a los datos de entrenamiento
smote = SMOTE(random_state=4299)
features_train_resampled, target_train_resampled = smote.fit_resample(features_train, target_train)

### Verificación de equilibrio de clase objetivo

Listo, con la implementación de `SMOTE` tenemos a `target_train_resampled` más balanceado. Verifiquemos cómo están los datos tanto de `0` y `1`. 

In [39]:
# Cantidades y porcentajes de cada clase en target_train_resampled
class_counts_resampled = target_train_resampled.value_counts()
class_percentages_resampled = class_counts_resampled / len(target_train_resampled) * 100

print("Cantidades de cada clase en target_train_resampled:")
print(class_counts_resampled)
print("\nPorcentajes de cada clase en target_train_resampled:")
print(class_percentages_resampled)

Cantidades de cada clase en target_train_resampled:
0    4758
1    4758
Name: exited, dtype: int64

Porcentajes de cada clase en target_train_resampled:
0    50.0
1    50.0
Name: exited, dtype: float64


Perfecto, tenemos los datos balanceados entre 50% y 50%. Podemos proceder a implementar nuevamente el modelo del árbol de decisión a los datos de entrenamiento. 

### Implementación de modelo en datos de entrenamiento

Ahora que tenemos correctamente los datos, podemos investigar qué modelo se ajusta mejor a nuestros datos. 

#### Árbol de decisión

##### Verificación de hiperparámetros

Aplicamos nuevamente el modelo del árbol de decisión. 

Se vuelve a utilizar el for loop para verificar qué hiperparámetro es mejor al momento de aplicar el modelo, con un `max_depth` de 50, pero también se incluirá los siguientes hiperparámetros para mejorar el rendimiento del modelo de árbol de decisión: 
- `min_samples_split` 
- `min_samples_leaf`
- `max_features`
- `max_leaf_nodes`

De esta forma podremos saber qué hiperparámetro da el mejor `accuracy_score` para evaluar la precisión del modelo. 

In [40]:
# hiperparámetros a considerar
depth_range = range(1, 50)
min_samples_split_range = [2, 5, 10]
min_samples_leaf_range = [1, 2, 4]
max_features_range = [None, 'sqrt', 'log2']
max_leaf_nodes_range = [None, 10, 50, 100, 200]

# variables iniciales
best_result = 0
best_params = {}

# for loop para árbol de decisión con mejor hiperparámetro
for depth, min_samples_split, min_samples_leaf, max_features, max_leaf_nodes in product(
    depth_range, min_samples_split_range, min_samples_leaf_range, max_features_range, max_leaf_nodes_range):
    
    # aplicamos el modelo de árbol de decisión con distintos hiperparámetros
    model = DecisionTreeClassifier(
        max_depth=depth,
        min_samples_split=min_samples_split,
        min_samples_leaf=min_samples_leaf,
        max_features=max_features,
        max_leaf_nodes=max_leaf_nodes,
        random_state=4299)
    
    # entrenamos el modelo con el conjunto de entrenamiento
    model.fit(features_train_resampled, target_train_resampled)
    
    # predicciones con el conjunto de validación
    predictions_valid = model.predict(features_val)

    # precisión
    result = accuracy_score(target_val, predictions_valid)
    
    # mejor resultado e hiperparámetros
    if result > best_result:
        best_result = result
        best_params = {
            'max_depth': depth,
            'min_samples_split': min_samples_split,
            'min_samples_leaf': min_samples_leaf,
            'max_features': max_features,
            'max_leaf_nodes': max_leaf_nodes,
        }

print(f"La mejor puntuación de exactitud del conjunto de validación: {best_result}")
print(f"Mejores hiperparámetros encontrados:")
print(best_params)

La mejor puntuación de exactitud del conjunto de validación: 0.8435
Mejores hiperparámetros encontrados:
{'max_depth': 10, 'min_samples_split': 2, 'min_samples_leaf': 4, 'max_features': None, 'max_leaf_nodes': 100}


El modelo de Árbol de decisión llega a un umbral de exactitud de 0.8435 con los siguientes hiperparámetros: 
- `max_depth: 10`
- `min_samples_split: 2`
- `min_samples_leaf: 4`
- `max_features: None`
- `max_leaf_nodes: 100`

Verifiquemos el modelo en los datos de prueba y viendo todas las métricas. 

##### Implementación datos de prueba

Implementemos el modelo del árbol de decisión con los hiperparámetros definidos arriba, en los datos de prueba, calculando el `accuracy`:

In [41]:
# entrenamos el modelo con el conjunto de entrenamiento y validación
model = DecisionTreeClassifier(
        max_depth=10,
        min_samples_split=2,
        min_samples_leaf=4,
        max_features=None,
        max_leaf_nodes=100,
        random_state=4299)
model.fit(features_train_val, target_train_val)

# predecimos las etiquetas para el conjunto de prueba
predictions_test = model.predict(features_test)

# calculamos la precisión en el conjunto de prueba
accuracy = accuracy_score(target_test, predictions_test)

print(f"Precisión en el conjunto de prueba en base a los hiperparámetros: {accuracy}")

Precisión en el conjunto de prueba en base a los hiperparámetros: 0.854


Perfecto, ahora que hemos entrenado el conjunto de prueba, y hemos obtenido una precisión de 0.854, apliquemos las métricas de rendimiento sobre el conjunto de prueba. 

In [42]:
# cálculo de métricas de rendimiento para el conjunto de prueba
accuracy = accuracy_score(target_test, predictions_test)
f1 = f1_score(target_test, predictions_test)
roc_auc = roc_auc_score(target_test, predictions_test)
precision = precision_score(target_test, predictions_test)
recall = recall_score(target_test, predictions_test)
conf_matrix = confusion_matrix(target_test, predictions_test)

# impresión de métricas de rendimiento
print(f"Valor F1 en el conjunto de prueba: {f1}")
print(f"Área bajo la curva ROC (AUC-ROC) en el conjunto de prueba: {roc_auc}")
print(f"Precisión (precision) en el conjunto de prueba: {precision}")
print(f"Sensibilidad (recall) en el conjunto de prueba: {recall}")
print("Matriz de confusión en el conjunto de prueba:")
print(conf_matrix)

Valor F1 en el conjunto de prueba: 0.5780346820809249
Área bajo la curva ROC (AUC-ROC) en el conjunto de prueba: 0.7240075134531424
Precisión (precision) en el conjunto de prueba: 0.6666666666666666
Sensibilidad (recall) en el conjunto de prueba: 0.5102040816326531
Matriz de confusión en el conjunto de prueba:
[[1508  100]
 [ 192  200]]


Según los resultados que se obtuvieron a continuación, el modelo del árbol de decisión con clases balanceadas mejoró un poco, pero aún no llegamos a un *F1* de 0.59, ya que obtuvimos un valor de 0.5780. 

El rendimiento del modelo es moderado, pero no alcanza aún al objetivo. De igual forma sigue siendo alto los falsos negativos, con un total de 192, lo cual se debería intentar disminuir.

Necesitamos un modelo más robusto que prediga mejor, ya que aunque sin balancear los resultados de forma equitativa, cuando vengan nuevos datos, lo más probable es que la mayoría de clientes les va a clasificar como 0, es decir que no iba a dejar el banco cuando podría ser un posible cliente que si deje el banco (1). 

#### Random Forest

##### Verificación de hiperparámetros

Dado que el modelo del árbol de decisión no logró un valor *F1* de 0.59, vamos a probar ahora con el modelo de Random Forest. Hay que tomar en cuenta que este modelo ya se implementará con la clase balanceada. 

De igual forma, vamos a probar con los datos de entrenamiento balanceados el modelo de Random Forest, identificando qué hiperparámetros dan la mejor puntuación de exactitud: 
- `n_estimators`
- `max_depth`
- `min_samples_split`
- `min_samples_leaf`
- `max_features`
- `max_leaf_nodes`
- `bootstrap`
- `criterion`

Para esto se utiliza `RandomizedSearchCV ` que es una clase en Scikit-learn que realiza una búsqueda aleatoria de hiperparámetros, utilizando validación cruzada. De esta forma definimos que máximo hará 200 corridas de forma aleatoria entre los distintos hiperparámetros, y así encontrar el mejor resultado, haciendo que nuestro código sea mucho más óptimo en cuestión de tiempo. 

In [49]:
# hiperparámetros a considerar
param_dist = {
    'n_estimators': range(1, 51),
    'max_depth': range(1, 50),
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': [None, 'sqrt', 'log2'],
    'max_leaf_nodes': [None, 10, 50, 100, 200],
    'bootstrap': [True, False],
    'criterion': ['gini', 'entropy']
}

# aplicamos el modelo de bosque aleatorio con distintos hiperparámetros
model = RandomForestClassifier(random_state=4299)

# número de iteraciones para la búsqueda aleatoria
n_iter_search = 200

# randomizedSearchCV
random_search = RandomizedSearchCV(
    model, param_distributions=param_dist, n_iter=n_iter_search, cv=3, random_state=4299, n_jobs=-1)

# entrenamos el modelo con el conjunto de entrenamiento
random_search.fit(features_train_resampled, target_train_resampled)

# mejores hiperparámetros encontrados
best_params = random_search.best_params_

# mejor puntuación de exactitud
best_score = random_search.best_score_

print(f"La mejor puntuación de exactitud del conjunto de validación: {best_score}")
print(f"Mejores hiperparámetros encontrados:")
print(best_params)

La mejor puntuación de exactitud del conjunto de validación: 0.8675914249684741
Mejores hiperparámetros encontrados:
{'n_estimators': 42, 'min_samples_split': 10, 'min_samples_leaf': 1, 'max_leaf_nodes': None, 'max_features': 'sqrt', 'max_depth': 46, 'criterion': 'gini', 'bootstrap': False}


El modelo de RandomForest llega a un umbral de exactitud de 0.8622 con los siguientes hiperparámetros: 
- `n_estimators: 42`
- `min_samples_split: 10`
- `min_samples_leaf: 1`
- `max_leaf_nodes: None`
- `max_features: sqrt`
- `max_depth: 46`
- `criterion: gini`
- `bootstrap: False`

Verifiquemos el modelo en los datos de prueba y viendo todas las métricas. 

##### Implementación datos de prueba

Implementemos el modelo de Random Forest con los hiperparámetros definidos arriba, calculando la precisión. 

In [51]:
# entrenamos el modelo con el conjunto de entrenamiento y validación
model = RandomForestClassifier(random_state=4299, 
                               n_estimators=42, 
                               min_samples_split=10, 
                               min_samples_leaf=1, 
                               max_leaf_nodes=None, 
                               max_features="sqrt", 
                               max_depth=46, 
                               criterion="gini", 
                               bootstrap=False)
model.fit(features_train_val, target_train_val)

# predecimos las etiquetas para el conjunto de prueba
predictions_test = model.predict(features_test)

# calculamos la precisión en el conjunto de prueba
accuracy = accuracy_score(target_test, predictions_test)

print(f"Precisión en el conjunto de prueba en base a los hiperparámetros: {accuracy}")

Precisión en el conjunto de prueba en base a los hiperparámetros: 0.8675


Perfecto, se obtuvo una precisión de 0.8675. Verifiquemos el resto de métricas. 

In [53]:
# Calcular métricas de rendimiento para el conjunto de prueba
accuracy = accuracy_score(target_test, predictions_test)
f1 = f1_score(target_test, predictions_test)
roc_auc = roc_auc_score(target_test, predictions_test)
precision = precision_score(target_test, predictions_test)
recall = recall_score(target_test, predictions_test)
conf_matrix = confusion_matrix(target_test, predictions_test)

# Imprimir métricas de rendimiento
print(f"Valor F1 en el conjunto de prueba: {f1}")
print(f"Área bajo la curva ROC (AUC-ROC) en el conjunto de prueba: {roc_auc}")
print(f"Precisión (precision) en el conjunto de prueba: {precision}")
print(f"Sensibilidad (recall) en el conjunto de prueba: {recall}")
print("Matriz de confusión en el conjunto de prueba:")
print(conf_matrix)

Valor F1 en el conjunto de prueba: 0.5966514459665145
Área bajo la curva ROC (AUC-ROC) en el conjunto de prueba: 0.7285447761194029
Precisión (precision) en el conjunto de prueba: 0.7396226415094339
Sensibilidad (recall) en el conjunto de prueba: 0.5
Matriz de confusión en el conjunto de prueba:
[[1539   69]
 [ 196  196]]


En base a los resultados obtenidos, podemos observar que el modelo ha logrado un rendimiento satisfactorio y ha superado el umbral requerido de 0.59 en la métrica *F1*.

A continuación, se presenta un resumen de las métricas de rendimiento del modelo:

- Exactitud (accuracy): El modelo ha alcanzado una exactitud del 86.75%, lo que indica que ha clasificado correctamente el 86.75% de los casos en el conjunto de prueba.
- Valor F1: El modelo ha logrado un valor F1 de 0.5967, superando el umbral mínimo de 0.59. Este valor indica que el modelo tiene un buen equilibrio entre precisión y sensibilidad.
- Área bajo la curva ROC (AUC-ROC): El modelo tiene un AUC-ROC de 0.7285, lo que indica un buen rendimiento en la clasificación de las clases.
- Precisión (precision): La precisión del modelo es del 73.96%, lo que muestra que, de todas las predicciones positivas realizadas por el modelo, el 73.96% de ellas son correctas.
- Sensibilidad (recall): La sensibilidad del modelo es del 50%, lo que indica que ha identificado correctamente el 50% de los casos positivos reales en el conjunto de prueba.
- La matriz de confusión muestra que el modelo ha clasificado correctamente 1539 casos negativos y 196 casos positivos, mientras que ha cometido errores en 69 casos negativos y 196 casos positivos.

En general, el modelo ha logrado superar el umbral mínimo requerido en la métrica F1 y ha demostrado un buen rendimiento en las demás métricas. Sin embargo, siempre hay margen de mejora y podrías seguir ajustando los hiperparámetros o probar otros modelos para aumentar aún más el rendimiento.

## Conclusiones

En conclusión, a lo largo de este proyecto, se llevaron a cabo varias etapas clave para mejorar el rendimiento del modelo de clasificación de la retención de clientes en un banco. Primero, se realizó una limpieza de datos donde se rellenaron los valores ausentes en la columna `Tenure`, para no perder datos valiosos y mantener la integridad de la información.

Se implementó inicialmente un modelo de árbol de decisión con clases objetivo desbalanceadas (80% - 20%, 0 - 1), donde el valor 0 representa que el cliente no abandona el banco y el valor 1 representa que el cliente sí abandona el banco. En este caso, se obtuvo un valor *F1* de 0.56, lo que indica un rendimiento insuficiente.

Para mejorar el rendimiento, se llevó a cabo un balanceo de la clase objetivo, ajustándola a una proporción de 50% - 50%. Luego, se implementaron modelos de árbol de decisión y bosque aleatorio (Random Forest) con distintos hiperparámetros para mejorar aún más los resultados.

Finalmente, con el modelo de RandomForest y los siguientes hiperparámetros:
- `n_estimators: 42`
- `min_samples_split: 10`
- `min_samples_leaf: 1`
- `max_leaf_nodes: None`
- `max_features: sqrt`
- `max_depth: 46`
- `criterion: gini`
- `bootstrap: False`

Se logró obtener un valor *F1* de 0.59, alcanzando el umbral mínimo requerido y demostrando un rendimiento satisfactorio en la clasificación de la retención de clientes en el banco.

A pesar de haber alcanzado el umbral mínimo requerido, siempre hay espacio para mejorar y optimizar el rendimiento del modelo. Se pueden explorar y ajustar aún más los hiperparámetros o probar otros modelos de aprendizaje automático para obtener resultados más precisos en la predicción de la retención de clientes en el banco.




