# Retención de clientes

El objetivo de este notebook es presentar de forma detallada el proceso de desarrollo de un modelo de *Machine Learning* capaz de predecir si un cliente cerrará su cuenta bancaria o continuará siendo cliente de la entidad. El flujo de trabajo abarca desde el análisis exploratorio y el preprocesamiento de los datos hasta el entrenamiento y la evaluación del modelo, con el fin de obtener una solución eficaz para este problema de retención de clientes.

## Librerías utilizadas

Para el desarrollo del modelo de *Machine Learning* se emplean las siguientes librerías:

- [**`Pandas`**](https://pandas.pydata.org/): Manipulación y análisis de datos estructurados.
- [**`NumPy`**](https://numpy.org/): Manejo eficiente de datos numéricos y operaciones matemáticas.
- [**`Matplotlib`**](https://matplotlib.org/): Visualización y análisis gráfico de los datos.
- [**`Scikit-learn`**](https://scikit-learn.org/stable/): Entrenamiento, validación y evaluación de modelos de *Machine Learning*.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Exploración

El conjunto de datos cuenta con un toatal de 10_000 registros (80% de entrenamiento y 20% de prueba). Cada registro tiene las siguientes características:

1. Identificación del cliente:

    - `CustomerId`: Identificador único del cliente
    - `Surname`: Apellido del cliente

2. Información financiera:

    - `CreditScore`: Calificación crediticia. Establece la capacidad de una persona para pagar su deuda y el riesgo que conlleva invertir con ella.
    - `Balance`: Saldo en la cuenta bancaria
    - `NumOfProducts`: Número de productos bancarios que utiliza
    - `HasCrCard`: Si tiene tarjeta de crédito (0 = no, 1 = sí)
    - `EstimatedSalary`: Salario estimado

3. Información demográfica y personal:

    - `Geography`: País de residencia
    - `Gender`: Género (Male/Female)
    - `Age`: Edad
    - `Tenure`: Años como cliente del banco
    - `IsActiveMember`: Si es un miembro activo del banco (0 = no, 1 = sí)

4. Variable objetivo:

    - `Exited`: Indicador binario de abandono del banco (0 = se queda, 1 = se va)


In [2]:
# Cargamos los datos
train_df = pd.read_csv('./data/train.csv')
test_df = pd.read_csv('./data/test.csv')

print("Train DataFrame shape:", train_df.shape)
print("Test DataFrame shape:", test_df.shape)
train_df.head()

Train DataFrame shape: (8000, 13)
Test DataFrame shape: (2000, 12)


Unnamed: 0,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,15759244,Boone,687.0,Germany,Male,44,8,95368.14,2.0,1.0,1,1787.85,0
1,15725997,She,660.0,France,Female,35,6,100768.77,1.0,1.0,0,19199.61,0
2,15724296,Kerr,684.0,Spain,Male,41,2,119782.72,2.0,0.0,0,120284.67,0
3,15636820,Loggia,725.0,Germany,Male,40,8,104149.66,1.0,1.0,0,62027.9,0
4,15744529,Chiekwugo,510.0,France,Male,63,8,0.0,2.0,1.0,1,115291.86,0


## Preprocesamiento

## Modelo

## Evaluación