## Introducción al reto

Finneo es un neobanco emergente con sede en Nueva York, enfocado en ofrecer servicios financieros digitales a más de 10,000 clientes en 200 ciudades de todo Estados Unidos. La compañía fue fundada hace 4 años y ha crecido rápidamente, gracias a su innovadora plataforma móvil que permite a los usuarios realizar todas sus operaciones bancarias desde sus teléfonos inteligentes, sin la necesidad de sucursales físicas.

Desde su lanzamiento, Finneo ha captado la atención de inversores y usuarios por igual, atrayendo a un gran número de nuevos clientes en el último año. De hecho, el 35% de su base actual de usuarios se unió durante el pasado trimestre, gracias a agresivas campañas de marketing y la recomendación de clientes satisfechos.

Sin embargo, a pesar de este crecimiento explosivo, **Finneo enfrenta un desafío significativo: la retención de clientes. La compañía ha registrado una tasa de abandono total del 20% al cierre del último trimestre**. Esto ha llevado a la dirección de Finneo a replantear su estrategia para mejorar la retención y la fidelidad de sus clientes.

Para abordar este desafío, los equipos de producto, marketing, análisis de datos y atención al cliente han solicitado su ayuda con su conocimiento en datos para:
1. Obtenga información a partir de los datos para comprender qué está provocando la elevada tasa de rotación de clientes.

2. Desarrolle un modelo de Machine Learning que pueda predecir con precisión cuáles clientes son más propensos a abandonar la compañía.


<figure>
<center>
<img src='https://media.licdn.com/dms/image/v2/C4E12AQFpydhHQxkq6w/article-cover_image-shrink_720_1280/article-cover_image-shrink_720_1280/0/1625180951420?e=2147483647&v=beta&t=eQnycUVhn3ixmOoSKNQFVXpF9iAtwq66AmWRHRXjXFU' width="764.3312101911200" height="400" />
<figcaption></figcaption></center>
</figure>

La empresa le ha provisto con una muestra de 10,000 clientes con la que podrá realizar los objetivos planteados. A continuación se presenta una descripción de las 14 columnas que presenta la tabla

Nombre             | Tipo               | Descripcion
-------------------|--------------------|----------------------------------------------------
`Num_fila`           | Numérica           | Número de fila
`Id_cliente`         | Categórica         | Identificador único para cada cliente
`Apellido`           | Texto              | Apellido del cliente
`Puntaje_crediticio` | Númerica discreta  | Puntaje crediticio del cliente
`Pais`               | Categórica nominal | País donde el cliente reside
`Genero`             | Categórica nominal | Género del cliente
`Edad`               | Numérica discreta  | Edad del cliente
`Antiguedad`         | Numérica discreta  | Número de años que el cliente ha estado en el banco
`Balance`            | Númerica continua  | El balance de la cuenta del cliente
`Num_productos`      | Númerica discreta  | Número de productos que usa el cliente
`Tarjeta_credito`    | Binaria            | Si el cliente tiene tarjeta de crédito
`Miembro_activo`     | Binaria            | Si el clente es miembo activo
`Salario_estimado`   | Númerica continua  | Salario anual estimado del cliente
`Abandono`           | Binaria            | Si el cliente ha abandonado la empresa

## 1. Preprocesamiento y Visualización

### 1.1 Importación de librerías

In [5]:
# Librería para lectura, tratamiento, y manipulación de datos
import pandas as pd
import numpy as np

# Librerías para visualización de datos
import matplotlib.pyplot as plt
from IPython.display import Image, display

# Librería para visualización de datos
import seaborn as sns

#Funciones de modelamiento y métricas
# Scikit-Learn
import sklearn
from sklearn.model_selection import (
    train_test_split
)
from sklearn.impute import SimpleImputer
from sklearn.ensemble import (
    RandomForestClassifier,
    RandomForestRegressor,
)
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.preprocessing import (
    StandardScaler,
    OneHotEncoder,
    OrdinalEncoder,
    FunctionTransformer,
    MinMaxScaler,
    label_binarize
)
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import (
    classification_report,
    confusion_matrix,
    ConfusionMatrixDisplay,
    PrecisionRecallDisplay,
    accuracy_score,
    recall_score,
    f1_score,
    precision_recall_curve
)
import Funciones_reto_bootcamp  as frb


### 1.2 Cargar datos desde el archivo `datos.csv` y análisis general del dataset

In [None]:
# Usa la función read_csv de pandas para leer los datos
df = pd.read_csv('datos.csv', sep=';')

# Imprime el número de filas de la tabla
print("Filas:", df.shape[0])

# Imprime el número de columnas de la tabla
print("Columnas:", df.shape[1])

# Imprime los 10 primeros registros de la tabla
df.head(10)

Use la función `mean` y `median` explicadas en el ejercicio del Titanic para responder:
1. ¿Cuál es el balance promedio (mean) que tienen los clientes de la muestra?

2. ¿Cuál es la mediana (median) del salario para la muestra de clientes?

<figure>
<center>
<img src='https://img.freepik.com/vector-premium/hombre-rico-pobre-concepto-riqueza-pobreza-ilustracion-vector-estilo-dibujos-animados_106788-3034.jpg?w=900' width="764.3312101911200" height="400" />
<figcaption></figcaption></center>
</figure>

In [3]:
# Aquí va su código para calcular el balance promedio de los clientes


In [4]:
# Aquí va su código para calcular la mediana del salario de los clientes


### 1.3 Selección de variables



Hay columnas que no generan ningún tipo de valor para análisis ni poder predictivo, como lo pueden ser códigos unicos que identifican al registro (pasajero, cliente, persona). Así mismo campos de texto (no categóricos) deben ser eliminados pues los algoritmos de Machine Learning no entienden palabras sino números.

Por favor completa la lista de columnas que deben ser eliminadas del dataset. *Pista: Son tres en total*

In [7]:
# Se definen las columnas que se desea eliminar (POR FAVOR COMPLETE)
columnas_eliminar = ['Num_fila']

# Usa el método drop para borrar las columnas en la lista
df.drop(columnas_eliminar, axis=1, inplace=True)

¿Por qué decidió eliminar esas variables? Explique su selección

In [None]:
'''
Respuesta:


'''



In [None]:
# Verifique las columnas que componen ahora su dataset
df.head()

### 1.4 Exploración valores faltantes e imputación

Los datos faltantes es un problema común en el día a día. A continuación, vamos a explorar cuantos datos faltantes tiene cada columna de nuestro dataset

In [None]:
# Construye una tabla con las columnas y el número de valores faltantes en estas
serie = df.isnull().sum()

# Asigna los encabezados de la tabla
serie.name = 'Valores faltantes'
serie.index.name = 'Columnas'
serie

Se observa que las variables de país y edad tienen datos faltantes. **Para este ejercicio SOLO debe asignar los valores de media y moda**. Impute con media para edad y moda para país.

La manera de calcular estos valores para las columnas fueron presentadas en el ejercicio del Titanic, y adicionalmente disponen de las plantillas



```
media_nombre_columna = df['nombre_columna'].mean()
moda_nombre_columna = df['nombre_columna'].mode()[0]
```



In [None]:
# Calcular la media de la edad
media_edad =

# Asigna el valor de la media a todos los valores faltantes de la edad
df['Edad'].fillna(media_edad, inplace=True)

# Convierte la columna a tipo entero
df['Edad'] = df['Edad'].astype('int64')

In [None]:
# Calcular la moda del país
moda_pais =

# Asignar la moda a todos los valores faltantes de la columna país
df['Pais'].fillna(moda_pais, inplace=True)

¿Por qué se argumentaría que usamos la moda para imputar la variable País y no la media?

In [None]:
'''
Respuesta:


'''

### 1.5 Visualizacion y EDA

#### **Averiguaremos cuántos casos de abandono (churn) están presentes en el dataset por medio de 4 caminos**

A continuación se presentan 4 pedazos de código (A, B, C, D).

El ejercicio consiste en asignar cada uno de estos códigos a los bloques que correspondan con la descripción. Le ayudaremos con un ejemplo más abajo.

Código A
```
plt.pie(df['Abandono'].value_counts(), labels=df['Abandono'].value_counts().index, autopct='%1.1f%%')
plt.show()
```

Código B
```
df['Abandono'].value_counts()/df.shape[0]*100
```

Código C
```
df['Abandono'].value_counts()
```

Código D
```
sns.countplot(x="Abandono", data=df, palette="Blues");
plt.show()
```











Como ejemplo, en el primer bloque que pide poner las cifras absolutas se le asigna el código C

In [None]:
# Obtiene las cifras absolutas de la variable de abandono
# Aquí va el código C

Ahora usted...

In [None]:
# Obtiene los porcentajes de la variable de abandono (churn)


In [None]:
# Genera un diagrama de barras para la variable de abandono (churn)


In [None]:
# Genera un diagrama de pastel para la variable de abandono (churn)


**Interpréte el diagrama de caja y bigote de la variable de edad**

Observe el diagrama de caja y bigote


In [None]:
# Ajusta el tamaño de la imagen
plt.figure(figsize=(5,4))

# Realiza el diagrama de caja para la variable edad
sns.boxplot(y= 'Edad', data= df)

# Despliega la figura creada
plt.show()

¿Que análisis puede realizar de la variable de edad?

In [None]:
'''
 Respuesta:

 '''

**Realice un diagrama de dispersión entre las variables de Balance y el salario estimado del cliente**

Por favor asigne al parámetro `y`, dentro de la función `scatterplot`, la variable de salario.

In [None]:
plt.figure(figsize=(8,8))
sns.scatterplot(x="Balance", y="", data=df)
plt.show()

Basándose en la gráfica de dispersión presentada ¿Que análisis podría hacer de la relación entre las variables salario y balance?

In [None]:
'''
Respuesta:


'''

**Para conocer más a fondo la distribución de las variables numéricas y su relación con la variable de Abandono, se realiza un boxplot con la variable Abandono en el eje x, junto con las siguientes variables:**
1. Puntaje crediticio
2. Balance
3. Edad
4. Salario estimado

In [None]:
# Ajusta el canva para tener las cuatro gráficas
plt.figure(figsize=(10, 8))

# Grafica en el primer cuadrante el boxplot para puntaje crediticio
plt.subplot(2, 2, 1)
sns.boxplot(y="Puntaje_crediticio", x="Abandono", data=df)
plt.title("Puntaje Crediticio vs Abandono")

# Grafica en el segundo cuadrante el boxplot para Balance
plt.subplot(2, 2, 2)
sns.boxplot(y="Balance", x="Abandono", data=df)
plt.title("Balance vs Abandono")

# Grafica en el tercer cuadrante el boxplot para Edad
plt.subplot(2, 2, 3)
sns.boxplot(y="Edad", x="Abandono", data=df)
plt.title("Edad vs Abandono")

# Grafica en el cuarto cuadrante el boxplot para Salario estimado
plt.subplot(2, 2, 4)
sns.boxplot(y="Salario_estimado", x="Abandono", data=df)
plt.title("Salario estimado vs Abandono")

# Display the plots
plt.tight_layout()  # Adjusts spacing between plots to prevent overlap
plt.show()

¿A que conclusiones puede llegar teniendo los boxplot para las variables?

¿Para que variable numérica difieren más los registros de abandono y no abandono?

In [None]:
'''
 Respuesta:

 '''

**Finalmente, visualice la matriz de correlación para las variables numérica como un heatmap, tal como se hizo en el ejercicio del Titanic**

In [None]:
# Selecciona solo columnas numéricas
numeric_data = df.select_dtypes(include=['number'])

# Calcular la matriz de correlación
correlation_matrix = numeric_data.corr()

# Crear el heatmap
plt.figure(figsize=(6, 6))
sns.heatmap(correlation_matrix, cmap="YlGnBu", annot=True, fmt=".2f")
plt.title("Matriz de Correlación")
plt.show()

¿Cuál es el par de variables que más se correlaciona positivamente y negativamente?

In [None]:
'''
 Respuesta:

 '''

### 1.6 One-Hot Encoding

Buscamos aplicar la técnica convirtiendo las categorias de estas columnas en columnas binarias con unos y ceros.

**Por favor complete la lista `categorical_vars` con la otra variable categórica restante asociada al género.**

In [None]:
# Define las variables categóricas que se codificarán con one-hot encoding
categorical_vars = ['Pais','']

# Definimos el tipo de las columnas binarias
tipo_binarias = 'int'

# Aplica la codificación one-hot a las variables categóricas especificadas
df = pd.get_dummies(df, columns=categorical_vars, dtype=tipo_binarias)

In [None]:
df.head()

In [None]:
# Define las columnas a eliminar por redundancia
columnas_eliminar = ['', 'Pais_Spain']

# Se eliminan las columnas definidas con la función drop
df = df.drop(columns=columnas_eliminar)

# Muestra los primeros registros del dataset para verificar las columnas
df.head()

## 2. Sección de Modelado de Clasificación

En esta sección, deberá ejecutar al menos un modelo de clasificación. Algunos de los modelos más populares y ampliamente utilizados incluyen la **regresión logística**, **árboles de decisión**, y **bosques aleatorios (Random Forest)**. Le proporcionaremos una guía inicial para implementar uno de estos modelos. Además, se espera que seleccione y aplique al menos un algoritmo adicional de clasificación.

Después de implementar estos modelos, realice el cálculo de las métricas de rendimiento para cada uno y determine cuál considera que es el mejor modelo para responder a nuestra pregunta de negocio. Fundamente su elección en los resultados obtenidos.



Antes de comenzar con los modelos adicionales, primero le mostraremos cómo ejecutar un modelo de **Árbol de decisión**. Esta guía paso a paso le servirá como base para comprender los procesos involucrados en la configuración y evaluación de modelos de clasificación.

Después de implementar el árbol de decisión,  deberá seleccionar y aplicar al menos un algoritmo adicional de clasificación. Algunas opciones recomendadas incluyen **regresión lógistica** y **bosques aleatorios (Random Forest)**.

Finalmente, realice el cálculo de las métricas de rendimiento para cada modelo y determine cuál es el más adecuado para responder a nuestra pregunta de negocio basándose en los resultados obtenidos.


### 2.1 En esta sección puede observar como esta nuestro dataset antes de realizar la separación en entrenamiento y test

In [None]:
df.head()

Le mostramos como se debería ver su dataset hasta el momento como una herramienta para que pueda comparar

In [None]:
display(Image('imagenes/img01.png'))


### 2.2 División del dataset en entrenamiento y prueba

Dentro de las comillas debe colocar el nombre de la variable que desea predecir, recuerde que se trata del churn y es muy importante definir de manera adecuada esta variable ya que con esto podemos llegar a tomar decisiones estratégicas.

In [None]:
# Separar características y variable objetivo
X = df.drop(columns=[''])
y = df['']

In [14]:
# Dividir en conjunto de entrenamiento y prueba
porc_conjunto_prueba = 0.2
X_entreno, X_prueba, y_entreno, y_prueba = train_test_split(X, y, test_size=porc_conjunto_prueba, random_state=123)

**¿Considera adecuada una división de 20% para test y 80% para entrenamiento de acuerdo al código anterior?**

Justifique su respuesta aqui:

In [3]:
'''
Respuesta:

'''

**¿Cómo cree que podría afectar una división diferente del conjunto de datos, como un 70% para entrenamiento y un 30% para pruebas, a la precisión y generalización del modelo?**

Justifique su respuesta aqui:

In [None]:
'''
Respuesta:

'''

**Después de haber realizado la separación de su dataset de entrenamiento así debería visualizarse, úselo como una guía para el ejercicio que está desarrollando**  

In [None]:
display(Image('imagenes/img02.png'))

In [None]:
X_entreno.head()

**¿Cuantos datos para entrenamiento (train) tiene después de realizar la división?**

In [17]:
#Inserte su código aqui


**Después de haber realizo la separación de su dataset de prueba así debería visualizarse, úselo como una guía para el ejercicio que está desarrollando**

In [None]:
display(Image('imagenes/img03.png'))

In [None]:
X_prueba.head()

**¿Cuantos datos para probar (test) tiene después de realizar la división?**

In [20]:
#Inserte su codigo aqui

**¿Qué puede observar que cambio respecto a la sección 2.1?**

Justifique su respuesta aqui:

In [None]:
'''
Respuesta:

'''

### 2.5 Preparando el Modelo

#### **Árboles de Decisión**

<figure>
<center>
<img src='./imagenes/decision_tree.png' width="600" height="300" />
<figcaption></figcaption></center>
</figure>

Un **árbol de decisión** es un modelo de aprendizaje automático utilizado para tareas de clasificación y regresión. En problemas de **clasificación binaria**, se usa para predecir a qué una de dos clases pertenece una muestra.

#### Ajuste del modelo de árbol de decisión

En esta sección se presenta la forma en la cual se define un modelo de arbol de decisión `DecisionTreeClassifier`, en este paso se debe utilizar el dataset de entrenamiento `X_entreno` junto variable que se requiere predecir `y_entreno`, esto debido a que el modelo requiere aprender sobre estos datos para luego ser validados en el cojunto que queremos probar `X_prueba`.

El siguiente bloque de código es de suma importancia, puesto que en la primera línea se crea el modelo y en el segundo se entrena el modelo usando la función `.fit` sobre el objeto del modelo.

In [None]:
# Entrenar el árbol de decisión con un límite de profundidad
modelo_arbol = DecisionTreeClassifier(max_depth=3, random_state=0)
modelo_arbol.fit(X_entreno, y_entreno)

#### Predicción con el dataset de entrenamiento y prueba

Una vez que el modelo ya ha logrado entender los datos del dataset de entrenamiento requerimos validarlo con nuestro dataset de prueba `X_prueba`, para ello utilizamos la función `predict`

In [22]:
# Predicciones
y_pred_entreno_dt = modelo_arbol.predict(X_entreno)
y_pred_prueba_dt = modelo_arbol.predict(X_prueba)

#### Matrices de confusión

Una matriz de confusión es una tabla que te permite visualizar el rendimiento de un modelo de clasificación. Muestra cuántas predicciones fueron correctas e incorrectas, separadas por cada clase (Abandono, No abandono)

In [None]:
# Comparando resultados en conjunto de Entrenamiento vs Prueba
frb.plot_confusion_matrix_and_reports(y_pred_entreno_dt, y_entreno)

In [None]:
frb.plot_confusion_matrix_and_reports(y_pred_prueba_dt, y_prueba)

- **¿Qué significa que la precisión de "Abandona" sea tan bajo?**

Justifique su respuesta aqui:

In [None]:
'''
Respuesta:


'''

 - **¿El modelo está cometiendo muchos falsos negativos o falsos positivos?**

Justifique su respuesta aqui:

In [None]:
'''
Respuesta:


'''

- **¿Qué tan confiable es el modelo para predecir si alguien no abandona?**

Justifique su respuesta aqui:

In [None]:
'''
Respuesta:


'''

### 2.6 Variables más importantes en el modelo

In [None]:
# Crear el dataset con las importancias de las variables
feature_importances = pd.DataFrame({'Feature': X_entreno.columns, 'Importance': modelo_arbol.feature_importances_})

# Ordenar las variables por importancia
feature_importances = feature_importances.sort_values(by='Importance', ascending=False)

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))  # Tamaño del gráfico
plt.barh(feature_importances['Feature'], feature_importances['Importance'], color='skyblue')
plt.xlabel('Importancia')
plt.ylabel('Feature')
plt.title('Importancia de las variables')
plt.gca().invert_yaxis()
plt.show()



**¿Por qué la edad es la variable más importante en el modelo?**

Justifique su respuesta aqui:

In [None]:
'''
Respuesta:


'''

**A pesar de que uno podría pensar que el "Balance" de una persona sería un factor importante para predecir el abandono, en este modelo parece tener una baja importancia. ¿Por qué crees que sucede esto?**

Justifique su respuesta aqui:

In [None]:
'''
Respuesta:


'''

![Descripción de la imagen](https://cdn.memegenerator.es/descargar/884104)



**Es probable que si llegaste hasta este punto tengas dudas o inquietudes, sin embargo, recuerda que es posible contactarnos y podemos resolver todas esas preguntas que probablemente han surgido a lo largo del proceso.**

![Descripción de la imagen](https://www.descargarstickers.com/src_img/2020/05/474653.png)


# **Reto de Machine Learning: ¡Acepta el Desafío!**

---

### 1. Entrenamiento de Modelos Adicionales

Te pedimos que, si deseas aceptar este reto y has llegado hasta acá, entrenes **al menos un modelo adicional de Machine Learning**:

- **Regresión Logística**: Un modelo simple pero efectivo para tareas de clasificación.
- **Random Forest**: Un modelo de conjunto poderoso que combina múltiples árboles de decisión.

Para esto, puedes utilizar todos los pasos que seguiste en las secciones **2.5** y **2.6**

---

### 2. Evaluación del Modelo: Matriz de Confusión

Después de entrenar el modelo, deberás calcular la **matriz de confusión** y **evaluar** su rendimiento. En particular:

- Calcula la **precisión** y el **recall** del modelo resultante.
- Interpreta los resultados obtenidos para entender cómo de bien están funcionando tus modelos.

---

### 3. Importancia de las Características

Una vez que tengas el modelo entrenado, es importante que calcules la **importancia de las características**:

- **Interpreta las 3 características más importantes** de cada modelo y analiza cómo influyen en la predicción de los resultados.

---

### 4. Selección del Mejor Modelo

Al finalizar, deberás **elegir el modelo que mejor se ajuste** (incluso el modelo guía de árbol de decisión que te hemos mostrado) a la necesidad que estamos tratando de resolver: la **predicción de churn** (abandono de clientes). Justifica tu elección basándote en el desempeño de los modelos.

---

### 5. Reflexión: Mejoras Potenciales

Si consideras que los modelos entrenados no son lo suficientemente buenos, cuéntanos:

- **¿Por qué crees que los modelos no rinden lo suficiente?**
- **¿Qué acciones tomarías para mejorar el rendimiento de los modelos?**

---

### ¡Buena suerte con el desafío!



### Pista: Te relacionamos el ajuste para los modelos de clasificación recomendados:

- Regresión logística:**LogisticRegression()**
  
- Random Forest: **RandomForestClassifier()**

In [None]:
# Crear el modelo y asignarlo al objeto nuevo_modelo 
nuevo_modelo =

# Entrenar el modelo usando la función fit pasando X_entrenamiento y y_entrenamiento
nuevo_modelo.fit()

In [None]:
#Generar las predicciones tanto para el dataset de entrenamiento como el de prueba
#Aquí va su código

In [None]:
#Generar las matrices de confusión

**Importancia de las variables**

En la variable **coefficients** debes cambiar el nombre model por el nombre que le asignaste al modelo de regresión logística en caso de que lo hayas elegido

In [None]:
# Si optaste por correr una regresión logística te relacionamos el código
coefficients = nuevo_modelo.coef_[0]

# Crear el dataset con las importancias de las variables
feature_importances = pd.DataFrame({'Feature': X_entreno.columns, 'Importance': np.abs(coefficients)})

# Ordenar las variables por importancia (valor absoluto del coeficiente)
feature_importances = feature_importances.sort_values(by='Importance', ascending=False)

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))  # Tamaño del gráfico
plt.barh(feature_importances['Feature'], feature_importances['Importance'], color='skyblue')
plt.xlabel('Importancia (Valor absoluto del coeficiente)')
plt.ylabel('Feature')
plt.title('Importancia de las variables en Regresión Logística')
plt.gca().invert_yaxis()
plt.show()


En caso de que hayas elegido un Random Forest debes seguir el código de la sección 2.6

En esta parte del codigo `modelo_arbol.feature_importances_` debes cambiar `modelo_arbol` por el nombre que le asignaste a tu modelo `nuevo_modelo`

In [None]:
# Aquí va su código