
# Abstracto
El análisis del abandono de clientes en el sector bancario es fundamental para identificar patrones que permitan mejorar las estrategias de retención y, por ende, aumentar la rentabilidad. Este análisis está dirigido a ejecutivos de alto nivel que buscan comprender qué factores influyen en la decisión de un cliente de abandonar el banco.



# Preguntas/Hipótesis
1. ¿Qué factores influyen más en la decisión de un cliente de abandonar el banco?
2. ¿Existen diferencias significativas en la tasa de abandono entre diferentes países o géneros?
3. ¿La puntuación crediticia, la edad o la duración de la relación con el banco son predictores importantes del abandono?
4. ¿El hecho de tener una tarjeta de crédito o ser un miembro activo reduce la probabilidad de abandono?


In [None]:

# Importación de datos
import pandas as pd

# Cargar datos
file_path = '/mnt/data/Churn_Modelling.csv'
df = pd.read_csv(file_path)

# Vista previa de los datos
df.head()


In [None]:

# Limpieza y Transformación de Datos

# Revisar valores nulos
df.isnull().sum()

# Manejar valores nulos (en este caso, reemplazar con la mediana)
df['HasCrCard'].fillna(df['HasCrCard'].median(), inplace=True)
df['IsActiveMember'].fillna(df['IsActiveMember'].median(), inplace=True)

# Codificación de variables categóricas
df = pd.get_dummies(df, columns=['Geography', 'Gender'], drop_first=True)

# Normalización de variables numéricas (opcional, dependiendo del análisis)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df[['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'EstimatedSalary']] = scaler.fit_transform(
    df[['CreditScore', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'EstimatedSalary']]
)

# Revisar los datos después de la transformación
df.head()


In [None]:

import matplotlib.pyplot as plt
import seaborn as sns

# Distribución de la variable objetivo 'Exited'
plt.figure(figsize=(8, 6))
sns.countplot(x='Exited', data=df)
plt.title('Distribución de clientes que abandonaron el banco')
plt.show()

# Análisis de la relación entre la puntuación crediticia y el abandono
plt.figure(figsize=(8, 6))
sns.boxplot(x='Exited', y='CreditScore', data=df)
plt.title('Puntuación crediticia vs Abandono')
plt.show()

# Correlación de variables
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), annot=True, fmt='.2f')
plt.title('Matriz de correlación')
plt.show()
