In [None]:
# Titulo: Análisis de Datos Bancarios con Python
# Descripción: Este script realiza un análisis de productos cruzados en un conjunto de datos bancarios ficticios.
# Autor: Enrique Muñoz

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Configurar la semilla para reproducibilidad
np.random.seed(42)
n_clientes = 1000
data = {
    'ClienteID': range(1, n_clientes + 1),
    'Edad': np.random.randint(18, 70, size=n_clientes),
    'Ingresos': np.random.randint(20000, 100000, size=n_clientes),
    'Gastos': np.random.randint(5000, 50000, size=n_clientes),
    'Seguro_de_Vida': np.random.choice([0, 1], size=n_clientes),  # 0 = No, 1 = Sí
    'Seguro_de_Auto': np.random.choice([0, 1], size=n_clientes),  # 0 = No, 1 = Sí
    'Tarjeta_de_Credito': np.random.choice([0, 1], size=n_clientes),  # 0 = No, 1 = Sí
    'Prestamo_Hipotecario': np.random.choice([0, 1], size=n_clientes),  # 0 = No, 1 = Sí
    'Prestamo_Personal': np.random.choice([0, 1], size=n_clientes),  # 0 = No, 1 = Sí
    'Cuenta_de_Ahorros': np.random.choice([0, 1], size=n_clientes),  # 0 = No, 1 = Sí
    'Cuenta_Corriente': np.random.choice([0, 1], size=n_clientes),  # 0 = No, 1 = Sí
    'Inversiones': np.random.choice([0, 1], size=n_clientes),  # 0 = No, 1 = Sí
    'Plan_de_Jubilacion': np.random.choice([0, 1], size=n_clientes),  # 0 = No, 1 = Sí
}

In [None]:
df = pd.DataFrame(data)
# Mostrar las primeras filas del DataFrame
print(df.head())
print('Dataframe creado con éxito con', n_clientes, 'clientes.')
#imprimir los campos del dataframe
print(df.columns)

   ClienteID  Edad  Ingresos  Gastos  Seguro_de_Vida  Seguro_de_Auto  \
0          1    56     54674   24508               0               1   
1          2    69     55854   47287               1               1   
2          3    46     66271   18380               1               1   
3          4    32     93688   31984               1               1   
4          5    60     58518   49633               1               0   

   Tarjeta_de_Credito  Prestamo_Hipotecario  Prestamo_Personal  \
0                   0                     1                  1   
1                   1                     0                  0   
2                   1                     0                  0   
3                   0                     0                  0   
4                   0                     1                  1   

   Cuenta_de_Ahorros  Cuenta_Corriente  Inversiones  Plan_de_Jubilacion  
0                  1                 1            1                   1  
1                  1  

In [None]:
# Limpieza y depuracion con data wangler
def clean_data(df):
    # Cambiar el tipo de columna a boolpara las columnas: 'Seguro_de_Auto', 'Seguro_de_Vida' y 7 otras columnas
    df = df.astype({'Seguro_de_Auto': 'bool', 'Seguro_de_Vida': 'bool', 'Tarjeta_de_Credito': 'bool', 'Prestamo_Hipotecario': 'bool', 'Prestamo_Personal': 'bool', 'Cuenta_de_Ahorros': 'bool', 'Cuenta_Corriente': 'bool', 'Inversiones': 'bool', 'Plan_de_Jubilacion': 'bool'})
    # Cambia el tipo de columna por int8 para la columna: 'Edad'
    df = df.astype({'Edad': 'int8'})
    # Cambia el tipo de columna por string para la columna: 'ClienteID'
    df = df.astype({'ClienteID': 'string'})
    # Filtrar filas según la columna: 'Edad'
    df = df[(df['Edad'] > 25) & (df['Edad'] < 80)]
    # Filtrar filas según la columna: 'Ingresos'
    df = df[(df['Ingresos'] >= 1000) & (df['Ingresos'].apply(str).str.contains("", regex=False, na=False, case=False))]
    # Ordenar por columna: 'Ingresos' (descendente)
    df = df.sort_values(['Ingresos'], ascending=[False])
    return df

df_clean = clean_data(df.copy())
df_clean.head()

Unnamed: 0,ClienteID,Edad,Ingresos,Gastos,Seguro_de_Vida,Seguro_de_Auto,Tarjeta_de_Credito,Prestamo_Hipotecario,Prestamo_Personal,Cuenta_de_Ahorros,Cuenta_Corriente,Inversiones,Plan_de_Jubilacion
19,20,41,99905,30923,False,False,True,False,True,True,True,False,False
91,92,35,99767,41914,False,True,True,True,False,False,False,True,True
940,941,38,99671,35090,False,True,False,True,False,True,False,True,True
859,860,43,99561,26253,False,True,False,True,True,True,True,True,True
930,931,42,99530,37994,False,False,True,True,False,False,True,False,False


In [None]:
# Análisis exploratorio de datos (EDA)
# Estadísticas descriptivas del DataFrame limpio
print(df_clean.describe())

             Edad      Ingresos        Gastos
count  846.000000    846.000000    846.000000
mean    47.920804  59501.137116  27160.213948
std     12.461809  23207.487389  12713.715212
min     26.000000  20060.000000   5097.000000
25%     38.000000  40375.500000  15754.500000
50%     48.000000  58538.500000  28211.000000
75%     58.000000  78735.500000  37559.750000
max     69.000000  99905.000000  49936.000000


In [None]:
# Calcular el número total de productos contratados por cliente
df_clean['Total_Productos'] = df_clean[['Seguro_de_Vida', 'Seguro_de_Auto', 'Tarjeta_de_Credito', 'Prestamo_Hipotecario', 'Prestamo_Personal', 'Cuenta_de_Ahorros', 'Cuenta_Corriente', 'Inversiones', 'Plan_de_Jubilacion']].sum(axis=1)
# Mostrar las primeras filas con la nueva columna 
print(df_clean[['ClienteID', 'Total_Productos']].head())

# Calcular el ingreso promedio por cliente
ingreso_promedio = df_clean['Ingresos'].mean()
print(f'Ingreso promedio por cliente: {ingreso_promedio:.2f}')

#Calcular la correlación entre ingresos y numero de productos contratados
correlacion = df_clean['Ingresos'].corr(df_clean['Total_Productos'])
print(f'Correlación entre ingresos y número de productos contratados: {correlacion:.2f}')

# Calcular penetración de cada producto
productos = ['Seguro_de_Vida', 'Seguro_de_Auto', 'Tarjeta_de_Credito', 'Prestamo_Hipotecario', 'Prestamo_Personal', 'Cuenta_de_Ahorros', 'Cuenta_Corriente', 'Inversiones', 'Plan_de_Jubilacion']   
for producto in productos:
    penetracion = df_clean[producto].mean() * 100
    print(f'Penetración de {producto}: {penetracion:.2f}%')

# Final del código

    ClienteID  Total_Productos
19         20                4
91         92                5
940       941                5
859       860                7
930       931                3
Ingreso promedio por cliente: 59501.14
Correlación entre ingresos y número de productos contratados: -0.05
Penetración de Seguro_de_Vida: 46.81%
Penetración de Seguro_de_Auto: 47.87%
Penetración de Tarjeta_de_Credito: 49.05%
Penetración de Prestamo_Hipotecario: 51.06%
Penetración de Prestamo_Personal: 48.23%
Penetración de Cuenta_de_Ahorros: 54.14%
Penetración de Cuenta_Corriente: 49.53%
Penetración de Inversiones: 50.24%
Penetración de Plan_de_Jubilacion: 50.35%
