<h1 style="color:#2E86C1; font-family:Arial, sans-serif; text-align:center; padding:20px;">
  ¿Por Qué los Clientes Abandonan sus Tarjetas de Crédito?<br>
  <span style="font-size: 22px; color:#566573;">Una Mirada a Través de los Datos</span>
</h1>

### Análisis exploratorio y visualización de un conjunto de datos del sector bancario

El presente informe se centra en el análisis de un conjunto de datos relacionados con el abandono de tarjetas de crédito por parte de los clientes, un fenómeno que ha cobrado relevancia en el sector bancario en los últimos años. En muchos casos, los clientes solicitan tarjetas de crédito únicamente con el fin de aprovechar bonificaciones de bienvenida u otros beneficios promocionales. Posteriormente, una vez obtenidas dichas ventajas y antes de que se cobre la siguiente cuota anual, estos clientes cancelan la tarjeta, generando pérdidas para las entidades emisoras.

El conjunto de datos utilizado para este análisis se encuentra disponible en la plataforma Kaggle, una comunidad en línea ampliamente reconocida por ofrecer recursos de calidad para proyectos de ciencia de datos y aprendizaje automático. Debido a la reputación de esta fuente, se considera que los datos son fiables y que han sido recopilados y procesados de manera rigurosa.

El objetivo del análisis es identificar los factores que influyen en la cancelación de tarjetas de crédito y detectar patrones comunes entre los clientes que optan por darse de baja. Este problema es de especial interés para las entidades financieras, que buscan reducir la pérdida de clientes mediante estrategias de retención más efectivas.

A través de técnicas de visualización de datos, se pretende responder a preguntas clave como: ¿qué características comparten los clientes que cancelan sus tarjetas? ¿Qué motivos pueden llevar a un cliente a abandonar el uso de una tarjeta de crédito? El conjunto de datos proporciona información suficiente para abordar estas cuestiones y extraer conclusiones relevantes que pueden ser útiles tanto desde una perspectiva analítica como práctica.

In [1]:
# Librerías básicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Lectura del archivo
df = pd.read_csv('BankChurners.csv', low_memory=False)
df.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,9.3e-05,0.99991
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,5.7e-05,0.99994
2,713982108,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,2.1e-05,0.99998
3,769911858,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,3313.0,2517,796.0,1.405,1171,20,2.333,0.76,0.000134,0.99987
4,709106358,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,2.2e-05,0.99998


Definición de las características:

- CLIENTNUM: Número de cliente. Identificador único del cliente titular de la cuenta
- Attrition_Flag: Variable de evento interno (actividad del cliente) - si la cuenta se cierra, entonces 1, en caso contrario 0
- Customer_Age: variable demográfica - edad del cliente en años
- Gender: Variable demográfica - M=Hombre, F=Mujer
- Dependent_count: Variable demográfica - Número de personas a cargo
- Education_level: Variable demográfica - Cualificación educativa del titular de la cuenta (ejemplo: bachillerato, licenciatura, etc.)
- Marital_status: Variable demográfica - Casado, soltero, divorciado, desconocido
- Income_category: Variable demográfica: categoría de ingresos anuales en dolares del titular de la cuenta (< 40 000, entre 40 000 y 60 000, entre 60 000 y 80 000, entre 80 000 y 120 000, > 120 000, desconocida).
- Card_Category: Variable de producto - Tipo de tarjeta (Azul, Plata, Oro, Platino)
- Months_on_book: Periodo de relación con el banco
- Total_Relationship_Count: Nº total de productos que posee el cliente
- Months_Inactive_12_mon: Nº de meses inactivo en los últimos 12 meses
- Contacts_Count_12_mon: Nº de contactos en los últimos 12 meses
- Credit_Limit: Límite de crédito de la tarjeta de crédito
- Total_Revolving_Bal: Saldo Rotativo Total de la Tarjeta de Crédito
- Avg_Open_To_Buy: Línea de crédito abierta a la compra (media de los últimos 12 meses)
- Total_Amt_Chng_Q4_Q1: Cambio en el importe de las transacciones (4T sobre 1T)
- Total_Trans_Amt: Importe total de las transacciones (últimos 12 meses)
- Total_Trans_Ct: Total de transacciones (últimos 12 meses)
- Total_Ct_Chng_Q4_Q1: Cambio en el número de transacciones (4T sobre 1T)
- Avg_Utilization_Ratio: Índice medio de utilización de tarjetas
- Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1: Naive Bayes
- Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2: Naive Bayes

Fuente: https://www.kaggle.com/datasets/sakshigoyal7/credit-card-customers

### Borrar funciones inútiles:
Hay algunas características de la tabla de datos que no aportan en el análisis que se quiere hacer en esta práctica. Las variables son las siguientes:
- CLIENTNUM: número de identificación del cliente
- Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1 : Naive Bayes de otro modelo de aprendizaje automático
- Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2 : Naive Bayes de otro modelo de aprendizaje automático


In [3]:
useless = ['CLIENTNUM','Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
           'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2']
dfDrop = df.drop(useless, axis=1)

## Análisis y visualización de los datos

En primer lugar, se realizó una exploración visual de las variables del conjunto de datos con el objetivo de identificar posibles patrones o relaciones significativas. Para ello, se utilizaron principalmente gráficos de barras y otros recursos visuales.

Se analizaron diversas características estadísticas de las variables, como la media, la desviación estándar, así como los valores mínimos y máximos, lo que permitió obtener una visión general del comportamiento de los datos.

Las variables numéricas se representaron mediante gráficos combinados, que integran líneas y barras para facilitar la comparación de tendencias y magnitudes. Por otro lado, las variables categóricas se visualizaron exclusivamente mediante gráficos de barras, dada su naturaleza discreta y cualitativa.

Este enfoque permitió identificar diferencias clave entre los distintos grupos de clientes y facilitó la interpretación de los datos en relación con el problema del abandono de tarjetas de crédito.

In [4]:
# Variables númericas
dfDrop.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Customer_Age,10127.0,46.32596,8.016814,26.0,41.0,46.0,52.0,73.0
Dependent_count,10127.0,2.346203,1.298908,0.0,1.0,2.0,3.0,5.0
Months_on_book,10127.0,35.928409,7.986416,13.0,31.0,36.0,40.0,56.0
Total_Relationship_Count,10127.0,3.81258,1.554408,1.0,3.0,4.0,5.0,6.0
Months_Inactive_12_mon,10127.0,2.341167,1.010622,0.0,2.0,2.0,3.0,6.0
Contacts_Count_12_mon,10127.0,2.455317,1.106225,0.0,2.0,2.0,3.0,6.0
Credit_Limit,10127.0,8631.953698,9088.77665,1438.3,2555.0,4549.0,11067.5,34516.0
Total_Revolving_Bal,10127.0,1162.814061,814.987335,0.0,359.0,1276.0,1784.0,2517.0
Avg_Open_To_Buy,10127.0,7469.139637,9090.685324,3.0,1324.5,3474.0,9859.0,34516.0
Total_Amt_Chng_Q4_Q1,10127.0,0.759941,0.219207,0.0,0.631,0.736,0.859,3.397


In [5]:
import pandas as pd
import plotly.express as px
import ipywidgets as widgets
from IPython.display import display

# Selección de columnas numéricas válidas
num_cols = dfDrop.select_dtypes(include='number').columns.tolist()

# Widget para seleccionar la variable
var_selector = widgets.Dropdown(
    options=num_cols,
    value=num_cols[0],
    description='Variable:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='50%')
)

# Widget para elegir si se quiere incluir boxplot
boxplot_toggle = widgets.Checkbox(
    value=True,
    description='Mostrar boxplot',
    indent=False
)

# Función para mostrar histograma interactivo
def plot_interactive_hist(var, show_box):
    fig = px.histogram(
        dfDrop, x=var, nbins=30,
        marginal='box' if show_box else None,
        opacity=0.75,
        title=f'Distribución de: {var}',
        template='plotly_white',
        color_discrete_sequence=['#6699CC']
    )
    fig.update_layout(
        title_font_size=20,
        xaxis_title=var,
        yaxis_title='Frecuencia',
        bargap=0.05
    )
    fig.show()

# Conectar widgets con función
widgets.interact(
    plot_interactive_hist,
    var=var_selector,
    show_box=boxplot_toggle
);


interactive(children=(Dropdown(description='Variable:', layout=Layout(width='50%'), options=('Customer_Age', '…

En un primer análisis descriptivo, se observa que la edad media de los clientes (Customer_Age) ronda los 46 años, lo que indica que la mayoría se encuentra en el rango de entre 40 y 50 años. Además, el número medio de personas a su cargo (Dependent_Count) es de dos a tres, lo que sugiere que, en general, se trata de individuos con responsabilidades familiares.

En cuanto a la antigüedad de la relación con la entidad bancaria, la mayoría de los clientes lleva aproximadamente tres años siendo parte de la cartera del banco. Respecto al límite de crédito (Credit_Limit), se identifica un promedio de alrededor de 5.000 dólares, aunque existe un pequeño grupo de clientes con un límite significativamente superior, en torno a los 35.000 dólares.

En términos de actividad, los clientes realizan en promedio unas 65 transacciones anuales (Total_Trans_Ct), con un monto total de aproximadamente 4.000 dólares en transacciones (Total_Trans_Amt). Esto implica que el valor medio por transacción es de unos 62 dólares, lo cual ofrece una visión general del comportamiento de gasto con las tarjetas de crédito.

In [6]:
# Variables categóricas
dfDrop.describe(include='object').T

Unnamed: 0,count,unique,top,freq
Attrition_Flag,10127,2,Existing Customer,8500
Gender,10127,2,F,5358
Education_Level,10127,7,Graduate,3128
Marital_Status,10127,4,Married,4687
Income_Category,10127,6,Less than $40K,3561
Card_Category,10127,4,Blue,9436


In [7]:
import plotly.express as px
import ipywidgets as widgets
from IPython.display import display

# Lista de columnas categóricas
cat_cols = dfDrop.select_dtypes(include='object').columns.tolist()

# Dropdown interactivo
cat_dropdown = widgets.Dropdown(
    options=cat_cols,
    description='Categoría:',
    layout=widgets.Layout(width='50%')
)

# Función de visualización
def plot_cat(col):
    fig = px.histogram(dfDrop, x=col, color=col,
                       title=f'Distribución de {col}',
                       template='plotly_white',
                       color_discrete_sequence=px.colors.qualitative.Set2)
    fig.update_layout(showlegend=False, xaxis_title='', yaxis_title='Frecuencia')
    fig.show()

# Vincular función al widget
widgets.interact(plot_cat, col=cat_dropdown);


interactive(children=(Dropdown(description='Categoría:', layout=Layout(width='50%'), options=('Attrition_Flag'…

Tras el análisis de las variables categóricas, se han obtenido las siguientes conclusiones:

Aproximadamente el 15 % de los clientes han abandonado el servicio de tarjeta de crédito, según la variable Attrition_Flag. En cuanto al género (Gender), la distribución entre hombres y mujeres es equilibrada. La mayoría de los clientes presentan un nivel educativo de grado universitario (Education_Level) y están casados o solteros (Marital_Status).

Respecto al tipo de tarjeta, la gran mayoría posee una tarjeta de categoría azul (Card_Category: Blue). Además, la mayoría de los clientes tienen ingresos anuales inferiores a 40.000 dólares.

Teniendo en cuenta estas características, el perfil más común entre los clientes es el de una mujer casada, con estudios universitarios, que posee una tarjeta de categoría azul y cuenta con ingresos inferiores a 40.000 dólares anuales.

In [8]:
import plotly.express as px

fig = px.scatter(
    dfDrop,
    x='Total_Trans_Ct',
    y='Total_Trans_Amt',
    color='Attrition_Flag',
    opacity=0.6,
    title='Relación entre Número de Transacciones y Monto Total',
    labels={
        'Total_Trans_Ct': 'Cantidad de Transacciones',
        'Total_Trans_Amt': 'Monto Total (USD)',
        'Attrition_Flag': 'Estado del Cliente'
    },
    color_discrete_sequence=px.colors.qualitative.Set2
)

fig.update_layout(
    title_font_size=20,
    legend_title_font_size=12,
    width=900,
    height=600,
    template='plotly_white'
)

fig.show()


Para investigar las razones detrás del abandono del uso de tarjetas de crédito, se realizó un análisis detallado de diversas variables. En primer lugar, se examinaron las variables Transaction Count (Total_Trans_Ct) y Transaction Amount (Total_Trans_Amt), debido a la relación directa que existe entre ellas.

El análisis gráfico revela que los clientes que abandonan los servicios del banco tienden a realizar un menor número de transacciones y por montos más reducidos. En contraste, los clientes activos suelen efectuar un mayor volumen de transacciones y con valores más elevados, lo que sugiere un mayor compromiso con el uso de la tarjeta.

In [9]:
import plotly.express as px
import ipywidgets as widgets

# Widget para seleccionar variable
num_cols = dfDrop.select_dtypes(include='number').columns.tolist()
dropdown = widgets.Dropdown(options=num_cols, description='Variable:')

# Función para graficar distribución interactiva
def plot_kde_interactivo(col):
    fig = px.histogram(
        dfDrop, x=col, color='Attrition_Flag', nbins=40,
        marginal='violin', histnorm='probability density',
        barmode='overlay', opacity=0.5,
        color_discrete_map={
            'Attrited Customer': 'tomato',
            'Existing Customer': 'seagreen'
        },
        title=f'Distribución de {col} por Tipo de Cliente',
        labels={'Attrition_Flag': 'Estado del Cliente'}
    )
    fig.update_layout(template='plotly_white', width=800, height=500)
    fig.show()

widgets.interact(plot_kde_interactivo, col=dropdown);


interactive(children=(Dropdown(description='Variable:', options=('Customer_Age', 'Dependent_count', 'Months_on…

Como se observa en la gráfica anterior, los clientes que realizan menos transacciones y por montos menores son más propensos a abandonar el uso de las tarjetas de crédito. Además, se identifica que estos clientes suelen evitar solicitar préstamos o presentan dificultades para pagarlos, reflejándose en saldos de deuda pendientes.

In [10]:
import plotly.express as px
import ipywidgets as widgets
from IPython.display import display

cat_cols = dfDrop.select_dtypes(include='object').columns.tolist()
cat_cols = [col for col in cat_cols if col != 'Attrition_Flag']

tab_contents = []

for col in cat_cols:
    fig = px.histogram(
        dfDrop, x=col, color='Attrition_Flag',
        barmode='group',
        color_discrete_sequence=px.colors.qualitative.Set2,
        title=f'Distribución de {col} por Estado del Cliente',
        labels={'Attrition_Flag': 'Estado del Cliente'}
    )
    fig.update_layout(template='plotly_white', xaxis_title='', yaxis_title='Frecuencia')
    out = widgets.Output()
    with out:
        fig.show()
    tab_contents.append(out)

tabs = widgets.Tab(children=tab_contents)
for i, col in enumerate(cat_cols):
    tabs.set_title(i, col)

display(tabs)


Tab(children=(Output(), Output(), Output(), Output(), Output()), selected_index=0, titles=('Gender', 'Educatio…

<h2 style="color:#2E86C1;">Conclusión</h2>

<p>El análisis realizado ha permitido responder a la pregunta sobre por qué los clientes abandonan los servicios de esta entidad bancaria. A partir del estudio detallado de los gráficos, se han extraído las siguientes conclusiones clave:</p>

<ul>
  <li><b style="color:#CB4335;">16 % de los clientes</b> han cambiado de proveedor, es decir, han dejado de usar la tarjeta de crédito ofrecida por la entidad.</li>
  <li>La proporción de <b style="color:#2874A6;">hombres (53 %) y mujeres (47 %)</b> está casi equilibrada, mientras que la distribución entre clientes activos (84 %) y dados de baja (16 %) está más desequilibrada.</li>
  <li>La tasa de abandono es ligeramente mayor entre los <b style="color:#CB4335;">hombres (14 %)</b> que entre las mujeres.</li>
  <li>Los clientes que han abandonado el servicio presentan un alto nivel educativo:<br>
    &nbsp;&nbsp;&nbsp;&nbsp;<b style="color:#1F618D;">30 %</b> con estudios universitarios completos<br>
    &nbsp;&nbsp;&nbsp;&nbsp;<b style="color:#1F618D;">19 %</b> con estudios de posgrado
  </li>
  <li>En cuanto al estado civil, la mayoría de los clientes dados de baja son:<br>
    &nbsp;&nbsp;&nbsp;&nbsp;<b style="color:#2471A3;">44 % casados</b><br>
    &nbsp;&nbsp;&nbsp;&nbsp;<b style="color:#2471A3;">41 % solteros</b><br>
    &nbsp;&nbsp;&nbsp;&nbsp;<b style="color:#7B7D7D;">7 % divorciados</b><br>
    &nbsp;&nbsp;&nbsp;&nbsp;<b style="color:#7B7D7D;">8 % con estado civil desconocido</b>
  </li>
  <li>Por categoría de ingresos, los clientes dados de baja se concentran principalmente en:<br>
    &nbsp;&nbsp;&nbsp;&nbsp;<b style="color:#117A65;">38 % con ingresos inferiores a 40.000 dólares</b><br>
    &nbsp;&nbsp;&nbsp;&nbsp;<b style="color:#117A65;">17 % entre 60.000 y 80.000 dólares</b><br>
    &nbsp;&nbsp;&nbsp;&nbsp;<b style="color:#148F77;">15 % entre 80.000 y 120.000 dólares</b><br>
    &nbsp;&nbsp;&nbsp;&nbsp;<b style="color:#148F77;">12 % con ingresos superiores a 120.000 dólares</b><br>
    Esto sugiere que los clientes con ingresos más altos no son necesariamente más propensos a abandonar el servicio que aquellos con ingresos medios.
  </li>
</ul>

<hr style="border:1px solid #2E86C1;">

<h3 style="color:#2E86C1;">Perfil típico del cliente que abandona el servicio:</h3>

<blockquote style="font-size: 1.1em; color:#CB4335; border-left: 4px solid #CB4335; padding-left: 10px;">
  Un <b>hombre casado</b>, con un <b>alto nivel educativo</b> y con <b>ingresos medios</b>.
</blockquote>
