# Proyecto de Ciencia de Datos: Clientes de un banco con tarjeta de crédito

El dataset puede encontrarse en [Kaggle](https://www.kaggle.com/datasets/whenamancodes/credit-card-customers-prediction) bajo el título **Credit Card Customers Prediction**.

## Descripción del problema

En un panorama donde la fidelidad del cliente es un objetivo crucial para cualquier institución financiera, comprender los motivos detrás de la deserción y ser capaces de anticiparse a ella se ha convertido en una tarea imperativa. 

Es así que en este proyecto nos proponemos analizar las principales características de los clientes que abandonan el servicio de tarjeta de crédito de un banco. Así se podría reconocer anticipadamente aquellos clientes que en un futuro cercano renunciarían a su línea de crédito en el banco para tomar medidas proactivas y dirigirse a estos clientes de manera oportuna, brindándoles opciones y servicios mejorados que los convenzan de mantener su relación con el banco.


In [None]:
# modulos
import pandas as pd

In [None]:
# importamos los datos
data = pd.read_csv('./BankChurners.csv')
data.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1,Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,12691.0,777,11914.0,1.335,1144,42,1.625,0.061,9.3e-05,0.99991
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,8256.0,864,7392.0,1.541,1291,33,3.714,0.105,5.7e-05,0.99994
2,713982108,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,3418.0,0,3418.0,2.594,1887,20,2.333,0.0,2.1e-05,0.99998
3,769911858,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,3313.0,2517,796.0,1.405,1171,20,2.333,0.76,0.000134,0.99987
4,709106358,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,4716.0,0,4716.0,2.175,816,28,2.5,0.0,2.2e-05,0.99998


### Descripcion de los datos de cada columna

- **CLIENTNUM**: Número de identificación del cliente.
- **Attrition_Flag**: Indica si el cliente sigue teniendo una cuenta en el banco (Existing Customer) o cambió de banco (Attrited Customer).
- **Customer_Age**: Edad del cliente en años.
- **Gender**: Masculino (M), Femenino (F).
- **Dependent_count**: Número de personas a su cuidado o que dependen del cliente.
- **Education_Level**: Grado educativo del cliente (Uneducated, High School, College, Graduate, Post-Graduate, Doctorate).
- **Marital_Status**: Estado civil del cliente (Married, Single, Divorced).
- **Income_Category**: Ingreso anual del cliente (Less than $40K, $40K - $60K, $60K - $80K, $80K - 120K, $120K +).
- **Card_Category**: Tipo de tarjeta (Blue, Silver, Gold, Platinum).
- **Months_on_book**: Tiempo (en meses) que ha sido cliente del banco.
- **Total_Relationship_count**: Número de productos que tiene el cliente.
- **Months_Inactive_12_mon**: Número de meses (en el último año) en que la cuenta estuvo inactiva.
- **Contacts_Count_12_mon**: Número de contactos en los últimos 12 meses.
- **Credit_Limit**: Límite de crédito en la tarjeta de crédito.
- **Total_Revolving_Bal**: Cantidad total de dinero que permanece sin pagar al final del mes de facturación.
- **Avg_Open_To_Buy**: Diferencia promedio (sobre los últimos 12 meses) entre el límite de crédito y la deuda del cliente con el banco.
- **Total_Trans_Amt**: Costo de transacciones (últimos 12 meses).
- **Total_Trans_Ct**: Número total de transacciones (últimos 12 meses).
- **Avg_Utilization_Ratio**: razón del crédito empleado sobre el total del crédito disponible.

Las columnas que no han sido descritas en esta sección, no serán analizadas ya que no contamos con los conocimientos para entender su definición.

In [None]:
# eliminamos aquellas columnas que no consideraremos en nuestro análisis
data = data.drop(['Total_Amt_Chng_Q4_Q1', 'Total_Ct_Chng_Q4_Q1',
                  'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_1',
                  'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_Count_12_mon_Dependent_count_Education_Level_Months_Inactive_12_mon_2'], axis=1)
data.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,Total_Relationship_Count,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Trans_Amt,Total_Trans_Ct,Avg_Utilization_Ratio
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,5,1,3,12691.0,777,11914.0,1144,42,0.061
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,6,1,2,8256.0,864,7392.0,1291,33,0.105
2,713982108,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,4,1,0,3418.0,0,3418.0,1887,20,0.0
3,769911858,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,3,4,1,3313.0,2517,796.0,1171,20,0.76
4,709106358,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,5,1,0,4716.0,0,4716.0,816,28,0.0


In [None]:
# por buena práctica, colocaremos los nombres de las columnas en minúsculas
data.columns = [x.lower() for x in data.columns]

In [None]:
# informacion del tipo de dato en cada columna
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10127 entries, 0 to 10126
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   clientnum                 10127 non-null  int64  
 1   attrition_flag            10127 non-null  object 
 2   customer_age              10127 non-null  int64  
 3   gender                    10127 non-null  object 
 4   dependent_count           10127 non-null  int64  
 5   education_level           10127 non-null  object 
 6   marital_status            10127 non-null  object 
 7   income_category           10127 non-null  object 
 8   card_category             10127 non-null  object 
 9   months_on_book            10127 non-null  int64  
 10  total_relationship_count  10127 non-null  int64  
 11  months_inactive_12_mon    10127 non-null  int64  
 12  contacts_count_12_mon     10127 non-null  int64  
 13  credit_limit              10127 non-null  float64
 14  total_