## Descripción de la Fuente de Datos

La fuente de datos **"CC GENERAL.csv"** resume el comportamiento de uso de aproximadamente 9000 titulares activos de tarjetas de crédito durante los últimos 6 meses. Está compuesta por las siguientes 18 características:

1. **CUST_ID**: Identificación del titular de la tarjeta de crédito (Categórica).
2. **BALANCE**: Monto del saldo restante en la cuenta para realizar compras.
3. **BALANCE_FREQUENCY**: Frecuencia con la que se actualiza el saldo (valor entre 0 y 1, donde 1 indica actualización frecuente y 0 actualización poco frecuente).
4. **PURCHASES**: Monto total de las compras realizadas desde la cuenta.
5. **ONEOFF_PURCHASES**: Monto máximo de una compra realizada en una sola transacción.
6. **INSTALLMENTS_PURCHASES**: Monto de compras realizadas a plazos.
7. **CASH_ADVANCE**: Monto de efectivo anticipado proporcionado al usuario.
8. **PURCHASES_FREQUENCY**: Frecuencia con la que se realizan compras (valor entre 0 y 1).
9. **ONEOFFPURCHASESFREQUENCY**: Frecuencia con la que se realizan compras de una sola vez (valor entre 0 y 1).
10. **PURCHASESINSTALLMENTSFREQUENCY**: Frecuencia con la que se realizan compras a plazos (valor entre 0 y 1).
11. **CASHADVANCEFREQUENCY**: Frecuencia con la que se utiliza el efectivo anticipado (valor entre 0 y 1).
12. **CASHADVANCETRX**: Número de transacciones realizadas con efectivo anticipado.
13. **PURCHASES_TRX**: Número de transacciones de compra realizadas.
14. **CREDIT_LIMIT**: Límite de crédito disponible en la tarjeta del usuario.
15. **PAYMENTS**: Monto total de pagos realizados por el usuario.
16. **MINIMUM_PAYMENTS**: Monto mínimo de pagos realizados por el usuario.
17. **PRCFULLPAYMENT**: Porcentaje del pago total realizado por el usuario.
18. **TENURE**: Duración del servicio de la tarjeta de crédito para el usuario.

---

## Objetivo del Notebook

El objetivo es desarrollar un **Análisis Exploratorio de Datos (EDA)** para este conjunto de datos. Nos centraremos en la preparación y transformación de los datos para su análisis, y escribiremos la interpretación de los resultados en cada paso en los que aplique.

---

## Pasos del EDA

1. **Carga de los Datos**

   - Importar las bibliotecas necesarias.
   - Cargar el archivo `CC GENERAL.csv` en un DataFrame de pandas.
   - Visualizar las primeras filas del conjunto de datos para entender su estructura.

2. **Revisión de Tipos de Datos y Valores Faltantes**

   - Verificar los tipos de datos en cada columna.
   - Analizar la presencia de valores nulos o faltantes en las variables.
   - Decidir el tratamiento de los valores faltantes (eliminación o imputación).

3. **Estadísticas Descriptivas**

   - Calcular y revisar las estadísticas descriptivas de las variables numéricas:
     - Media, mediana, desviación estándar, valores mínimos y máximos.
   - Identificar posibles outliers o distribuciones anómalas.

4. **Visualización de la Distribución de Variables**

   - Crear histogramas para visualizar la distribución de las principales variables numéricas:
     - `BALANCE`, `PURCHASES`, `CREDIT_LIMIT`, `PAYMENTS`, etc.
   - Identificar sesgos o distribuciones que no sean normales.

5. **Transformación de Variables Categóricas**

   - Revisión y transformación de variables categóricas, como `CUST_ID`:
     - Conversión a variables dummy si es necesario (aunque en este caso `CUST_ID` es solo un identificador, puede que no sea necesario).

6. **Análisis de Correlación**

   - Calcular la matriz de correlación entre las variables numéricas.
   - Visualizar el mapa de calor (heatmap) para identificar correlaciones fuertes entre variables.

7. **Normalización o Escalado de Datos (si es necesario)**

   - Considerar la normalización o estandarización de variables como `BALANCE`, `PURCHASES`, `CREDIT_LIMIT`, etc., si se van a utilizar modelos de machine learning en pasos posteriores.

8. **Interpretación de Resultados**
   - Escribir las observaciones de las distribuciones, la correlación entre variables, y el impacto de los outliers.
   - Interpretar el comportamiento general de los usuarios de tarjetas de crédito en función de los patrones de uso identificados.

---


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, StandardScaler
import warnings

warnings.filterwarnings("ignore")

In [2]:
data = pd.read_csv("CC-GENERAL.csv", sep=",")
data.head()

Unnamed: 0,CUST_ID,BALANCE,BALANCE_FREQUENCY,PURCHASES,ONEOFF_PURCHASES,INSTALLMENTS_PURCHASES,CASH_ADVANCE,PURCHASES_FREQUENCY,ONEOFF_PURCHASES_FREQUENCY,PURCHASES_INSTALLMENTS_FREQUENCY,CASH_ADVANCE_FREQUENCY,CASH_ADVANCE_TRX,PURCHASES_TRX,CREDIT_LIMIT,PAYMENTS,MINIMUM_PAYMENTS,PRC_FULL_PAYMENT,TENURE
0,C10001,40.900749,0.818182,95.4,0.0,95.4,0.0,0.166667,0.0,0.083333,0.0,0,2,1000.0,201.802084,139.509787,0.0,12
1,C10002,3202.467416,0.909091,0.0,0.0,0.0,6442.945483,0.0,0.0,0.0,0.25,4,0,7000.0,4103.032597,1072.340217,0.222222,12
2,C10003,2495.148862,1.0,773.17,773.17,0.0,0.0,1.0,1.0,0.0,0.0,0,12,7500.0,622.066742,627.284787,0.0,12
3,C10004,1666.670542,0.636364,1499.0,1499.0,0.0,205.788017,0.083333,0.083333,0.0,0.083333,1,1,7500.0,0.0,,0.0,12
4,C10005,817.714335,1.0,16.0,16.0,0.0,0.0,0.083333,0.083333,0.0,0.0,0,1,1200.0,678.334763,244.791237,0.0,12


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8950 entries, 0 to 8949
Data columns (total 18 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   CUST_ID                           8950 non-null   object 
 1   BALANCE                           8950 non-null   float64
 2   BALANCE_FREQUENCY                 8950 non-null   float64
 3   PURCHASES                         8950 non-null   float64
 4   ONEOFF_PURCHASES                  8950 non-null   float64
 5   INSTALLMENTS_PURCHASES            8950 non-null   float64
 6   CASH_ADVANCE                      8950 non-null   float64
 7   PURCHASES_FREQUENCY               8950 non-null   float64
 8   ONEOFF_PURCHASES_FREQUENCY        8950 non-null   float64
 9   PURCHASES_INSTALLMENTS_FREQUENCY  8950 non-null   float64
 10  CASH_ADVANCE_FREQUENCY            8950 non-null   float64
 11  CASH_ADVANCE_TRX                  8950 non-null   int64  
 12  PURCHA

In [4]:
data.describe()

Unnamed: 0,BALANCE,BALANCE_FREQUENCY,PURCHASES,ONEOFF_PURCHASES,INSTALLMENTS_PURCHASES,CASH_ADVANCE,PURCHASES_FREQUENCY,ONEOFF_PURCHASES_FREQUENCY,PURCHASES_INSTALLMENTS_FREQUENCY,CASH_ADVANCE_FREQUENCY,CASH_ADVANCE_TRX,PURCHASES_TRX,CREDIT_LIMIT,PAYMENTS,MINIMUM_PAYMENTS,PRC_FULL_PAYMENT,TENURE
count,8950.0,8950.0,8950.0,8950.0,8950.0,8950.0,8950.0,8950.0,8950.0,8950.0,8950.0,8950.0,8949.0,8950.0,8637.0,8950.0,8950.0
mean,1564.474828,0.877271,1003.204834,592.437371,411.067645,978.871112,0.490351,0.202458,0.364437,0.135144,3.248827,14.709832,4494.44945,1733.143852,864.206542,0.153715,11.517318
std,2081.531879,0.236904,2136.634782,1659.887917,904.338115,2097.163877,0.401371,0.298336,0.397448,0.200121,6.824647,24.857649,3638.815725,2895.063757,2372.446607,0.292499,1.338331
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,50.0,0.0,0.019163,0.0,6.0
25%,128.281915,0.888889,39.635,0.0,0.0,0.0,0.083333,0.0,0.0,0.0,0.0,1.0,1600.0,383.276166,169.123707,0.0,12.0
50%,873.385231,1.0,361.28,38.0,89.0,0.0,0.5,0.083333,0.166667,0.0,0.0,7.0,3000.0,856.901546,312.343947,0.0,12.0
75%,2054.140036,1.0,1110.13,577.405,468.6375,1113.821139,0.916667,0.3,0.75,0.222222,4.0,17.0,6500.0,1901.134317,825.485459,0.142857,12.0
max,19043.13856,1.0,49039.57,40761.25,22500.0,47137.21176,1.0,1.0,1.0,1.5,123.0,358.0,30000.0,50721.48336,76406.20752,1.0,12.0


## Hallazgos Importantes

1. En el balance se indica la deuda actual que tiene una variabilidad alta
2. Se visualiza que los usuarios hacen compras grandes en **PURCHASES** y en **ONEOFF_PURCHASES**
3. Se puede hacer una segmentacion de usuarios segun el riesgo y el potencial de endeudamiento esto se puede ver en el limite del credito
4. Hay usuarios con muchos anticipos como hay otros usuarios que no hacen anticipos, tambien existe la variable de con que frecuencia hace los anticipos y no es algo tan comun en los anticipos


In [8]:
# Cantidad de datos
print(f"Cantidad de registros: {len(data)}")
data = data.dropna()
print(f"Cantidad de registros actualizada a: {len(data)}")

Cantidad de registros: 8636
Cantidad de registros actualizada a: 8636


## Utilizacion de credito

Es algo importate, con que frecuencia se utilizan los cretitos aca, es un porcentaje para saber con cuanto se utiliza


In [10]:
data["Credit_Utilization"] = (data["BALANCE"] / data["CREDIT_LIMIT"]) * 100

data[["BALANCE", "CREDIT_LIMIT", "Credit_Utilization"]].head()

Unnamed: 0,BALANCE,CREDIT_LIMIT,Credit_Utilization
0,40.900749,1000.0,4.090075
1,3202.467416,7000.0,45.749535
2,2495.148862,7500.0,33.268651
4,817.714335,1200.0,68.142861
5,1809.828751,1800.0,100.546042


In [11]:
unique_counts = data.nunique()
unique_counts

CUST_ID                             8636
BALANCE                             8631
BALANCE_FREQUENCY                     42
PURCHASES                           6015
ONEOFF_PURCHASES                    3922
INSTALLMENTS_PURCHASES              4341
CASH_ADVANCE                        4206
PURCHASES_FREQUENCY                   47
ONEOFF_PURCHASES_FREQUENCY            47
PURCHASES_INSTALLMENTS_FREQUENCY      47
CASH_ADVANCE_FREQUENCY                54
CASH_ADVANCE_TRX                      65
PURCHASES_TRX                        173
CREDIT_LIMIT                         203
PAYMENTS                            8636
MINIMUM_PAYMENTS                    8635
PRC_FULL_PAYMENT                      47
TENURE                                 7
Credit_Utilization                  8631
dtype: int64

In [12]:
c_limite = data["CREDIT_LIMIT"].value_counts()
c_duracion_cliente = data["TENURE"].value_counts()
c_pago_total = data["PRC_FULL_PAYMENT"].value_counts()

print(f"Total limite de credito: {c_limite}")
print(f"Total de clientes segun su antiguedad: {c_duracion_cliente}")
print(f"Total cliente que pagane el total de sus deudas {c_pago_total}")

Total limite de credito: CREDIT_LIMIT
3000.000000    752
1500.000000    695
1200.000000    597
1000.000000    596
2500.000000    584
              ... 
3777.777778      1
650.000000       1
1450.000000      1
2350.000000      1
1833.333333      1
Name: count, Length: 203, dtype: int64
Total de clientes segun su antiguedad: TENURE
12    7346
11     356
10     226
6      184
8      183
7      177
9      164
Name: count, dtype: int64
Total cliente que pagane el total de sus deudas PRC_FULL_PAYMENT
0.000000    5589
1.000000     488
0.083333     426
0.166667     166
0.250000     156
0.500000     156
0.090909     153
0.333333     134
0.100000      94
0.200000      83
0.666667      78
0.916667      77
0.181818      75
0.750000      68
0.833333      63
0.111111      61
0.142857      54
0.125000      52
0.416667      44
0.400000      42
0.300000      40
0.454545      36
0.272727      35
0.800000      33
0.363636      32
0.583333      31
0.600000      28
0.545455      27
0.636364      26
0.28571