# Carga y Limpieza del Dataset

### 1. Introducción

**Objetivo:** Explorar el dataset buscando valores nulos e inconsistencias. Limpiar el dataset para posteriormente hacer el análisis exploratorio.

**Dataset:**
Este conjunto de datos contiene observaciones de pago de clientes de un banco taiwanés en el año 2005. A continuación se describen con más detalle las variables:
- `LIMIT BAL`: límite de crédito otorgado (dolares taiwaneses [NT dolar])
- `SEX`: género  (1 = masculino; 2 = femenino)
- `EDUCATION`: nivel educativo (1 = posgrado; 2 = universidad; 3 = escuela secundaria; 4 = otros)
- `MARRIAGE`: estado civil (1 = casado; 2 = soltero; 3 = otros)
- `AGE`: edad
- `PAY_0` a `PAY_6`: estado de pago de los últimos 6 meses (septiembre-abril)
  - -2 = Pago el total del balance, y no tuvo mas consumos en el mes *
  - -1 = usó crédito y pago el total a tiempo
  -  0 = usó crédito pero hizo un pago minimo (no entró en mora) *
  - Escala de n en [1;9+]: atrasado n meses
- `BILL_AMT0` a `BILL_AMT6`: monto facturado en los últimos 6 meses
- `PAY_AMT0` a `PAY_AMT6`: monto pagado en los últimos 6 meses
- `default payment next month`: estado de default en octubre (1 = default; 0 = no default)

Se decidió iniciar el trabajo utilizando el limite de crédito, las variables demográficas, y las variables mensuales correspondientes a septiembre.

> *: Esta información no aparece en la documentación oficial, la encontramos en un foro de Kaggle en una discusión a partir de una pregunta al creador del dataset: https://www.kaggle.com/datasets/uciml/default-of-credit-card-clients-dataset/discussion/34608

---

### 2. Carga y Limpieza

In [1]:
# Agregamos la raíz del proyecto al path y para importar los paquetes de src 
import sys
import os

sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))

# Importamos librerías necesarias
import src.data.preprocess as pp
import src.data.load_data as ld
import pandas as pd
import matplotlib.pyplot as plt

Inicialmente el dataset contaba con **30000 registros** y **25 variables**. Luego de modificar los nombres de las columnas, traduciendolos al español para mejorar la interpretabilidad, comenzamos a explorar el dataframe con el objetivo de entender los datos.

In [5]:
# Cargamos el dataset 
df_raw = ld.load_raw_data()

# Eliminamos la columna ID porque no suma a nuestro análisis
df = pp.eliminar_id(df_raw)

# Definimos una lista con los nombres de los meses y renombramos las columnas para mejorar la interpretabilidad
print(f'Columnas originales: {df.columns.values}')
df = pp.renombrar_columnas(df)
print(f'Columnas modificadas: {df.columns.values}')

Columnas originales: ['LIMIT_BAL' 'SEX' 'EDUCATION' 'MARRIAGE' 'AGE' 'PAY_0' 'PAY_2' 'PAY_3'
 'PAY_4' 'PAY_5' 'PAY_6' 'BILL_AMT1' 'BILL_AMT2' 'BILL_AMT3' 'BILL_AMT4'
 'BILL_AMT5' 'BILL_AMT6' 'PAY_AMT1' 'PAY_AMT2' 'PAY_AMT3' 'PAY_AMT4'
 'PAY_AMT5' 'PAY_AMT6' 'default payment next month']
Columnas modificadas: ['limite_credito' 'genero' 'educacion' 'estado_civil' 'edad'
 'meses_deuda_abr' 'meses_deuda_may' 'meses_deuda_jun' 'meses_deuda_jul'
 'meses_deuda_ago' 'meses_deuda_sep' 'pago_abr' 'pago_may' 'pago_jun'
 'pago_jul' 'pago_ago' 'pago_sep' 'factura_abr' 'factura_may'
 'factura_jun' 'factura_jul' 'factura_ago' 'factura_sep' 'default_oct']


Descubrimos que algunas variables contenian observaciones con categorías mal documentadas. 

La variable `educacion`, por ejemplo, estaba codificada para valores de 1, 2, 3, 4 representando esta última la categoría 'otros'. Concretamente, encontramos 345 observaciones mal catalogadas (valores de 0, 5 o 6). Ante la falta de documentación por parte del autor, decidimos catalogar estos casos como 'otros', es decir, como 4. 

La variable `estado_civil` presentaba un problema similar, ya que tomaba como posibles valores de 1, 2 o 3 pero tenía 54 observaciones etiquetadas como 0. Nuevamente, no encontramos información adicional que describa ese valor, asi que asignamos ese conjunto a la categoría 'otros' representada con el 3.

In [3]:
frecuencias = df['educacion'].value_counts().sort_index()
frecuencias_ec = df['estado_civil'].value_counts().sort_index()
print(frecuencias)
print(frecuencias_ec)

educacion
0       14
1    10585
2    14030
3     4917
4      123
5      280
6       51
Name: count, dtype: int64
estado_civil
0       54
1    13659
2    15964
3      323
Name: count, dtype: int64


In [4]:
# Modificamos la clase a la que pertencían las observaciones no documentadas
df = pp.normalizar_categorias(df)

A su vez, descubrimos algunas inconsistencias en el dataset. En primer lugar, notamos que para algunos registros habían saltos en la cantidad de meses adeudados que no tenían lógica; algunos clientes pasaban de estar al día en un mes dado, a deber dos meses en el mes siguiente, como puede observarse en el registro 39 de la tabla para el par `meses_deuda_may` y `meses_deuda_jun`.

Para estos casos, tomamos la decisión de descartar las 1739 observaciones ya que no encontramos una justificación por parte de los autores. Al no saber la causa exacta de la inconsistencia esos hechos ilógicos harían que nuestro modelo aprenda patrones que no tendrían un fundamento en la realidad. 

In [5]:
# Filtramos las inconsistencias mencionadas
df = pp.filtrar_inconsistencias_deuda(df)

Registros eliminados por inconsistencias de deuda: 1739


Luego nos encontramos con otro caso similar, donde tomamos los registros donde `factura_sep` era menor al `pago_sep` que no presentaban deuda ni habían pagado el mínimo tanto en septiembre como en agosto. Lo lógico sería que un cliente pague un monto mayor al de su factura de un mes dado en casos donde tenga deuda por pagar, es decir, donde esa diferencia equivalga a la deuda pendiente. 

Por eso nuevamente, para que nuestro modelo no aprenda patrones sobre casos que parecen ilógicos y no pudimos contrastar con la documentación, decidimos eliminar estos 2769 casos.  

In [6]:
# Filtramos las inconsistencias mencionadas
df = pp.filtrar_inconsistencias_factura_pago(df)

Registros eliminados por inconsistencias factura-pago: 2769


Por ultimo, como mencionamos anteriormente, decidimos trabajar en principio con el mes de septiembre, es por eso que nos quedamos únicamente con las columnas correspondientes al limite de crédito, los aspectos demograficos, la información crediticia de septiembre y los valores de default de octubre. 

In [7]:
# Seleccionamos las 9 columnas a utilizar
df = pp.seleccionar_columnas_septiembre(df)
df.shape

(25492, 9)

Como resultado, el dataset con el que vamos a trabajar tiene 25492 filas y 9 columnas.

Como puede verse a continuación, no contamos con datos nulos en el dataset. En términos de tipos de datos, todas nuestras variables son numéricas, pero en sentido estricto, las variables `genero`, `educacion`, `estado_civil` y `default_oct` son codificaciones o de estados binarios o de variables con distintas categorías posibles. 

Por otro lado, `limite_credito`, `edad`, `pago_sep` y `factura_sep` representan valores numéricos reales. Sobre la variable `meses_deuda_sep` hay que tener una consideración distinta, ya que representa para casos donde existe deuda el valor concreto de los meses de deuda acumulados y una representación para estado de pago mínimo (0), otra para pago al día y uso (-1) y otra para tarjeta sin uso (-2). 

Sobre esto último, tendremos que tomar una decisión sobre como codificar esos valores antes de hacer los modelos.

In [8]:
resumen = pd.DataFrame({
    "nulos":   df.isna().sum(),
    "dtype":   df.dtypes.astype(str)
}).reindex(df.columns)

print(resumen)
ld.save_processed_data(df)

                 nulos  dtype
limite_credito       0  int64
genero               0  int64
educacion            0  int64
estado_civil         0  int64
edad                 0  int64
meses_deuda_sep      0  int64
pago_sep             0  int64
factura_sep          0  int64
default_oct          0  int64


### 3. Objetivos Planteados y Próximos Pasos

Buscamos **predecir si un cliente activo cumplirá o no con sus obligaciones de deuda en el período siguiente**, tomando como variable objetivo `default_oct`. 

Se trata de un problema de ***clasificación***, donde nos interesa analizar si el límite de crédito, las características demográficas y el comportamiento previo del cliente influyen en la probabilidad de impago. Hacer esta predicción correctamente permitiría a la entidad crediticia ajustar los límites otorgados, priorizar gestiones de cobranza o anticipar provisiones por riesgo.

Un próximo paso será hacer un análisis exploratorio del dataset para buscar patrones o relaciones entre los datos.

