In [32]:
import pandas as pd
from ydata_profiling import ProfileReport
from IPython.display import IFrame

# Cargar dataset
df = pd.read_csv("UCI_Credit_Card.csv")

# Crear el reporte
profile = ProfileReport(
    df,
    title="An√°lisis Exploratorio - UCI Credit Card",
    explorative=True
)

# Guardar reporte en HTML
profile.to_file("Reporte_UCI_Credit_Card.html")

# Mostrar el HTML dentro del Notebook
IFrame(src="Reporte_UCI_Credit_Card.html", width=1000, height=600)


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00,  5.23it/s]


Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [37]:
# ------------------------------------------------------------
# 1. Importar librer√≠as y cargar dataset con header reparado
# ------------------------------------------------------------
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import csv

# --- Reparar el encabezado ---
with open("UCI_Credit_Card.csv", "r", encoding="utf-8", errors="ignore") as f:
    raw = f.readline()

raw = raw.replace('"""', '"').replace('""', '"').strip()
cols = next(csv.reader([raw], delimiter=",", quotechar='"'))

df = pd.read_csv("UCI_Credit_Card.csv", skiprows=1, names=cols)

# Arreglar nombre de ID si viene roto
if 'ID"' in df.columns:
    df = df.rename(columns={'ID"': 'ID'})

print("\nColumnas cargadas correctamente:")
print(df.columns.tolist())


# ------------------------------------------------------------
# 2. Eliminaci√≥n condicional de duplicados por ID
# ------------------------------------------------------------
print("\nüîç Verificando duplicados por ID...")

if 'ID' in df.columns:
    duplicados = df['ID'].duplicated().sum()
    print("Duplicados encontrados:", duplicados)

    if duplicados > 0:
        print("‚û° Eliminando duplicados por ID...")
        df = df.drop_duplicates(subset=['ID'])
        print("Duplicados restantes:", df['ID'].duplicated().sum())
    else:
        print("‚úî No hay duplicados por ID. No se elimina nada.")
else:
    print("‚ö† La columna ID no existe en el dataframe.")


# ------------------------------------------------------------
# 3. Correcci√≥n condicional de valores inconsistentes
# ------------------------------------------------------------
print("\nüîç Corrigiendo valores inconsistentes...")

# EDUCATION
if df['EDUCATION'].isin([0, 5, 6]).any():
    print("‚û° Corrigiendo valores inv√°lidos en EDUCATION (0, 5, 6 ‚Üí 4)")
    df['EDUCATION'] = df['EDUCATION'].replace({0: 4, 5: 4, 6: 4})
else:
    print("‚úî EDUCATION no tiene valores inconsistentes.")

# MARRIAGE
if df['MARRIAGE'].isin([0]).any():
    print("‚û° Corrigiendo valores inv√°lidos en MARRIAGE (0 ‚Üí 3)")
    df['MARRIAGE'] = df['MARRIAGE'].replace({0: 3})
else:
    print("‚úî MARRIAGE no tiene valores inconsistentes.")


# ------------------------------------------------------------
# 4. Ajuste condicional de tipos de datos
# ------------------------------------------------------------
print("\nüîç Ajustando tipos de datos...")

cat_cols = [
    'SEX', 'EDUCATION', 'MARRIAGE',
    'PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6',
    'default.payment.next.month'
]

for col in cat_cols:
    if col in df.columns:
        if df[col].dtype != "category":
            df[col] = df[col].astype('category')
            print(f"‚û° Convertida a categor√≠a: {col}")
    else:
        print(f"‚ö† La columna {col} no existe.")


# ------------------------------------------------------------
# 5. Detecci√≥n visual de outliers (no condicional)
# ------------------------------------------------------------
plt.figure(figsize=(6, 4))
df[['LIMIT_BAL']].boxplot()
plt.title("Boxplot - LIMIT_BAL")
plt.show()


# ------------------------------------------------------------
# 6. Winsorizaci√≥n condicional
# ------------------------------------------------------------
print("\nüîç Winsorizaci√≥n en LIMIT_BAL (1% - 99%)...")

if df['LIMIT_BAL'].dtype in ['float64', 'int64']:
    q_low = df['LIMIT_BAL'].quantile(0.01)
    q_high = df['LIMIT_BAL'].quantile(0.99)
    df['LIMIT_BAL_wins'] = df['LIMIT_BAL'].clip(lower=q_low, upper=q_high)
    print("‚û° LIMIT_BAL_wins creada correctamente.")
else:
    print("‚ö† LIMIT_BAL no es num√©rica, no se aplica winsorizaci√≥n.")


# ------------------------------------------------------------
# 7. Creaci√≥n condicional de etiquetas con map()
# ------------------------------------------------------------
# ================================================
# ETIQUETAS PARA VARIABLES CATEG√ìRICAS
# ================================================

# 1. SEXO
df['SEX_LABEL'] = df['SEX'].map({
    1: 'Masculino',
    2: 'Femenino'
})

# 2. EDUCATION
df['EDUCATION_LABEL'] = df['EDUCATION'].map({
    1: 'Posgrado',
    2: 'Universidad',
    3: 'Secundaria',
    4: 'Otros/Desconocido'   # incluye 0, 5 y 6 que ya corregimos
})

# 3. MARRIAGE
df['MARRIAGE_LABEL'] = df['MARRIAGE'].map({
    1: 'Casado',
    2: 'Soltero',
    3: 'Otros'
})

# 4. Diccionario para todos los PAY_X
pay_map = {
    -2: 'No aplica / sin consumo',
    -1: 'Pago a tiempo',
    0:  'Pago dentro del mes',
    1:  'Retraso 1 mes',
    2:  'Retraso 2 meses',
    3:  'Retraso 3 meses',
    4:  'Retraso 4 meses',
    5:  'Retraso 5 meses',
    6:  'Retraso 6 meses',
    7:  'Retraso 7 meses',
    8:  'Retraso 8 meses',
    9:  'Retraso 9 meses o m√°s'
}

pay_cols = ['PAY_0','PAY_2','PAY_3','PAY_4','PAY_5','PAY_6']

for col in pay_cols:
    df[col + '_LABEL'] = df[col].map(pay_map)

# 5. Variable objetivo DEFAULT
df['DEFAULT_LABEL'] = df['default.payment.next.month'].map({
    0: 'No entra en default',
    1: 'S√≠ entra en default'
})

print("Etiquetas creadas correctamente.")



# ------------------------------------------------------------
# 8. Agregaciones condicionales
# ------------------------------------------------------------
# ================================================================
#     AGREGACIONES COMPLETAS PARA EL DATASET UCI CREDIT CARD
# ================================================================

print("\n================== 1. DEFAULT vs LIMIT_BAL ==================")
print(df.groupby('default.payment.next.month')['LIMIT_BAL'].mean())


print("\n================== 2. EDUCATION vs AGE =======================")
print(df.groupby('EDUCATION_LABEL')['AGE'].mean())


print("\n========== 3. Sexo vs Estado civil (conteo de clientes) ======")
print(df.groupby(['SEX_LABEL', 'MARRIAGE_LABEL'])['ID'].count())


print("\n================== 4. Suma de pagos por mes ==================")
print(df[['PAY_AMT1','PAY_AMT2','PAY_AMT3','PAY_AMT4','PAY_AMT5','PAY_AMT6']].sum())


print("\n================== 5. Promedio de facturaci√≥n mensual =========")
print(df[['BILL_AMT1','BILL_AMT2','BILL_AMT3','BILL_AMT4','BILL_AMT5','BILL_AMT6']].mean())


print("\n====== 6. LIMIT_BAL por g√©nero, matrimonio y default =========")
print(df.groupby(['SEX_LABEL', 'MARRIAGE_LABEL', 'DEFAULT_LABEL'])['LIMIT_BAL'].mean())


print("\n=========== 7. Tabla din√°mica EDUCATION vs DEFAULT ===========")
tabla = df.pivot_table(
    values='LIMIT_BAL',
    index='EDUCATION_LABEL',
    columns='DEFAULT_LABEL',
    aggfunc='mean'
)
print(tabla)


print("\n=============== 8. Distribuci√≥n PAY_0 ========================")
print(df.groupby('PAY_0_LABEL')['ID'].count())



# ------------------------------------------------------------
# 9. Guardar dataset limpio
# ------------------------------------------------------------
df_clean = df.copy()
df_clean.to_csv("UCI_Credit_Card_clean.csv", index=False)
print("\n‚úî Archivo limpio guardado como: UCI_Credit_Card_clean.csv")



Columnas cargadas correctamente:
['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6', 'default.payment.next.month']

üîç Verificando duplicados por ID...
Duplicados encontrados: 0
‚úî No hay duplicados por ID. No se elimina nada.

üîç Corrigiendo valores inconsistentes...
‚û° Corrigiendo valores inv√°lidos en EDUCATION (0, 5, 6 ‚Üí 4)
‚û° Corrigiendo valores inv√°lidos en MARRIAGE (0 ‚Üí 3)

üîç Ajustando tipos de datos...
‚û° Convertida a categor√≠a: SEX
‚û° Convertida a categor√≠a: EDUCATION
‚û° Convertida a categor√≠a: MARRIAGE
‚û° Convertida a categor√≠a: PAY_0
‚û° Convertida a categor√≠a: PAY_2
‚û° Convertida a categor√≠a: PAY_3
‚û° Convertida a categor√≠a: PAY_4
‚û° Convertida a categor√≠a: PAY_5
‚û° Convertida a categor√≠a: PAY_6
‚û° Convertida a categor√≠a: default.pa

  plt.show()
  print(df.groupby('default.payment.next.month')['LIMIT_BAL'].mean())
  print(df.groupby('EDUCATION_LABEL')['AGE'].mean())
  print(df.groupby(['SEX_LABEL', 'MARRIAGE_LABEL'])['ID'].count())
  print(df.groupby(['SEX_LABEL', 'MARRIAGE_LABEL', 'DEFAULT_LABEL'])['LIMIT_BAL'].mean())
  tabla = df.pivot_table(
  print(df.groupby('PAY_0_LABEL')['ID'].count())


SEX_LABEL  MARRIAGE_LABEL  DEFAULT_LABEL      
Masculino  Casado          No entra en default    205287.721124
                           S√≠ entra en default    150423.476969
           Soltero         No entra en default    154455.406472
                           S√≠ entra en default    104752.646465
           Otros           No entra en default    100194.174757
                           S√≠ entra en default     87380.952381
Femenino   Casado          No entra en default    187688.909063
                           S√≠ entra en default    137983.870968
           Soltero         No entra en default    174279.285242
                           S√≠ entra en default    130371.767241
           Otros           No entra en default    117729.729730
                           S√≠ entra en default     65744.680851
Name: LIMIT_BAL, dtype: float64

DEFAULT_LABEL      No entra en default  S√≠ entra en default
EDUCATION_LABEL                                            
Posgrado                 

# ‚úÖ **III. Validaci√≥n del Dataset Limpio**

Una vez realizadas las etapas de limpieza, correcci√≥n de valores, ajuste de tipos de datos, creaci√≥n de etiquetas y generaci√≥n de agregaciones, es fundamental evaluar si el dataset resultante conserva la calidad y estructura necesarias para responder a los objetivos del an√°lisis. A continuaci√≥n se validan los aspectos clave:

---

## **1. Completitud de los Datos**

Despu√©s del proceso de limpieza:

* No se detectaron valores nulos expl√≠citos (`NaN`) en el dataset.
* Las variables que presentaban inconsistencias impl√≠citas (por ejemplo, **EDUCATION = 0, 5, 6** o **MARRIAGE = 0**) fueron corregidas mediante recategorizaci√≥n, evitando la p√©rdida de datos.
* No se eliminaron filas por duplicados, ya que se comprob√≥ que **no exist√≠an registros duplicados por `ID`**, lo cual garantiza que no hubo reducci√≥n innecesaria del tama√±o del dataset.
* Despu√©s de aplicar **groupby()** para las agregaciones, se verific√≥ que estas operaciones no alteran el dataset original, sino que producen res√∫menes independientes. Por tanto, no hubo p√©rdida de observaciones.

‚úî **Conclusi√≥n:** El dataset limpio es **completo**, no tiene ausencias relevantes y preserva la totalidad de registros v√°lidos.

---

## **2. Relevancia de las Variables**

El dataset mantiene todas las variables cr√≠ticas necesarias para analizar:

* El comportamiento crediticio del cliente
* El historial de pago por mes
* El l√≠mite de cr√©dito aprobado
* El nivel educativo, edad, g√©nero y estado civil
* Montos facturados y montos pagados
* La variable objetivo **default.payment.next.month**

Adem√°s, se generaron nuevas **variables de etiqueta (LABEL)** que permiten an√°lisis m√°s interpretables:

* `SEX_LABEL`
* `EDUCATION_LABEL`
* `MARRIAGE_LABEL`
* `PAY_x_LABEL`
* `DEFAULT_LABEL`

Estas columnas no reemplazan a las originales sino que se agregan, por lo que **incrementan la relevancia anal√≠tica** sin modificar la estructura original.

‚úî **Conclusi√≥n:** Las variables son pertinentes, completas y apropiadas para abordar las preguntas del an√°lisis.

---

## **3. Granularidad Adecuada**

El dataset presenta una granularidad **a nivel de cliente**, donde cada fila representa:

> *‚ÄúUn cliente √∫nico con su informaci√≥n demogr√°fica, financiera y comportamiento de pago hist√≥rico.‚Äù*

Este nivel de granularidad es **exactamente el requerido** para:

* Modelar riesgo de default individual
* Analizar patrones de pago por cliente
* Segmentar clientes seg√∫n comportamiento crediticio
* Estimar probabilidad de incumplimiento

No se realizaron agregaciones que modificaran la granularidad original del dataset.
Las operaciones de agregaci√≥n (`groupby`, `pivot_table`) produjeron **res√∫menes separados**, sin alterar la base principal.

‚úî **Conclusi√≥n:** El dataset conserva una granularidad adecuada para an√°lisis y modelos predictivos centrados en el cliente.

---

## **4. Evaluaci√≥n Final de Adecuaci√≥n del Dataset**

Basado en la revisi√≥n previa, se confirma que el dataset limpio:

* Preserva todos los registros v√°lidos
* Mantiene todas las variables necesarias para los objetivos de negocio
* Agrega etiquetas interpretables sin afectar las variables originales
* Presenta valores corregidos y estandarizados
* Conservar la granularidad necesaria para an√°lisis individual por cliente
* Elimina inconsistencias sin afectar la estructura anal√≠tica

‚úî **El dataset final est√° completamente preparado para an√°lisis exploratorio, modelado estad√≠stico o machine learning.**

