# üõ†Ô∏è Preprocesamiento de Datos
## Segmentaci√≥n de Clientes con Tarjetas de Cr√©dito

---

### üìå Informaci√≥n del Notebook

- **Objetivo**: Limpiar y preparar los datos para el clustering
- **Acciones**: Manejo de nulos, normalizaci√≥n, detecci√≥n de outliers
- **Autor**: [Tu Nombre]
- **Fecha**: Enero 2026

---

### üéØ Contenido

1. Carga de datos
2. Manejo de valores nulos
3. Eliminaci√≥n de duplicados
4. An√°lisis y tratamiento de outliers
5. Normalizaci√≥n de datos
6. Reducci√≥n de dimensionalidad (PCA)
7. Guardado de datos procesados


In [None]:
# Importamos las librer√≠as para manipulaci√≥n de datos, preprocesamiento y visualizaci√≥n
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.impute import SimpleImputer
import warnings

warnings.filterwarnings('ignore')
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("‚úÖ Librer√≠as importadas correctamente")

---
## üìÅ 1. Carga del Dataset Original

### Cargar datos desde el archivo CSV


In [None]:
# Cargamos el dataset original que analizamos en el notebook anterior
# El archivo debe estar en la carpeta datos/
df_original = pd.read_csv('../datos/CC_GENERAL.csv')

print("="*70)
print("üìä DATASET CARGADO")
print("="*70)
print(f"Filas: {df_original.shape[0]:,}")
print(f"Columnas: {df_original.shape[1]}")
print("="*70)

### Crear copia para trabajar sin modificar el original


In [None]:
# Creamos una copia del dataframe para no modificar los datos originales
# Esto nos permite volver atr√°s si es necesario
df = df_original.copy()

print(f"‚úÖ Copia de trabajo creada: {df.shape}")

---
## üóëÔ∏è 2. Eliminaci√≥n de Columnas Innecesarias

### Eliminar la columna CUST_ID


In [None]:
# Eliminamos la columna CUST_ID porque:
# 1. Es un identificador √∫nico que no aporta informaci√≥n para clustering
# 2. No tiene valor predictivo
# 3. Puede sesgar los algoritmos de ML
if 'CUST_ID' in df.columns:
    df = df.drop('CUST_ID', axis=1)
    print("‚úÖ Columna CUST_ID eliminada")
    print(f"   Nuevas dimensiones: {df.shape}")
else:
    print("‚ö†Ô∏è CUST_ID no encontrada en el dataset")

---
## üîç 3. An√°lisis de Valores Nulos

### Identificar columnas con valores nulos


In [None]:
# Verificamos qu√© columnas tienen valores nulos y en qu√© cantidad
# Esto nos ayuda a decidir la estrategia de imputaci√≥n
nulos_total = df.isnull().sum()
nulos_df = pd.DataFrame({
    'Columna': nulos_total.index,
    'Nulos': nulos_total.values,
    '% Nulos': (nulos_total.values / len(df) * 100).round(2)
})

nulos_df = nulos_df[nulos_df['Nulos'] > 0].sort_values('Nulos', ascending=False)

print("üîé AN√ÅLISIS DE VALORES NULOS")
print("="*70)
if len(nulos_df) > 0:
    print("\n‚ö†Ô∏è Columnas con valores nulos:")
    print(nulos_df.to_string(index=False))
    print(f"\nTotal de valores nulos: {df.isnull().sum().sum():,}")
else:
    print("‚úÖ No hay valores nulos")
print("="*70)

### Imputar valores nulos con la mediana


In [None]:
# Imputamos los valores nulos usando la mediana porque:
# 1. La mediana es robusta a outliers (nuestro dataset tiene muchos)
# 2. Es mejor que la media para distribuciones asim√©tricas
# 3. Preserva la distribuci√≥n original de los datos
if df.isnull().sum().sum() > 0:
    imputer = SimpleImputer(strategy='median')
    columnas = df.columns
    df_imputado = pd.DataFrame(
        imputer.fit_transform(df),
        columns=columnas
    )
    df = df_imputado
    print("‚úÖ Valores nulos imputados con la mediana")
    print(f"   Verificaci√≥n: {df.isnull().sum().sum()} nulos restantes")
else:
    print("‚úÖ No hay valores nulos que imputar")

---
## üîÑ 4. Eliminaci√≥n de Duplicados

### Identificar y eliminar registros duplicados


In [None]:
# Verificamos y eliminamos registros duplicados
# Los duplicados pueden sesgar el clustering al dar m√°s peso a ciertos patrones
duplicados_antes = df.duplicated().sum()

if duplicados_antes > 0:
    df = df.drop_duplicates()
    duplicados_despues = df.duplicated().sum()
    
    print("üîÑ ELIMINACI√ìN DE DUPLICADOS")
    print("="*70)
    print(f"Duplicados encontrados: {duplicados_antes}")
    print(f"Registros eliminados: {duplicados_antes - duplicados_despues}")
    print(f"Duplicados restantes: {duplicados_despues}")
    print(f"Nuevas dimensiones: {df.shape}")
    print("="*70)
else:
    print("‚úÖ No hay registros duplicados")

---
## üìä 5. An√°lisis de Outliers

### Detectar outliers usando el m√©todo IQR (Rango Intercuart√≠lico)


In [None]:
# Funci√≥n para detectar outliers usando el m√©todo IQR
# IQR = Q3 - Q1 (rango entre percentil 75 y 25)
# Outliers: valores < Q1 - 1.5*IQR o > Q3 + 1.5*IQR
def detectar_outliers_iqr(df, columna):
    Q1 = df[columna].quantile(0.25)
    Q3 = df[columna].quantile(0.75)
    IQR = Q3 - Q1
    
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    outliers = df[(df[columna] < limite_inferior) | (df[columna] > limite_superior)]
    
    return len(outliers), limite_inferior, limite_superior

# Aplicamos la detecci√≥n a todas las columnas num√©ricas
print("üîç DETECCI√ìN DE OUTLIERS (M√©todo IQR)")
print("="*80)

outliers_resumen = []
for col in df.columns:
    n_outliers, lim_inf, lim_sup = detectar_outliers_iqr(df, col)
    porcentaje = (n_outliers / len(df)) * 100
    
    outliers_resumen.append({
        'Variable': col,
        'N_Outliers': n_outliers,
        '%_Outliers': round(porcentaje, 2)
    })

df_outliers = pd.DataFrame(outliers_resumen)
df_outliers = df_outliers.sort_values('N_Outliers', ascending=False)

print(df_outliers.to_string(index=False))
print("="*80)

### Visualizar outliers en variables clave


In [None]:
# Creamos boxplots para visualizar los outliers en las variables m√°s importantes
# Esto nos ayuda a decidir si los mantenemos o eliminamos
variables_clave = ['BALANCE', 'PURCHASES', 'CREDIT_LIMIT', 'PAYMENTS', 'CASH_ADVANCE']

fig, axes = plt.subplots(1, 5, figsize=(20, 5))

for idx, var in enumerate(variables_clave):
    # Creamos un boxplot para cada variable
    axes[idx].boxplot(df[var].dropna(), vert=True)
    axes[idx].set_title(f'{var}', fontsize=11, fontweight='bold')
    axes[idx].set_ylabel('Valor')
    axes[idx].grid(True, alpha=0.3)
    
    # Calculamos cantidad de outliers
    n_out, _, _ = detectar_outliers_iqr(df, var)
    axes[idx].text(0.5, 0.98, f'Outliers: {n_out}', 
                   transform=axes[idx].transAxes,
                   fontsize=9, ha='center', va='top',
                   bbox=dict(boxstyle='round', facecolor='yellow', alpha=0.5))

plt.suptitle('Outliers en Variables Clave', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

### Decisi√≥n sobre outliers


In [None]:
# DECISI√ìN: NO eliminamos outliers porque:
# 1. En datos de tarjetas de cr√©dito, los outliers pueden representar segmentos reales
#    (clientes VIP, usuarios frecuentes, etc.)
# 2. El clustering puede identificar estos grupos como clusters separados
# 3. La normalizaci√≥n reducir√° su impacto
# 4. Eliminarlos podr√≠a perder informaci√≥n valiosa de negocio

print("‚ö†Ô∏è DECISI√ìN SOBRE OUTLIERS:")
print("="*70)
print("Los outliers NO ser√°n eliminados porque:")
print("  1. Pueden representar segmentos de clientes reales")
print("  2. Son valiosos para identificar clusters especiales (VIP, etc.)")
print("  3. La normalizaci√≥n mitigar√° su impacto")
print("="*70)

---
## üìè 6. Normalizaci√≥n de Datos

### Aplicar StandardScaler para normalizar todas las variables


In [None]:
# Normalizamos los datos usando StandardScaler
# Esto transforma cada variable a media=0 y desviaci√≥n est√°ndar=1
# Es CRUCIAL para clustering porque:
# 1. Las variables tienen escalas muy diferentes (TENURE: 0-12 vs BALANCE: 0-20,000)
# 2. KMeans es sensible a las escalas
# 3. Evita que variables con valores grandes dominen el clustering
scaler = StandardScaler()
datos_normalizados = scaler.fit_transform(df)

df_normalizado = pd.DataFrame(
    datos_normalizados,
    columns=df.columns
)

print("‚úÖ DATOS NORMALIZADOS CON STANDARDSCALER")
print("="*70)
print(f"Dimensiones: {df_normalizado.shape}")
print(f"\nVerificaci√≥n de normalizaci√≥n (debe ser ‚âà0 y ‚âà1):")
print(f"  Media de todas las variables: {df_normalizado.mean().mean():.6f}")
print(f"  Desviaci√≥n est√°ndar promedio: {df_normalizado.std().mean():.6f}")
print("="*70)

### Comparar datos antes y despu√©s de normalizaci√≥n


In [None]:
# Comparamos una variable antes y despu√©s de normalizar
# Esto nos permite visualizar el efecto de la normalizaci√≥n
variable_ejemplo = 'BALANCE'

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Antes de normalizar
axes[0].hist(df[variable_ejemplo], bins=50, color='coral', edgecolor='black', alpha=0.7)
axes[0].set_title(f'{variable_ejemplo} - ANTES de Normalizar', fontsize=12, fontweight='bold')
axes[0].set_xlabel('Valor Original')
axes[0].set_ylabel('Frecuencia')
axes[0].grid(True, alpha=0.3)

# Despu√©s de normalizar
axes[1].hist(df_normalizado[variable_ejemplo], bins=50, color='lightgreen', edgecolor='black', alpha=0.7)
axes[1].set_title(f'{variable_ejemplo} - DESPU√âS de Normalizar', fontsize=12, fontweight='bold')
axes[1].set_xlabel('Valor Normalizado (z-score)')
axes[1].set_ylabel('Frecuencia')
axes[1].grid(True, alpha=0.3)

plt.suptitle('Efecto de la Normalizaci√≥n', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print(f"‚úÖ Variable {variable_ejemplo}:")
print(f"   Antes  ‚Üí Media: {df[variable_ejemplo].mean():.2f}, Std: {df[variable_ejemplo].std():.2f}")
print(f"   Despu√©s ‚Üí Media: {df_normalizado[variable_ejemplo].mean():.6f}, Std: {df_normalizado[variable_ejemplo].std():.6f}")

---
## üéØ 7. Reducci√≥n de Dimensionalidad (PCA)

### Aplicar PCA para visualizaci√≥n y an√°lisis


In [None]:
# Aplicamos PCA (Principal Component Analysis) para:
# 1. Reducir dimensionalidad (17 variables ‚Üí 2-3 componentes principales)
# 2. Facilitar la visualizaci√≥n de clusters
# 3. Capturar la mayor varianza posible con menos variables
# 4. Reducir ruido y redundancia

# Primero probamos con todos los componentes para ver varianza explicada
pca_completo = PCA()
pca_completo.fit(df_normalizado)

varianza_explicada = pca_completo.explained_variance_ratio_
varianza_acumulada = np.cumsum(varianza_explicada)

print("üìä AN√ÅLISIS PCA - VARIANZA EXPLICADA")
print("="*70)
for i in range(min(10, len(varianza_explicada))):
    print(f"PC{i+1}: {varianza_explicada[i]*100:6.2f}% | Acumulada: {varianza_acumulada[i]*100:6.2f}%")
print("="*70)

### Visualizar varianza explicada (Scree Plot)


In [None]:
# Creamos un Scree Plot para decidir cu√°ntos componentes usar
# Este gr√°fico muestra cu√°nta varianza explica cada componente
fig, axes = plt.subplots(1, 2, figsize=(16, 5))

# Gr√°fico 1: Varianza por componente
axes[0].plot(range(1, len(varianza_explicada)+1), 
             varianza_explicada * 100, 
             marker='o', linewidth=2, markersize=8, color='steelblue')
axes[0].set_title('Scree Plot - Varianza por Componente', fontsize=13, fontweight='bold')
axes[0].set_xlabel('Componente Principal')
axes[0].set_ylabel('Varianza Explicada (%)')
axes[0].grid(True, alpha=0.3)
axes[0].axhline(y=10, color='red', linestyle='--', label='10% umbral')
axes[0].legend()

# Gr√°fico 2: Varianza acumulada
axes[1].plot(range(1, len(varianza_acumulada)+1), 
             varianza_acumulada * 100, 
             marker='s', linewidth=2, markersize=8, color='green')
axes[1].set_title('Varianza Explicada Acumulada', fontsize=13, fontweight='bold')
axes[1].set_xlabel('N√∫mero de Componentes')
axes[1].set_ylabel('Varianza Acumulada (%)')
axes[1].grid(True, alpha=0.3)
axes[1].axhline(y=80, color='red', linestyle='--', label='80% objetivo')
axes[1].legend()

plt.tight_layout()
plt.show()

# Mostramos cu√°ntos componentes necesitamos para 80% y 90% de varianza
for umbral in [0.80, 0.90]:
    n_comp = np.argmax(varianza_acumulada >= umbral) + 1
    print(f"‚úÖ Para {umbral*100:.0f}% varianza ‚Üí {n_comp} componentes")

### Aplicar PCA con componentes √≥ptimos


In [None]:
# Aplicamos PCA con el n√∫mero √≥ptimo de componentes
# Usaremos los componentes que explican al menos 80% de la varianza
n_componentes_optimo = np.argmax(varianza_acumulada >= 0.80) + 1

pca = PCA(n_components=n_componentes_optimo)
datos_pca = pca.fit_transform(df_normalizado)

df_pca = pd.DataFrame(
    datos_pca,
    columns=[f'PC{i+1}' for i in range(n_componentes_optimo)]
)

print(f"‚úÖ PCA APLICADO")
print("="*70)
print(f"Componentes principales: {n_componentes_optimo}")
print(f"Varianza explicada total: {pca.explained_variance_ratio_.sum()*100:.2f}%")
print(f"Dimensiones reducidas: {df.shape[1]} ‚Üí {df_pca.shape[1]} variables")
print(f"Forma de datos PCA: {df_pca.shape}")
print("="*70)

### Visualizar contribuci√≥n de variables a componentes principales


In [None]:
# Analizamos qu√© variables originales contribuyen m√°s a cada componente principal
# Esto nos ayuda a interpretar el significado de cada PC
componentes_df = pd.DataFrame(
    pca.components_.T,
    columns=[f'PC{i+1}' for i in range(n_componentes_optimo)],
    index=df.columns
)

# Mostramos las 5 variables m√°s importantes para PC1 y PC2
print("\nüìä CONTRIBUCI√ìN DE VARIABLES A COMPONENTES PRINCIPALES\n")
print("="*70)

for pc in ['PC1', 'PC2']:
    print(f"\n{pc} - Top 5 variables m√°s influyentes:")
    top_vars = componentes_df[pc].abs().sort_values(ascending=False).head(5)
    for var, peso in top_vars.items():
        print(f"  {var:35s}: {componentes_df.loc[var, pc]:7.3f}")

print("="*70)

In [None]:
# Heatmap de contribuci√≥n de variables a componentes
plt.figure(figsize=(10, 12))
sns.heatmap(
    componentes_df[['PC1', 'PC2', 'PC3']],
    annot=True,
    fmt='.2f',
    cmap='RdBu_r',
    center=0,
    linewidths=0.5,
    cbar_kws={'label': 'Peso del componente'}
)
plt.title('Contribuci√≥n de Variables a los Primeros 3 Componentes Principales', 
          fontsize=13, fontweight='bold', pad=15)
plt.xlabel('Componentes Principales')
plt.ylabel('Variables Originales')
plt.tight_layout()
plt.show()

---
## üíæ 8. Guardar Datos Procesados

### Exportar datos limpios y normalizados


In [None]:
# Guardamos los datos procesados en diferentes formatos para el siguiente notebook
# 1. Datos normalizados (para clustering)
# 2. Datos PCA (para visualizaci√≥n)
# 3. Objeto scaler (para nuevos datos)

# Guardar datos normalizados
df_normalizado.to_csv('../datos/datos_normalizados.csv', index=False)
print("‚úÖ Datos normalizados guardados: datos/datos_normalizados.csv")

# Guardar datos con PCA
df_pca.to_csv('../datos/datos_pca.csv', index=False)
print("‚úÖ Datos PCA guardados: datos/datos_pca.csv")

# Guardar datos procesados (sin normalizar) para an√°lisis posterior
df.to_csv('../datos/datos_procesados.csv', index=False)
print("‚úÖ Datos procesados guardados: datos/datos_procesados.csv")

---
## üìã Resumen del Preprocesamiento

### ‚úÖ Acciones Realizadas:

1. **Eliminaci√≥n de columnas**: CUST_ID removido
2. **Valores nulos**: Imputados con la mediana
3. **Duplicados**: Eliminados (si exist√≠an)
4. **Outliers**: Mantenidos (importantes para clustering)
5. **Normalizaci√≥n**: StandardScaler aplicado (media=0, std=1)
6. **PCA**: Reducci√≥n a componentes que explican 80%+ de varianza

### üìä Resultado Final:

- **Registros limpios**: ~8,950 clientes
- **Variables normalizadas**: 17 features
- **Componentes PCA**: Variables reducidas
- **Datos listos para**: Clustering K-Means

### üìÅ Archivos Generados:

- `datos_procesados.csv` ‚Üí Datos limpios sin normalizar
- `datos_normalizados.csv` ‚Üí Datos listos para clustering
- `datos_pca.csv` ‚Üí Datos con PCA para visualizaci√≥n

---

**Pr√≥ximo paso**: Notebook 3 - Clustering con K-Means
