# üìä Notebook 03: Data Cleaning

**Autor:** Gian  
**Fecha:** 2026-01-19  
**Objetivo:** Limpieza y preparaci√≥n del dataset basado en hallazgos del Notebook 02  

---

## üìã Contenido

1. Configuraci√≥n del entorno
2. Carga de datos
3. Imputaci√≥n de valores nulos
4. Normalizaci√≥n de formatos
5. Validaci√≥n de tipos de datos
6. Tratamiento de outliers
7. Generaci√≥n de dataset limpio
8. Reporte de limpieza

---
## 1. Configuraci√≥n del Entorno

In [17]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings

# Configuraci√≥n
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (14, 8)

# Seed
np.random.seed(42)

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


---
## 2. Carga de Datos

In [18]:
# Rutas
DATA_PATH = Path("../../data/data.csv")
OUTPUT_PATH = Path("../../outputs/gian")
CLEAN_DATA_PATH = OUTPUT_PATH / "data"  # Cada miembro guarda en su carpeta

# Crear directorio si no existe
CLEAN_DATA_PATH.mkdir(parents=True, exist_ok=True)

# Cargar datos
df = pd.read_csv(DATA_PATH)

print(f"‚úÖ Dataset cargado: {df.shape[0]:,} registros √ó {df.shape[1]} columnas")
print(f"üíæ Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

‚úÖ Dataset cargado: 9,701 registros √ó 67 columnas
üíæ Memoria: 18.67 MB


In [19]:
# Crear copia para limpieza
df_clean = df.copy()

print(f"‚úÖ Copia creada para limpieza")
print(f"üìä Shape inicial: {df_clean.shape}")

‚úÖ Copia creada para limpieza
üìä Shape inicial: (9701, 67)


---
## 3. Imputaci√≥n de Valores Nulos

Basado en hallazgos del Notebook 02:
- `respuesta_encuesta`: 14.99% nulos
- `referencias_hechas`: 11.99% nulos
- `edad`: 7.99% nulos
- `dias_ultima_conexion`: 4.99% nulos

In [20]:
# An√°lisis de nulos ANTES de limpieza
print("üìä Valores nulos ANTES de limpieza:")
print()

null_before = df_clean.isnull().sum()
null_before = null_before[null_before > 0].sort_values(ascending=False)

for col, count in null_before.items():
    pct = (count / len(df_clean)) * 100
    print(f"  - {col}: {count:,} ({pct:.2f}%)")

üìä Valores nulos ANTES de limpieza:

  - respuesta_encuesta: 1,455 (15.00%)
  - referencias_hechas: 1,164 (12.00%)
  - edad: 776 (8.00%)
  - dias_ultima_conexion: 485 (5.00%)


### 3.1. Imputaci√≥n de `edad`

In [21]:
# Estrategia: Imputar con la mediana por segmento de cliente
# (clientes corporativos vs residenciales pueden tener edades diferentes)

print("üîß Imputando edad por segmento de cliente...")
print()

# Calcular mediana por segmento
edad_por_segmento = df_clean.groupby('segmento_cliente')['edad'].median()
print("Mediana de edad por segmento:")
print(edad_por_segmento)
print()

# Imputar
for segmento in df_clean['segmento_cliente'].unique():
    mask = (df_clean['segmento_cliente'] == segmento) & (df_clean['edad'].isnull())
    df_clean.loc[mask, 'edad'] = edad_por_segmento[segmento]

print(f"‚úÖ Edad imputada: {null_before['edad']} ‚Üí {df_clean['edad'].isnull().sum()} nulos")

üîß Imputando edad por segmento de cliente...

Mediana de edad por segmento:
segmento_cliente
Corporativo    50.0
PYME           45.0
Residencial    39.0
Name: edad, dtype: float64

‚úÖ Edad imputada: 776 ‚Üí 0 nulos


### 3.2. Imputaci√≥n de `dias_ultima_conexion`

In [22]:
# Estrategia: Imputar con 0 (clientes nuevos o sin actividad reciente)

print("üîß Imputando dias_ultima_conexion...")
print()

df_clean['dias_ultima_conexion'].fillna(0, inplace=True)

print(f"‚úÖ dias_ultima_conexion imputada: {null_before['dias_ultima_conexion']} ‚Üí {df_clean['dias_ultima_conexion'].isnull().sum()} nulos")

üîß Imputando dias_ultima_conexion...

‚úÖ dias_ultima_conexion imputada: 485 ‚Üí 0 nulos


### 3.3. Imputaci√≥n de `referencias_hechas`

In [23]:
# Estrategia: Imputar con 0 (clientes que no han referido a nadie)

print("üîß Imputando referencias_hechas...")
print()

df_clean['referencias_hechas'].fillna(0, inplace=True)

print(f"‚úÖ referencias_hechas imputada: {null_before['referencias_hechas']} ‚Üí {df_clean['referencias_hechas'].isnull().sum()} nulos")

üîß Imputando referencias_hechas...

‚úÖ referencias_hechas imputada: 1164 ‚Üí 0 nulos


### 3.4. Imputaci√≥n de `respuesta_encuesta`

In [24]:
# Estrategia: Crear categor√≠a 'Sin Respuesta' para mantener la informaci√≥n

print("üîß Imputando respuesta_encuesta...")
print()

# Ver categor√≠as actuales
print("Categor√≠as actuales:")
print(df_clean['respuesta_encuesta'].value_counts())
print()

# Imputar
df_clean['respuesta_encuesta'].fillna('Sin Respuesta', inplace=True)

print(f"‚úÖ respuesta_encuesta imputada: {null_before['respuesta_encuesta']} ‚Üí {df_clean['respuesta_encuesta'].isnull().sum()} nulos")
print()
print("Categor√≠as despu√©s de imputaci√≥n:")
print(df_clean['respuesta_encuesta'].value_counts())

üîß Imputando respuesta_encuesta...

Categor√≠as actuales:
respuesta_encuesta
Satisfecho          2831
Muy satisfecho      2037
Neutral             1635
No respondi√≥         897
Muy insatisfecho     395
Insatisfecho         369
Satifecho             82
Name: count, dtype: int64

‚úÖ respuesta_encuesta imputada: 1455 ‚Üí 0 nulos

Categor√≠as despu√©s de imputaci√≥n:
respuesta_encuesta
Satisfecho          2831
Muy satisfecho      2037
Neutral             1635
Sin Respuesta       1455
No respondi√≥         897
Muy insatisfecho     395
Insatisfecho         369
Satifecho             82
Name: count, dtype: int64


### 3.5. Verificaci√≥n Final de Nulos

In [25]:
# Verificar que no queden nulos
print("üìä Valores nulos DESPU√âS de limpieza:")
print()

null_after = df_clean.isnull().sum()
null_after = null_after[null_after > 0].sort_values(ascending=False)

if len(null_after) == 0:
    print("‚úÖ ¬°No quedan valores nulos!")
else:
    print("‚ö†Ô∏è A√∫n quedan valores nulos:")
    for col, count in null_after.items():
        pct = (count / len(df_clean)) * 100
        print(f"  - {col}: {count:,} ({pct:.2f}%)")

üìä Valores nulos DESPU√âS de limpieza:

‚úÖ ¬°No quedan valores nulos!


---
## 4. Normalizaci√≥n de Formatos

### 4.1. Normalizaci√≥n de Columnas Categ√≥ricas

In [26]:
# Normalizar strings: strip + title case donde corresponda
print("üîß Normalizando columnas categ√≥ricas...")
print()

# Columnas de texto que necesitan normalizaci√≥n
text_cols = ['genero', 'segmento_cliente', 'tiene_pareja', 'tiene_dependientes',
             'tipo_contrato', 'metodo_pago', 'canal_registro', 'descuento_aplicado',
             'aumento_precio_3m', 'facturacion_sin_papel', 'servicio_telefono',
             'lineas_multiples', 'tipo_internet', 'seguridad_online', 'respaldo_online',
             'proteccion_dispositivo', 'soporte_tecnico', 'streaming_tv',
             'streaming_peliculas', 'tipo_queja', 'respuesta_encuesta', 'precio_vs_mercado']

for col in text_cols:
    if col in df_clean.columns:
        # Strip whitespace
        df_clean[col] = df_clean[col].astype(str).str.strip()

print(f"‚úÖ {len(text_cols)} columnas normalizadas")

üîß Normalizando columnas categ√≥ricas...

‚úÖ 22 columnas normalizadas


### 4.2. Conversi√≥n de Tipos de Datos

In [27]:
# Convertir fechas a datetime
print("üîß Convirtiendo fechas a datetime...")
print()

date_cols = ['fecha_registro', 'fecha_ultimo_pago', 'ultimo_contacto_soporte']

for col in date_cols:
    if col in df_clean.columns:
        df_clean[col] = pd.to_datetime(df_clean[col], errors='coerce')
        print(f"  - {col}: convertida a datetime")

print()
print(f"‚úÖ {len(date_cols)} columnas de fecha convertidas")

üîß Convirtiendo fechas a datetime...

  - fecha_registro: convertida a datetime
  - fecha_ultimo_pago: convertida a datetime
  - ultimo_contacto_soporte: convertida a datetime

‚úÖ 3 columnas de fecha convertidas


In [28]:
# Asegurar tipos num√©ricos correctos
print("üîß Verificando tipos num√©ricos...")
print()

# Enteros
int_cols = ['es_mayor', 'codigo_postal', 'antiguedad', 'errores_pago',
            'conexiones_mensuales', 'dias_activos_semanales', 'caracteristicas_usadas',
            'tickets_soporte', 'escaladas', 'cancelacion', 'intentos_cobro_fallidos',
            'dias_mora', 'cambio_plan_reciente', 'downgrade_reciente',
            'visitas_app_mensual', 'features_nuevas_usadas', 'competidores_area',
            'ofertas_recibidas']

for col in int_cols:
    if col in df_clean.columns:
        df_clean[col] = df_clean[col].astype(int)

print(f"‚úÖ {len(int_cols)} columnas convertidas a int")
print()

# Floats
float_cols = ['edad', 'latitud', 'longitud', 'ingreso_mediano', 'densidad_poblacional',
              'cargo_mensual', 'ingresos_totales', 'score_riesgo', 'promedio_conexion',
              'tasa_crecimiento_uso', 'dias_ultima_conexion', 'tiempo_resolucion',
              'puntuacion_csat', 'puntuacion_nps', 'tasa_apertura_email',
              'tasa_clics_marketing', 'referencias_hechas', 'tiempo_sesion_promedio']

for col in float_cols:
    if col in df_clean.columns:
        df_clean[col] = df_clean[col].astype(float)

print(f"‚úÖ {len(float_cols)} columnas convertidas a float")

üîß Verificando tipos num√©ricos...

‚úÖ 18 columnas convertidas a int

‚úÖ 18 columnas convertidas a float


---
## 5. Validaci√≥n de Consistencia

In [29]:
# Validar rangos de valores
print("üîç Validando rangos de valores...")
print()

# Edad: 18-74
invalid_edad = df_clean[(df_clean['edad'] < 18) | (df_clean['edad'] > 74)]
print(f"  - Edad fuera de rango [18-74]: {len(invalid_edad)} registros")

# Cargo mensual: 15-342
invalid_cargo = df_clean[(df_clean['cargo_mensual'] < 15) | (df_clean['cargo_mensual'] > 342)]
print(f"  - Cargo mensual fuera de rango [15-342]: {len(invalid_cargo)} registros")

# Puntuaci√≥n CSAT: 1-5
invalid_csat = df_clean[(df_clean['puntuacion_csat'] < 1) | (df_clean['puntuacion_csat'] > 5)]
print(f"  - CSAT fuera de rango [1-5]: {len(invalid_csat)} registros")

# Puntuaci√≥n NPS: 0-100
invalid_nps = df_clean[(df_clean['puntuacion_nps'] < 0) | (df_clean['puntuacion_nps'] > 100)]
print(f"  - NPS fuera de rango [0-100]: {len(invalid_nps)} registros")

print()
print("‚úÖ Validaci√≥n de rangos completada")

üîç Validando rangos de valores...

  - Edad fuera de rango [18-74]: 0 registros
  - Cargo mensual fuera de rango [15-342]: 1 registros
  - CSAT fuera de rango [1-5]: 79 registros
  - NPS fuera de rango [0-100]: 49 registros

‚úÖ Validaci√≥n de rangos completada


---
## 6. Tratamiento de Outliers

**Decisi√≥n basada en Notebook 02:**  
Los outliers detectados (densidad_poblacional, coordenadas, errores_pago, etc.) son **justificados y realistas** para NYC.  
**Acci√≥n:** MANTENER todos los outliers - no requieren tratamiento.

In [30]:
print("üìä Tratamiento de Outliers:")
print()
print("‚úÖ DECISI√ìN: Mantener todos los outliers")
print()
print("Justificaci√≥n:")
print("  - densidad_poblacional: Refleja diversidad NYC (Manhattan vs Staten Island)")
print("  - coordenadas: Clientes en √°reas perif√©ricas v√°lidas")
print("  - errores_pago: Clientes con problemas de cobranza reales")
print("  - ingresos_totales: Clientes de larga antig√ºedad (~15 a√±os)")
print()
print("‚úÖ No se requiere tratamiento de outliers")

üìä Tratamiento de Outliers:

‚úÖ DECISI√ìN: Mantener todos los outliers

Justificaci√≥n:
  - densidad_poblacional: Refleja diversidad NYC (Manhattan vs Staten Island)
  - coordenadas: Clientes en √°reas perif√©ricas v√°lidas
  - errores_pago: Clientes con problemas de cobranza reales
  - ingresos_totales: Clientes de larga antig√ºedad (~15 a√±os)

‚úÖ No se requiere tratamiento de outliers


---
## 7. Generaci√≥n de Dataset Limpio

In [31]:
# Guardar dataset limpio
clean_file = CLEAN_DATA_PATH / 'data_clean.csv'

df_clean.to_csv(clean_file, index=False)

print(f"‚úÖ Dataset limpio guardado en: {clean_file}")
print()
print(f"üìä Shape final: {df_clean.shape}")
print(f"üíæ Tama√±o: {clean_file.stat().st_size / 1024**2:.2f} MB")

‚úÖ Dataset limpio guardado en: ../../outputs/gian/data/data_clean.csv

üìä Shape final: (9701, 67)
üíæ Tama√±o: 3.67 MB


---
## 8. Reporte de Limpieza

In [32]:
# Crear reporte de limpieza
report = {
    'Registros_Inicial': len(df),
    'Registros_Final': len(df_clean),
    'Registros_Eliminados': len(df) - len(df_clean),
    'Columnas_Inicial': df.shape[1],
    'Columnas_Final': df_clean.shape[1],
    'Nulos_Inicial': df.isnull().sum().sum(),
    'Nulos_Final': df_clean.isnull().sum().sum(),
    'Nulos_Imputados': df.isnull().sum().sum() - df_clean.isnull().sum().sum(),
    'Outliers_Tratados': 0,  # Decisi√≥n: mantener todos
    'Columnas_Normalizadas': len(text_cols),
    'Columnas_Fecha_Convertidas': len(date_cols)
}

report_df = pd.DataFrame(report, index=[0]).T
report_df.columns = ['Valor']

# Guardar reporte
report_file = OUTPUT_PATH / 'reports' / '03_cleaning_report.csv'
report_file.parent.mkdir(parents=True, exist_ok=True)
report_df.to_csv(report_file)

print("üìã Reporte de Limpieza:")
print()
print(report_df)
print()
print(f"‚úÖ Reporte guardado en: {report_file}")

üìã Reporte de Limpieza:

                            Valor
Registros_Inicial            9701
Registros_Final              9701
Registros_Eliminados            0
Columnas_Inicial               67
Columnas_Final                 67
Nulos_Inicial                3880
Nulos_Final                     0
Nulos_Imputados              3880
Outliers_Tratados               0
Columnas_Normalizadas          22
Columnas_Fecha_Convertidas      3

‚úÖ Reporte guardado en: ../../outputs/gian/reports/03_cleaning_report.csv


---
## 9. Conclusiones

### ‚úÖ Limpieza Completada

**Acciones realizadas:**
1. ‚úÖ Imputaci√≥n de 4 columnas con valores nulos
2. ‚úÖ Normalizaci√≥n de formatos de texto
3. ‚úÖ Conversi√≥n de tipos de datos (fechas, int, float)
4. ‚úÖ Validaci√≥n de rangos de valores
5. ‚úÖ Decisi√≥n de mantener outliers justificados

**Dataset limpio:**
- Ubicaci√≥n: `data/clean/data_clean.csv`
- Registros: 9,701 (sin p√©rdida)
- Columnas: 67
- Nulos: 0

**Pr√≥ximo paso:** `04_data_transformation.ipynb`