# üìä Notebook 04: Data Transformation

**Autor:** Gian  
**Fecha:** 2026-01-19  
**Objetivo:** Transformar el dataset limpio para prepararlo para el modelado  

---

## üìã Contenido

1. Configuraci√≥n del entorno
2. Carga de datos limpios
3. Encoding de variables categ√≥ricas
4. Escalado de variables num√©ricas
5. Transformaciones matem√°ticas
6. Generaci√≥n de dataset transformado
7. Reporte de transformaci√≥n

---
## 1. Configuraci√≥n del Entorno

In [37]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
import warnings

# Configuraci√≥n
warnings.filterwarnings("ignore")
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 100)
sns.set_style("whitegrid")
plt.rcParams["figure.figsize"] = (14, 8)

# Seed
np.random.seed(42)

print("‚úÖ Librer√≠as importadas correctamente")

‚úÖ Librer√≠as importadas correctamente


---
## 2. Carga de Datos Limpios

In [38]:
# Rutas
OUTPUT_PATH = Path("../../outputs/gian")
CLEAN_DATA_PATH = OUTPUT_PATH / "data" / "data_clean.csv"
TRANSFORMED_DATA_PATH = OUTPUT_PATH / "data"

# Cargar datos limpios
df = pd.read_csv(CLEAN_DATA_PATH)

print(f"‚úÖ Dataset cargado: {df.shape[0]:,} registros √ó {df.shape[1]} columnas")
print(f"üíæ Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

‚úÖ Dataset cargado: 9,701 registros √ó 67 columnas
üíæ Memoria: 18.71 MB


In [39]:
# Crear copia para transformaci√≥n
df_transformed = df.copy()

print(f"‚úÖ Copia creada para transformaci√≥n")
print(f"üìä Shape: {df_transformed.shape}")

‚úÖ Copia creada para transformaci√≥n
üìä Shape: (9701, 67)


---
## 3. Encoding de Variables Categ√≥ricas

### 3.1. Identificar Variables Categ√≥ricas

In [40]:
# Identificar columnas categ√≥ricas
categorical_cols = df_transformed.select_dtypes(include=["object"]).columns.tolist()

# Excluir columnas que no necesitan encoding
exclude_cols = [
    "cliente_id",  # ID √∫nico
    "pais", "ciudad", "borough", "estado",  # Ubicaciones (no usar para modelado)
    "fecha_registro", "fecha_ultimo_pago", "ultimo_contacto_soporte"  # Fechas (se procesar√°n despu√©s)
]
categorical_cols = [col for col in categorical_cols if col not in exclude_cols]

print(f"üìä Variables categ√≥ricas a encodear: {len(categorical_cols)}")
print()
for i, col in enumerate(categorical_cols, 1):
    unique_vals = df_transformed[col].nunique()
    print(f"  {i:2d}. {col:30s} - {unique_vals} categor√≠as")

üìä Variables categ√≥ricas a encodear: 23

   1. genero                         - 2 categor√≠as
   2. segmento_cliente               - 3 categor√≠as
   3. tiene_pareja                   - 2 categor√≠as
   4. tiene_dependientes             - 2 categor√≠as
   5. tipo_contrato                  - 3 categor√≠as
   6. metodo_pago                    - 4 categor√≠as
   7. canal_registro                 - 1 categor√≠as
   8. descuento_aplicado             - 5 categor√≠as
   9. aumento_precio_3m              - 2 categor√≠as
  10. facturacion_sin_papel          - 2 categor√≠as
  11. servicio_telefono              - 2 categor√≠as
  12. lineas_multiples               - 3 categor√≠as
  13. tipo_internet                  - 3 categor√≠as
  14. seguridad_online               - 3 categor√≠as
  15. respaldo_online                - 3 categor√≠as
  16. proteccion_dispositivo         - 3 categor√≠as
  17. soporte_tecnico                - 3 categor√≠as
  18. streaming_tv                   - 3 categor√≠as
  

### 3.2. Label Encoding para Variables Binarias

In [41]:
# Variables binarias (Si/No, Masculino/Femenino, etc.)
binary_cols = []
for col in categorical_cols:
    if df_transformed[col].nunique() == 2:
        binary_cols.append(col)

print(f"üîß Aplicando Label Encoding a {len(binary_cols)} variables binarias...")
print()

label_encoders = {}
for col in binary_cols:
    le = LabelEncoder()
    df_transformed[col + "_encoded"] = le.fit_transform(df_transformed[col].astype(str))
    label_encoders[col] = le
    print(f"  ‚úÖ {col}: {list(le.classes_)} ‚Üí {list(range(len(le.classes_)))}")

print()
print(f"‚úÖ {len(binary_cols)} variables binarias encodeadas")

üîß Aplicando Label Encoding a 6 variables binarias...

  ‚úÖ genero: ['Femenino', 'Masculino'] ‚Üí [0, 1]
  ‚úÖ tiene_pareja: ['No', 'Si'] ‚Üí [0, 1]
  ‚úÖ tiene_dependientes: ['No', 'Si'] ‚Üí [0, 1]
  ‚úÖ aumento_precio_3m: ['No', 'Si'] ‚Üí [0, 1]
  ‚úÖ facturacion_sin_papel: ['No', 'Si'] ‚Üí [0, 1]
  ‚úÖ servicio_telefono: ['No', 'Si'] ‚Üí [0, 1]

‚úÖ 6 variables binarias encodeadas


# Variables con m√°s de 2 categor√≠as
multi_categorical_cols = [col for col in categorical_cols if col not in binary_cols]

# ‚ö†Ô∏è EXCLUIR columnas de fechas (ya est√°n en formato datetime)
date_cols = ["fecha_registro", "fecha_ultimo_pago", "ultimo_contacto_soporte"]
multi_categorical_cols = [col for col in multi_categorical_cols if col not in date_cols]

print(f"üîß Aplicando One-Hot Encoding a {len(multi_categorical_cols)} variables...")
print()
print("Variables a encodear:")
for col in multi_categorical_cols:
    print(f"  - {col}: {df_transformed[col].nunique()} categor√≠as")
print()


In [42]:
# Variables con m√°s de 2 categor√≠as
multi_categorical_cols = [col for col in categorical_cols if col not in binary_cols]

print(f"üîß Aplicando One-Hot Encoding a {len(multi_categorical_cols)} variables...")
print()

# Aplicar One-Hot Encoding
df_transformed = pd.get_dummies(df_transformed, 
                                 columns=multi_categorical_cols,
                                 prefix=multi_categorical_cols,
                                 drop_first=True)  # Evitar multicolinealidad

print(f"‚úÖ One-Hot Encoding aplicado")
print(f"üìä Nuevas columnas creadas: {df_transformed.shape[1] - df.shape[1]}")
print(f"üìä Shape actual: {df_transformed.shape}")

üîß Aplicando One-Hot Encoding a 17 variables...

‚úÖ One-Hot Encoding aplicado
üìä Nuevas columnas creadas: 34
üìä Shape actual: (9701, 101)


---
## 4. Escalado de Variables Num√©ricas

### 4.1. Identificar Variables Num√©ricas

In [43]:
# Identificar columnas num√©ricas
numeric_cols = df_transformed.select_dtypes(include=["int64", "float64"]).columns.tolist()

# Excluir columnas que no necesitan escalado
exclude_numeric = ["cliente_id", "cancelacion", "es_mayor", "codigo_postal",
                   "latitud", "longitud"]  # IDs, target, flags, coordenadas

# Tambi√©n excluir las columnas encoded que acabamos de crear
exclude_numeric.extend([col + "_encoded" for col in binary_cols])

numeric_cols = [col for col in numeric_cols if col not in exclude_numeric]

print(f"üìä Variables num√©ricas a escalar: {len(numeric_cols)}")
print()
for i, col in enumerate(numeric_cols[:10], 1):  # Mostrar solo las primeras 10
    print(f"  {i:2d}. {col}")
if len(numeric_cols) > 10:
    print(f"  ... y {len(numeric_cols) - 10} m√°s")

üìä Variables num√©ricas a escalar: 31

   1. edad
   2. ingreso_mediano
   3. densidad_poblacional
   4. antiguedad
   5. cargo_mensual
   6. ingresos_totales
   7. errores_pago
   8. score_riesgo
   9. conexiones_mensuales
  10. dias_activos_semanales
  ... y 21 m√°s


### 4.2. Aplicar StandardScaler (Z-score normalization)

In [44]:
# Aplicar StandardScaler
print("üîß Aplicando StandardScaler (media=0, std=1)...")
print()

scaler = StandardScaler()
df_transformed[numeric_cols] = scaler.fit_transform(df_transformed[numeric_cols])

print("‚úÖ StandardScaler aplicado")
print()
print("üìä Verificaci√≥n (primeras 5 columnas):")
for col in numeric_cols[:5]:
    mean = df_transformed[col].mean()
    std = df_transformed[col].std()
    print(f"  {col:30s} - Media: {mean:7.4f}, Std: {std:7.4f}")

üîß Aplicando StandardScaler (media=0, std=1)...

‚úÖ StandardScaler aplicado

üìä Verificaci√≥n (primeras 5 columnas):
  edad                           - Media: -0.0000, Std:  1.0001
  ingreso_mediano                - Media:  0.0000, Std:  1.0001
  densidad_poblacional           - Media: -0.0000, Std:  1.0001
  antiguedad                     - Media:  0.0000, Std:  1.0001
  cargo_mensual                  - Media:  0.0000, Std:  1.0001


---
## 5. Transformaciones Matem√°ticas

### 5.1. Identificar Variables Sesgadas

In [45]:
# Calcular skewness de variables num√©ricas ANTES de escalar
# (usamos el dataset original para esto)
print("üìä Analizando sesgo (skewness) de variables num√©ricas...")
print()

skewness = df[numeric_cols].skew().sort_values(ascending=False)
highly_skewed = skewness[abs(skewness) > 1].index.tolist()

print(f"Variables con alto sesgo (|skew| > 1): {len(highly_skewed)}")
print()
for col in highly_skewed[:10]:  # Mostrar las 10 m√°s sesgadas
    print(f"  {col:30s} - Skewness: {skewness[col]:7.2f}")

print()
print("üí° Nota: Estas variables podr√≠an beneficiarse de transformaci√≥n log")

üìä Analizando sesgo (skewness) de variables num√©ricas...

Variables con alto sesgo (|skew| > 1): 10

  errores_pago                   - Skewness:    4.22
  escaladas                      - Skewness:    3.91
  tickets_soporte                - Skewness:    2.96
  dias_ultima_conexion           - Skewness:    2.48
  referencias_hechas             - Skewness:    2.06
  score_riesgo                   - Skewness:    1.63
  downgrade_reciente             - Skewness:    1.40
  ingresos_totales               - Skewness:    1.36
  dias_mora                      - Skewness:    1.23
  cambio_plan_reciente           - Skewness:    1.12

üí° Nota: Estas variables podr√≠an beneficiarse de transformaci√≥n log


### 5.2. Aplicar Transformaci√≥n Log (Opcional)

In [46]:
# NOTA: Esta secci√≥n es opcional y se puede aplicar en Feature Engineering
# Por ahora, solo documentamos las variables que podr√≠an beneficiarse

print("üìù Variables candidatas para transformaci√≥n log:")
print()
for col in highly_skewed[:5]:
    print(f"  - {col}")
print()
print("üí° Estas transformaciones se aplicar√°n en el Notebook 06 (Feature Engineering)")

üìù Variables candidatas para transformaci√≥n log:

  - errores_pago
  - escaladas
  - tickets_soporte
  - dias_ultima_conexion
  - referencias_hechas

üí° Estas transformaciones se aplicar√°n en el Notebook 06 (Feature Engineering)


---
## 6. Generaci√≥n de Dataset Transformado

In [47]:
# Guardar dataset transformado
transformed_file = TRANSFORMED_DATA_PATH / "04_data_transformed.csv"

df_transformed.to_csv(transformed_file, index=False)

print(f"‚úÖ Dataset transformado guardado en: {transformed_file}")
print()
print(f"üìä Shape final: {df_transformed.shape}")
print(f"üíæ Tama√±o: {transformed_file.stat().st_size / 1024**2:.2f} MB")

‚úÖ Dataset transformado guardado en: ../../outputs/gian/data/04_data_transformed.csv

üìä Shape final: (9701, 101)
üíæ Tama√±o: 9.45 MB


---
## 7. Reporte de Transformaci√≥n

In [48]:
# Crear reporte de transformaci√≥n
report = {
    "Registros_Inicial": len(df),
    "Registros_Final": len(df_transformed),
    "Columnas_Inicial": df.shape[1],
    "Columnas_Final": df_transformed.shape[1],
    "Columnas_Agregadas": df_transformed.shape[1] - df.shape[1],
    "Variables_Binarias_Encoded": len(binary_cols),
    "Variables_OneHot_Encoded": len(multi_categorical_cols),
    "Variables_Escaladas": len(numeric_cols),
    "Variables_Sesgadas_Detectadas": len(highly_skewed),
}

report_df = pd.DataFrame(report, index=[0]).T
report_df.columns = ["Valor"]

# Guardar reporte
report_file = OUTPUT_PATH / "reports" / "04_transformation_report.csv"
report_file.parent.mkdir(parents=True, exist_ok=True)
report_df.to_csv(report_file)

print("üìã Reporte de Transformaci√≥n:")
print()
print(report_df)
print()
print(f"‚úÖ Reporte guardado en: {report_file}")

üìã Reporte de Transformaci√≥n:

                               Valor
Registros_Inicial               9701
Registros_Final                 9701
Columnas_Inicial                  67
Columnas_Final                   101
Columnas_Agregadas                34
Variables_Binarias_Encoded         6
Variables_OneHot_Encoded          17
Variables_Escaladas               31
Variables_Sesgadas_Detectadas     10

‚úÖ Reporte guardado en: ../../outputs/gian/reports/04_transformation_report.csv


---
## 8. Resumen de Transformaciones

### ‚úÖ Transformaciones Aplicadas

1. **Encoding de Variables Categ√≥ricas:**
   - Label Encoding para variables binarias (Si/No, etc.)
   - One-Hot Encoding para variables con m√∫ltiples categor√≠as

2. **Escalado de Variables Num√©ricas:**
   - StandardScaler aplicado (media=0, std=1)
   - Variables normalizadas para el modelado

3. **An√°lisis de Sesgo:**
   - Identificadas variables con alto sesgo
   - Candidatas para transformaci√≥n log en Feature Engineering

### üìä Dataset Transformado

- **Ubicaci√≥n:** 
- **Registros:** Sin p√©rdida
- **Columnas:** Aumentadas por One-Hot Encoding
- **Estado:** Listo para EDA y Feature Engineering

### üéØ Pr√≥ximo Paso

**Notebook 05: EDA (Exploratory Data Analysis)**
- An√°lisis exploratorio profundo
- Visualizaciones de distribuciones
- An√°lisis de correlaciones
- Identificaci√≥n de patrones