<a href="https://colab.research.google.com/github/chema74/AI-Portfolio-2025/blob/main/02_Data_Wrangling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üõ†Ô∏è M√≥dulo 2: Limpieza y Preparaci√≥n de Datos (Data Wrangling)

La limpieza de datos se refiere al proceso de **detectar y corregir (o eliminar)** registros corruptos o inexactos, incompletos o irrelevantes en un conjunto de datos. Se estima que esta fase consume hasta el **80% del tiempo** total de un proyecto de ML.

## Conceptos Clave del Data Wrangling

### 1. Manejo de Valores Faltantes (Missing Data - `NaN`)
Los valores faltantes (representados como `NaN` en Pandas) pueden arruinar un modelo de ML. Las estrategias m√°s comunes son:
* **Eliminaci√≥n:** Eliminar filas o columnas que contienen `NaN`. (Solo se recomienda si hay muy pocos datos faltantes).
* **Imputaci√≥n:** Rellenar los `NaN` con un valor calculado, como la **media (mean)**, la **mediana (median)** o el **modo (mode)** de la columna.

### 2. Manejo de Datos Duplicados
Tener filas id√©nticas puede sesgar el modelo. Es fundamental identificarlas y eliminarlas.

### 3. Codificaci√≥n de Variables Categ√≥ricas
Los modelos de ML solo entienden n√∫meros. Las variables categ√≥ricas (como 'Ciudad', 'Color' o 'Tipo de Producto') deben convertirse a formato num√©rico:
* **One-Hot Encoding:** Crea una nueva columna binaria (0 o 1) por cada categor√≠a √∫nica. Es el m√©todo m√°s com√∫n para categor√≠as sin orden.
* **Label Encoding:** Asigna un n√∫mero entero a cada categor√≠a. √ötil para categor√≠as ordinales (ej. 'Peque√±o'=1, 'Mediano'=2, 'Grande'=3).

Ahora crearemos un DataFrame con problemas (valores faltantes y categor√≠as) y lo limpiaremos, siguiendo las mejores pr√°cticas de documentaci√≥n.

In [4]:
# =======================================================
# PASO 1: Importar librer√≠as
# =======================================================
import pandas as pd
import numpy as np  # La librer√≠a numpy se usa para crear el valor NaN (Not a Number)

print("‚úÖ Librer√≠as importadas para la limpieza de datos (Data Wrangling).")
print("-" * 70)

# =======================================================
# PASO 2: Crear un DataFrame de ejemplo con problemas (Datos 'Sucios')
# =======================================================

datos_sucios = {
    'ID_Transaccion': [101, 102, 103, 104, 105, 106, 104], # La ID 104 est√° duplicada
    'Producto': ['A', 'B', 'A', 'C', 'B', 'A', 'C'],
    'Precio_Unitario': [15.5, np.nan, 15.5, 22.0, 10.0, np.nan, 22.0], # Valores faltantes (NaN)
    'Cantidad': [3, 1, 3, 2, 4, 1, 2],
    'Region': ['Norte', 'Sur', 'Norte', 'Oeste', 'Este', 'Sur', 'Oeste'] # Variable categ√≥rica a codificar
}

# Creamos el DataFrame inicial
df_ventas = pd.DataFrame(datos_sucios)

print("1. DataFrame Inicial (con problemas):\n")
print(df_ventas)
print("-" * 70)

# =======================================================
# PASO 3: Manejo de Datos Duplicados
# =======================================================

# 3a. Contar filas duplicadas (por defecto, revisa si toda la fila es id√©ntica)
num_duplicados = df_ventas.duplicated().sum()
print(f"2. N√∫mero de filas duplicadas encontradas: {num_duplicados}")

# 3b. Eliminamos las filas duplicadas, manteniendo la primera aparici√≥n (keep='first').
# Usamos .copy() expl√≠citamente para asegurar que 'df_limpio' sea una copia independiente
# y evitar el 'SettingWithCopyWarning' al modificarlo despu√©s.
df_limpio = df_ventas.drop_duplicates().copy()

print(f"3. Filas despu√©s de eliminar duplicados: {len(df_limpio)}")
print("-" * 70)

# =======================================================
# PASO 4: Manejo de Valores Faltantes (Imputaci√≥n)
# =======================================================

# 4a. Calculamos el valor de imputaci√≥n. Usamos la mediana para ser robustos ante at√≠picos.
mediana_precio = df_limpio['Precio_Unitario'].median()

# 4b. Imputamos los valores NaN.
# La mejor pr√°ctica es asignar el resultado de la funci√≥n directamente a la columna,
# en lugar de usar el obsoleto 'inplace=True'.
df_limpio['Precio_Unitario'] = df_limpio['Precio_Unitario'].fillna(mediana_precio)

print(f"4. Mediana del Precio usada para imputar: {mediana_precio:.2f}")
print("5. Verificamos si quedan valores NaN en 'Precio_Unitario':")
print(f"   N√∫mero de NaN: {df_limpio['Precio_Unitario'].isnull().sum()}")
print("-" * 70)


# =======================================================
# PASO 5: Codificaci√≥n de Variables Categ√≥ricas (One-Hot Encoding)
# =======================================================

# La columna 'Region' es nominal y debe convertirse a n√∫meros binarios.
# Usamos pd.get_dummies() para aplicar One-Hot Encoding.
# Esto crea una columna por cada valor √∫nico en 'Region' (Norte, Sur, Oeste, Este).
df_codificado = pd.get_dummies(df_limpio, columns=['Region'], prefix='Region')

print("6. DataFrame Final (Limpio e Imputado, con One-Hot Encoding aplicado):\n")
print(df_codificado)
print("\nNota: Se han creado nuevas columnas binarias para cada regi√≥n (Region_Este, Region_Norte, etc.).")
print("-" * 70)

‚úÖ Librer√≠as importadas para la limpieza de datos (Data Wrangling).
----------------------------------------------------------------------
1. DataFrame Inicial (con problemas):

   ID_Transaccion Producto  Precio_Unitario  Cantidad Region
0             101        A             15.5         3  Norte
1             102        B              NaN         1    Sur
2             103        A             15.5         3  Norte
3             104        C             22.0         2  Oeste
4             105        B             10.0         4   Este
5             106        A              NaN         1    Sur
6             104        C             22.0         2  Oeste
----------------------------------------------------------------------
2. N√∫mero de filas duplicadas encontradas: 1
3. Filas despu√©s de eliminar duplicados: 6
----------------------------------------------------------------------
4. Mediana del Precio usada para imputar: 15.50
5. Verificamos si quedan valores NaN en 'Precio_Unit