# 2. Limpieza y Transformación de Datos (ETL)

El "Data Wrangling" consume el 80% del tiempo de un científico de datos. Aprenderemos a manejar datos sucios y transformarlos.

## 2.1 Manejo de Datos Faltantes (Nulls)

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [10, 11, 12, 13]
})

print("Datos originales:\n", df)
print("\nNulos por columna:\n", df.isnull().sum())

# Eliminar filas con nulos
print("\ndropna():\n", df.dropna())

# Rellenar nulos
print("\nfillna(0):\n", df.fillna(0))

## 2.2 Agrupación (GroupBy)
Aplicar la estrategia "Split-Apply-Combine" para resumir datos.

In [None]:
df_tienda = pd.DataFrame({
    'Categoria': ['Fruta', 'Fruta', 'Verdura', 'Verdura', 'Fruta'],
    'Producto': ['Manzana', 'Pera', 'Lechuga', 'Tomate', 'Manzana'],
    'Ventas': [100, 50, 30, 40, 80]
})

agrupado = df_tienda.groupby('Categoria')
print("Total ventas por categoría:\n", agrupado['Ventas'].sum())
print("\nPromedio ventas por categoría:\n", agrupado['Ventas'].mean())

## 2.3 Merge y Concatenación
Combinar múltiples DataFrames.

In [None]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'val1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'val2': [4, 5, 6]})

# Inner Join (Intersección)
merged = pd.merge(df1, df2, on='key', how='inner')
print("Inner Merge:\n", merged)

# Left Join
left_merged = pd.merge(df1, df2, on='key', how='left')
print("\nLeft Merge:\n", left_merged)

## 2.4 Ejercicio: Procesamiento de Logs
Dado el siguiente DataFrame de logs de servidor, extrae el día de la semana de la fecha y calcula el promedio de tiempo de respuesta por día.

In [None]:
logs = pd.DataFrame({
    'Fecha': pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-01', '2023-01-02']),
    'Tiempo_Respuesta_ms': [120, 150, 100, 130, 160]
})

# TO-DO: Crear columna 'DiaSemana'
# logs['DiaSemana'] = ...

# TO-DO: Groupby 'DiaSemana' y mean()