# 02 - Preparaci√≥n y Limpieza de Datos

**Proyecto:** Forecast Promtur - Tr√°fico Org√°nico  
**Objetivo:** Transformar y preparar los datos para el an√°lisis de forecasting

---

## Contenido:
1. Carga de datos
2. Transformaci√≥n de nombres de columnas (snake_case)
3. C√°lculo de m√©tricas derivadas
4. Filtrado de canales (opcional)
5. Validaci√≥n de dataset limpio
6. Guardado de dataset procesado

## 1. Configuraci√≥n inicial y librer√≠as

In [None]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings

# Ignorar warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

print("‚úÖ Librer√≠as importadas correctamente")

## 2. Carga de datos

In [None]:
# Definir rutas del proyecto
DATA_RAW = Path('../data/raw')
DATA_PROCESSED = Path('../data/processed')
RESULTS_FIGURES = Path('../results/figures')

# Crear carpetas si no existen
DATA_PROCESSED.mkdir(parents=True, exist_ok=True)

# Cargar dataset
csv_file = DATA_RAW / 'ga4_promtur_organic_2025.csv'

if csv_file.exists():
    df = pd.read_csv(csv_file)
    print(f"‚úÖ Dataset cargado exitosamente")
    print(f"üìä Dimensiones originales: {df.shape[0]} filas x {df.shape[1]} columnas")
else:
    print(f"‚ùå Error: No se encontr√≥ el archivo {csv_file}")
    print(f"üìÅ Aseg√∫rate de colocar el CSV en: {DATA_RAW}")

In [None]:
# Mostrar primeras filas del dataset original
print("üìã Dataset original (primeras 5 filas):\n")
df.head()

## 3. Transformaci√≥n de nombres de columnas a snake_case

Convertiremos los nombres originales de GA4 a formato snake_case para mantener consistencia.

In [None]:
# ===================================================================
# MAPEO DE COLUMNAS: Original ‚Üí snake_case
# ===================================================================

column_mapping = {
    'Year': 'year',
    'Month number': 'month',
    'Session Default Channel Group Custom (Recovery)': 'channel',
    'Sessions - GA4': 'sessions',
    'Bounces': 'bounces',
    'Total session duration - GA4': 'total_session_duration',
    'Views - GA4': 'views'
}

# Aplicar renombrado
df_clean = df.rename(columns=column_mapping)

print("‚úÖ Columnas renombradas a snake_case\n")
print("üìù Mapeo de columnas:")
for original, nuevo in column_mapping.items():
    print(f"   '{original}' ‚Üí '{nuevo}'")

In [None]:
# Verificar nuevos nombres de columnas
print("\nüìã Columnas del dataset limpio:")
for i, col in enumerate(df_clean.columns, 1):
    print(f"{i}. {col}")

In [None]:
# Mostrar dataset con nuevos nombres
print("\nüìä Dataset con nombres en snake_case (primeras 5 filas):\n")
df_clean.head()

## 4. Funci√≥n auxiliar para formateo de duraci√≥n

Esta funci√≥n convierte segundos a formato HH:MM:SS para visualizaci√≥n. **No se guardar√° en el CSV**, solo se usa para exploraci√≥n.

In [None]:
def segundos_a_hhmm_ss(segundos):
    """
    Convierte segundos a formato HH:MM:SS
    
    Args:
        segundos (float): Duraci√≥n en segundos
    
    Returns:
        str: Duraci√≥n en formato HH:MM:SS
    """
    if pd.isna(segundos):
        return "00:00:00"
    
    horas = int(segundos // 3600)
    minutos = int((segundos % 3600) // 60)
    segs = int(segundos % 60)
    
    return f"{horas:02d}:{minutos:02d}:{segs:02d}"

# Prueba de la funci√≥n
print("‚úÖ Funci√≥n de formateo creada")
print("\nüìù Ejemplos de formateo:")
print(f"   155 segundos ‚Üí {segundos_a_hhmm_ss(155)}")
print(f"   3665 segundos ‚Üí {segundos_a_hhmm_ss(3665)}")
print(f"   7385 segundos ‚Üí {segundos_a_hhmm_ss(7385)}")

## 5. C√°lculo de m√©tricas derivadas

Calcularemos las siguientes m√©tricas:
- **bounce_rate**: Porcentaje de rebotes sobre sesiones
- **views_per_session**: Promedio de vistas por sesi√≥n
- **avg_session_duration**: Duraci√≥n promedio por sesi√≥n (en segundos)

In [None]:
# Calcular m√©tricas derivadas
print("üî¢ Calculando m√©tricas derivadas...\n")

# 1. Bounce Rate (porcentaje)
df_clean['bounce_rate'] = (df_clean['bounces'] / df_clean['sessions']) * 100

# 2. Vistas por sesi√≥n
df_clean['views_per_session'] = df_clean['views'] / df_clean['sessions']

# 3. Duraci√≥n promedio por sesi√≥n (segundos)
df_clean['avg_session_duration'] = df_clean['total_session_duration'] / df_clean['sessions']

print("‚úÖ M√©tricas derivadas calculadas:")
print("   - bounce_rate (%)")
print("   - views_per_session")
print("   - avg_session_duration (segundos)")

In [None]:
# Crear columna temporal con duraci√≥n formateada SOLO para visualizaci√≥n
df_clean['duration_formatted'] = df_clean['avg_session_duration'].apply(segundos_a_hhmm_ss)

print("\nüìä Muestra de m√©tricas derivadas (con duraci√≥n formateada):\n")
display(df_clean[['year', 'month', 'channel', 'sessions', 'bounce_rate', 
                   'views_per_session', 'avg_session_duration', 'duration_formatted']].head(10))

In [None]:
# Estad√≠sticas de m√©tricas derivadas
print("\nüìà Estad√≠sticas de m√©tricas derivadas:\n")
metricas_stats = df_clean[['bounce_rate', 'views_per_session', 'avg_session_duration']].describe()
display(metricas_stats)

# Mostrar rangos de duraci√≥n en formato legible
print("\n‚è±Ô∏è Rango de duraci√≥n promedio por sesi√≥n:")
print(f"   - M√≠nimo: {segundos_a_hhmm_ss(df_clean['avg_session_duration'].min())} ({df_clean['avg_session_duration'].min():.2f} seg)")
print(f"   - Promedio: {segundos_a_hhmm_ss(df_clean['avg_session_duration'].mean())} ({df_clean['avg_session_duration'].mean():.2f} seg)")
print(f"   - M√°ximo: {segundos_a_hhmm_ss(df_clean['avg_session_duration'].max())} ({df_clean['avg_session_duration'].max():.2f} seg)")

## 6. An√°lisis por canal con formato legible

In [None]:
# Resumen de m√©tricas por canal con duraci√≥n formateada
print("üìä Resumen de m√©tricas promedio por canal:\n")

resumen_canales = df_clean.groupby('channel').agg({
    'sessions': 'sum',
    'bounce_rate': 'mean',
    'views_per_session': 'mean',
    'avg_session_duration': 'mean'
}).round(2)

# Agregar columna con duraci√≥n formateada
resumen_canales['duration_formatted'] = resumen_canales['avg_session_duration'].apply(segundos_a_hhmm_ss)

# Renombrar columnas para mejor visualizaci√≥n
resumen_canales.columns = ['Sesiones Totales', 'Bounce Rate (%)', 'Vistas/Sesi√≥n', 
                            'Duraci√≥n Avg (seg)', 'Duraci√≥n (HH:MM:SS)']

display(resumen_canales.sort_values('Sesiones Totales', ascending=False))

## 7. Filtrado de canales (OPCIONAL)

Aqu√≠ puedes decidir si trabajar con TODOS los canales o solo con algunos espec√≠ficos.

In [None]:
# Mostrar canales disponibles
print("üéØ Canales disponibles en el dataset:\n")
canales_disponibles = df_clean['channel'].unique()
for i, canal in enumerate(sorted(canales_disponibles), 1):
    sesiones_total = df_clean[df_clean['channel'] == canal]['sessions'].sum()
    print(f"{i}. {canal:30s} ‚Üí {sesiones_total:>10,.0f} sesiones totales")

In [None]:
# ===================================================================
# CONFIGURACI√ìN: Filtrado de canales
# ===================================================================

# Opci√≥n 1: Mantener TODOS los canales
usar_todos_los_canales = True

# Opci√≥n 2: Especificar canales a incluir (solo si usar_todos_los_canales = False)
canales_incluir = [
    'Organic Search',
    'Organic Social',
    'Organic Video',
    'Referral',
    'Direct'
    # Agrega o quita canales seg√∫n necesites
]

# Aplicar filtro
if usar_todos_los_canales:
    df_final = df_clean.copy()
    print(f"‚úÖ Usando TODOS los canales ({len(canales_disponibles)} canales)")
    print(f"\nCanales incluidos:")
    for canal in sorted(df_final['channel'].unique()):
        print(f"   - {canal}")
else:
    df_final = df_clean[df_clean['channel'].isin(canales_incluir)].copy()
    canales_excluidos = set(canales_disponibles) - set(canales_incluir)
    
    print(f"‚úÖ Filtrado aplicado: {len(canales_incluir)} canales seleccionados")
    print(f"\nCanales INCLUIDOS:")
    for canal in sorted(canales_incluir):
        print(f"   ‚úì {canal}")
    
    if canales_excluidos:
        print(f"\nCanales EXCLUIDOS:")
        for canal in sorted(canales_excluidos):
            print(f"   ‚úó {canal}")

print(f"\nüìä Dimensiones despu√©s del filtrado: {df_final.shape[0]} filas x {df_final.shape[1]} columnas")

## 8. Validaci√≥n del dataset limpio

In [None]:
# Verificar valores faltantes
print("üîç Verificaci√≥n de valores faltantes:\n")
missing = df_final.isnull().sum()
if missing.sum() > 0:
    print("‚ö†Ô∏è Se encontraron valores faltantes:")
    print(missing[missing > 0])
else:
    print("‚úÖ No hay valores faltantes")

In [None]:
# Verificar valores infinitos o NaN en m√©tricas derivadas
print("\nüîç Verificaci√≥n de valores infinitos o inv√°lidos:\n")

metricas = ['bounce_rate', 'views_per_session', 'avg_session_duration']
problemas_encontrados = False

for metrica in metricas:
    inf_count = np.isinf(df_final[metrica]).sum()
    nan_count = df_final[metrica].isna().sum()
    
    if inf_count > 0 or nan_count > 0:
        print(f"‚ö†Ô∏è {metrica}:")
        if inf_count > 0:
            print(f"   - Valores infinitos: {inf_count}")
        if nan_count > 0:
            print(f"   - Valores NaN: {nan_count}")
        problemas_encontrados = True

if not problemas_encontrados:
    print("‚úÖ No se encontraron valores infinitos o inv√°lidos")

In [None]:
# Informaci√≥n del dataset final
print("\n‚ÑπÔ∏è Informaci√≥n del dataset final:\n")
df_final.info()

In [None]:
# Resumen de estructura del dataset final
print("="*70)
print("üìä RESUMEN DEL DATASET PROCESADO")
print("="*70)

print(f"\n1. DIMENSIONES:")
print(f"   - Total de registros: {df_final.shape[0]}")
print(f"   - Total de columnas: {df_final.shape[1]}")

print(f"\n2. COLUMNAS:")
print(f"   - Dimensiones temporales: year, month")
print(f"   - Dimensi√≥n de canal: channel")
print(f"   - M√©tricas base: sessions, bounces, total_session_duration, views")
print(f"   - M√©tricas derivadas: bounce_rate, views_per_session, avg_session_duration")

print(f"\n3. CANALES:")
print(f"   - Total de canales: {df_final['channel'].nunique()}")
for canal in sorted(df_final['channel'].unique()):
    registros = len(df_final[df_final['channel'] == canal])
    print(f"   - {canal}: {registros} registros")

print(f"\n4. RANGO TEMPORAL:")
print(f"   - A√±o(s): {sorted(df_final['year'].unique())}")
print(f"   - Meses: {sorted(df_final['month'].unique())}")
print(f"   - Total de meses: {df_final[['year', 'month']].drop_duplicates().shape[0]}")

print("\n" + "="*70)

## 9. Visualizaci√≥n r√°pida de m√©tricas derivadas

In [None]:
# Crear columna de fecha para visualizaciones
df_final['fecha'] = pd.to_datetime(
    df_final['year'].astype(str) + '-' + df_final['month'].astype(str) + '-01'
)

# Gr√°fico: Evoluci√≥n de m√©tricas derivadas por canal
fig, axes = plt.subplots(3, 1, figsize=(14, 12))

metricas_viz = [
    ('bounce_rate', 'Bounce Rate (%)', axes[0]),
    ('views_per_session', 'Vistas por Sesi√≥n', axes[1]),
    ('avg_session_duration', 'Duraci√≥n Promedio por Sesi√≥n (seg)', axes[2])
]

for metrica, titulo, ax in metricas_viz:
    for canal in sorted(df_final['channel'].unique()):
        data_canal = df_final[df_final['channel'] == canal].sort_values('fecha')
        ax.plot(data_canal['fecha'], data_canal[metrica], 
                marker='o', label=canal, linewidth=2, markersize=5)
    
    ax.set_xlabel('Mes', fontsize=10)
    ax.set_ylabel(titulo, fontsize=10)
    ax.set_title(f'Evoluci√≥n de {titulo} por Canal', fontsize=12, fontweight='bold')
    ax.legend(title='Canal', bbox_to_anchor=(1.05, 1), loc='upper left', fontsize=8)
    ax.grid(True, alpha=0.3)
    ax.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

print("üìä Visualizaciones de m√©tricas derivadas generadas")

## 10. Guardado del dataset procesado

**Nota importante:** Guardaremos `avg_session_duration` en **segundos** (no en formato HH:MM:SS) para que pueda ser usado en modelos de forecasting. La columna `duration_formatted` NO se guardar√° en el CSV.

In [None]:
# Seleccionar columnas en el orden deseado para el dataset final
# NO incluimos 'duration_formatted' ni 'fecha' (solo para visualizaci√≥n)
columnas_orden = [
    'year',
    'month',
    'channel',
    'sessions',
    'bounces',
    'total_session_duration',
    'views',
    'bounce_rate',
    'views_per_session',
    'avg_session_duration'  # En segundos (n√∫mero)
]

df_output = df_final[columnas_orden].copy()

# Ordenar por a√±o, mes y canal
df_output = df_output.sort_values(['year', 'month', 'channel']).reset_index(drop=True)

print("üìã Estructura del dataset a guardar:\n")
print("‚ö†Ô∏è Nota: avg_session_duration se guarda en SEGUNDOS (no en formato HH:MM:SS)\n")
df_output.head(10)

In [None]:
# Guardar dataset procesado
output_file = DATA_PROCESSED / 'dataset_clean.csv'

df_output.to_csv(output_file, index=False)

print(f"‚úÖ Dataset procesado guardado exitosamente")
print(f"üìÅ Ubicaci√≥n: {output_file}")
print(f"üìä Dimensiones: {df_output.shape[0]} filas x {df_output.shape[1]} columnas")
print(f"üíæ Tama√±o del archivo: {output_file.stat().st_size / 1024:.2f} KB")
print(f"\n‚ö†Ô∏è Recordatorio: avg_session_duration est√° en SEGUNDOS para uso en forecasting")

In [None]:
# Verificar que el archivo se guard√≥ correctamente
print("\nüîç Verificaci√≥n de guardado:\n")

df_verificacion = pd.read_csv(output_file)

if df_verificacion.shape == df_output.shape:
    print("‚úÖ Archivo guardado y verificado correctamente")
    print(f"   - Filas: {df_verificacion.shape[0]}")
    print(f"   - Columnas: {df_verificacion.shape[1]}")
    print(f"\nPrimeras filas del archivo guardado:")
    display(df_verificacion.head())
else:
    print("‚ö†Ô∏è Hay discrepancia entre el dataset original y el guardado")

---

## üìå Resumen de transformaciones aplicadas:

1. ‚úÖ **Renombrado de columnas** a formato snake_case
2. ‚úÖ **C√°lculo de m√©tricas derivadas**:
   - `bounce_rate`: % de rebotes
   - `views_per_session`: Promedio de vistas por sesi√≥n
   - `avg_session_duration`: Duraci√≥n promedio en segundos
3. ‚úÖ **Funci√≥n de formateo** para visualizar duraci√≥n como HH:MM:SS
4. ‚úÖ **Filtrado de canales** (si se configur√≥)
5. ‚úÖ **Validaci√≥n de calidad** de datos
6. ‚úÖ **Guardado** en `data/processed/dataset_clean.csv`

## üí° Nota sobre formato de duraci√≥n:

- **En el CSV:** `avg_session_duration` se guarda en **segundos** (n√∫mero)
- **Para visualizar:** Usa la funci√≥n `segundos_a_hhmm_ss()` cuando necesites formato legible
- **Raz√≥n:** Los modelos de forecasting necesitan valores num√©ricos, no texto formateado

## ‚úÖ Checklist antes de continuar al Notebook 03:

- [ ] Dataset guardado en `data/processed/dataset_clean.csv`
- [ ] Todas las m√©tricas derivadas calculadas correctamente
- [ ] Sin valores faltantes o infinitos
- [ ] Canales seleccionados seg√∫n necesidad
- [ ] Visualizaciones revisadas
- [ ] Funci√≥n de formateo probada

## üöÄ Pr√≥ximo paso:

**Notebook 03:** Modelos de Forecasting por canal