# Procesamiento de Datos de Taxis NYC

## Agregando Columna de Color ANTES de crear_dataset_final

Este notebook demuestra el flujo correcto para agregar la caracter√≠stica `taxi_color` **antes** de crear el dataset final.

### Flujo Correcto:
1. Cargar datasets de Yellow y Green taxis
2. **Agregar columna `taxi_color` a cada dataset individualmente** 
3. Luego combinar los datasets con `crear_dataset_final()`

### ¬øPor qu√© este orden?
- Asegura que cada dataset tenga su identificador de color desde el inicio
- Facilita el an√°lisis comparativo entre tipos de taxi
- Previene errores en el procesamiento posterior

In [None]:
# Importar el m√≥dulo de procesamiento de datos de taxi
import sys
sys.path.append('../src')

from taxi_data_processor import (
    agregar_columna_color_taxi,
    cargar_dataset_con_color,
    crear_dataset_final
)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Paso 1: Simular Datos de Yellow y Green Taxis

En un caso real, estos datos vendr√≠an de archivos CSV separados.

In [None]:
# Crear datasets de ejemplo para Yellow Taxis
df_yellow_raw = pd.DataFrame({
    'trip_distance': [1.5, 2.0, 3.5, 2.8, 4.2],
    'fare_amount': [10.5, 12.0, 18.5, 15.0, 22.0],
    'passenger_count': [1, 2, 1, 3, 1],
    'trip_duration': [8.5, 10.2, 15.3, 12.5, 18.0]
})

# Crear datasets de ejemplo para Green Taxis
df_green_raw = pd.DataFrame({
    'trip_distance': [0.8, 1.2, 1.8, 2.1],
    'fare_amount': [7.5, 9.0, 11.5, 13.0],
    'passenger_count': [1, 1, 2, 1],
    'trip_duration': [5.2, 7.1, 9.3, 10.8]
})

print("Datasets raw cargados:")
print(f"Yellow taxis: {len(df_yellow_raw)} registros")
print(f"Green taxis: {len(df_green_raw)} registros")
print("\nNOTA: Estos datasets a√∫n NO tienen la columna 'taxi_color'")

## Paso 2: Agregar Columna taxi_color ANTES de crear_dataset_final

### ‚ö†Ô∏è IMPORTANTE: Este paso debe hacerse ANTES de combinar los datasets

Aqu√≠ agregamos la columna `taxi_color` a cada dataset individualmente basado en su origen:

In [None]:
# AGREGAR COLUMNA DE COLOR - Yellow Taxis
df_yellow = agregar_columna_color_taxi(df_yellow_raw, tipo_taxi='yellow')
print("‚úì Columna 'taxi_color' agregada al dataset de Yellow taxis")
print(df_yellow.head())
print("\nColumnas:", df_yellow.columns.tolist())

In [None]:
# AGREGAR COLUMNA DE COLOR - Green Taxis
df_green = agregar_columna_color_taxi(df_green_raw, tipo_taxi='green')
print("‚úì Columna 'taxi_color' agregada al dataset de Green taxis")
print(df_green.head())
print("\nColumnas:", df_green.columns.tolist())

## Paso 3: Crear Dataset Final

Ahora que ambos datasets tienen la columna `taxi_color`, podemos combinarlos:

In [None]:
# Crear dataset final combinando ambos datasets
# La funci√≥n valida autom√°ticamente que ambos tengan la columna 'taxi_color'
df_final = crear_dataset_final(df_yellow, df_green)

print("\n" + "="*50)
print("DATASET FINAL CREADO EXITOSAMENTE")
print("="*50)
print(f"\nTotal de registros: {len(df_final)}")
print(f"\nColumnas: {df_final.columns.tolist()}")
print(f"\nPrimeros registros:")
print(df_final.head(10))

## Verificaci√≥n: La columna taxi_color est√° presente

Verificamos que la columna se agreg√≥ correctamente y tiene los valores esperados:

In [None]:
# Verificar que la columna taxi_color existe
assert 'taxi_color' in df_final.columns, "‚ùå ERROR: Columna taxi_color no encontrada"
print("‚úì Columna 'taxi_color' presente en el dataset final")

# Verificar los valores √∫nicos
print(f"\nValores √∫nicos en taxi_color: {df_final['taxi_color'].unique()}")

# Mostrar distribuci√≥n
print("\nDistribuci√≥n de taxi_color:")
print(df_final['taxi_color'].value_counts())

## Visualizaci√≥n: Comparaci√≥n entre Yellow y Green Taxis

In [None]:
# Configurar estilo de visualizaci√≥n
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 5)

# Crear subplots
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico 1: Distribuci√≥n de distancias por color
df_final.boxplot(column='trip_distance', by='taxi_color', ax=axes[0])
axes[0].set_title('Distribuci√≥n de Distancia de Viaje por Tipo de Taxi')
axes[0].set_xlabel('Tipo de Taxi')
axes[0].set_ylabel('Distancia (millas)')

# Gr√°fico 2: Distribuci√≥n de tarifas por color
df_final.boxplot(column='fare_amount', by='taxi_color', ax=axes[1])
axes[1].set_title('Distribuci√≥n de Tarifas por Tipo de Taxi')
axes[1].set_xlabel('Tipo de Taxi')
axes[1].set_ylabel('Tarifa ($)')

plt.suptitle('')  # Remover t√≠tulo por defecto
plt.tight_layout()
plt.show()

print("‚úì Visualizaci√≥n completada")

## Estad√≠sticas Descriptivas por Tipo de Taxi

In [None]:
# Agrupar por taxi_color y calcular estad√≠sticas
print("Estad√≠sticas por Tipo de Taxi:\n")
print(df_final.groupby('taxi_color').agg({
    'trip_distance': ['mean', 'median', 'std'],
    'fare_amount': ['mean', 'median', 'std'],
    'trip_duration': ['mean', 'median', 'std']
}).round(2))

## ‚ùå Ejemplo de lo que NO se debe hacer

### Intentar crear dataset final SIN agregar la columna de color primero

In [None]:
# Ejemplo de uso INCORRECTO (esto fallar√°)
try:
    # Intentar combinar datasets sin la columna taxi_color
    df_incorrecto = crear_dataset_final(df_yellow_raw, df_green_raw)
except ValueError as e:
    print("‚ùå ERROR ESPERADO:")
    print(f"   {str(e)}")
    print("\n‚úì La validaci√≥n funciona correctamente")
    print("‚úì Se debe agregar taxi_color ANTES de crear_dataset_final")

## Resumen

### ‚úÖ Flujo Correcto Implementado:

1. **Cargar datasets raw** (Yellow y Green taxis)
2. **Agregar columna `taxi_color`** usando `agregar_columna_color_taxi()`
   - Yellow taxis ‚Üí `taxi_color = 'Yellow'`
   - Green taxis ‚Üí `taxi_color = 'Green'`
3. **Combinar datasets** con `crear_dataset_final()`
4. **Analizar y visualizar** datos con la caracter√≠stica de color

### üí° Beneficios de este enfoque:

- ‚úì Cada dataset se identifica correctamente desde el inicio
- ‚úì Facilita an√°lisis comparativos entre tipos de taxi
- ‚úì Previene errores con validaci√≥n autom√°tica
- ‚úì El c√≥digo es m√°s mantenible y claro