# Paso1: Seleccion y preparacion del Dataset

In [1]:
import pandas as pd
import requests
import os

# URLs de los archivos
urls = [
    "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2016-01.parquet",
    "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2016-02.parquet",
    "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2016-03.parquet",
    "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2016-04.parquet",
    "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2016-05.parquet",
    "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2016-06.parquet"
]

# Funci√≥n para descargar archivo
def download_file(url, filename):
    print(f"Descargando {filename}...")
    response = requests.get(url, stream=True)
    with open(filename, 'wb') as f:
        for chunk in response.iter_content(chunk_size=8192):
            f.write(chunk)
    print(f"‚úÖ {filename} descargado")

# Descargar todos los archivos
for url in urls:
    filename = url.split('/')[-1]  # Extrae el nombre del archivo
    if not os.path.exists(filename):
        download_file(url, filename)
    else:
        print(f"‚è≠Ô∏è  {filename} ya existe, saltando...")

print("üéâ Todas las descargas completadas!")

Descargando yellow_tripdata_2016-01.parquet...
‚úÖ yellow_tripdata_2016-01.parquet descargado
Descargando yellow_tripdata_2016-02.parquet...
‚úÖ yellow_tripdata_2016-02.parquet descargado
Descargando yellow_tripdata_2016-03.parquet...
‚úÖ yellow_tripdata_2016-03.parquet descargado
Descargando yellow_tripdata_2016-04.parquet...
‚úÖ yellow_tripdata_2016-04.parquet descargado
Descargando yellow_tripdata_2016-05.parquet...
‚úÖ yellow_tripdata_2016-05.parquet descargado
Descargando yellow_tripdata_2016-06.parquet...
‚úÖ yellow_tripdata_2016-06.parquet descargado
üéâ Todas las descargas completadas!


Verificaci√≥n de Archivos Descargados

In [2]:
import os
import pandas as pd

# Verificar archivos descargados
archivos_esperados = [
    "yellow_tripdata_2016-01.parquet",
    "yellow_tripdata_2016-02.parquet", 
    "yellow_tripdata_2016-03.parquet",
    "yellow_tripdata_2016-04.parquet",
    "yellow_tripdata_2016-05.parquet",
    "yellow_tripdata_2016-06.parquet"
]

print("=== VERIFICACI√ìN DE ARCHIVOS ===")
for archivo in archivos_esperados:
    if os.path.exists(archivo):
        size_mb = os.path.getsize(archivo) / (1024*1024)
        print(f"‚úÖ {archivo} - {size_mb:.1f} MB")
    else:
        print(f"‚ùå {archivo} - NO ENCONTRADO")

=== VERIFICACI√ìN DE ARCHIVOS ===
‚úÖ yellow_tripdata_2016-01.parquet - 144.2 MB
‚úÖ yellow_tripdata_2016-02.parquet - 150.8 MB
‚úÖ yellow_tripdata_2016-03.parquet - 162.1 MB
‚úÖ yellow_tripdata_2016-04.parquet - 157.9 MB
‚úÖ yellow_tripdata_2016-05.parquet - 158.1 MB
‚úÖ yellow_tripdata_2016-06.parquet - 149.0 MB


Combinaci√≥n de Archivos

In [1]:
import pandas as pd
import numpy as np

print("üéØ Procesando SOLO Enero 2016 (muestra representativa)")

# Cargar solo el primer archivo
df = pd.read_parquet("yellow_tripdata_2016-01.parquet")
print(f"Registros originales: {len(df):,}")

# Tomar muestra aleatoria de 500k registros 
np.random.seed(42)  # Para reproducibilidad
sample_size = 500000

if len(df) > sample_size:
    df_sample = df.sample(n=sample_size, random_state=42)
    print(f"Muestra aleatoria: {len(df_sample):,} registros")
else:
    df_sample = df
    print(f"Dataset completo: {len(df_sample):,} registros")

# Verificar distribuci√≥n temporal
print(f"Per√≠odo: {df_sample['tpep_pickup_datetime'].min()} a {df_sample['tpep_pickup_datetime'].max()}")

üéØ Procesando SOLO Enero 2016 (muestra representativa)
Registros originales: 10,905,067
Muestra aleatoria: 500,000 registros
Per√≠odo: 2016-01-01 00:00:00 a 2016-01-31 23:59:20


Creaci√≥n de Variable Target y Limpieza

In [2]:
# Crear variable target: duraci√≥n del viaje
print("‚è±Ô∏è  Calculando duraci√≥n de viajes...")

df_sample['trip_duration'] = (
    df_sample['tpep_dropoff_datetime'] - df_sample['tpep_pickup_datetime']
).dt.total_seconds()

# Estad√≠sticas iniciales de duraci√≥n
print(f"Duraci√≥n promedio: {df_sample['trip_duration'].mean()/60:.1f} minutos")
print(f"Duraci√≥n mediana: {df_sample['trip_duration'].median()/60:.1f} minutos")
print(f"Duraci√≥n m√≠nima: {df_sample['trip_duration'].min()/60:.1f} minutos")
print(f"Duraci√≥n m√°xima: {df_sample['trip_duration'].max()/60:.1f} minutos")

# Verificar valores problem√°ticos
invalid_durations = (df_sample['trip_duration'] <= 0).sum()
extreme_durations = (df_sample['trip_duration'] > 10800).sum()  # >3 horas
print(f"‚ö†Ô∏è  Duraciones inv√°lidas (‚â§0): {invalid_durations:,}")
print(f"‚ö†Ô∏è  Duraciones extremas (>3h): {extreme_durations:,}")

‚è±Ô∏è  Calculando duraci√≥n de viajes...
Duraci√≥n promedio: 15.2 minutos
Duraci√≥n mediana: 10.4 minutos
Duraci√≥n m√≠nima: 0.0 minutos
Duraci√≥n m√°xima: 31113.0 minutos
‚ö†Ô∏è  Duraciones inv√°lidas (‚â§0): 549
‚ö†Ô∏è  Duraciones extremas (>3h): 750


Verificar Nombres de Columnas

In [4]:
# Verificar estructura del dataset
print("üîç VERIFICANDO ESTRUCTURA DEL DATASET")
print(f"Columnas disponibles: {list(df_sample.columns)}")
print(f"Total columnas: {len(df_sample.columns)}")
print("\nPrimeras 3 filas:")
print(df_sample.head(3))

üîç VERIFICANDO ESTRUCTURA DEL DATASET
Columnas disponibles: ['VendorID', 'tpep_pickup_datetime', 'tpep_dropoff_datetime', 'passenger_count', 'trip_distance', 'RatecodeID', 'store_and_fwd_flag', 'PULocationID', 'DOLocationID', 'payment_type', 'fare_amount', 'extra', 'mta_tax', 'tip_amount', 'tolls_amount', 'improvement_surcharge', 'total_amount', 'congestion_surcharge', 'airport_fee', 'trip_duration']
Total columnas: 20

Primeras 3 filas:
          VendorID tpep_pickup_datetime tpep_dropoff_datetime  \
10490098         1  2016-01-30 21:46:05   2016-01-30 22:10:42   
2864959          2  2016-01-09 11:08:21   2016-01-09 11:13:59   
2557844          2  2016-01-08 16:05:52   2016-01-08 16:26:48   

          passenger_count  trip_distance  RatecodeID store_and_fwd_flag  \
10490098                1           2.20           1                  N   
2864959                 2           1.01           1                  N   
2557844                 1           4.06           1                  

Descargar Archivo de Mapeo de Zonas (estoy aquiii)