<a href="https://colab.research.google.com/github/settilea/Leandro_Setti_Proyecto_final_DataScience2/blob/main/LeandroSetti_Proyecto_Data_Science2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üöñ NYC Taxi Trip Duration Analysis & Prediction
## üìã Descripci√≥n del Proyecto
Este proyecto de Data Science tiene como objetivo predecir la duraci√≥n total de viajes en taxi en la ciudad de Nueva York. Utilizando un enfoque de **Machine Learning** y **An√°lisis Geoespacial**, el modelo no solo considera variables temporales (hora/d√≠a), sino que enriquece los datos con informaci√≥n clim√°tica y caracter√≠sticas espaciales complejas (barrios y rutas te√≥ricas).

El proyecto simula un escenario real de log√≠stica urbana donde la estimaci√≥n precisa del tiempo de llegada (ETA) es cr√≠tica para la eficiencia operativa.

## üéØ Objetivos
* Realizar un An√°lisis Exploratorio de Datos (EDA) profundo sobre el dataset de Taxis de NYC.
* Enriquecer el dataset original con datos externos: **Clima** y **Pol√≠gonos de Barrios (GeoJSON)**.
* Implementar ingenier√≠a de caracter√≠sticas geoespaciales (Spatial Joins) para determinar zonas de origen y destino.
* Utilizar la **API de OSRM** para calcular rutas √≥ptimas te√≥ricas y comparar distancias de manejo vs. distancias euclidianas.
* Entrenar modelos de regresi√≥n (Linear, Random Forest, XGBoost) para predecir la duraci√≥n del viaje.

## Instalaci√≥n e importaci√≥n de librer√≠as necesarias para el proyecto

In [2]:
!pip install geopandas shapely polyline


Collecting polyline
  Downloading polyline-2.0.4-py3-none-any.whl.metadata (6.5 kB)
Downloading polyline-2.0.4-py3-none-any.whl (7.2 kB)
Installing collected packages: polyline
Successfully installed polyline-2.0.4


In [4]:
import pandas as pd
import numpy as np
import geopandas as gpd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import os
from google.colab import userdata

# Configuraci√≥n visual para ver todas las columnas
pd.set_option('display.max_columns', None)
import warnings
warnings.filterwarnings('ignore') # Para que no molesten los avisos de versiones

print("¬°Librer√≠as cargadas correctamente!")

¬°Librer√≠as cargadas correctamente!


## Carga del dataset
Cargamos el dataset directamente desde Kaggle, mediante la API

In [5]:
try:
    os.environ["KAGGLE_USERNAME"] = userdata.get('KAGGLE_USERNAME')
    os.environ["KAGGLE_KEY"] = userdata.get('KAGGLE_KEY')
    print("‚úÖ Credenciales cargadas correctamente desde Secrets.")
except Exception as e:
    print("‚ùå Error: No se encontraron los secretos. Revisa el √≠cono de la Llave en la barra lateral.")

# 2. Descargar el dataset (Igual que antes, pero ahora "m√°gicamente" tiene permiso)
!kaggle datasets download -d yasserh/nyc-taxi-trip-duration

# 3. Descomprimir
!unzip -q -o nyc-taxi-trip-duration.zip  # -o para sobrescribir si ya existe

# 4. Verificar
import pandas as pd
print("\nArchivos listos:")
print(os.listdir())

‚úÖ Credenciales cargadas correctamente desde Secrets.
Dataset URL: https://www.kaggle.com/datasets/yasserh/nyc-taxi-trip-duration
License(s): CC0-1.0
Downloading nyc-taxi-trip-duration.zip to /content
  0% 0.00/63.9M [00:00<?, ?B/s]
100% 63.9M/63.9M [00:00<00:00, 1.40GB/s]

Archivos listos:
['.config', 'NYC.csv', 'nyc-taxi-trip-duration.zip', 'sample_data']


## An√°lisis exploratorio del dataset
una vez extraidos los archivos de Kaggle vamos a realiza los primeros an√°lisis para poder entender la informaci√≥n que tenemos

In [6]:
# 1. Cargar el archivo
print("Cargando dataset...")
df = pd.read_csv('NYC.csv')

# 2. Verificaci√≥n r√°pida
print(f"¬°Carga completa! El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
display(df.head())

Cargando dataset...
¬°Carga completa! El dataset tiene 1458644 filas y 11 columnas.


Unnamed: 0,id,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,2,2016-03-14 17:24:55,2016-03-14 17:32:30,1,-73.982155,40.767937,-73.96463,40.765602,N,455
1,id2377394,1,2016-06-12 00:43:35,2016-06-12 00:54:38,1,-73.980415,40.738564,-73.999481,40.731152,N,663
2,id3858529,2,2016-01-19 11:35:24,2016-01-19 12:10:48,1,-73.979027,40.763939,-74.005333,40.710087,N,2124
3,id3504673,2,2016-04-06 19:32:31,2016-04-06 19:39:40,1,-74.01004,40.719971,-74.012268,40.706718,N,429
4,id2181028,2,2016-03-26 13:30:55,2016-03-26 13:38:10,1,-73.973053,40.793209,-73.972923,40.78252,N,435


In [7]:
# Convertir columnas de texto a fecha (Datetime), vital para poder sacar "hora del d√≠a", "d√≠a de la semana", etc.
df['pickup_datetime'] = pd.to_datetime(df['pickup_datetime'])
df['dropoff_datetime'] = pd.to_datetime(df['dropoff_datetime'])

display(df.head())

Unnamed: 0,id,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id2875421,2,2016-03-14 17:24:55,2016-03-14 17:32:30,1,-73.982155,40.767937,-73.96463,40.765602,N,455
1,id2377394,1,2016-06-12 00:43:35,2016-06-12 00:54:38,1,-73.980415,40.738564,-73.999481,40.731152,N,663
2,id3858529,2,2016-01-19 11:35:24,2016-01-19 12:10:48,1,-73.979027,40.763939,-74.005333,40.710087,N,2124
3,id3504673,2,2016-04-06 19:32:31,2016-04-06 19:39:40,1,-74.01004,40.719971,-74.012268,40.706718,N,429
4,id2181028,2,2016-03-26 13:30:55,2016-03-26 13:38:10,1,-73.973053,40.793209,-73.972923,40.78252,N,435


In [8]:
# A. Ver tipos de datos y nulos
print("--- INFO GENERAL ---")
df.info()

# B. Estad√≠sticas descriptivas
print("\n--- ESTAD√çSTICAS ---")
# Usamos float_format para no ver notaci√≥n cient√≠fica (ej: 1.2e+05)
display(df.describe().apply(lambda s: s.apply('{0:.2f}'.format)))

--- INFO GENERAL ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1458644 entries, 0 to 1458643
Data columns (total 11 columns):
 #   Column              Non-Null Count    Dtype         
---  ------              --------------    -----         
 0   id                  1458644 non-null  object        
 1   vendor_id           1458644 non-null  int64         
 2   pickup_datetime     1458644 non-null  datetime64[ns]
 3   dropoff_datetime    1458644 non-null  datetime64[ns]
 4   passenger_count     1458644 non-null  int64         
 5   pickup_longitude    1458644 non-null  float64       
 6   pickup_latitude     1458644 non-null  float64       
 7   dropoff_longitude   1458644 non-null  float64       
 8   dropoff_latitude    1458644 non-null  float64       
 9   store_and_fwd_flag  1458644 non-null  object        
 10  trip_duration       1458644 non-null  int64         
dtypes: datetime64[ns](2), float64(4), int64(3), object(2)
memory usage: 122.4+ MB

--- ESTAD√çSTICAS ---


Unnamed: 0,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,trip_duration
count,1458644.0,1458644.00,1458644.00,1458644.0,1458644.0,1458644.0,1458644.0,1458644.0,1458644.0
mean,1.53,.2f,.2f,1.66,-73.97,40.75,-73.97,40.75,959.49
min,1.0,.2f,.2f,0.0,-121.93,34.36,-121.93,32.18,1.0
25%,1.0,.2f,.2f,1.0,-73.99,40.74,-73.99,40.74,397.0
50%,2.0,.2f,.2f,1.0,-73.98,40.75,-73.98,40.75,662.0
75%,2.0,.2f,.2f,2.0,-73.97,40.77,-73.96,40.77,1075.0
max,2.0,.2f,.2f,9.0,-61.34,51.88,-61.34,43.92,3526282.0
std,0.5,,,1.31,0.07,0.03,0.07,0.04,5237.43


## Descripci√≥n de los atributos del dataset
###¬øQu√© representa cada variable del dataset?

- **id**: Un identificador √∫nico para cada viaje.
- **vendor_id**: Un c√≥digo que indica el proveedor asociado con el registro del viaje.
- **pickup_datetime**: Fecha y hora en la que se activ√≥ el tax√≠metro.
- **dropoff_datetime**: Fecha y hora en la que se desactiv√≥ el tax√≠metro.
- **passenger_count**: El n√∫mero de pasajeros en el veh√≠culo (valor ingresado por el conductor).
- **pickup_longitude**: La longitud donde se activ√≥ el tax√≠metro.
- **pickup_latitude**: La latitud donde se activ√≥ el tax√≠metro.
- **dropoff_longitude**: La longitud donde se desactiv√≥ el tax√≠metro.
- **dropoff_latitude**: La latitud donde se desactiv√≥ el tax√≠metro.
- **store_and_fwd_flag**: Bandera que indica si el registro del viaje se mantuvo en la memoria del veh√≠culo antes de enviarse al proveedor por falta de conexi√≥n (`Y` = s√≠, almacenado y enviado; `N` = no).