In [1]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
from sklearn.feature_selection import SelectFromModel

# Documentación del proyecto
"""
Proyecto: Predicción de duración de viajes en la ciudad de Nueva York
Autor: Julio Mela
Fecha: 4/7/2023
"""


'\nProyecto: Predicción de duración de viajes en la ciudad de Nueva York\nAutor: Julio Mela\nFecha: 4/7/2023\n'

In [2]:
# Cargar el conjunto de datos
data = pd.read_csv('/content/drive/MyDrive/tarea 3 IA/nyc_taxi_trip_duration.csv')

In [4]:
data.shape
print ("columnas del conjunto de datos")
print (data.columns)

columnas del conjunto de datos
Index(['id', 'vendor_id', 'pickup_datetime', 'dropoff_datetime',
       'passenger_count', 'pickup_longitude', 'pickup_latitude',
       'dropoff_longitude', 'dropoff_latitude', 'store_and_fwd_flag',
       'trip_duration'],
      dtype='object')


In [5]:
data.dtypes

id                     object
vendor_id               int64
pickup_datetime        object
dropoff_datetime       object
passenger_count         int64
pickup_longitude      float64
pickup_latitude       float64
dropoff_longitude     float64
dropoff_latitude      float64
store_and_fwd_flag     object
trip_duration           int64
dtype: object

In [6]:
data.head()

Unnamed: 0,id,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id1080784,2,2016-02-29 16:40:21,2016-02-29 16:47:01,1,-73.953918,40.778873,-73.963875,40.771164,N,400
1,id0889885,1,2016-03-11 23:35:37,2016-03-11 23:53:57,2,-73.988312,40.731743,-73.994751,40.694931,N,1100
2,id0857912,2,2016-02-21 17:59:33,2016-02-21 18:26:48,2,-73.997314,40.721458,-73.948029,40.774918,N,1635
3,id3744273,2,2016-01-05 09:44:31,2016-01-05 10:03:32,6,-73.96167,40.75972,-73.956779,40.780628,N,1141
4,id0232939,1,2016-02-17 06:42:23,2016-02-17 06:56:31,1,-74.01712,40.708469,-73.988182,40.740631,N,848


In [7]:
data.isnull().sum()

id                    0
vendor_id             0
pickup_datetime       0
dropoff_datetime      0
passenger_count       0
pickup_longitude      0
pickup_latitude       0
dropoff_longitude     0
dropoff_latitude      0
store_and_fwd_flag    0
trip_duration         0
dtype: int64

In [8]:
print ("valores unicos de todas las columnas")
for column in data.columns:
  unique_values=data[column].nunique()
  print (f"({column}:{unique_values}")

valores unicos de todas las columnas
(id:729322
(vendor_id:2
(pickup_datetime:709359
(dropoff_datetime:709308
(passenger_count:9
(pickup_longitude:19729
(pickup_latitude:39776
(dropoff_longitude:27892
(dropoff_latitude:53579
(store_and_fwd_flag:2
(trip_duration:6296


In [9]:
data.describe()

Unnamed: 0,vendor_id,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,trip_duration
count,729322.0,729322.0,729322.0,729322.0,729322.0,729322.0,729322.0
mean,1.535403,1.662055,-73.973513,40.750919,-73.973422,40.751775,952.2291
std,0.498745,1.312446,0.069754,0.033594,0.069588,0.036037,3864.626
min,1.0,0.0,-121.933342,34.712234,-121.933304,32.181141,1.0
25%,1.0,1.0,-73.991859,40.737335,-73.991318,40.735931,397.0
50%,2.0,1.0,-73.981758,40.75407,-73.979759,40.754509,663.0
75%,2.0,2.0,-73.967361,40.768314,-73.963036,40.769741,1075.0
max,2.0,9.0,-65.897385,51.881084,-65.897385,43.921028,1939736.0


In [10]:
# Seleccionar las características relevantes
selected_features = ['passenger_count', 'pickup_longitude', 'pickup_latitude', 'dropoff_longitude', 'dropoff_latitude', 'store_and_fwd_flag']

In [37]:
# Crear el conjunto de características X y la variable objetivo y
X = data[selected_features]
y = data['trip_duration']

In [38]:
# Codificar la característica 'store_and_fwd_flag' utilizando one-hot encoding
X_encoded = pd.get_dummies(X, columns=['store_and_fwd_flag'], drop_first=True)

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)



In [39]:
# Modelo de regresión lineal
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)
linear_predictions = linear_model.predict(X_test)

# Calcular el MSE y RMSE para el modelo de regresión lineal
mse_linear = mean_squared_error(y_test, linear_predictions)
rmse_linear = np.sqrt(mse_linear)

print("Modelo de regresión lineal:")
print("RMSE:", rmse_linear)
print("MSE:", mse_linear)

Modelo de regresión lineal:
RMSE: 5906.083639674397
MSE: 34881823.958829574


In [40]:
# Modelo de regresión Ridge
ridge_model = Ridge()
ridge_model.fit(X_train, y_train)
ridge_predictions = ridge_model.predict(X_test)

# Calcular el MSE y RMSE para el modelo de regresión Ridge
mse_ridge = mean_squared_error(y_test, ridge_predictions)
rmse_ridge = np.sqrt(mse_ridge)

print("\nModelo de regresión Ridge:")
print("RMSE:", rmse_ridge)
print("MSE:", mse_ridge)


Modelo de regresión Ridge:
RMSE: 5906.086265626326
MSE: 34881854.97701992


In [41]:
# Modelo de regresión Lasso
lasso_model = Lasso()
lasso_model.fit(X_train, y_train)
lasso_predictions = lasso_model.predict(X_test)

# Calcular el MSE y RMSE para el modelo de regresión Lasso
mse_lasso = mean_squared_error(y_test, lasso_predictions)
rmse_lasso = np.sqrt(mse_lasso)

print("\nModelo de regresión Lasso:")
print("RMSE:", rmse_lasso)
print("MSE:", mse_lasso)


Modelo de regresión Lasso:
RMSE: 5906.752353271487
MSE: 34889723.36287825


In [42]:
# Ajuste de hiperparámetros del mejor modelo
parameters = {'alpha': [0.1, 1.0, 10.0]}
best_model = Ridge()
grid_search = GridSearchCV(best_model, parameters, cv=5)
grid_search.fit(X_train, y_train)
best_model = grid_search.best_estimator_

In [43]:
# Listar las características más importantes
feature_importances = pd.Series(best_model.coef_, index=X.columns).abs().sort_values(ascending=False)
print("Características más importantes:")
print(feature_importances)

Características más importantes:
pickup_latitude       3006.317254
pickup_longitude      2242.448102
dropoff_latitude      1982.048349
dropoff_longitude      513.884879
store_and_fwd_flag     113.737887
passenger_count         40.010779
dtype: float64


In [44]:
# Backtesting del mejor modelo
best_model_predictions = best_model.predict(X_test)
mse = mean_squared_error(y_test, best_model_predictions)
rmse = np.sqrt(mse)
print("RMSE del mejor modelo:", rmse)

RMSE del mejor modelo: 5906.109810290876


In [33]:
# Conclusiones
"""
El mejor modelo de regresión lineal con Ridge muestra un RMSE de 5906.109810290876, lo que indica que el modelo tiene una capacidad razonable para predecir la duración de los viajes en la ciudad de Nueva York. Las características más importantes para el modelo son
pickup_latitude       3006.317254
pickup_longitude      2242.448102
dropoff_latitude      1982.048349
dropoff_longitude      513.884879
store_and_fwd_flag     113.737887
passenger_count         40.010779.
"""

'\nEl mejor modelo de regresión lineal con Ridge muestra un RMSE de 5906.109810290876, lo que indica que el modelo tiene una capacidad razonable para predecir la duración de los viajes en la ciudad de Nueva York. Las características más importantes para el modelo son\npickup_latitude       3006.317254\npickup_longitude      2242.448102\ndropoff_latitude      1982.048349\ndropoff_longitude      513.884879\nstore_and_fwd_flag     113.737887\npassenger_count         40.010779.\n'