In [1]:
# Importa las bibliotecas necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Carga los datos
try:
    # Intenta cargar los datos desde el archivo
    data = pd.read_csv('files/datasets/input/taxi.csv')
    print("Los datos se cargaron exitosamente.")

except FileNotFoundError:
    print("El archivo no se encontró.")

Los datos se cargaron exitosamente.


In [3]:
# Visualiza las primneras entradas
display(data.head())

Unnamed: 0,datetime,num_orders
0,2018-03-01 00:00:00,9
1,2018-03-01 00:10:00,14
2,2018-03-01 00:20:00,28
3,2018-03-01 00:30:00,20
4,2018-03-01 00:40:00,32


In [4]:
# Convierte la columna de fecha a formato datetime y establecerla como índice
data['datetime'] = pd.to_datetime(data['datetime'])
data.set_index('datetime', inplace=True)
display(data.head())

Unnamed: 0_level_0,num_orders
datetime,Unnamed: 1_level_1
2018-03-01 00:00:00,9
2018-03-01 00:10:00,14
2018-03-01 00:20:00,28
2018-03-01 00:30:00,20
2018-03-01 00:40:00,32


In [5]:
# Remuestrea los datos por hora y sumar los pedidos de taxi
data_resampled = data.resample('H').sum()

In [6]:
# Agrega características adicionales derivadas de la fecha y hora
data_resampled['hour'] = data_resampled.index.hour
data_resampled['day_of_week'] = data_resampled.index.dayofweek

In [7]:
# Prepara los datos para predecir la próxima hora
data_resampled['next_hour_orders'] = data_resampled['num_orders'].shift(-1)

# Elimina la última fila, ya que no hay datos para la próxima hora
data_resampled.dropna(inplace=True)

In [8]:
# Divide los datos en características (X) y etiquetas (y)
X = data_resampled.drop('num_orders', axis=1)
y = data_resampled['next_hour_orders']

In [9]:
# Divide los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=12345)