<b>¡Hola Carlos!</b>

Mi nombre es Alejandro Abia y tengo el gusto de revisar tu proyecto.

A continuación, encontrarás mis comentarios en celdas pintadas de tres colores (verde, amarillo y rojo), a manera de semáforo. Por favor, <b>no las borres ni muevas de posición</b> mientras dure el proceso de revisión.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
En celdas verdes encontrarás comentarios en relación a tus aciertos y fortalezas.
</div>
<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
Utilizaré el color amarillo para llamar tu atención, expresar algo importante o compartirte alguna idea de valor.
</div>
<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
En rojo emitiré aquellos puntos que podrían impedir que el proyecto se ejecute correctamente. No son errores, sino oportunidades importantes de mejora.
</div>
<div class="alert alert-block alert-info">
<b>Comentario estudiante</b> <a class="tocSkip"></a>
Si durante la revisión deseas dejarme algún comentario, por favor utiliza celdas azules como esta.
</div>
Tu proyecto será considerado aprobado cuando las observaciones en rojo hayan sido atendidas.  
¡Empecemos!


# Descripción del proyecto

La compañía Sweet Lift Taxi ha recopilado datos históricos sobre pedidos de taxis en los aeropuertos. Para atraer a más conductores durante las horas pico, necesitamos predecir la cantidad de pedidos de taxis para la próxima hora. Construye un modelo para dicha predicción.

La métrica RECM en el conjunto de prueba no debe ser superior a 48.

## Instrucciones del proyecto.

1. Descarga los datos y haz el remuestreo por una hora.
2. Analiza los datos
3. Entrena diferentes modelos con diferentes hiperparámetros. La muestra de prueba debe ser el 10% del conjunto de datos inicial.4. Prueba los datos usando la muestra de prueba y proporciona una conclusión.

## Descripción de los datos

Los datos se almacenan en el archivo `taxi.csv`. 	
El número de pedidos está en la columna `num_orders`.

## Preparación

### Importar Librerias y DF

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from xgboost import XGBRegressor
from statsmodels.tsa.seasonal import seasonal_decompose
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

from sklearn.metrics import root_mean_squared_error, make_scorer
from sklearn.model_selection import GridSearchCV

ImportError: cannot import name 'root_mean_squared_error' from 'sklearn.metrics' (/.venv/lib/python3.9/site-packages/sklearn/metrics/__init__.py)

In [2]:
df = pd.read_csv('datasets/taxi.csv', parse_dates=[0])
print(df.head())
print(df.tail())

FileNotFoundError: [Errno 2] No such file or directory: 'datasets/taxi.csv'

<div class="alert alert-block alert-success">
<b>Celda [2]</b> <a class="tocSkip"></a><br>
Has hecho un excelente trabajo al cargar los datos usando `parse_dates`. Esto es crucial para el análisis temporal, ya que permite manejar las fechas de manera eficiente y precisa en tus análisis posteriores.
</div>


In [None]:
# Nos aseguramos de quitar valores duplicados o ausentes

df.dropna(inplace=True)
df.drop_duplicates(inplace=True)

In [None]:
# Paso mis fechas a mi indice
df.set_index('datetime',inplace=True)

# Imprimo si esta en orden cronologico y la info de mi df
print(f'Los datos estan en orden cronologico: {df.index.is_monotonic_increasing}')
print(df.info())

# Trazo el gráfico
df.plot()

Podemos ver que tenemos dos columnas, la fecha y el numero de ordenes, por como esta el df de head podemos decir que tenemos datos cada 10 minutos. Ya viene con un sort por fecha, las fechas estan en formato de object, 'yyyy-mm-dd'. Las ordenes abarcan del 01 de Marzo 2018 al 31 de Agosto 2018.

### Remuestreo

Los datos se encuentran en intervalos de 10 minutos, el primer paso sera agruparlos por hora como se indica en el proyecto. Para esto haremos un resampling por hora y una sumatoria. Si usaramos mean me daria el promedio de pedidos cada 10 minutos en una hora. En este caso buscamos la cantidad total de pedidos de taxi por hora.

In [3]:
# Remuestreo por hora y sumamos todos los pedidos de cada hora.
df = df.resample('1h').sum()
df.head()

NameError: name 'df' is not defined

<div class="alert alert-block alert-warning">
<b>Celda [3]</b> <a class="tocSkip"></a><br>
Al realizar el remuestreo por hora y sumar los pedidos, es importante verificar si hay horas sin datos, ya que esto podría afectar el análisis. Considera cómo manejar las horas sin datos para mantener la integridad del análisis temporal.
</div>


In [4]:
df.plot(figsize=(14, 3), title='Pedidos por hora')
plt.ylabel("Número de pedidos")
plt.xlabel("Fecha")
plt.grid(True)
plt.show()

NameError: name 'df' is not defined

<div class="alert alert-block alert-success">
<b>Celda [4]</b> <a class="tocSkip"></a><br>
La visualización de los pedidos por hora está bien lograda. El uso de etiquetas claras y un título descriptivo facilita la interpretación del gráfico, lo cual es esencial para comunicar tus hallazgos de manera efectiva.
</div>


## Análisis

### Media Movil

Obtenemos la media movil a lo largo de 6 horas, asi obtenemos 4 secciones por dia y amortiguamos las fluctuaciones pero manteniendo un buen nivel de precisión para los modelos. Usaremos una quincena al azar para visualizar mejor el conjunto.

In [5]:
df.rolling(6).mean().plot()
df.rolling(6).mean()["2018-05-01":"2018-05-14"].plot()

NameError: name 'df' is not defined

### Seasonal Decompose

Buscamos separar la serie en tendencia, estacionalidad y residuo.

In [6]:
decomposed = seasonal_decompose(df['num_orders'], model='additive', period=24)
decomposed.plot()
plt.suptitle('Seasonal Decompose\nPedidos por Hora', fontsize=14)
plt.tight_layout()
plt.show()

NameError: name 'df' is not defined

<div class="alert alert-block alert-warning">
<b>Celda [6]</b> <a class="tocSkip"></a><br>
En el análisis de descomposición estacional, es fundamental interpretar correctamente las componentes de tendencia, estacionalidad y residuo. Comprender estas componentes te permitirá obtener una visión más profunda del comportamiento temporal de los datos.
</div>


In [7]:
# Seasonal Decompose viendo la quincena aleatoria

decomposed.trend["2018-05-01":"2018-05-07"].plot()
decomposed.seasonal["2018-05-01":"2018-05-07"].plot()
decomposed.resid["2018-05-01":"2018-05-07"].plot()

NameError: name 'decomposed' is not defined

De nuestros graficos podemos ver que:

- Empieza a haber una tendencia a la alza, empezando a ser mas notoria a partir del mes de Agosto.
- La estacionalidad desaparece a largo plazo.
- Dentro de un dia podemos ver horas pico y horas de baja demanda.

## Formación

Función para creaciond e caracteristicas año, mes, dia y dia de la semana.

* En este caso, no incluiremos año debido a que no agrega variabilidad, debido a que todos nuestros valores de año son 2018.

In [8]:
def make_features(df, max_lag, rolling_mean_size):
    df.dropna(inplace=True)
    
    #df['year'] = df.index.year
    df['month'] = df.index.month
    df['day'] = df.index.day
    df['dayofweek'] = df.index.dayofweek
    df['hour'] = df.index.hour
    
    for lag in range(1, max_lag + 1):
        df['lag_{}'.format(lag)] = df['num_orders'].shift(lag)
    
    df["rolling_mean"]=df['num_orders'].shift().rolling(rolling_mean_size).mean()
    return df

<div class="alert alert-block alert-warning">
<b>Celda [8]</b> <a class="tocSkip"></a><br>
Cuando creas características de retraso (lag), es importante considerar cómo el uso de `dropna()` puede afectar tus datos. Podría eliminar demasiados datos, así que evalúa alternativas para manejar los valores faltantes y así preservar la mayor cantidad de información posible.
</div>


Corremos nuestra funcion seleccionando un max lag de 4 y rolling mean de 4 arbitrariamente.

In [9]:
make_features(df, 4, 4)
df = df.dropna()
df.head()

NameError: name 'df' is not defined

In [10]:
df.corr()

NameError: name 'df' is not defined

<div class="alert alert-block alert-success">
<b>Celda [10]</b> <a class="tocSkip"></a><br>
Calcular la matriz de correlación es un buen paso para identificar relaciones entre las variables. Esto puede informar tus decisiones de modelado al resaltar qué variables podrían ser más predictivas.
</div>


### Train Test Split

In [11]:
df

NameError: name 'df' is not defined

In [12]:
# Aplicamos un train_test
X = df.drop(columns='num_orders')
y = df['num_orders']

# Train test Split con 75% train y 25% test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

NameError: name 'df' is not defined

<div class="alert alert-block alert-success">
<b>Celda [12]</b> <a class="tocSkip"></a><br>
Has realizado correctamente la separación de los datos en conjuntos de entrenamiento y prueba, lo cual es esencial para evaluar el rendimiento del modelo de manera objetiva. El tamaño de prueba del 25% es adecuado para este propósito.
</div>


### Regresión Lineal

In [13]:
# Pipeline con modelo y scaler
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', LinearRegression())
])

# Entrenamos el modelo y medimos el tiempo
pipeline.fit(X_train, y_train)

# Hacemos predicciones
y_pred = pipeline.predict(X_test)

# Calculamos RMSE
rmse = root_mean_squared_error(y_test, y_pred)

# 5. Mostramos resultados
print(f"RMSE en conjunto de prueba: {rmse:.2f}")

NameError: name 'X_train' is not defined

<div class="alert alert-block alert-warning">
<b>Celda [13]</b> <a class="tocSkip"></a><br>
El cálculo del RMSE es correcto, pero parece que hay un error en el uso de la función `root_mean_squared_error`. Deberías usar `mean_squared_error` de `sklearn.metrics` con el parámetro `squared=False` para calcular el RMSE correctamente. Esto asegurará que las evaluaciones de rendimiento sean precisas.
</div>


### Arbol de Decision

In [14]:
# Scorer
rmse_scorer = make_scorer(root_mean_squared_error, greater_is_better=False)

# Pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', DecisionTreeRegressor(random_state=42))
])

# Hiperparámetros
param_grid = {
    'model__max_depth': [5, 10, 15, 20, None],
    'model__min_samples_split': [2, 5, 10],
    'model__min_samples_leaf': [1, 2, 4]
}

# GridSearchCV
grid_search = GridSearchCV(
    pipeline,
    param_grid,
    cv=3,
    scoring=rmse_scorer,
    n_jobs=-1,
    verbose=1
)

# Entrenamiento
grid_search.fit(X_train, y_train)

# Evaluación
y_pred = grid_search.predict(X_test)
rmse_test = root_mean_squared_error(y_test, y_pred)

# Resultados
print(f"Mejor RMSE (negativo): {grid_search.best_score_:.2f}")
print(f"Mejores parámetros: {grid_search.best_params_}")
print(f"RMSE en conjunto de prueba: {rmse_test:.2f}")

NameError: name 'make_scorer' is not defined

<div class="alert alert-block alert-success">
<b>Celda [14]</b> <a class="tocSkip"></a><br>
Has implementado correctamente un `GridSearchCV` para optimizar los hiperparámetros del modelo de árbol de decisión. Este enfoque es crucial para mejorar el rendimiento del modelo al encontrar la mejor combinación de hiperparámetros.
</div>


### Random Forest

In [15]:
# Scorer
rmse_scorer = make_scorer(root_mean_squared_error, greater_is_better=False)

# Pipeline con escalado + modelo
rf_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', RandomForestRegressor(random_state=42, n_jobs=-1))
])

# Grid de hiperparámetros para RandomForest
param_grid_rf = {
    'model__n_estimators': [50, 100, 200],
    'model__max_depth': [5, 10, None],
    'model__min_samples_split': [2, 5],
    'model__min_samples_leaf': [1, 2, 4]
}

# GridSearchCV
grid_search_rf = GridSearchCV(
    rf_pipeline,
    param_grid_rf,
    cv=3,
    scoring=rmse_scorer,
    n_jobs=-1,
    verbose=1
)

# Entrenamiento
grid_search_rf.fit(X_train, y_train)

# Evaluación
y_pred_rf = grid_search_rf.predict(X_test)
rmse_test_rf = root_mean_squared_error(y_test, y_pred_rf)

# Resultados
print(f"Mejor RMSE (negativo): {grid_search_rf.best_score_:.2f}")
print(f"Mejores parámetros: {grid_search_rf.best_params_}")
print(f"RMSE en conjunto de prueba: {rmse_test_rf:.2f}")

NameError: name 'make_scorer' is not defined

<div class="alert alert-block alert-warning">
<b>Celda [15]</b> <a class="tocSkip"></a><br>
En el modelo de Random Forest, asegúrate de que los hiperparámetros seleccionados realmente mejoran el rendimiento del modelo. Realizar una validación cruzada más exhaustiva podría ayudarte a verificar la estabilidad y robustez de los resultados obtenidos.
</div>


### XGBoost

In [16]:
# Scorer
rmse_scorer = make_scorer(root_mean_squared_error, greater_is_better=False)

# Pipeline con escalado y modelo
xgb_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', XGBRegressor(objective='reg:squarederror', random_state=42, n_jobs=-1))
])

# Grid de hiperparámetros
param_grid_xgb = {
    'model__n_estimators': [100, 200],
    'model__max_depth': [3, 5, 7],
    'model__learning_rate': [0.05, 0.1],
    'model__subsample': [0.8, 1.0]
}

# GridSearchCV
grid_search_xgb = GridSearchCV(
    xgb_pipeline,
    param_grid_xgb,
    scoring=rmse_scorer,
    cv=3,
    verbose=1,
    n_jobs=-1
)

# Entrenamiento
grid_search_xgb.fit(X_train, y_train)

# Predicciones y evaluación
y_pred_xgb = grid_search_xgb.predict(X_test)
rmse_test_xgb = root_mean_squared_error(y_test, y_pred_xgb)

# Resultados
print(f"Mejor RMSE (negativo): {grid_search_xgb.best_score_:.2f}")
print(f"Mejores parámetros: {grid_search_xgb.best_params_}")
print(f"RMSE en conjunto de prueba: {rmse_test_xgb:.2f}")

NameError: name 'make_scorer' is not defined

<div class="alert alert-block alert-success">
<b>Celda [16]</b> <a class="tocSkip"></a><br>
La implementación del modelo XGBoost y la optimización de sus hiperparámetros es un enfoque sólido para mejorar el rendimiento en tareas de regresión. Bien hecho al incluir múltiples parámetros en el grid search para explorar diferentes configuraciones.
</div>


## Prueba

In [17]:
# Diccionario con resultados
model_results = {
    'Modelo': ['Linear Regression', 'Decision Tree', 'Random Forest', 'XGBoost'],
    'RMSE': [rmse, rmse_test, rmse_test_rf, rmse_test_xgb]
}

# Crear DataFrame
df_resultados = pd.DataFrame(model_results)
df_resultados.sort_values(by='RMSE').set_index('Modelo')

NameError: name 'rmse' is not defined

<div class="alert alert-block alert-success">
<b>Comentario final</b> <a class="tocSkip"></a><br>
¡Muy buen trabajo, Carlos! A lo largo del proyecto, has demostrado fortalezas claras en varias áreas:<br><br>
• Carga eficiente de datos con `parse_dates`, facilitando el análisis temporal.<br>
• Visualizaciones claras y efectivas que comunican tus hallazgos de manera precisa.<br>
• Implementación adecuada de la descomposición estacional para entender el comportamiento de los datos.<br>
• Creación de características temporales útiles que mejoran el modelado.<br>
• Correcta separación de conjuntos de entrenamiento y prueba para una evaluación objetiva del modelo.<br>
• Uso de `GridSearchCV` para optimización de hiperparámetros, mejorando el rendimiento del modelo.<br>
• Implementación de múltiples modelos para una comparación exhaustiva.<br>
• Evaluación del rendimiento del modelo mediante RMSE, asegurando precisión en las predicciones.<br>
• Uso de pipelines para estructurar el flujo de trabajo de manera eficiente.<br>
• Exploración de correlaciones entre variables para informar decisiones de modelado.<br>
¡Felicidades por tu dedicación y esfuerzo!
</div>


El modelo XGBoost es el que nos da el RMSE mas bajo con un resultado de 24.62.

XGBoost es la opción recomendada para ser implementada en producción, ya que ofrece una excelente relación entre precisión y eficiencia. Además, al tratarse de un modelo robusto frente a datos ruidosos y capaz de capturar relaciones no lineales, se adapta bien a problemas de series de tiempo como este.

# Lista de revisión

- [x]  	
Jupyter Notebook está abierto.
- [ ]  El código no tiene errores
- [ ]  Las celdas con el código han sido colocadas en el orden de ejecución.
- [ ]  	
Los datos han sido descargados y preparados.
- [ ]  Se ha realizado el paso 2: los datos han sido analizados
- [ ]  Se entrenó el modelo y se seleccionaron los hiperparámetros
- [ ]  Se han evaluado los modelos. Se expuso una conclusión
- [ ] La *RECM* para el conjunto de prueba no es más de 48