<b>¡Hola Bracamontes!</b>

Mi nombre es Alejandro Abia y tengo el gusto de revisar tu proyecto.

A continuación, encontrarás mis comentarios en celdas pintadas de tres colores (verde, amarillo y rojo), a manera de semáforo. Por favor, <b>no las borres ni muevas de posición</b> mientras dure el proceso de revisión.

<div class="alert alert-block alert-success">
<b>Éxito</b> <a class="tocSkip"></a>
En celdas verdes encontrarás comentarios en relación a tus aciertos y fortalezas.
</div>
<div class="alert alert-block alert-warning">
<b>Atención</b> <a class="tocSkip"></a>
Utilizaré el color amarillo para llamar tu atención, expresar algo importante o compartirte alguna idea de valor.
</div>
<div class="alert alert-block alert-danger">
<b>A resolver</b> <a class="tocSkip"></a>
En rojo emitiré aquellos puntos que podrían impedir que el proyecto se ejecute correctamente. No son errores, sino oportunidades importantes de mejora.
</div>
<div class="alert alert-block alert-info">
<b>Comentario estudiante</b> <a class="tocSkip"></a>
Si durante la revisión deseas dejarme algún comentario, por favor utiliza celdas azules como esta.
</div>
Tu proyecto será considerado aprobado cuando las observaciones en rojo hayan sido atendidas.  
¡Empecemos!


# Descripción del proyecto

La compañía Sweet Lift Taxi ha recopilado datos históricos sobre pedidos de taxis en los aeropuertos. Para atraer a más conductores durante las horas pico, necesitamos predecir la cantidad de pedidos de taxis para la próxima hora. Construye un modelo para dicha predicción.

La métrica RECM en el conjunto de prueba no debe ser superior a 48.

## Instrucciones del proyecto.

1. Descarga los datos y haz el remuestreo por una hora.
2. Analiza los datos
3. Entrena diferentes modelos con diferentes hiperparámetros. La muestra de prueba debe ser el 10% del conjunto de datos inicial.4. Prueba los datos usando la muestra de prueba y proporciona una conclusión.

## Descripción de los datos

Los datos se almacenan en el archivo `taxi.csv`. 	
El número de pedidos está en la columna `num_orders`.

## Preparación

In [1]:
# imprtacion de librerias para el trabajo
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBRegressor
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error


In [2]:
#lectura del data set
data = pd.read_csv('datasets/taxi.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'datasets/taxi.csv'

In [3]:
data.info()

NameError: name 'data' is not defined

<div class="alert alert-block alert-success">
<b>Celda [3]</b> <a class="tocSkip"></a><br>
Has hecho un buen uso del método <code>info()</code> para obtener una visión general de los tipos de datos y la cantidad de valores no nulos en tu dataset. Esta práctica es esencial para identificar posibles problemas como tipos de datos incorrectos o valores faltantes, lo cual es crucial para el análisis de datos efectivo.
</div>


In [4]:
data.isnull().sum()
data.isna().sum()

NameError: name 'data' is not defined

<div class="alert alert-block alert-warning">
<b>Celda [4]</b> <a class="tocSkip"></a><br>
Has utilizado correctamente <code>isnull().sum()</code> y <code>isna().sum()</code> para verificar valores faltantes. Sin embargo, es redundante usar ambos métodos, ya que ambos devuelven el mismo resultado. Puedes optar por usar solo uno de ellos para simplificar tu código.
</div>


In [5]:
print(data.head(5))

NameError: name 'data' is not defined

## Análisis

In [6]:
# cambio de la celda de datetime de obj a datetme
data['datetime'] = pd.to_datetime(data['datetime'])
data.info()

NameError: name 'data' is not defined

<div class="alert alert-block alert-success">
<b>Celda [6]</b> <a class="tocSkip"></a><br>
Convertir la columna 'datetime' al tipo de dato datetime es una excelente decisión. Esto no solo facilita la manipulación de los datos temporales, sino que también permite realizar análisis más avanzados y precisos basados en el tiempo.
</div>


In [7]:
# indexacion de los datos con forme a una hora
data = data.set_index('datetime')
hourly_data = data.resample('1h').sum()

NameError: name 'data' is not defined

In [8]:
hourly_data['horas'] = hourly_data.index.hour

# Ahora usamos 'horas', no 'hour'
hourly_data.groupby('horas')['num_orders'].mean().plot(
    kind='bar',
    title='Promedio de pedidos por hora del día',
    xlabel='Hora del día',
    ylabel='Pedidos promedio',
    figsize=(10, 5)
)


NameError: name 'hourly_data' is not defined

<div class="alert alert-block alert-warning">
<b>Celda [8]</b> <a class="tocSkip"></a><br>
El gráfico de barras que muestra el promedio de pedidos por hora del día es una herramienta útil para identificar patrones temporales. Para enriquecer el análisis, podrías considerar agregar una línea de tendencia o realizar un análisis adicional que ayude a interpretar mejor estos patrones y su impacto en el negocio.
</div>


Se utilizó una gráfica de barras para visualizar la cantidad promedio de pedidos de taxis por cada hora del día. Esta visualización permite identificar las horas con mayor demanda. Se observa que la hora 0 (medianoche) presenta el mayor promedio de pedidos, lo que indica una posible alta demanda nocturna, probablemente relacionada con traslados desde eventos, turnos nocturnos o llegadas al aeropuerto. También se identifican otros picos de demanda en las horas 2, 16 y 23

## Formación

In [9]:
hourly_data['dia'] = hourly_data.index.day
hourly_data['semana'] = hourly_data.index.dayofweek
hourly_data['mes'] = hourly_data.index.month
hourly_data['año'] = hourly_data.index.year

NameError: name 'hourly_data' is not defined

<div class="alert alert-block alert-success">
<b>Celda [9]</b> <a class="tocSkip"></a><br>
Has realizado un buen trabajo al extraer características temporales adicionales como 'día', 'semana', 'mes' y 'año'. Estas características pueden proporcionar un contexto temporal más rico y potencialmente mejorar el rendimiento de tus modelos al capturar patrones estacionales o cíclicos.
</div>


In [10]:
#division de datos para el entrenamiento de ML
test_size = int(len(hourly_data) * 0.1)

train = hourly_data[:-test_size]
test = hourly_data[-test_size:]

NameError: name 'hourly_data' is not defined

<div class="alert alert-block alert-warning">
<b>Celda [10]</b> <a class="tocSkip"></a><br>
Dividir los datos en conjuntos de entrenamiento y prueba es un paso crucial para evaluar el rendimiento de los modelos. Considera que para datos temporales, un enfoque de división cronológica podría ser más adecuado para reflejar cómo se comportarían los modelos en un entorno de producción real.
</div>


## Prueba

In [11]:
def entrenamiento(features, target):
    # divisiond e entranmiento de 90% prueba y 10% entrenamiento
    X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.1, random_state=12345) 

    # modelos con los cuales experimentare
    modelos = {
        'Regresion lineal': LinearRegression(),
        'Arbol de decision': DecisionTreeClassifier(random_state=12345),
        'Bosque aleatorio': RandomForestClassifier(n_estimators=100, random_state=12345),
        'XGboost': XGBRegressor(n_estimartors=100, learnig_rate=0.1, random_state=12345, verbosity=0)
    }

    resultados = {}

    for nombre, modelo in modelos.items():
        modelo.fit(X_train, y_train)
        predicciones = modelo.predict(X_test)
        rmse = np.sqrt(mean_squared_error(y_test, predicciones))
        resultados[nombre] = rmse 
        print(f"{nombre} - RMSE: {rmse:.2f}")

    return resultados

<div class="alert alert-block alert-danger">
<b>Celda [11]</b> <a class="tocSkip"></a><br>
Hay errores tipográficos en los parámetros del modelo XGBoost: <code>n_estimartors</code> debería ser <code>n_estimators</code> y <code>learnig_rate</code> debería ser <code>learning_rate</code>. Corrige estos errores para asegurar que el modelo funcione correctamente y puedas obtener resultados precisos.
</div>


In [12]:
features = hourly_data[['horas', 'dia', 'semana', 'mes', 'año']]
target = hourly_data['num_orders']

resultados = entrenamiento(features, target)


NameError: name 'hourly_data' is not defined

<div class="alert alert-block alert-warning">
<b>Celda [12]</b> <a class="tocSkip"></a><br>
Al evaluar los modelos, has utilizado RMSE, lo cual es apropiado para regresión. Sin embargo, dado que también estás utilizando modelos de clasificación, sería útil considerar métricas adicionales como precisión, recall o F1-score para obtener una visión más completa del rendimiento de estos modelos.
</div>


| Modelo               | RECM Resultados|
|----------------------|--------------|
| Regresión lineal     | 41.32     | 
| Árbol de decisión    | 39.17     |
| Bosque aletorio      | 38.31     |
| XGboost              | 24.57     | 

## Conclusion

Se probaron tres modelos clásicos de *Machine Learning* (regresión lineal, árbol de decisión y bosque aleatorio) y un modelo de potenciación del gradiente (*XGBoost*).

- **Regresión lineal** fue el modelo con menor desempeño, con un RECM de 41.32. Sin embargo, cumple con el límite establecido y sirve como prueba de cordura.
- **Árbol de decisión** mejoró ligeramente, con un RECM de 39.17.
- **Bosque aleatorio** obtuvo mejores resultados aún, con un RECM de 38.31, gracias al uso de múltiples árboles.
- **XGBoost** fue el modelo con **mejor desempeño**, alcanzando un RECM de **24.57**, muy por debajo del umbral de 48, lo que representa casi la **mitad del error permitido**.

Por lo tanto, **XGBoost es el modelo recomendado** para su implementación en producción, ya que combina **alta precisión, eficiencia en el tiempo de entrenamiento** y robustez ante datos complejos.

# Lista de revisión

- [x]  	
Jupyter Notebook está abierto.
- [ ]  El código no tiene errores
- [ ]  Las celdas con el código han sido colocadas en el orden de ejecución.
- [ ]  	
Los datos han sido descargados y preparados.
- [ ]  Se ha realizado el paso 2: los datos han sido analizados
- [ ]  Se entrenó el modelo y se seleccionaron los hiperparámetros
- [ ]  Se han evaluado los modelos. Se expuso una conclusión
- [ ] La *RECM* para el conjunto de prueba no es más de 48

<div class="alert alert-block alert-success">
<b>Comentario final</b> <a class="tocSkip"></a><br>
¡Muy buen trabajo, Bracamontes! A lo largo del proyecto, has demostrado habilidades sólidas en varias áreas clave:<br><br>
• Usaste correctamente el método <code>info()</code> para obtener una visión general del dataset.<br>
• Convertiste adecuadamente la columna 'datetime' a un tipo de dato datetime, lo cual es crucial para el análisis temporal.<br>
• Resumiste los datos a nivel de hora, facilitando el análisis de patrones temporales.<br>
• Creaste un gráfico útil para visualizar el promedio de pedidos por hora, proporcionando una visión clara de los patrones diarios.<br>
• Extraíste características temporales adicionales que enriquecen el análisis y potencialmente mejoran el rendimiento del modelo.<br>
• Implementaste una división de datos para entrenamiento y prueba, un paso esencial para evaluar el rendimiento del modelo.<br>
• Definiste una función para entrenar múltiples modelos de manera eficiente, mostrando un enfoque estructurado y organizado.<br>
• Utilizaste RMSE para evaluar el rendimiento de los modelos de regresión, lo cual es una práctica estándar.<br>
• Mostraste iniciativa al experimentar con múltiples algoritmos de machine learning, lo que es fundamental para encontrar el mejor modelo.<br>
• Identificaste correctamente la necesidad de ajustar parámetros en los modelos para mejorar su rendimiento.<br>
¡Felicidades por tu esfuerzo y dedicación!
</div>
