## Memoria del Proyecto de Predicción de Tiempos de Entrega

### I. Objetivo del Proyecto

El objetivo de este proyecto es predecir los tiempos de entrega basados en varios factores como las condiciones meteorológicas, la densidad del tráfico y los volúmenes de pedidos, permitiendo una gestión proactiva de las operaciones de entrega.

### II. Descripción del Dataset

El dataset incluye las siguientes características:

- ID: Identificador único para cada entrega.
- Delivery_person_ID: Identificador único para cada repartidor.
- Delivery_person_Age: Edad del repartidor.
- Delivery_person_Ratings: Calificaciones asignadas al repartidor.
- Restaurant_latitude: Latitud del restaurante.
- Restaurant_longitude: Longitud del restaurante.
- Delivery_location_latitude: Latitud del lugar de entrega.
- Delivery_location_longitude: Longitud del lugar de entrega.
- Order_Date: Fecha del pedido.
- Time_Ordered: Hora en que se realizó el pedido.
- Time_Order_picked: Hora en que se recogió el pedido para la entrega.
- Weather_conditions: Condiciones meteorológicas en el momento de la entrega.
- Road_traffic_density: Densidad del tráfico en carretera durante la entrega.
- Vehicle_condition: Condición del vehículo de entrega.
- Type_of_order: Tipo de pedido (por ejemplo, para comer en el lugar, para llevar, entrega).
- Type_of_vehicle: Tipo de vehículo utilizado para la entrega.
- Multiple_deliveries: Indicador de si se realizaron múltiples entregas en el mismo viaje.
- Festival: Indicador de si la entrega coincidió con un festival.
- City: Ciudad donde se realizó la entrega.
- Time_taken (min): Tiempo tomado para la entrega en minutos.

- El dataset contiene 45584 registros.

- Algunas columnas tienen valores nulos (e.g., Delivery_person_Age, Delivery_person_Ratings).

- El dataset incluye tanto variables numéricas como categóricas, lo que requerirá diferentes técnicas de preprocesamiento para cada tipo de variable.

### III. Preprocesamiento de los datos

- Manejo de Valores Nulos

Eliminamos las filas con valores nulos para asegurar la calidad de los datos.

- Conversión de Tipos de Datos

Convertimos las columnas de fecha y hora de object a tipos datetime para facilitar su manipulación.

- Calcular Distancias

Usamos la fórmula de Haversine para calcular la distancia entre el restaurante y la ubicación de entrega.

- Crear Nuevas Características

Creamos nuevas columnas derivadas de las existentes para enriquecer el análisis y el modelado.

- Codificación de Variables Categóricas

Convertimos las variables categóricas a variables numéricas mediante codificación.

- Eliminar Columnas Irrelevantes

Eliminamos columnas que no son relevantes para el modelo de predicción.

### IV. Análisis Exploratorio 

Durante el EDA, se aplicaron diversas técnicas para entender mejor las características del dataset y preparar los datos para el modelado. A continuación se detallan los pasos realizados:

- **Escalado de Variables**

El escalado de variables es crucial para asegurar que todas las características contribuyan de manera equitativa al modelo, especialmente aquellas con diferentes unidades o rangos. Se utilizó el StandardScaler de scikit-learn para escalar las variables numéricas a un rango estándar con media 0 y desviación estándar 1.

- **Análisis de Importancia de Variables**

Se emplearon varias técnicas para evaluar la importancia de las variables y su relación con el target:

Feature Importance con Random Forest:

Se entrenó un modelo de Random Forest para identificar las características más importantes basándose en su capacidad para reducir la impureza en los árboles de decisión.

- **Eliminación de Variables Irrelevantes**

Basado en el análisis de importancia y correlación, se eliminaron las variables que mostraron tener poco o ningún impacto en el target. Este paso es crucial para simplificar el modelo y mejorar su rendimiento, eliminando el ruido y la redundancia.

- **Medición de Correlación con Heatmap**

Se utilizó un heatmap para visualizar la correlación entre las variables y el target. El heatmap ayudó a identificar variables altamente correlacionadas, permitiendo la eliminación de redundancias y mejorando la interpretabilidad del modelo.

- **Visualización de Datos**

Se diseñaron varias gráficas para explorar y entender mejor las distribuciones y relaciones en los datos:

- Histogramas
- Diagramas de Dispersión
- Análisis en Power BI

Se llevó a cabo un análisis exhaustivo utilizando Power BI para aprovechar sus capacidades de visualización interactiva. Esto permitió explorar los datos de manera más dinámica y presentar insights de manera efectiva a los interesados. En Power BI, se crearon dashboards interactivos que incluían:

- Gráficos de Barras y Columnas: Para comparar categorías como el tipo de vehículo y la densidad del tráfico.
- Gráficos de Líneas: Para analizar las tendencias a lo largo del tiempo.
- Mapas Geográficos: Para visualizar la distribución geográfica de las entregas.

### V. Modelos 


Para abordar el problema de predicción de tiempos de entrega, se probaron dos modelos de regresión diferentes: Random Forest Regressor y XGBoost Regressor. Ambos modelos son conocidos por su eficacia en problemas de regresión debido a su capacidad para manejar grandes cantidades de datos y capturar relaciones complejas entre las variables.

- **Random Forest Regressor**

El modelo de Random Forest se basa en la construcción de múltiples árboles de decisión durante el entrenamiento y la salida de la media de las predicciones de los árboles individuales. Este enfoque ayuda a mejorar la precisión y controlar el sobreajuste.

- **XGBoost Regressor**

XGBoost es un algoritmo de boosting que convierte los modelos débiles en fuertes. Este modelo se construye de manera secuencial, donde cada nuevo modelo intenta corregir los errores de los modelos anteriores. XGBoost es conocido por su eficiencia y rendimiento en competiciones de machine learning.

- **Optimización con GridSearch**

Ambos modelos fueron optimizados utilizando GridSearch para encontrar los mejores hiperparámetros. GridSearch es una técnica que realiza una búsqueda exhaustiva sobre un conjunto especificado de valores de hiperparámetros. Se entrenaron y evaluaron múltiples combinaciones de hiperparámetros para identificar la configuración que ofrece el mejor rendimiento.

**Resultados**

El mejor rendimiento se obtuvo con el modelo Random Forest Regressor. A continuación, se presentan los resultados del rendimiento del modelo en los conjuntos de entrenamiento y prueba:

- Mean Absolute Error (MAE) en el entrenamiento: 2.585
- Mean Absolute Percentage Error (MAPE) en el entrenamiento: 0.111
- Mean Absolute Error (MAE) en la prueba: 3.056
- Mean Absolute Percentage Error (MAPE) en la prueba: 0.130

Estos resultados indican que el modelo de Random Forest tiene un buen rendimiento en términos de precisión absoluta y relativa tanto en el conjunto de entrenamiento como en el de prueba. Aunque se observó un ligero aumento en el error en el conjunto de prueba, el modelo sigue siendo robusto y preciso para la predicción de tiempos de entrega.

**Conclusión**

El uso de modelos de regresión avanzados como Random Forest y XGBoost, junto con la optimización de hiperparámetros mediante GridSearch, permitió desarrollar un modelo eficaz para predecir los tiempos de entrega. El modelo de Random Forest Regressor mostró el mejor rendimiento general, lo que lo hace adecuado para su implementación en la gestión proactiva de operaciones de entrega.