![Image Alt Text](https://www.sas.com/en_gb/resource-center/demand-forecasting/_jcr_content/par/styledcontainer_b10a/image.img.jpg/1500904553463.jpg)

## MEMORIA PROYECTO MACHINE LEARNING- FOOD DEMAND


>**OBJETIVO DEL PROYECTO**\
 **PREDICCIÓN DEL NUMERO DE ORDENES A RECIBIR EN LAS PROXÍMAS 10 SEMANAS.**

**Introducción**\
 En el ámbito económico, la demanda se define como el deseo del consumidor de adquirir bienes y servicios, y su disposición a pagar un precio por un producto o servicio específico. La previsión de la demanda es un proceso mediante el cual se predice la cantidad que el consumidor o cliente estaría dispuesto a comprar del producto o utilizar del servicio. Sin una previsión de la demanda, resulta imposible que cualquier negocio funcione de manera eficiente. 

**Importancia del proyecto**\
 El proyecto de predicción de la demanda representa una iniciativa estratégica de gran valor para la empresa de reparto de comidas. La implementación del proyecto permitirá reducir el desperdicio de alimentos, mejorar la satisfacción del cliente y optimizar la cadena de suministro, generando un impacto positivo en la rentabilidad y sostenibilidad del negocio.

**Hipótesis**\
 Un modelo de aprendizaje automático puede identificar patrones en los datos históricos de los clientes y predecir futuras necesidades de compra con mayor precisión que los analistas humanos.

**Fuente de los datos**\
https://datahack.analyticsvidhya.com/contest/genpact-machine-learning-hackathon-1/#ProblemStatement\

**Datasets utilizados**

* train.csv (456548, 9)

* fulfilment_center_info.csv (77, 5)

* meal_info.csv (51 , 3)


***
**DESCRIPCIÓN DE LOS DATASETS**

>*train.csv*

| Variable  | Definition |
| ------------- | ------------- |
| id 	| Unique ID |
| week 	| Week No |
| center_id | Unique ID for fulfillment center |
| meal_id | Unique ID for Meal |
| checkout_price | Final price including discount, taxes & delivery charges |
| base_price | Base price of the meal |
| emailer_for_promotion | Emailer sent for promotion of meal |
| homepage_featured | Meal featured at homepage |
| num_orders | (Target) Orders Count |

.

>*fulfilment_center_info.csv*

| Variable  | Definition |
| ------------- | ------------- |
| center_id |	Unique ID for fulfillment center |
| city_code |	Unique code for city |
| region_code |	Unique code for region |
| center_type |	Anonymized center type |
| op_area |	Area of operation (in km^2) |

.

>*meal_info.csv*

| Variable  | Definition |
| ------------- | ------------- |
| meal_id |	Unique ID for the meal |
| category |	Type of meal (beverages/snacks/soups….) |
| cuisine |	Meal cuisine (Indian/Italian/…) |



***
**LIBRERIAS UTILIZADAS**

pandas, numpy, scikit learn, matplotlib, seaborn, xgboost, XGBRegressor, lightgbm, catboost, pickel


***
**PRE-PROCESAMIENTO DE DATOS**

Los datasets se presentan sin valores nulos. Se observan variables de tipo categoricas, numericas y booleanas. Se inicia con el analisis de los datos para comprender el ecosistema de la empresa. 

Se realiza un analisis de correlacioón para determinar las relaciones entre variables. Las correlaciones con el target son muy bajas o casi nulas, sin embargo, se observa una alta multicolinealidad entre checkout_price y base_price, por lo cual eliminamos la variable base_price por tener menor corralación con el target.
Las variables con mayor relación con el target son checkout_price, emailer_for_promotion y homepage_featured.

Para el analisis empresarial se analiza donde se localizan y quienes son los clientes que realizan mayor número de ordenes, que categorias y que alimentos son los mas vendidos. En cada uno de estos analisis se puede observar el orden jerarquico de cada una de las categorias. La importancia de este analisis es poder identificar los mejores clientes, los productos mas vendidos y las oportunidades de mejora o de promoción para los clientes o productos con mas bajos promedios de ordenes. 

Para el desarrollo del modelo de machine learning se realizarón dos enfoques diferentes.

Es primer enfoque se basa en establecer codigos unicos para la combinación de clientes y alimentos, se realiza el calculo del número de pedidos promedio por cada una de estas combinaciones y se enumera en la columna de week, cada pedido realizado por esta combinación, de esta forma se podria rastrear los pedidos especificos que realiza cada cliente y analizar el promedio de la cantidad de ordenes. 
La variable de week tambien se transforma en una secuencia de 1 a 52 para observar ciclos anuales en caso de encontrarse estos patrones. 

Al observar promedios de ordenes mas marcados en las variables category, cusine y center type, se utiliza get_dummies para categorizarlas de forma binaria. 

Se observa nuevamente un heatmap con las correlaciones de las nuevas variables y se puede observar una alta correlación entre el target y center_meal_id. 

En el segundo enfoque, se crea una variable de demanda el cual se determina por el numero de pedidos por ciudad. Se clasifican en un rango entre alta demanda y baja demanda. Se procede a codificar como booleanas todas las variables categoricas que impliquen un identificador ('center_id','meal_id','region_code','center_type','category','cuisine','demanda'). 

Se eliminan las variables que se consideran poco relvantes y se realiza escalado de las variables 'checkout_price', "week" para reducir los rangos de valores entre todas las variables. Y para evitar las predicciones con valores negativos que se presentaban con la mayoria de los modelos, se realiza la transformación logaritmica del target.


***
**MODELOS DE MACHINE LEARNING**

**METRICA DE EVALUACIÓN**
RSME: es la desviación estándar de los valores residuales (errores de predicción). Los valores residuales son una medida de la distancia de los puntos de datos de la línea de regresión; RMSE es una medida de cuál es el nivel de dispersión de estos valores residuales. En otras palabras, le indica el nivel de concentración de los datos en la línea de mejor ajuste.

**PRIMER ENFOQUE DE VARIABLES**
Se aplican los primeros modelos de predicción de Machine Learning utilizando GridSearchCV para identificar los mejores hiperparametros, obteniendo los siguientes resultados:

| Modelo | Score |
|---|---|
| Gradient Boosting Regressor | 61.3902 |
| LGBMRegressor | 57.0845 |
| XGB | 59.9834 |
| **Random Forest Regressor** | **58.1639** |
| Gradient Boosting Regressor_2 | 66.105 |
| Gradient Boosting sin dummies | 65.3313 |

Una de las desventajas con este enfoque y estos modelos es que las proyecciones presentan algunas valores negativos. Para analizar los resultados de estos casos se toman todas las predicciones con valores absolutos.

**SEGUNDO ENFOQUE DE VARIABLES**\
Para mejorar el score de RSME, se opta por el modelo de CATBOOST que funciona mas eficientemente con variables categoricas, es por ello que se categorizan todas las variables con formato binario. Se escalan las variables numericas con valores mas altos y se transforma logartimicamente el target para evitar predicciones con valores negativos. El resultado: 

| Modelo | Score |
|---|---|
| CATBOOST | 51.7835 |






