
# Tarea 6: Predicción de Ventas y Demanda de Productos

#### **Objetivo**
Realizar un Análisis Exploratorio de Datos (EDA) para identificar patrones y tendencias, implementar modelos predictivos, validar con técnicas cruzadas y evaluar con métricas, e interpretar las predicciones para tomar decisiones estratégicas.


## **Parte 1: Introducción a los Datos**

Para esta tarea, utilizaremos un conjunto de datos de predicción de ventas disponible públicamente. El dataset contiene información histórica de ventas, incluidas variables como fecha, ubicación, producto y demanda.

Primero, cargaremos los datos y realizaremos una exploración inicial para familiarizarnos con su estructura y contenido.


Fuente del conjunto de datos: [Russian Retail](https://github.com/R0N4L2/UDLA/blob/main/russian_retail.csv)

In [None]:

# Importing necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Recuerda que la data **russian_retail.csv**, debe estar en la misma carpeta que el notebook.

In [None]:
# Load the dataset
data = pd.read_csv("russian_retail.csv")
data.head()


## **Parte 2: Análisis Exploratorio de Datos (EDA)**

Exploraremos los datos para identificar patrones y tendencias, detectar valores atípicos y entender las relaciones entre variables clave. 


In [None]:

# Summary statistics
data.info()

# Basic statistics
data.describe()

# Check for missing values
missing_values = data.isnull().sum()
missing_values

# Visualizing sales trends over time
data['date'] = pd.to_datetime(data['date'])
sales_trend = data.groupby('date')['sales'].sum()
sales_trend.plot(figsize=(12, 6), title="Tendencia de Ventas a lo Largo del Tiempo", xlabel="Fecha", ylabel="Ventas Totales")
plt.show()



## **Parte 3: Implementación de Modelos Predictivos**

Utilizaremos modelos de regresión lineal y modelos basados en árboles para predecir la demanda futura de productos.


In [None]:

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Feature Engineering
data['month'] = data['date'].dt.month
data['day_of_week'] = data['date'].dt.dayofweek

# Features and target variable
features = ['month', 'day_of_week', 'product_id', 'store_id']
target = 'sales'

X = data[features]
y = data[target]

# Train-test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Linear Regression Model
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)

# Random Forest Model
rf = RandomForestRegressor(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)



## **Parte 4: Evaluación de Modelos**

Evaluaremos el rendimiento de los modelos utilizando métricas como el Error Cuadrático Medio (MSE) y el R².


In [None]:

# Metrics for Linear Regression
mse_lr = mean_squared_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)

# Metrics for Random Forest
mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

# Display results
print(f"Linear Regression - MSE: {mse_lr:.2f}, R²: {r2_lr:.2f}")
print(f"Random Forest - MSE: {mse_rf:.2f}, R²: {r2_rf:.2f}")



## **Parte 5: Validación Cruzada**

Aplicaremos validación cruzada para medir la robustez de los modelos y su capacidad de generalización.


In [None]:

from sklearn.model_selection import cross_val_score

# Cross-validation for Random Forest
cv_scores_rf = cross_val_score(rf, X, y, cv=5, scoring='neg_mean_squared_error')
print("Cross-Validation MSE (Random Forest):", -cv_scores_rf.mean())



## **Parte 6: Interpretación y Recomendaciones**

1. **Análisis de Resultados:**
   - Comparar el rendimiento de los modelos y justificar cuál es más adecuado para la predicción de ventas.
   - Evaluar si los patrones encontrados en el EDA respaldan las predicciones realizadas.

2. **Recomendaciones Estratégicas:**
   - Basado en los resultados, proporcionar recomendaciones para ajustar la estrategia de inventario o marketing.



## Preguntas

Responde las siguientes preguntas basadas en los análisis y resultados obtenidos:

1. ¿Qué patrones interesantes detectaste en el EDA? ¿Cómo podrían influir en las decisiones de negocio?
2. Compara el desempeño de los modelos de regresión lineal y Random Forest. ¿Cuál crees que es más adecuado para este problema y por qué?
3. ¿Qué métricas utilizarías para convencer a un equipo ejecutivo sobre la confiabilidad del modelo predictivo?
4. ¿Cómo mejorarías las características del modelo para aumentar su precisión en futuras implementaciones?
5. Basado en los resultados del modelo, ¿qué estrategias podrías recomendar para optimizar el inventario y reducir costos?


# Requerimientos Entregables

Para la entrega de esta tarea, asegúrate de cumplir con los siguientes puntos:

1. Un reporte en formato PDF que contenga:
   - Secciones completas con los análisis solicitados.
   - Código bien estructurado y comentado.
   - Respuestas a las preguntas de reflexión.
2. **Gráficos y Visualizaciones:** Incluir gráficos claros y relevantes para respaldar el análisis.
3. **Conclusiones:** Presentar interpretaciones y recomendaciones basadas en los resultados obtenidos.