# Análisis de Datos y Entrenamiento de Modelos para Predicción de Ventas
## TFM Business Intelligence

### 1. Carga de Librerías
Importamos todas las librerías necesarias para el análisis, visualización y modelado.

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import warnings

warnings.filterwarnings('ignore')

### 2. Carga de Datos
Cargamos el dataset de ventas desde la carpeta `data`.

In [None]:
sales_df = pd.read_csv('../data/sales_data_example.csv')
sales_df.head()

### 3. Análisis Exploratorio de Datos (EDA)
Visualizamos los datos para entender las distribuciones y relaciones entre variables.

In [None]:
sales_df.info()

In [None]:
fig = px.histogram(sales_df, x='Sales', title='Distribución de las Ventas')
fig.show()

In [None]:
fig = px.scatter(sales_df, x='Marketing_Spend', y='Sales', title='Ventas vs. Gasto en Marketing', trendline='ols')
fig.show()

### 4. Preprocesamiento de Datos
Preparamos los datos para el modelo, convirtiendo variables categóricas en numéricas.

In [None]:
df_processed = sales_df.copy()
df_processed['Date'] = pd.to_datetime(df_processed['Date'])
df_processed['Month'] = df_processed['Date'].dt.month
df_processed['DayOfWeek'] = df_processed['Date'].dt.dayofweek
df_processed = pd.get_dummies(df_processed, columns=['Region', 'Promotion', 'Holiday'], drop_first=True)
df_processed = df_processed.drop(['Date', 'Product_ID'], axis=1)

X = df_processed.drop('Sales', axis=1)
y = df_processed['Sales']

### 5. Entrenamiento del Modelo de Regresión Lineal

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)

### 6. Evaluación del Modelo

In [None]:
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

within_10_percent = np.abs((y_test - y_pred) / y_test) <= 0.10
accuracy_percentage = np.mean(within_10_percent) * 100

print(f'Error Cuadrático Medio (MSE): {mse:.2f}')
print(f'Coeficiente de Determinación (R2): {r2:.2f}')
print(f'Porcentaje de Acierto (dentro del 10%): {accuracy_percentage:.2f}%')