# Análisis Predictivo para TFM de Business Intelligence

Este Jupyter Notebook documenta el proceso de análisis de datos y entrenamiento de modelos de Machine Learning para la aplicación de Business Intelligence. Se abordarán dos casos de uso principales: **predicción de ventas** y **predicción de averías>.

## 1. Carga y Limpieza de Datos

In [None]:
import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    from sklearn.model_selection import train_test_split
    from sklearn.linear_model import LinearRegression, LogisticRegression
    from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, classification_report, confusion_matrix
    import joblib # Para guardar los modelos
    
    
    # Carga de datos de ventas
    try:
        df_sales = pd.read_csv('../data/sales_data_example.csv')
        print("Datos de ventas cargados correctamente.")
        print(df_sales.head())
    except FileNotFoundError:
        print("Error: sales_data_example.csv no encontrado. Asegúrate de que el archivo está en la carpeta 'data'.")
        df_sales = pd.DataFrame() # Crear un DataFrame vacío para evitar errores posteriores
    
    # Carga de datos de mantenimiento
    try:
        df_maintenance = pd.read_csv('../data/maintenance_data_example.csv')
        print("
Datos de mantenimiento cargados correctamente.")
        print(df_maintenance.head())
    except FileNotFoundError:
        print("Error: maintenance_data_example.csv no encontrado. Asegúrate de que el archivo está en la carpeta 'data'.")
        df_maintenance = pd.DataFrame() # Crear un DataFrame vacío para evitar errores posteriores
    

### Limpieza y Preprocesamiento de Datos de Ventas

In [None]:
if not df_sales.empty:
        # Convertir 'Date' a formato datetime
        df_sales['Date'] = pd.to_datetime(df_sales['Date'])
    
        # Crear características adicionales a partir de la fecha
        df_sales['Month'] = df_sales['Date'].dt.month
        df_sales['DayOfWeek'] = df_sales['Date'].dt.dayofweek
    
        # Codificación One-Hot para variables categóricas
        df_sales = pd.get_dummies(df_sales, columns=['Region', 'Promotion', 'Holiday'], drop_first=True)
    
        # Eliminar columnas no necesarias para el modelo
        df_sales_processed = df_sales.drop(['Date', 'Product_ID'], axis=1)
    
        print("
Datos de ventas preprocesados:")
        print(df_sales_processed.head())
        print(df_sales_processed.info())
    

### Limpieza y Preprocesamiento de Datos de Mantenimiento

In [None]:
if not df_maintenance.empty:
        # Eliminar columnas no necesarias para el modelo (ej. Machine_ID si no se usa como característica)
        df_maintenance_processed = df_maintenance.drop(['Machine_ID'], axis=1)
    
        print("
Datos de mantenimiento preprocesados:")
        print(df_maintenance_processed.head())
        print(df_maintenance_processed.info())
    

## 2. Entrenamiento de Modelos

### Modelo de Predicción de Ventas (Regresión)

In [None]:
if not df_sales.empty:
        X_sales = df_sales_processed.drop('Sales', axis=1)
        y_sales = df_sales_processed['Sales']
    
        X_train_sales, X_test_sales, y_train_sales, y_test_sales = train_test_split(X_sales, y_sales, test_size=0.2, random_state=42)
    
        model_sales = LinearRegression()
        model_sales.fit(X_train_sales, y_train_sales)
    
        y_pred_sales = model_sales.predict(X_test_sales)
    
        mse_sales = mean_squared_error(y_test_sales, y_pred_sales)
        r2_sales = r2_score(y_test_sales, y_pred_sales)
    
        print(f"
### Evaluación del Modelo de Ventas ###")
        print(f"Error Cuadrático Medio (MSE): {mse_sales:.2f}")
        print(f"Coeficiente de Determinación (R2): {r2_sales:.2f}")
    
        # Guardar el modelo de ventas
        joblib.dump(model_sales, '../backend/models/model_sales.pkl')
        print("Modelo de ventas guardado como ../backend/models/model_sales.pkl")
    

### Modelo de Predicción de Averías (Clasificación)

In [None]:
if not df_maintenance.empty:
        X_maintenance = df_maintenance_processed.drop('Failure', axis=1)
        y_maintenance = df_maintenance_processed['Failure']
    
        X_train_maintenance, X_test_maintenance, y_train_maintenance, y_test_maintenance = train_test_split(X_maintenance, y_maintenance, test_size=0.2, random_state=42)
    
        model_maintenance = LogisticRegression(solver='liblinear', random_state=42) # Usamos LogisticRegression para clasificación binaria
        model_maintenance.fit(X_train_maintenance, y_train_maintenance)
    
        y_pred_maintenance = model_maintenance.predict(X_test_maintenance)
    
        accuracy_maintenance = accuracy_score(y_test_maintenance, y_pred_maintenance)
        report_maintenance = classification_report(y_test_maintenance, y_pred_maintenance)
        cm_maintenance = confusion_matrix(y_test_maintenance, y_pred_maintenance)
    
        print(f"
### Evaluación del Modelo de Averías ###")
        print(f"Accuracy: {accuracy_maintenance:.2f}")
        print("Reporte de Clasificación:
", report_maintenance)
        print("Matriz de Confusión:
", cm_maintenance)
    
        # Guardar el modelo de mantenimiento
        joblib.dump(model_maintenance, '../backend/models/model_maintenance.pkl')
        print("Modelo de averías guardado como ../backend/models/model_maintenance.pkl")
    

## 3. Explicación de los Algoritmos Usados

### Regresión Lineal (para Predicción de Ventas)
    La Regresión Lineal es un algoritmo de aprendizaje supervisado que modela la relación entre una variable dependiente (la que queremos predecir, en este caso 'Sales') y una o más variables independientes (las características de entrada). Asume una relación lineal entre las variables. El objetivo es encontrar la línea (o hiperplano en múltiples dimensiones) que mejor se ajusta a los datos, minimizando la suma de los errores cuadrados entre los valores predichos y los valores reales.

### Regresión Logística (para Predicción de Averías)
    A pesar de su nombre, la Regresión Logística es un algoritmo de clasificación, no de regresión. Se utiliza para predecir la probabilidad de una variable dependiente binaria (0 o 1, en este caso 'Failure'). Utiliza una función logística (o sigmoide) para transformar la salida lineal en una probabilidad entre 0 y 1. Si la probabilidad supera un umbral (comúnmente 0.5), se clasifica como 1; de lo contrario, como 0.

## 4. Predicción sobre Nuevos Datos (Ejemplos Funcionales)

In [None]:
if not df_sales.empty:
        # Cargar el modelo de ventas guardado
        loaded_model_sales = joblib.load('../backend/models/model_sales.pkl')
    
        # Ejemplo de nuevos datos para predicción de ventas
        # Asegúrate de que las columnas y el orden coincidan con el entrenamiento
        # Las columnas categóricas deben estar codificadas de la misma manera
        # Para este ejemplo, asumimos que las columnas dummy son 'Region_West', 'Region_North', 'Region_South', 'Promotion_Yes', 'Holiday_Yes'
        # y que 'Month', 'DayOfWeek', 'Temperature', 'Customers', 'Marketing_Spend' son numéricas.
    
        # Crear un DataFrame con las columnas esperadas por el modelo
        # Es crucial que el orden y el nombre de las columnas sean EXACTOS a como se entrenó el modelo.
        # Para simplificar, usaremos las columnas del primer registro de df_sales_processed (excluyendo 'Sales')
        # y modificaremos algunos valores para ver la predicción.
    
        # Obtener las columnas que el modelo espera (todas excepto 'Sales')
        model_sales_features = df_sales_processed.drop('Sales', axis=1).columns.tolist()
    
        # Crear un nuevo DataFrame con un solo registro de ejemplo
        # Asegúrate de que los valores de las columnas dummy sean 0 o 1
        new_sales_data = pd.DataFrame([[1, 1, 25, 60, 22, 0, 0, 0, 0, 0]], 
                                      columns=['Month', 'DayOfWeek', 'Temperature', 'Customers', 'Marketing_Spend', 
                                               'Region_East', 'Region_North', 'Region_South', 'Promotion_Yes', 'Holiday_Yes'])
        
        # Asegurarse de que las columnas coincidan exactamente con las del entrenamiento
        # Esto es una simplificación. En un caso real, se necesitaría un pipeline de preprocesamiento.
        # Para este ejemplo, se asume que el orden de las columnas es el mismo.
        # Si el modelo se entrenó con 'Region_East', 'Region_North', 'Region_South', 'Promotion_Yes', 'Holiday_Yes'
        # y el ejemplo tiene 'Region_West', 'Promotion_No', 'Holiday_No', entonces los valores serían:
        # Region_East=0, Region_North=0, Region_South=0, Promotion_Yes=0, Holiday_Yes=0
    
        # Ejemplo de datos para predicción (ajustado para que coincida con las columnas dummy generadas)
        # Asumiendo que las columnas dummy son 'Region_East', 'Region_North', 'Region_South', 'Promotion_Yes', 'Holiday_Yes'
        # y que el ejemplo original tenía 'Region'='West', 'Promotion'='No', 'Holiday'='No'
        # Esto significa que 'Region_East', 'Region_North', 'Region_South', 'Promotion_Yes', 'Holiday_Yes' serían 0
        # Si queremos predecir para un caso similar:
        # entonces 'Region_East'=1, 'Promotion_Yes'=1, 'Holiday_Yes'=0
    
        # Para el ejemplo de df_sales.head() que tiene 'Region'='East', 'Promotion'='No', 'Holiday'='No'
        # Las columnas dummy generadas serían: Region_East=1, Promotion_Yes=0, Holiday_Yes=0
        # Si queremos predecir para un caso similar:
        new_sales_data_example = pd.DataFrame({
            'Temperature': [15],
            'Customers': [70],
            'Marketing_Spend': [30],
            'Month': [1],
            'DayOfWeek': [0],
            'Region_East': [1], # Ejemplo: East
            'Region_North': [0],
            'Region_South': [0],
            'Promotion_Yes': [1], # Ejemplo: Con promoción
            'Holiday_Yes': [0]  # Ejemplo: No es festivo
        })
    
        # Asegurarse de que el orden de las columnas sea el mismo que el de entrenamiento
        new_sales_data_example = new_sales_data_example[X_sales.columns]
    
        predicted_sales = loaded_model_sales.predict(new_sales_data_example)
        print(f"
Predicción de ventas para nuevos datos: {predicted_sales[0]:.2f}")
    

In [None]:
if not df_maintenance.empty:
        # Cargar el modelo de mantenimiento guardado
        loaded_model_maintenance = joblib.load('../backend/models/model_maintenance.pkl')
    
        # Ejemplo de nuevos datos para predicción de averías
        # Asegúrate de que las columnas y el orden coincidan con el entrenamiento
        new_maintenance_data = pd.DataFrame([[25.0, 80.0, 12.0, 30.0, 10.0, 5.0]], 
                                            columns=['Sensor1', 'Sensor2', 'Sensor3', 'Temperature', 'Pressure', 'Vibration'])
    
        predicted_failure = loaded_model_maintenance.predict(new_maintenance_data)
        predicted_failure_proba = loaded_model_maintenance.predict_proba(new_maintenance_data)[:, 1]
    
        print(f"
Predicción de avería para nuevos datos (0=No Avería, 1=Avería): {predicted_failure[0]}")
        print(f"Probabilidad de avería: {predicted_failure_proba[0]:.2f}")
    

## 5. Gráficos y Conclusiones

In [None]:
if not df_sales.empty:
        # Gráfico de dispersión de Ventas vs. Marketing_Spend
        plt.figure(figsize=(10, 6))
        sns.scatterplot(x='Marketing_Spend', y='Sales', data=df_sales)
        plt.title('Ventas vs. Gasto en Marketing')
        plt.xlabel('Gasto en Marketing')
        plt.ylabel('Ventas')
        plt.grid(True)
        plt.show()
    
        # Histograma de Ventas
        plt.figure(figsize=(10, 6))
        sns.histplot(df_sales['Sales'], kde=True)
        plt.title('Distribución de Ventas')
        plt.xlabel('Ventas')
        plt.ylabel('Frecuencia')
        plt.grid(True)
        plt.show()
    

In [None]:
if not df_maintenance.empty:
        # Gráfico de barras de la distribución de averías
        plt.figure(figsize=(8, 5))
        sns.countplot(x='Failure', data=df_maintenance)
        plt.title('Distribución de Averías (0=No Avería, 1=Avería)')
        plt.xlabel('Avería')
        plt.ylabel('Conteo')
        plt.xticks([0, 1], ['No Avería', 'Avería'])
        plt.grid(axis='y')
        plt.show()
    
        # Matriz de correlación para datos de mantenimiento
        plt.figure(figsize=(10, 8))
        sns.heatmap(df_maintenance_processed.corr(), annot=True, cmap='coolwarm', fmt=".2f")
        plt.title('Matriz de Correlación de Datos de Mantenimiento')
        plt.show()
    

## Conclusiones Generales
    Este notebook ha demostrado el proceso de carga, preprocesamiento, entrenamiento y evaluación de modelos de Machine Learning para la predicción de ventas y averías. Los modelos entrenados (`LinearRegression` y `LogisticRegression`) son ejemplos básicos que pueden ser mejorados con más datos, ingeniería de características avanzada y modelos más complejos. Los modelos guardados (`.pkl`) serán utilizados por la API de FastAPI para realizar predicciones en tiempo real.