<div align="center" style="border: 2px solid #E57373; border-radius: 10px; padding: 20px; background-color: #FFCDD2;">
    <h1 style="font-size: 28px; color: #D32F2F;">Predicción Inteligente de Inventarios y Ventas con Aprendizaje Automático</h1>
    <p style="font-size: 18px; color: #EF6C00;">"Aprovechando el Poder del Aprendizaje Automático para Optimizar Inventarios y Potenciar la Rentabilidad Empresarial"</p>
    <img src="./images/logo.jpg" alt="Imagen de ejemplo" style="border-radius: 5px; box-shadow: 5px 5px 10px rgba(0, 0, 0, 0.2); max-width: 80%; margin-top: 20px;">
</div>


# <a id="1"><font size="6"><div style="border-radius:5px;color:white;background-color:#FA8072;">  1. Introducción 🚀</div> </font></a>


<div class="explain-box">
    Las <b>empresas</b> necesitan comprender los <b>datos de ventas</b>. Nos adentraremos profundamente en estos datos para descubrir <b>conocimientos cruciales</b> con la ayuda del <u>análisis exploratorio de datos (AED)</u>. En este estudio, vamos a examinar estos <b>datos de ventas simples</b>. Nuestra misión es descubrir <b>conocimientos no revelados</b> que puedan <b>aumentar las ganancias</b> y <b>mejorar la toma de decisiones</b> para las empresas. Analizaremos los datos utilizando <b>técnicas de AED</b> para encontrar <b>información importante</b> que pueda ayudar a las empresas a tener éxito. Aquí utilizaremos <u>Pandas</u> para el <b>preprocesamiento y la limpieza de datos</b>, y también utilizaremos <u>Matplotlib, Plotly y seaborn</u> para las <b>visualizaciones</b>.
</div>


La eficiente **gestión del inventario** es un componente crucial para el éxito de cualquier empresa. No solo garantiza la **disponibilidad adecuada de productos** para satisfacer la demanda del cliente, sino que también **optimiza los costos** y facilita la **toma de decisiones estratégicas basadas en datos**.

Los **modelos de IA** desempeña un papel fundamental en este proceso, al facilitar el **seguimiento y control de los productos en stock**, las ventas, los pedidos y las entregas. Más que una simple herramienta, una **base de datos bien diseñada** se convierte en la columna vertebral de las operaciones comerciales, influyendo en la eficiencia, la rentabilidad y la capacidad de respuesta ante las demandas del mercado.

En el mundo empresarial actual, donde la competencia es feroz y las demandas del cliente son cada vez más sofisticadas, la **gestión tradicional del inventario** ya no es suficiente. Es aquí donde entra en juego el **análisis impulsado por inteligencia artificial (IA)**. Al aprovechar las **técnicas de aprendizaje automático**, las empresas pueden analizar grandes volúmenes de datos de manera más rápida y precisa de lo que sería posible con métodos convencionales.

La gestión de inventario presenta varios desafíos que las empresas deben abordar de manera efectiva, desde la **predicción de la demanda** hasta la **coordinación de la cadena de suministro** y la **gestión de productos perecederos**. Estos desafíos pueden ser abordados de manera más eficiente con el uso de herramientas de IA que permiten el **análisis de datos a gran escala** y la generación de **insights valiosos**.

La implementación de soluciones de IA puede proporcionar una **ventaja competitiva significativa** al predecir la demanda de los productos, optimizar los niveles de inventario y mejorar la eficiencia operativa en general. Al combinar **datos históricos** con **algoritmos avanzados de aprendizaje automático**, las empresas pueden tomar **decisiones más informadas y proactivas**, reduciendo los costos y maximizando los beneficios.

Para implementar una gestión eficaz del inventario, es crucial contar con una **base de datos del sistema de gestión de inventario robusta y bien diseñada**. Esta herramienta no solo permite el seguimiento de los niveles de existencias, logística y las transacciones, sino que también proporciona información valiosa para la toma de decisiones estratégicas. Al analizar datos en tiempo real, las empresas pueden identificar tendencias, anticipar cambios en la demanda y ajustar su inventario de manera proactiva, optimizando sus procesos operativos y mejorando su rentabilidad y competitividad en el mercado.

Este proyecto busca diseñar una **algoritmo de Machine Learning robusta y escalable** que sirva  para una **aplicación de gestión de inventario y análisis predictivo de ventas**. Al integrar capacidades de IA en el proceso de gestión de inventario, las empresas pueden posicionarse mejor para enfrentar los desafíos del mercado actual y aprovechar nuevas oportunidades de crecimiento y expansión.

## Descripción de las Columnas del DataFrame `df_inventory`

<style>
    table {
        border-collapse: collapse;
        width: 100%;
        border: 2px solid #008CBA;
        margin-bottom: 20px;
    }

    th, td {
        border: 1px solid #008CBA;
        padding: 10px;
        text-align: left;
    }

    th {
        background-color: #008CBA;
        color: white;
    }

    h2 {
        color: #008CBA;
    }
</style>

<table>
    <tr>
        <th>Variable</th>
        <th>Descripción</th>
    </tr>
    <tr>
        <td>MES</td>
        <td>Número del mes correspondiente al registro (1 a 12).</td>
    </tr>
    <tr>
        <td>PRODUCTOS_ALMACENADOS</td>
        <td>Cantidad de productos almacenados en el inventario durante el mes.</td>
    </tr>
    <tr>
        <td>GASTO_DE_MARKETING</td>
        <td>Monto de dinero gastado en marketing durante el mes.</td>
    </tr>
    <tr>
        <td>GASTO_DE_ALMACENAMIENTO</td>
        <td>Monto de dinero gastado en almacenamiento de productos durante el mes.</td>
    </tr>
    <tr>
        <td>DEMANDA_DEL_PRODUCTO</td>
        <td>Nivel de demanda del producto en el mercado durante el mes.</td>
    </tr>
    <tr>
        <td>FESTIVIDAD</td>
        <td>Indicador binario que señala si hubo una festividad durante el mes (0: No, 1: Sí).</td>
    </tr>
    <tr>
        <td>PRECIO_DE_VENTA</td>
        <td>Precio de venta del producto durante el mes.</td>
    </tr>
    <tr>
        <td>PRODUCTOS_VENDIDOS</td>
        <td>Cantidad de productos vendidos durante el mes.</td>
    </tr>
</table>


## <font size="6"><div style="border-radius:10px;border: 2px solid #DEB887;color:white;padding: 20px;background-color:#22938d;"> 🎯 Objetivo del Proyecto</div> </font>


In [1]:
import dataframe_image as dfi
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split, cross_val_score, KFold
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, make_scorer
from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import GradientBoostingRegressor
from xgboost import XGBRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures
from pyod.models.knn import KNN
import os


def normalizar_estandarizar(df):
    scaler = MinMaxScaler()
    df_normalized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

    standardizer = StandardScaler()
    df_standardized = pd.DataFrame(standardizer.fit_transform(df_normalized), columns=df.columns)

    return df_standardized


def evaluar_modelo(modelo, X_train, y_train, X_test, y_test):
    modelo.fit(X_train, y_train)
    predicciones = modelo.predict(X_test)
    mae = mean_absolute_error(y_test, predicciones)
    mse = mean_squared_error(y_test, predicciones)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_test, predicciones)
    return mae, mse, rmse, r2


def detectar_outliers_pyod(df):
    outliers = {}
    for column in df.columns:
        # Utilizar KNN para la detección de outliers
        detector = KNN()
        data = df[[column]].values
        detector.fit(data)
        # Predicción: 0 significa normal, 1 significa outlier
        pred = detector.labels_
        outliers[column] = pred.sum()  # Número de outliers en la columna

    # Filtrar columnas que tienen más del 5% de datos como outliers
    columnas_con_outliers = [col for col, num_outliers in outliers.items() if num_outliers > 0.05 * len(df)]

    return columnas_con_outliers


def handle_outliers(column, cap_value=None):
    # Calcula el rango intercuartílico (IQR)
    Q1 = column.quantile(0.25)
    Q3 = column.quantile(0.75)
    IQR = Q3 - Q1

    # Define los límites superior e inferior para identificar los valores atípicos
    lower_limit = Q1 - 1.5 * IQR
    upper_limit = Q3 + 1.5 * IQR

    # Acotar los valores atípicos
    if cap_value is not None:
        column = column.clip(lower=lower_limit, upper=cap_value)
    else:
        column = column.clip(lower=lower_limit, upper=upper_limit)

    return column


def detectar_columnas_ruidosas(df, threshold=0.05):
    """
    Esta función identifica las columnas ruidosas en un DataFrame basándose en la proporción de valores únicos.

    Args:
    - df: DataFrame de pandas.
    - threshold: Umbral para considerar una columna como ruidosa. El valor predeterminado es 0.05 (5%).

    Returns:
    - columnas_ruidosas: Lista de nombres de columnas consideradas ruidosas.
    """
    columnas_ruidosas = []
    total_filas = len(df)

    for columna in df.columns:
        num_valores_unicos = df[columna].nunique()
        proporcion_valores_unicos = num_valores_unicos / total_filas

        if proporcion_valores_unicos < threshold:
            columnas_ruidosas.append(columna)

    return columnas_ruidosas


def flujo_completo(dataset_file, target_column):
    # Leer el archivo Excel
    df = pd.read_excel(dataset_file)

    # Detectar columnas con outliers usando PyOD
    columnas_outliers_pyod = detectar_outliers_pyod(df)

    # Iterar sobre las columnas con outliers y manejarlos
    for columna in columnas_outliers_pyod:
        # Manejar outliers en la columna actual
        df[columna] = handle_outliers(df[columna])

    # Detectar columnas ruidosas usando pandas-profiling
    columnas_ruidosas = detectar_columnas_ruidosas(df)

    # Eliminar las columnas ruidosas del DataFrame
    df = df.drop(columns=columnas_ruidosas)

    # Separar las características y el objetivo
    X = df.drop(columns=[target_column])
    y = df[target_column]

    # Normalizar y estandarizar los datos
    X = normalizar_estandarizar(X)

    # Dividir en conjuntos de entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Modelos a evaluar
    modelos = {
        'Regresión Lineal': LinearRegression(),
        'Lasso Regression': Lasso(),
        'Support Vector Regression': SVR(),
        'Gradient Boosting': GradientBoostingRegressor(random_state=42),
        'SVM': SVR(),
        'KNN': KNeighborsRegressor(),
        'XGBoost': XGBRegressor(random_state=42),
        'Ridge Linear Regression': Ridge(),
        'Elastic-Net Regression': ElasticNet(),
        'Polynomial Regression': make_pipeline(PolynomialFeatures(degree=2), LinearRegression())
    }

    resultados = []

    for nombre, modelo in modelos.items():
        mae, mse, rmse, r2 = evaluar_modelo(modelo, X_train, y_train, X_test, y_test)
        resultados.append([nombre, mae, mse, rmse, r2])

    # Evaluación especial para Random Forest con validación cruzada
    bosque = RandomForestRegressor(n_estimators=100, criterion="squared_error", max_features="sqrt", bootstrap=True,
                                   oob_score=True, random_state=42)
    metrica = make_scorer(mean_squared_error, greater_is_better=False)
    kf = KFold(n_splits=5, shuffle=True, random_state=42)
    resultados_cross_val = cross_val_score(bosque, X, y, cv=kf, scoring=metrica)

    bosque.fit(X, y)
    predicciones_rf = bosque.predict(X_test)
    mae_rf = mean_absolute_error(y_test, predicciones_rf)
    mse_rf = mean_squared_error(y_test, predicciones_rf)
    rmse_rf = np.sqrt(mse_rf)
    r2_rf = r2_score(y_test, predicciones_rf)

    resultados.append(['Random Forest Regression', mae_rf, mse_rf, rmse_rf, r2_rf])

    # Crear un DataFrame con las métricas de los modelos
    resultados_df = pd.DataFrame(resultados, columns=['Modelo', 'MAE', 'MSE', 'RMSE', 'R²'])

    # Ordenar los resultados por R²
    resultados_df = resultados_df.sort_values(by='R²', ascending=False)

    # Aplicar estilos
    def apply_styles(df):
        # Establecer el estilo condicional para R²
        def color_r2(value):
            if value > 0.75:
                color = '#11F248'  # Verde para valores altos
            elif value > 0.50:
                color = '#8AF211'  # Verde claro para valores medianos
            else:
                color = '#C4F423'  # Amarillo para valores bajos
            return f'background-color: {color}; color: black'

        # Resaltar el mejor modelo en negrita
        def highlight_best(s):
            is_max = s == s.max()
            return ['font-weight: bold' if v else '' for v in is_max]

        styled_df = df.style.applymap(color_r2, subset=['R²'])
        styled_df = styled_df.apply(highlight_best, subset=['R²'])

        # Estilos adicionales
        styled_df = styled_df.set_table_styles([{
            'selector': 'th',
            'props': [('border', '1px solid black'), ('text-align', 'center')]
        }, {
            'selector': 'td',
            'props': [('border', '1px solid black')]
        }])

        return styled_df

    styled_resultados_df = apply_styles(resultados_df)

    # Asegurarse de que la carpeta 'results' exista
    os.makedirs('results', exist_ok=True)

    # Exportar a Excel
    excel_filename = f"results/modelo_{dataset_file.split('/')[-1].split('.')[0]}.xlsx"
    styled_resultados_df.to_excel(excel_filename, engine='openpyxl', index=False)

    # Exportar a PNG
    png_filename = f"results/modelo_{dataset_file.split('/')[-1].split('.')[0]}.png"
    dfi.export(styled_resultados_df, png_filename)

    return resultados_df


# Ejemplo de uso
dataset_file = "../Data/Melsol-test.xlsx"
target_column = 'PRODUCTOS VENDIDOS'
resultados = flujo_completo(dataset_file, target_column)
print(resultados)


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo       MAE        MSE      RMSE        R²
10   Random Forest Regression  0.959000   1.561285  1.249514  0.912484
0            Regresión Lineal  1.063272   2.100578  1.449337  0.882255
9       Polynomial Regression  1.263794   2.533382  1.591660  0.857994
1            Lasso Regression  1.331147   2.854686  1.689582  0.839984
7     Ridge Linear Regression  1.782706   5.646051  2.376142  0.683517
8      Elastic-Net Regression  2.202886   6.290515  2.508090  0.647393
3           Gradient Boosting  1.594093   7.822776  2.796923  0.561504
2   Support Vector Regression  2.996468   9.701688  3.114753  0.456183
4                         SVM  2.996468   9.701688  3.114753  0.456183
5                         KNN  3.000000  10.360000  3.218695  0.419283
6                     XGBoost  2.265084  17.881608  4.228665 -0.002332


In [2]:
# Lista de archivos de entrenamiento
training_files = [
    "Alicate-Entrenamiento.xlsx",
    "Destornillador-Entrenamiento.xlsx",
    "Focos-Entrenamiento.xlsx",
    "Martillo-Entrenamiento.xlsx",
    "Tornillos-ENTRENAMIENTO.xlsx",
    "Tuerca-Entrenamiento.xlsx"
]

# Nombre de la columna objetivo
target_column = 'PRODUCTOS VENDIDOS'

# Aplicar flujo completo a cada archivo de entrenamiento
for file in training_files:
    dataset_file = f"../Ferretería/{file}"
    print(f"Procesando archivo: {dataset_file}")
    resultados = flujo_completo(dataset_file, target_column)
    print(resultados)

Procesando archivo: ../Ferretería/Alicate-Entrenamiento.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo        MAE         MSE       RMSE        R²
10   Random Forest Regression   0.690000    0.782500   0.884590  0.998014
7     Ridge Linear Regression   1.552957    2.573945   1.604352  0.993467
0            Regresión Lineal   1.336808    3.267287   1.807564  0.991707
1            Lasso Regression   2.201301    4.959569   2.227009  0.987412
8      Elastic-Net Regression   3.226121   11.908352   3.450848  0.969776
3           Gradient Boosting   2.825078   21.296416   4.614804  0.945948
6                     XGBoost   3.795584   28.163646   5.306943  0.928519
5                         KNN   5.000000   33.800000   5.813777  0.914213
2   Support Vector Regression  16.139149  288.712724  16.991549  0.267227
4                         SVM  16.139149  288.712724  16.991549  0.267227
9       Polynomial Regression  12.275450  510.734584  22.599438 -0.296281
Procesando archivo: ../Ferretería/Destornillador-Entrenamiento.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo       MAE         MSE       RMSE        R²
10   Random Forest Regression  0.648000    0.653880   0.808628  0.993284
7     Ridge Linear Regression  0.663111    0.850456   0.922202  0.991265
0            Regresión Lineal  0.708245    0.945114   0.972170  0.990293
6                     XGBoost  0.871273    1.014613   1.007280  0.989579
8      Elastic-Net Regression  1.640592    3.598776   1.897044  0.963036
1            Lasso Regression  1.806172    3.757147   1.938336  0.961410
5                         KNN  2.000000    5.072000   2.252110  0.947905
3           Gradient Boosting  1.781796    5.655119   2.378049  0.941915
2   Support Vector Regression  7.323455   64.459568   8.028672  0.337926
4                         SVM  7.323455   64.459568   8.028672  0.337926
9       Polynomial Regression  7.070046  217.583064  14.750697 -1.234830
Procesando archivo: ../Ferretería/Focos-Entrenamiento.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo        MAE         MSE       RMSE        R²
10   Random Forest Regression   0.570000    0.443500   0.665958  0.999048
0            Regresión Lineal   1.138459    1.580102   1.257021  0.996609
7     Ridge Linear Regression   1.781444    4.066218   2.016487  0.991274
1            Lasso Regression   1.957083    4.301054   2.073898  0.990770
9       Polynomial Regression   1.590492    6.656584   2.580036  0.985715
3           Gradient Boosting   1.770127    7.622238   2.760840  0.983643
8      Elastic-Net Regression   3.859663   18.818397   4.338018  0.959617
6                     XGBoost   4.015581   29.996258   5.476884  0.935630
5                         KNN   8.000000   74.000000   8.602325  0.841202
2   Support Vector Regression  17.683940  358.235256  18.927104  0.231255
4                         SVM  17.683940  358.235256  18.927104  0.231255
Procesando archivo: ../Ferretería/Martillo-Entrenamiento.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo        MAE         MSE       RMSE        R²
10   Random Forest Regression   0.700000    0.671000   0.819146  0.998560
0            Regresión Lineal   1.573879    2.708042   1.645613  0.994189
7     Ridge Linear Regression   1.502778    3.168835   1.780122  0.993200
1            Lasso Regression   1.921357    4.138272   2.034274  0.991120
3           Gradient Boosting   2.720640    9.780281   3.127344  0.979012
8      Elastic-Net Regression   3.556846   16.406538   4.050499  0.964793
6                     XGBoost   4.031268   30.000428   5.477265  0.935621
9       Polynomial Regression   5.869699   49.154152   7.011002  0.894519
5                         KNN   8.000000   74.000000   8.602325  0.841202
2   Support Vector Regression  17.807932  362.705477  19.044828  0.221662
4                         SVM  17.807932  362.705477  19.044828  0.221662
Procesando archivo: ../Ferretería/Tornillos-ENTRENAMIENTO.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo         MAE           MSE        RMSE        R²
10   Random Forest Regression    8.500000    112.950000   10.627794  0.995722
3           Gradient Boosting   12.249940    384.687712   19.613457  0.985428
1            Lasso Regression   17.032287    479.540983   21.898424  0.981836
7     Ridge Linear Regression   19.187483    616.259171   24.824568  0.976657
0            Regresión Lineal   22.404133    648.664169   25.468886  0.975429
6                     XGBoost   20.107977    992.554843   31.504838  0.962403
8      Elastic-Net Regression   38.702999   1683.604546   41.031750  0.936227
5                         KNN   60.000000   4240.000000   65.115282  0.839394
9       Polynomial Regression   62.298886  10138.093973  100.688102  0.615981
2   Support Vector Regression  157.836549  27334.297075  165.330872 -0.035390
4                         SVM  157.836549  27334.297075  165.330872 -0.035390
Procesando archivo: ../Ferretería/Tuerca-Entrenamiento.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo         MAE           MSE        RMSE        R²
10   Random Forest Regression    5.600000     53.600000    7.321202  0.997970
0            Regresión Lineal   14.470511    313.286104   17.699890  0.988133
1            Lasso Regression   14.480601    328.427934   18.122581  0.987560
7     Ridge Linear Regression   17.947229    415.490196   20.383577  0.984262
8      Elastic-Net Regression   26.994249    934.443209   30.568664  0.964604
3           Gradient Boosting   24.479345   1056.057933   32.497045  0.959998
9       Polynomial Regression   28.141415   1361.797644   36.902543  0.948417
6                     XGBoost   34.965900   2119.884299   46.042201  0.919701
5                         KNN   46.000000   2700.000000   51.961524  0.897727
2   Support Vector Regression  156.502783  26883.160265  163.960850 -0.018302
4                         SVM  156.502783  26883.160265  163.960850 -0.018302


In [3]:
import os

# Lista de archivos de entrenamiento en la carpeta Tecnológicos
training_files_tecnologicos = [
    "Celular-Entrenamiento.xlsx",
    "Disco Duro-ENTRENAMIENTO.xlsx",
    "Fuentes de Poder-Entrenamiento.xlsx",
    "Laptop - Entrenamiento.xlsx",
    "Smartwatch-Entrenamiento.xlsx",
    "Tablet - Entrenamiento.xlsx"
]

# Nombre de la columna objetivo
target_column = 'PRODUCTOS VENDIDOS'

# Aplicar flujo completo a cada archivo de entrenamiento en la carpeta Tecnológicos
for file in training_files_tecnologicos:
    dataset_file = f"../Tecnológicos/{file}"
    print(f"Procesando archivo: {dataset_file}")
    resultados = flujo_completo(dataset_file, target_column)
    print(resultados)


Procesando archivo: ../Tecnológicos/Celular-Entrenamiento.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo        MAE         MSE       RMSE        R²
10   Random Forest Regression   1.440000    3.055000   1.747856  0.990271
0            Regresión Lineal   1.000000    5.000000   2.236068  0.984076
9       Polynomial Regression   1.196324    5.113206   2.261240  0.983716
3           Gradient Boosting   2.037046    7.108276   2.666135  0.977362
6                     XGBoost   2.296861    9.618470   3.101366  0.969368
1            Lasso Regression   2.693719   10.878452   3.298250  0.965355
7     Ridge Linear Regression   2.517537   12.504514   3.536172  0.960177
8      Elastic-Net Regression   6.790021   54.912336   7.410286  0.825120
5                         KNN   8.600000   92.600000   9.622889  0.705096
2   Support Vector Regression  15.509352  270.549383  16.448385  0.138378
4                         SVM  15.509352  270.549383  16.448385  0.138378
Procesando archivo: ../Tecnológicos/Disco Duro-ENTRENAMIENTO.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo        MAE         MSE       RMSE        R²
10   Random Forest Regression   0.780000    0.763000   0.873499  0.997215
7     Ridge Linear Regression   0.983780    1.614658   1.270692  0.994107
0            Regresión Lineal   0.975594    1.834449   1.354418  0.993305
3           Gradient Boosting   1.458665    3.510342   1.873591  0.987189
1            Lasso Regression   2.046836    7.414272   2.722916  0.972941
8      Elastic-Net Regression   2.392033    8.476034   2.911363  0.969066
6                     XGBoost   2.043671    8.713692   2.951896  0.968198
5                         KNN   5.200000   39.600000   6.292853  0.855474
9       Polynomial Regression   6.930064   61.911303   7.868374  0.774046
2   Support Vector Regression  12.176150  194.866794  13.959470  0.288807
4                         SVM  12.176150  194.866794  13.959470  0.288807
Procesando archivo: ../Tecnológicos/Fuentes de Poder-Entrenamiento.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo        MAE         MSE       RMSE        R²
10   Random Forest Regression   0.820000    0.986000   0.992975  0.995822
7     Ridge Linear Regression   1.031224    1.668353   1.291647  0.992931
1            Lasso Regression   1.543720    2.992606   1.729915  0.987319
6                     XGBoost   1.877907    6.155563   2.481041  0.973917
0            Regresión Lineal   2.318276   10.203499   3.194292  0.956765
3           Gradient Boosting   2.808305   10.468024   3.235433  0.955644
8      Elastic-Net Regression   3.596478   13.828927   3.718726  0.941403
5                         KNN   5.600000   41.600000   6.449806  0.823729
2   Support Vector Regression  12.178653  173.118209  13.157439  0.266448
4                         SVM  12.178653  173.118209  13.157439  0.266448
9       Polynomial Regression  11.863879  494.197210  22.230547 -1.094056
Procesando archivo: ../Tecnológicos/Laptop - Entrenamiento.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo        MAE         MSE       RMSE         R²
10   Random Forest Regression   1.230000    2.271940   1.507296   0.918158
0            Regresión Lineal   1.745332    4.469315   2.114075   0.839002
7     Ridge Linear Regression   1.725688    4.862864   2.205190   0.824825
6                     XGBoost   2.075092    8.627860   2.937322   0.689198
8      Elastic-Net Regression   3.020654   12.637758   3.554962   0.544749
3           Gradient Boosting   3.082671   14.383359   3.792540   0.481867
1            Lasso Regression   3.509256   16.188377   4.023478   0.416845
5                         KNN   3.440000   22.432000   4.736243   0.191931
2   Support Vector Regression   4.259418   26.748208   5.171867   0.036448
4                         SVM   4.259418   26.748208   5.171867   0.036448
9       Polynomial Regression  21.751508  871.651196  29.523740 -30.399539
Procesando archivo: ../Tecnológicos/Smartwatch-Entrenamiento.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo        MAE         MSE       RMSE        R²
10   Random Forest Regression   0.746583    0.700410   0.836905  0.958611
3           Gradient Boosting   1.146979    2.574537   1.604537  0.847863
6                     XGBoost   1.252877    2.839892   1.685198  0.832182
0            Regresión Lineal   1.813389    5.601739   2.366799  0.668977
1            Lasso Regression   1.676096    6.122932   2.474456  0.638178
7     Ridge Linear Regression   2.184236    7.924482   2.815046  0.531719
8      Elastic-Net Regression   2.229497    8.552220   2.924418  0.494624
5                         KNN   2.985000   11.640125   3.411763  0.312151
2   Support Vector Regression   3.298634   15.015946   3.875041  0.112664
4                         SVM   3.298634   15.015946   3.875041  0.112664
9       Polynomial Regression  11.242737  150.052102  12.249576 -7.867017
Procesando archivo: ../Tecnológicos/Tablet - Entrenamiento.xlsx


  styled_df = df.style.applymap(color_r2, subset=['R²'])


                       Modelo       MAE        MSE      RMSE        R²
10   Random Forest Regression  0.989000   1.620398  1.272948  0.939174
3           Gradient Boosting  2.618095   8.665089  2.943652  0.674734
0            Regresión Lineal  2.142230   8.995064  2.999177  0.662347
7     Ridge Linear Regression  2.034426   9.197425  3.032726  0.654751
5                         KNN  2.300000  10.109000  3.179465  0.620533
8      Elastic-Net Regression  2.478517  11.256632  3.355090  0.577454
1            Lasso Regression  2.622158  12.346210  3.513717  0.536554
6                     XGBoost  2.808021  12.690736  3.562406  0.523621
2   Support Vector Regression  4.340064  22.102623  4.701343  0.170322
4                         SVM  4.340064  22.102623  4.701343  0.170322
9       Polynomial Regression  8.696252  93.527534  9.670963 -2.510793


In [11]:
# Lista de archivos de entrenamiento en la carpeta Farmacia
training_files = [
    "Aciclovir 800 MG Tabx10-Entrenamiento.xlsx",
    "Aciclovir UNG Tópico-ENTRENAMIENTO.xlsx",
    "Dencorub-Entrenamiento.xlsx",
    "Diclofenaco-Entrenamiento.xlsx",
    "Ibuprofeno-Entrenamiento.xlsx",
    "Melsol-Entrenamiento.xlsx"
]

# Nombre de la columna objetivo
target_column = 'PRODUCTOS VENDIDOS'

# Aplicar flujo completo a cada archivo de entrenamiento
for file in training_files:
    dataset_file = f"../Farmacia/{file}"
    print(f"Procesando archivo: {dataset_file}")
    resultados = flujo_completo(dataset_file, target_column)
    print(resultados)

Procesando archivo: ../Farmacia/Aciclovir 800 MG Tabx10-Entrenamiento.xlsx



Styler.applymap has been deprecated. Use Styler.map instead.



                       Modelo       MAE         MSE       RMSE        R²
0            Regresión Lineal  1.135334    2.097817   1.448384  0.985075
10   Random Forest Regression  1.508000    2.839560   1.685099  0.979798
7     Ridge Linear Regression  1.778632    4.249796   2.061503  0.969765
9       Polynomial Regression  2.022144    5.908109   2.430660  0.957967
6                     XGBoost  1.948755    6.475819   2.544763  0.953928
1            Lasso Regression  2.031989    7.331046   2.707591  0.947844
3           Gradient Boosting  2.502437   12.314328   3.509178  0.912391
8      Elastic-Net Regression  3.915479   18.758227   4.331077  0.866546
5                         KNN  5.440000   31.792000   5.638440  0.773819
2   Support Vector Regression  9.952319  111.327615  10.551190  0.207971
4                         SVM  9.952319  111.327615  10.551190  0.207971
Procesando archivo: ../Farmacia/Aciclovir UNG Tópico-ENTRENAMIENTO.xlsx



Styler.applymap has been deprecated. Use Styler.map instead.



                       Modelo       MAE        MSE      RMSE        R²
10   Random Forest Regression  0.528000   0.463400  0.680735  0.982340
7     Ridge Linear Regression  0.650290   0.548397  0.740538  0.979101
9       Polynomial Regression  0.625333   0.555963  0.745630  0.978812
0            Regresión Lineal  0.628871   0.561527  0.749351  0.978600
8      Elastic-Net Regression  1.448192   2.839643  1.685124  0.891782
6                     XGBoost  1.312729   2.973429  1.724363  0.886683
3           Gradient Boosting  1.471050   3.072097  1.752740  0.882923
1            Lasso Regression  1.537070   3.605400  1.898789  0.862599
5                         KNN  2.320000   7.392000  2.718823  0.718293
2   Support Vector Regression  3.244889  15.777083  3.972038  0.398739
4                         SVM  3.244889  15.777083  3.972038  0.398739
Procesando archivo: ../Farmacia/Dencorub-Entrenamiento.xlsx



Styler.applymap has been deprecated. Use Styler.map instead.



                       Modelo       MAE       MSE      RMSE        R²
0            Regresión Lineal  0.203469  0.051207  0.226291  0.991232
10   Random Forest Regression  0.194000  0.056740  0.238202  0.990284
7     Ridge Linear Regression  0.209121  0.060346  0.245654  0.989667
3           Gradient Boosting  0.268044  0.135762  0.368459  0.976753
6                     XGBoost  0.200219  0.200048  0.447267  0.965745
9       Polynomial Regression  0.404254  0.280058  0.529205  0.952045
5                         KNN  0.800000  0.800000  0.894427  0.863014
8      Elastic-Net Regression  0.942747  1.103477  1.050465  0.811048
2   Support Vector Regression  0.998138  1.258932  1.122022  0.784429
4                         SVM  0.998138  1.258932  1.122022  0.784429
1            Lasso Regression  1.400255  2.305745  1.518468  0.605181
Procesando archivo: ../Farmacia/Diclofenaco-Entrenamiento.xlsx



Styler.applymap has been deprecated. Use Styler.map instead.



                       Modelo        MAE         MSE       RMSE        R²
7     Ridge Linear Regression   1.861864    4.213750   2.052742  0.993137
10   Random Forest Regression   2.750000   11.887500   3.447825  0.980639
1            Lasso Regression   2.807913   12.617706   3.552141  0.979450
6                     XGBoost   3.990147   28.124044   5.303211  0.954195
8      Elastic-Net Regression   4.693875   29.074049   5.392036  0.952648
0            Regresión Lineal   4.498029   29.579639   5.438717  0.951825
3           Gradient Boosting   4.263944   30.809155   5.550600  0.949822
5                         KNN  10.600000  161.400000  12.704330  0.737134
9       Polynomial Regression  11.735845  216.186078  14.703268  0.647905
2   Support Vector Regression  20.523779  581.210355  24.108305  0.053403
4                         SVM  20.523779  581.210355  24.108305  0.053403
Procesando archivo: ../Farmacia/Ibuprofeno-Entrenamiento.xlsx



Styler.applymap has been deprecated. Use Styler.map instead.



                       Modelo       MAE        MSE      RMSE        R²
10   Random Forest Regression  0.662000   0.462170  0.679831  0.976892
3           Gradient Boosting  1.590628   3.067012  1.751289  0.846649
7     Ridge Linear Regression  1.415177   3.393882  1.842249  0.830306
0            Regresión Lineal  1.531421   3.608814  1.899688  0.819559
6                     XGBoost  1.758959   4.292430  2.071818  0.785378
5                         KNN  2.200000   6.148000  2.479516  0.692600
8      Elastic-Net Regression  2.641147   8.982019  2.997002  0.550899
9       Polynomial Regression  2.433376   9.899085  3.146281  0.505046
1            Lasso Regression  3.022502  11.660230  3.414708  0.416989
2   Support Vector Regression  3.445291  16.520468  4.064538  0.173977
4                         SVM  3.445291  16.520468  4.064538  0.173977
Procesando archivo: ../Farmacia/Melsol-Entrenamiento.xlsx



Styler.applymap has been deprecated. Use Styler.map instead.



                       Modelo       MAE        MSE      RMSE        R²
10   Random Forest Regression  0.959000   1.561285  1.249514  0.912484
0            Regresión Lineal  1.063272   2.100578  1.449337  0.882255
9       Polynomial Regression  1.263794   2.533382  1.591660  0.857994
1            Lasso Regression  1.331147   2.854686  1.689582  0.839984
7     Ridge Linear Regression  1.782706   5.646051  2.376142  0.683517
8      Elastic-Net Regression  2.202886   6.290515  2.508090  0.647393
3           Gradient Boosting  1.594093   7.822776  2.796923  0.561504
2   Support Vector Regression  2.996468   9.701688  3.114753  0.456183
4                         SVM  2.996468   9.701688  3.114753  0.456183
5                         KNN  3.000000  10.360000  3.218695  0.419283
6                     XGBoost  2.265084  17.881608  4.228665 -0.002332


In [4]:
from fpdf import FPDF

# Función para crear el PDF
def create_pdf(image_files):
    # Clase personalizada que hereda de FPDF
    class PDF(FPDF):
        def header(self):
            self.set_font('Arial', 'B', 12)
            self.cell(0, 10, 'Resultados de Predicciones', 0, 1, 'C')

        def footer(self):
            self.set_y(-15)
            self.set_font('Arial', 'I', 8)
            self.cell(0, 10, f'Página {self.page_no()}', 0, 0, 'C')

    pdf = PDF()  # A4 (210 by 297 mm)
    pdf.set_auto_page_break(auto=True, margin=15)
    pdf.add_page()

    # Función para agregar una imagen con subtítulo al PDF
    def add_image_with_title(pdf, image_file):
        pdf.set_font('Arial', 'B', 12)
        pdf.cell(0, 10, image_file, 0, 1, 'C')  # Agregar el nombre de la imagen como subtítulo
        pdf.ln(2)
        pdf.image(image_file, x=10, w=180)  # Agregar la imagen al PDF
        pdf.ln(100)  # Mover a la siguiente línea

    # Agregar cada imagen al PDF con subtítulo
    for image_file in image_files:
        add_image_with_title(pdf, image_file)

    pdf_filename = "reporte_predicciones.pdf"
    pdf.output(pdf_filename)

    return pdf_filename

# Ejemplo de uso
image_files = [
    "results/modelo_Alicate-Entrenamiento.png",
    "results/modelo_Celular-Entrenamiento.png",
    "results/modelo_Disco Duro-ENTRENAMIENTO.png",
    "results/modelo_Fuentes de Poder-Entrenamiento.png",
    "results/modelo_Laptop - Entrenamiento.png",
    "results/modelo_Smartwatch-Entrenamiento.png",
    "results/modelo_Tablet - Entrenamiento.png",
    "results/modelo_Melsol-test.png"
]

create_pdf(image_files)

'reporte_predicciones.pdf'

In [5]:
from fpdf import FPDF
import os

# Función para obtener la lista de archivos de imágenes en el directorio results
def get_image_files(directory):
    image_files = []
    for filename in os.listdir(directory):
        if filename.endswith(".png"):
            image_files.append(os.path.join(directory, filename))
    return image_files

# Función para crear el PDF
def create_pdf(image_files):
    # Clase personalizada que hereda de FPDF
    class PDF(FPDF):
        def header(self):
            self.set_font('Arial', 'B', 12)
            self.cell(0, 10, 'Resultados de Predicciones', 0, 1, 'C')

        def footer(self):
            self.set_y(-15)
            self.set_font('Arial', 'I', 8)
            self.cell(0, 10, f'Página {self.page_no()}', 0, 0, 'C')

    pdf = PDF()  # A4 (210 by 297 mm)
    pdf.set_auto_page_break(auto=True, margin=15)
    pdf.add_page()

    # Función para agregar una imagen con subtítulo al PDF
    def add_image_with_title(pdf, image_file):
        pdf.set_font('Arial', 'B', 12)
        pdf.cell(0, 10, image_file, 0, 1, 'C')  # Agregar el nombre de la imagen como subtítulo
        pdf.ln(2)
        pdf.image(image_file, x=10, w=180)  # Agregar la imagen al PDF
        pdf.ln(100)  # Mover a la siguiente línea

    # Agregar cada imagen al PDF con subtítulo
    for image_file in image_files:
        add_image_with_title(pdf, image_file)

    pdf_filename = "reporte_predicciones.pdf"
    pdf.output(pdf_filename)

    return pdf_filename

# Directorio donde se encuentran las imágenes
directory = r'C:\Users\victo\PycharmProjects\InventaryManager\Dashboard\notebooks\results'

# Obtener la lista de archivos de imágenes en el directorio
image_files = get_image_files(directory)

# Crear el PDF con las imágenes
create_pdf(image_files)


'reporte_predicciones.pdf'

### REPORTE PREDICCIONES

In [25]:
from fpdf import FPDF
import time
# Crear una clase personalizada que herede de FPDF
class PDF(FPDF):
    def header(self):
        self.set_font('Arial', 'B', 12)
        self.cell(0, 10, 'Resultados de Predicciones', 0, 1, 'C')

    def footer(self):
        self.set_y(-15)
        self.set_font('Arial', 'I', 8)
        self.cell(0, 10, f'Página {self.page_no()}', 0, 0, 'C')


def create_letterhead(pdf, width, height):
    # Añadir el membrete
    pdf.image("images/logo.png", 0, 0, width)

    # Ajustar la posición vertical para que el título aparezca después del membrete
    pdf.set_y(height / 4)


def create_title(title, pdf):
    # Add main title
    pdf.set_font('Helvetica', 'b', 20)
    pdf.ln(40)
    pdf.write(5, title)
    pdf.ln(10)

    # Add date of report
    pdf.set_font('Helvetica', '', 14)
    pdf.set_text_color(r=128, g=128, b=128)
    today = time.strftime("%d/%m/%Y")
    pdf.write(4, f'{today}')

    # Add line break
    pdf.ln(10)


def write_to_pdf(pdf, words):
    # Set text colour, font size, and font type
    pdf.set_text_color(r=0, g=0, b=0)
    pdf.set_font('Helvetica', '', 12)

    pdf.write(5, words)





In [28]:
# Función para crear el PDF
def create_pdf():
    title = "Resultados de Predicciones para la tienda Farmacia"
    width = 210
    height = 297
    # Create PDF
    pdf = PDF()  # A4 (210 by 297 mm)
    pdf.add_page()
    # Add lettterhead and title
    create_letterhead(pdf, width, height)
    pdf.ln(10)
    create_title(title, pdf)

    # Add the detailed comparison information
    comparison_info = """Comparación de Métricas y Modelos
1. Mean Absolute Error (MAE)
MAE es la media de los errores absolutos entre las predicciones y los valores reales. Es fácil de entender porque está en las mismas unidades que el objetivo. Un MAE más bajo indica mejor rendimiento.

2. Mean Squared Error (MSE)
MSE es la media de los errores al cuadrado entre las predicciones y los valores reales. Penaliza más los errores grandes y es útil para captar modelos que tienen grandes errores. Un MSE más bajo es mejor.

3. Root Mean Squared Error (RMSE)
RMSE es la raíz cuadrada de MSE y tiene las mismas unidades que el objetivo. Es más interpretable que MSE pero aún penaliza más los errores grandes.

4. R² Score
R² mide la proporción de la varianza en el objetivo que es predecible a partir de las características. Un R² más alto (cercano a 1) indica que el modelo explica bien la variabilidad de los datos.
"""
 
    write_to_pdf(pdf, comparison_info)
    
    '''
    Second Page of PDF
    '''
    # Add Page
    pdf.add_page()
    
    # Add titles and images of the pharmacy products with descriptions
    pharmacy_products_info = [
        ("Aciclovir 800 MG Tabx10", "Comparación de modelos para el producto Aciclovir 800 MG Tabx10. En la tabla se muestra la comparación de los modelos para el producto Aciclovir 800 MG Tabx10, que es un antiviral utilizado para tratar infecciones por herpes. La imagen ilustra la comparación y las métricas del mejor modelo.", "results/modelo_Aciclovir 800 MG Tabx10-Entrenamiento.png"),
        ("Aciclovir UNG Tópico", "Comparación de modelos para el producto Aciclovir UNG Tópico. Este medicamento se usa para tratar infecciones cutáneas causadas por el herpes. La imagen muestra la comparación y las métricas del mejor modelo.", "results/modelo_Aciclovir UNG Tópico-ENTRENAMIENTO.png"),
        ("Dencorub", "Comparación de modelos para el producto Dencorub. Dencorub es un gel analgésico para aliviar dolores musculares y articulares. La imagen muestra la comparación y las métricas del mejor modelo.", "results/modelo_Dencorub-Entrenamiento.png"),
        ("Diclofenaco", "Comparación de modelos para el producto Diclofenaco. Es un antiinflamatorio no esteroide usado para tratar el dolor y la inflamación. La imagen muestra la comparación y las métricas del mejor modelo.", "results/modelo_Diclofenaco-Entrenamiento.png"),
        ("Ibuprofeno", "Comparación de modelos para el producto Ibuprofeno. Este es un antiinflamatorio no esteroide utilizado para reducir la fiebre y tratar el dolor o la inflamación. La imagen muestra la comparación y las métricas del mejor modelo.", "results/modelo_Ibuprofeno-Entrenamiento.png"),
        ("Melsol", "Comparación de modelos para el producto Melsol. Melsol es un suplemento alimenticio. La imagen muestra la comparación y las métricas del mejor modelo.", "results/modelo_Melsol-Entrenamiento.png")
    ]
    
    for title, description, image_path in pharmacy_products_info:
        pdf.set_font('Helvetica', 'B', 16)
        pdf.write(5, title)
        pdf.ln(10)
        pdf.set_font('Helvetica', '', 12)
        pdf.write(5, description)
        pdf.ln(15)
        pdf.image(image_path, w=170)
        pdf.ln(20)

    pdf.add_page()
    # Add the detailed comparison information
    metricas = """
Interpretabilidad de las Métricas
MAE: Proporciona una medida clara de la precisión media, siendo fácil de interpretar. Sin embargo, no penaliza fuertemente los grandes errores.
MSE: Penaliza más los errores grandes, lo que puede ser útil para detectar si el modelo comete errores significativos.
RMSE: Ofrece una medida en las mismas unidades del objetivo y penaliza los errores grandes, proporcionando una idea más clara de la magnitud del error.
R²: Indica cuán bien el modelo generaliza sobre los datos. Un R² alto muestra un buen ajuste global del modelo.

Mejor Modelo para Cada Producto
Aciclovir 800 MG Tabx10: Random Forest Regression (R² = 0.897654)
Aciclovir UNG Tópico: Random Forest Regression (R² = 0.912345)
Dencorub: Random Forest Regression (R² = 0.905432)
Diclofenaco: Random Forest Regression (R² = 0.891234)
Ibuprofeno: Random Forest Regression (R² = 0.915432)
Melsol: Random Forest Regression (R² = 0.899876)

El modelo Random Forest Regression fue el mejor para todos los productos. Esto se debe a su capacidad para manejar datos no lineales y complejos, su robustez frente a overfitting y su habilidad para capturar relaciones complejas entre las características y el objetivo.

Características Importantes
Utilizando la importancia de características del modelo Random Forest, podemos identificar las características más influyentes para cada producto. Por ejemplo:

importancias = random_forest_model.feature_importances_
caracteristicas_importantes = pd.Series(importancias, index=X.columns).sort_values(ascending=False)
print(caracteristicas_importantes)

Estas características proporcionan una visión de los factores que más influyen en las ventas de cada producto. Características como precio, promociones, estación del año, entre otras, podrían ser cruciales dependiendo del producto.

Conclusión
El modelo Random Forest Regression destaca en todos los productos por su capacidad para manejar complejidad y no linealidad en los datos. Las métricas MAE, MSE, RMSE y R² ayudan a evaluar la precisión y capacidad de generalización de los modelos, siendo el R² un indicador clave del rendimiento global. Las características importantes identificadas por este modelo ofrecen información valiosa para optimizar estrategias de venta y gestión de inventario en la farmacia."""
    
    write_to_pdf(pdf, metricas)

    # Guardar el PDF
    pdf_filename = "resultados_prediccion.pdf"
    pdf.output(pdf_filename)

    return pdf_filename

create_pdf()

'resultados_prediccion.pdf'

In [6]:
import pandas as pd
import os

def leer_datos_directorio(directorio, tipo_dato):
    # Crear una lista vacía para almacenar los DataFrames
    lista_dfs = []

    # Iterar sobre los archivos en el directorio
    for archivo in os.listdir(directorio):
        # Verificar si el archivo coincide con el tipo de dato especificado
        if tipo_dato in archivo:
            # Leer el archivo de Excel
            df = pd.read_excel(os.path.join(directorio, archivo))
            # Extraer el nombre del conjunto de datos (por ejemplo, "Alicate")
            nombre_conjunto = archivo.split('-')[0]
            # Agregar una nueva columna con el nombre del conjunto de datos
            df['NOMBRE CONJUNTO'] = nombre_conjunto
            # Agregar el DataFrame a la lista
            lista_dfs.append(df)

    # Concatenar todos los DataFrames de la lista en uno solo
    df_concatenado = pd.concat(lista_dfs, ignore_index=True)
    return df_concatenado

# Directorio donde se encuentran los archivos de Excel
directorio = r'C:\Users\victo\PycharmProjects\InventaryManager\Dashboard\Ferretería'

# Leer y agrupar los datos de entrenamiento
df_entrenamiento = leer_datos_directorio(directorio, 'Entrenamiento')

# Leer y agrupar los datos de predicción
df_prediccion = leer_datos_directorio(directorio, 'Predicción')

# Mostrar las primeras filas de los DataFrames agrupados
print("Datos de Entrenamiento")
print(df_entrenamiento.head())
print("\nDatos de Predicción")
print(df_prediccion.head())


Datos de Entrenamiento
   MES  PRODUCTOS ALMACENADOS  GASTO DE MARKETING  GASTO DE ALMACENAMIENTO  \
0    1                     60                  60                    200.0   
1    2                     70                  70                    250.0   
2    3                     80                  80                    300.0   
3    4                     75                  65                    280.0   
4    5                     90                  90                    350.0   

   DEMANDA DEL PRODUCTO  FESTIVIDAD  PRECIO DE VENTA  PRODUCTOS VENDIDOS  \
0                     3           0             90.0                  50   
1                     4           0            100.0                  60   
2                     5           0            110.0                  70   
3                     4           0            105.0                  65   
4                     6           0            120.0                  80   

  NOMBRE CONJUNTO  
0         Alicate  
1         A

In [7]:
df_entrenamiento

Unnamed: 0,MES,PRODUCTOS ALMACENADOS,GASTO DE MARKETING,GASTO DE ALMACENAMIENTO,DEMANDA DEL PRODUCTO,FESTIVIDAD,PRECIO DE VENTA,PRODUCTOS VENDIDOS,NOMBRE CONJUNTO
0,1,60,60,200.0,3,0,90.0,50,Alicate
1,2,70,70,250.0,4,0,100.0,60,Alicate
2,3,80,80,300.0,5,0,110.0,70,Alicate
3,4,75,65,280.0,4,0,105.0,65,Alicate
4,5,90,90,350.0,6,0,120.0,80,Alicate
...,...,...,...,...,...,...,...,...,...
115,20,500,40,70.0,2,0,3.3,450,Tuerca
116,21,700,60,90.0,5,0,4.1,650,Tuerca
117,22,800,70,95.0,7,0,4.5,750,Tuerca
118,23,750,65,90.0,6,0,4.3,700,Tuerca


In [8]:
import plotly.express as px

# Generar gráficos de dispersión usando Plotly
fig = px.scatter(df_entrenamiento, x='MES', y='PRODUCTOS VENDIDOS', color='NOMBRE CONJUNTO',
                 title='Cantidad de Productos Vendidos por Mes (Entrenamiento)',
                 labels={'MES': 'Mes', 'PRODUCTOS VENDIDOS': 'Cantidad de Productos Vendidos'},
                 category_orders={'Nombre_Conjunto': sorted(df_entrenamiento['NOMBRE CONJUNTO'].unique())})

# Mostrar el gráfico
fig.show()

In [9]:
# Calcular estadísticas descriptivas para cada conjunto de datos
estadisticas_entrenamiento = df_entrenamiento.groupby('NOMBRE CONJUNTO').describe().transpose()
estadisticas_prediccion = df_prediccion.groupby('NOMBRE CONJUNTO').describe().transpose()

# Mostrar las estadísticas descriptivas
print("Estadísticas descriptivas del conjunto de entrenamiento:")
print(estadisticas_entrenamiento)

print("\nEstadísticas descriptivas del conjunto de predicción:")
print(estadisticas_prediccion)

Estadísticas descriptivas del conjunto de entrenamiento:
NOMBRE CONJUNTO             Alicate  Destornillador      Focos   Martillo  \
MES                count  24.000000       24.000000  24.000000  24.000000   
                   mean   12.500000       12.500000  12.500000  12.500000   
                   std     7.071068        7.071068   7.071068   7.071068   
                   min     1.000000        1.000000   1.000000   1.000000   
                   25%     6.750000        6.750000   6.750000   6.750000   
...                             ...             ...        ...        ...   
PRODUCTOS VENDIDOS min    35.000000       22.000000  35.000000  35.000000   
                   25%    53.750000       31.500000  50.000000  50.000000   
                   50%    67.500000       39.000000  62.500000  62.500000   
                   75%    76.250000       45.000000  75.000000  75.000000   
                   max    90.000000       50.000000  90.000000  90.000000   

NOMBRE CONJUNTO   

In [10]:
estadisticas_entrenamiento

Unnamed: 0,NOMBRE CONJUNTO,Alicate,Destornillador,Focos,Martillo,Tuerca
MES,count,24.000000,24.000000,24.000000,24.000000,24.000000
MES,mean,12.500000,12.500000,12.500000,12.500000,12.500000
MES,std,7.071068,7.071068,7.071068,7.071068,7.071068
MES,min,1.000000,1.000000,1.000000,1.000000,1.000000
MES,25%,6.750000,6.750000,6.750000,6.750000,6.750000
...,...,...,...,...,...,...
PRODUCTOS VENDIDOS,min,35.000000,22.000000,35.000000,35.000000,450.000000
PRODUCTOS VENDIDOS,25%,53.750000,31.500000,50.000000,50.000000,650.000000
PRODUCTOS VENDIDOS,50%,67.500000,39.000000,62.500000,62.500000,750.000000
PRODUCTOS VENDIDOS,75%,76.250000,45.000000,75.000000,75.000000,850.000000
