In [78]:
import plotly.express as px 
import pandas as pd
dataframe_nuevo = pd.read_csv("datos_limpios_pro.csv")
dataframe_viejo = pd.read_csv("datos_limpios_sap.csv")

In [79]:
dataframe_nuevo.columns

Index(['codigo', 'descrip', 'cod_sector', 'fecha', 'design', 'pantone',
       'nombre_color', 'cantidad', 'suc', 'temporada_venta'],
      dtype='object')

In [80]:
dataframe_viejo = dataframe_viejo.drop(columns=['lote'])
dataframe_viejo.columns


Index(['codigo', 'descrip', 'cod_sector', 'fecha', 'design', 'pantone',
       'nombre_color', 'cantidad', 'suc', 'temporada_venta'],
      dtype='object')

In [24]:
dataframe_nuevo = pd.concat([dataframe_nuevo, dataframe_viejo], ignore_index=True)

In [82]:
dataframe_nuevo.shape


(1844711, 10)

In [27]:
dataframe_nuevo['fecha'] = pd.to_datetime(dataframe_nuevo['fecha'])

# Extraer el mes y el año de la columna 'fecha'
dataframe_nuevo['mes'] = dataframe_nuevo['fecha'].dt.to_period("M") #MES

# Agrupar por mes, descrip y otras columnas, y sumar las ventas
df_agrupado = dataframe_nuevo.groupby(['mes', 'descrip', 'suc', 'nombre_color', 'design']).agg({'cantidad': 'sum'}).reset_index()

# Renombrar la columna 'cantidad' a 'venta'
df_agrupado = df_agrupado.rename(columns={'cantidad': 'venta'})

# Mostrar el nuevo DataFrame
df_agrupado

Unnamed: 0,mes,descrip,suc,nombre_color,design,venta
0,2017-04,ACETATO,1,BLANCO BRILLANTE,No definido,0.3
1,2017-04,ACETATO,5,LILA ORQUIDEA OSCURO,No definido,1.5
2,2017-04,ALEMANISCO,1,AZUL OLIMPIA,No definido,1.4
3,2017-04,ALFOMBRA ANTIDESLIZANTE ESTAMPADO,5,BLANCO BRILLANTE,No definido,0.4
4,2017-04,ALFOMBRA ANTIDESLIZANTE LISO,5,AZUL NIEBLA,No definido,2.0
...,...,...,...,...,...,...
790571,2023-08,VIYELAS ESTAMPADA,6,SALMON CREMA,TARTAN,3.0
790572,2023-08,VIYELAS ESTAMPADA,10,AMARILLO MINERAL,FLORAL,1.0
790573,2023-08,VIYELAS ESTAMPADA,10,AZUL MEDIEVAL,TARTAN,1.5
790574,2023-08,VIYELAS ESTAMPADA,24,AMARILLO MINERAL,FLORAL,0.5


In [32]:
dataframe_nuevo['fecha'] = pd.to_datetime(dataframe_nuevo['fecha'])

# Crear una nueva columna 'mes' con el formato 'YYYY-MM'
dataframe_nuevo['mes'] = dataframe_nuevo['fecha'].dt.strftime('%Y-%m')

# Agrupar por mes, descrip, sumar las ventas y redondear el resultado
df_agrupado = dataframe_nuevo.groupby(['mes', 'descrip'])['cantidad'].sum().reset_index()
df_agrupado['venta'] = df_agrupado['cantidad'].round().astype(int)

# Seleccionar las columnas requeridas en el nuevo DataFrame
df_resultado = df_agrupado[['mes', 'descrip', 'venta']]

# Imprimir el nuevo DataFrame
print(df_resultado)

           mes                            descrip  venta
0      2017-04                            ACETATO      2
1      2017-04                         ALEMANISCO      1
2      2017-04  ALFOMBRA ANTIDESLIZANTE ESTAMPADO      0
3      2017-04       ALFOMBRA ANTIDESLIZANTE LISO      2
4      2017-04                          ANTISOLAR      2
...        ...                                ...    ...
35348  2023-08                    VELBOA JACQUARD      1
35349  2023-08                        VELBOA SOFT     20
35350  2023-08                    VISCOLYCRA LISO   1220
35351  2023-08                 VISCOLYCRA MELANGE      9
35352  2023-08                  VIYELAS ESTAMPADA     31

[35353 rows x 3 columns]


In [33]:
# Imprimir el nuevo DataFrame
df_resultado

Unnamed: 0,mes,descrip,venta
0,2017-04,ACETATO,2
1,2017-04,ALEMANISCO,1
2,2017-04,ALFOMBRA ANTIDESLIZANTE ESTAMPADO,0
3,2017-04,ALFOMBRA ANTIDESLIZANTE LISO,2
4,2017-04,ANTISOLAR,2
...,...,...,...
35348,2023-08,VELBOA JACQUARD,1
35349,2023-08,VELBOA SOFT,20
35350,2023-08,VISCOLYCRA LISO,1220
35351,2023-08,VISCOLYCRA MELANGE,9


In [86]:
# Filtrar el DataFrame solo para la tela 'DIOLEN LISO'
df_diolen_liso = df_resultado[df_resultado['descrip'] == 'DIOLEN LISO']

# Crear la gráfica con Plotly Express
fig = px.line(df_diolen_liso, x='mes', y='venta', title='Ventas de DIOLEN LISO a lo largo del tiempo',
              labels={'venta': 'Ventas', 'mes': 'Mes'},
              line_shape='linear')

# Mostrar la gráfica
fig.show()

Como podemos ver dataframe viejo hace que nuestros datos no sean para nada estacionarios debido a la antigua mala gestión de las ventas.

In [40]:
dataframe_nuevo['fecha'] = pd.to_datetime(dataframe_nuevo['fecha'])

# Crear una nueva columna 'mes' con el formato 'YYYY-MM'
dataframe_nuevo['mes'] = dataframe_nuevo['fecha'].dt.strftime('%Y-%m')

# Agrupar por mes, descrip, sumar las ventas y redondear el resultado
df_resultado_nuevo = dataframe_nuevo.groupby(['mes', 'descrip'])['cantidad'].sum().reset_index()
df_resultado_nuevo['venta'] = df_resultado_nuevo['cantidad'].round().astype(int)

# Seleccionar las columnas requeridas en el nuevo DataFrame
df_resultado_nuevo = df_resultado_nuevo[['mes', 'descrip', 'venta']]

# Imprimir el nuevo DataFrame
df_resultado_nuevo

Unnamed: 0,mes,descrip,venta
0,2021-02,ACCESORIO CINTA TAPIZADO,1697
1,2021-02,ACETATO,16580
2,2021-02,ALEMANISCO,2
3,2021-02,ALEMANISCO ELUNEY,16
4,2021-02,ALEMANISCO PREMIUN,14
...,...,...,...
17664,2023-08,VELBOA JACQUARD,1
17665,2023-08,VELBOA SOFT,20
17666,2023-08,VISCOLYCRA LISO,1220
17667,2023-08,VISCOLYCRA MELANGE,9


In [42]:
top_20_mas_vendidos = df_resultado_nuevo.groupby('descrip')['venta'].sum().sort_values(ascending=False).head(20).index

# Filtrar el DataFrame para obtener solo los datos de los 20 elementos más vendidos
df_top_20 = df_resultado_nuevo[df_resultado_nuevo['descrip'].isin(top_20_mas_vendidos)]

# Crear la gráfica con Plotly Express
fig = px.line(df_top_20, x='mes', y='venta', color='descrip', title='Top 20 elementos más vendidos',
              labels={'venta': 'Ventas', 'mes': 'Mes', 'descrip': 'Producto'},
              line_shape='linear')

# Mostrar la gráfica
fig.show()

# Empezamos a limpiar nuestros datos de cara a entrenar el modelo ARIMA 

In [44]:
import pandas as pd
from statsmodels.tsa.stattools import adfuller

def remove_non_stationary(df, significance_level=0.05, min_sample_size=10): 
    df_stationary = pd.DataFrame(columns=['mes', 'descrip', 'venta'])
    removed_count = 0
    removal_criterion = []

    for product in df['descrip'].unique():
        df_product = df[df['descrip'] == product]

        # Verificar que el tamaño de la muestra sea suficientemente grande porque sino da error.
        if len(df_product) < min_sample_size:
            removed_count += len(df_product)
            removal_criterion.append(f"Producto '{product}': Tamaño de muestra insuficiente.")
            continue

        # Realizar la prueba de Dickey-Fuller aumentada
        result = adfuller(df_product['venta'])
        p_value = result[1]

        if p_value <= significance_level:
            df_stationary = pd.concat([df_stationary, df_product])
        else:
            removed_count += len(df_product)
            removal_criterion.append(f"Producto '{product}': p-value = {p_value} > {significance_level}")

    print(f"Se eliminaron {removed_count} filas no estacionarias.")
    print("Criterios de eliminación:")
    for criterion in removal_criterion:
        print(criterion)

    return df_stationary

df_stationary = remove_non_stationary(df_resultado_nuevo)

# Ahora podemos usar df_stationary para el análisis de ARIMA



divide by zero encountered in log



Se eliminaron 7852 filas no estacionarias.
Criterios de eliminación:
Producto 'ACCESORIO CINTA TAPIZADO': p-value = 0.9951953033959051 > 0.05
Producto 'ALEMANISCO ELUNEY': p-value = 0.2050877362751597 > 0.05
Producto 'ALFOMBRA ANTIDESLIZANTE ESTAMPADO': p-value = 0.21502066573948686 > 0.05
Producto 'ALFOMBRA ANTIDESLIZANTE LISO': p-value = 0.9418078928096225 > 0.05
Producto 'ALFOMBRA TAPIZMEL': p-value = 0.4125729325499046 > 0.05
Producto 'ALFOMBRA TAPIZMEL FELPA': p-value = 0.6490196752012974 > 0.05
Producto 'ANTISOLAR 3D': p-value = 0.9763626003414191 > 0.05
Producto 'ANTISOLAR BASKET': p-value = 0.5905069754173223 > 0.05
Producto 'ANTISOLAR BELICE': p-value = 0.24422414103313234 > 0.05
Producto 'ANTISOLAR BRILLOSO': p-value = 0.17092257163325614 > 0.05
Producto 'ANTISOLAR EMBOSS': p-value = 0.060233182013101814 > 0.05
Producto 'ANTISOLAR PANA': p-value = 0.7797119466028799 > 0.05
Producto 'ANTISOLAR PANAMA': p-value = 0.6859231369210367 > 0.05
Producto 'ANTISOLAR RAYAS': Tamaño de m

In [88]:
df_stationary

Unnamed: 0,mes,descrip,venta
1,2021-02,ACETATO,16580
544,2021-03,ACETATO,14959
1101,2021-04,ACETATO,31214
1665,2021-05,ACETATO,56038
2197,2021-06,ACETATO,31245
...,...,...,...
15357,2023-04,TUL GLITTER MOTAS,8
15927,2023-05,TUL GLITTER MOTAS,13
16493,2023-06,TUL GLITTER MOTAS,6
17070,2023-07,TUL GLITTER MOTAS,8


# Esta parte no funciona

In [54]:
import pandas as pd
from statsmodels.tsa.arima.model import ARIMA

# Suponiendo que tienes tu DataFrame llamado df_stationary

# Crear un DataFrame de fechas para el período de predicción
fechas_prediccion = pd.date_range(start='2023-09-01', end='2024-09-01', freq='M')

# Crear un diccionario para almacenar las predicciones de cada producto
predicciones = {}

# Iterar sobre los productos en df_stationary
for product in df_stationary['descrip'].unique():
    df_product = df_stationary[df_stationary['descrip'] == product]

    # Convertir la columna 'venta' a tipo numérico si no lo es
    df_product['venta'] = pd.to_numeric(df_product['venta'], errors='coerce')

    # Eliminar filas con valores nulos resultantes de la conversión
    df_product = df_product.dropna(subset=['venta'])

    # Crear una serie temporal con fechas como índice y frecuencia mensual
    serie_temporal = pd.Series(df_product['venta'].values, index=pd.to_datetime(df_product['mes']))

    # Ajustar un modelo ARIMA (p, d, q) con d=0
    modelo_arima = ARIMA(serie_temporal, order=(1, 0, 1))
    resultado_arima = modelo_arima.fit()

    # Realizar predicciones para el período 2023-09 al 2024-09
    predicciones[product] = resultado_arima.get_forecast(steps=len(fechas_prediccion))
    predicciones[product] = predicciones[product].predicted_mean.round().astype(int)

# Crear un DataFrame con las predicciones
df_predicciones = pd.DataFrame(predicciones)

# Replicar las fechas de predicción para cada producto
df_predicciones['mes'] = fechas_prediccion.strftime('%Y-%m').tolist() * len(df_predicciones)

# Reorganizar las columnas para que coincidan con el formato deseado
df_predicciones = df_predicciones[['mes'] + list(df_predicciones.columns[:-1])]

# Imprimir el DataFrame con las predicciones
print(df_predicciones)




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


No frequency information was provided, so inferred frequency MS will be used.


No frequency information was provided, so inferred frequency MS will be used.


No frequency information was provided, so inferred frequency MS will be used.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


A date index has been provided, but it has no associated frequency information and so will be ignored when e.g. forecasting.


A date index has been provided, but it has no associated frequency information and so will be ignore

ValueError: Length of values (564) does not match length of index (47)

In [99]:
df_predicciones = pd.DataFrame(predicciones)

# Replicar las fechas de predicción para cada fila (no para cada producto)
df_predicciones['mes'] = fechas_prediccion.repeat(len(df_predicciones) // len(fechas_prediccion) + 1)[:len(df_predicciones)].strftime('%Y-%m')

# Reorganizar las columnas para que coincidan con el formato deseado
df_predicciones = df_predicciones[['mes'] + list(df_predicciones.columns[:-1])]



In [57]:
df_predicciones = df_predicciones.transpose()

# Imprimir el DataFrame transpuesto
df_predicciones

Unnamed: 0,2023-09-01 00:00:00,2023-10-01 00:00:00,2023-11-01 00:00:00,2023-12-01 00:00:00,2024-01-01 00:00:00,2024-02-01 00:00:00,2024-03-01 00:00:00,2024-04-01 00:00:00,2024-05-01 00:00:00,2024-06-01 00:00:00,...,41,2023-06-01 00:00:00,2023-07-01 00:00:00,2023-08-01 00:00:00,11,12,13,14,15,10
mes,2023-09,2023-09,2023-09,2023-09,2023-10,2023-10,2023-10,2023-10,2023-11,2023-11,...,2024-06,2024-06,2024-06,2024-07,2024-07,2024-07,2024-07,2024-08,2024-08,2024-08
ACETATO,8784.0,15501.0,18765.0,20350.0,21120.0,21495.0,21676.0,21765.0,21807.0,21828.0,...,,,,,,,,,,
ALEMANISCO,,,,,,,,,,,...,,,,,,,,,,
ALEMANISCO PREMIUN,34.0,35.0,35.0,35.0,35.0,35.0,35.0,35.0,35.0,35.0,...,,,,,,,,,,
ANTISOLAR,1162.0,1195.0,1213.0,1223.0,1229.0,1232.0,1234.0,1235.0,1236.0,1236.0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
SARGA VENETA,219.0,146.0,133.0,131.0,130.0,130.0,130.0,130.0,130.0,130.0,...,,,,,,,,,,
MUSELINA SPANDEX PLISADA,7.0,9.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,...,,,,,,,,,,
PIED DE POULE SOFT,45.0,44.0,43.0,42.0,42.0,41.0,41.0,41.0,41.0,41.0,...,,,,,,,,,,
TUL GLITTER ESTRELLAS,36.0,40.0,43.0,45.0,47.0,48.0,49.0,49.0,49.0,50.0,...,,,,,,,,,,


In [92]:
import pandas as pd
from statsmodels.tsa.arima.model import ARIMA

# Crear un DataFrame de fechas para el período de predicción
fechas_prediccion = pd.date_range(start='2023-09-01', end='2024-09-01', freq='MS')

# Crear un diccionario para almacenar las predicciones de cada producto
predicciones = {}

# Iterar sobre los productos en df_product
for product in df_product['descrip'].unique():
    df_product_filtered = df_product[df_product['descrip'] == product]

    # Asegúrate de que 'venta' sea de tipo numérico
    df_product_filtered['venta'] = pd.to_numeric(df_product_filtered['venta'], errors='coerce')

    # Elimina filas con valores faltantes en 'venta'
    df_product_filtered = df_product_filtered.dropna(subset=['venta'])

    # Crear una serie temporal con fechas como índice
    serie_temporal = pd.Series(df_product_filtered['venta'].values, index=pd.to_datetime(df_product_filtered['mes']))

    # Ajustar un modelo ARIMA (p, d, q)
    modelo_arima = ARIMA(serie_temporal, order=(1, 1, 1))
    resultado_arima = modelo_arima.fit()

    # Realizar predicciones para el período 2023-09 al 2024-09
    predicciones[product] = resultado_arima.get_forecast(steps=len(fechas_prediccion))
    predicciones[product] = predicciones[product].predicted_mean.round().astype(int)

# Crear un DataFrame con las predicciones
df_predicciones = pd.DataFrame(predicciones)
df_predicciones['mes'] = fechas_prediccion.strftime('%Y-%m')

# Reorganizar las columnas para que coincidan con el formato deseado
df_predicciones = df_predicciones[['mes'] + list(df_predicciones.columns[:-1])]

# Crear una tabla resumen con la sumatoria de las ventas para cada producto a lo largo de un año
df_resumen_ventas = df_predicciones.groupby('mes').sum().reset_index()

# Imprimir el DataFrame con las predicciones
print("Predicciones para cada producto:")
df_predicciones
print("\nTabla resumen de ventas por mes:")
df_resumen_ventas


Predicciones para cada producto:

Tabla resumen de ventas por mes:



No frequency information was provided, so inferred frequency MS will be used.


No frequency information was provided, so inferred frequency MS will be used.


No frequency information was provided, so inferred frequency MS will be used.



Unnamed: 0,mes,TUL GLITTER MOTAS
0,2023-09,25
1,2023-10,27
2,2023-11,27
3,2023-12,28
4,2024-01,28
5,2024-02,28
6,2024-03,28
7,2024-04,28
8,2024-05,28
9,2024-06,28


# A partir de acá empieza a funcionar.

In [93]:
import pandas as pd
from statsmodels.tsa.arima.model import ARIMA

# Supongamos que tienes un DataFrame llamado df_stationary con columnas 'mes', 'descrip', 'venta'

# Crear un DataFrame de fechas para el período de predicción
fechas_prediccion = pd.date_range(start='2023-09-01', end='2024-09-01', freq='MS')

# Crear un diccionario para almacenar las predicciones de cada producto
predicciones = {}

# Iterar sobre los productos en df_stationary
for product in df_stationary['descrip'].unique():
    df_product = df_stationary[df_stationary['descrip'] == product]

    # Asegúrate de que 'venta' sea de tipo numérico y elimina filas con valores faltantes
    df_product['venta'] = pd.to_numeric(df_product['venta'], errors='coerce')
    df_product = df_product.dropna(subset=['venta'])

    # Crear una serie temporal con fechas como índice
    serie_temporal = pd.Series(df_product['venta'].values, index=pd.to_datetime(df_product['mes']))

    # Ajustar un modelo ARIMA (p, d, q) con d=0 # Se usa 0 cuando los datos ya son estacionarios y se usa 1 cuando no
    modelo_arima = ARIMA(serie_temporal, order=(1, 0, 1))
    resultado_arima = modelo_arima.fit()

    # Realizar predicciones para el período 2023-09 al 2024-09
    predicciones[product] = resultado_arima.get_forecast(steps=len(fechas_prediccion)).predicted_mean.round().astype(int)

# Crear un DataFrame con las predicciones
df_predicciones = pd.DataFrame(predicciones)

# Crear una tabla resumen con la sumatoria de las predicciones para cada producto
df_resumen = df_predicciones.sum(axis=0).reset_index()
df_resumen.columns = ['descrip', 'ventas_2024']




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


No frequency information was provided, so inferred frequency MS will be used.


No frequency information was provided, so inferred frequency MS will be used.


No frequency information was provided, so inferred frequency MS will be used.



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


A date index has been provided, but it has no associated frequency information and so will be ignored when e.g. forecasting.


A date index has been provided, but it has no associated frequency information and so will be ignore

                     ACETATO  ALEMANISCO  ALEMANISCO PREMIUN  ANTISOLAR   
2023-09-01 00:00:00   8784.0         NaN                34.0     1162.0  \
2023-10-01 00:00:00  15501.0         NaN                35.0     1195.0   
2023-11-01 00:00:00  18765.0         NaN                35.0     1213.0   
2023-12-01 00:00:00  20350.0         NaN                35.0     1223.0   
2024-01-01 00:00:00  21120.0         NaN                35.0     1229.0   
2024-02-01 00:00:00  21495.0         NaN                35.0     1232.0   
2024-03-01 00:00:00  21676.0         NaN                35.0     1234.0   
2024-04-01 00:00:00  21765.0         NaN                35.0     1235.0   
2024-05-01 00:00:00  21807.0         NaN                35.0     1236.0   
2024-06-01 00:00:00  21828.0         NaN                35.0     1236.0   
2024-07-01 00:00:00  21838.0         NaN                35.0     1236.0   
2024-08-01 00:00:00  21843.0         NaN                35.0     1236.0   
2024-09-01 00:00:00  2184

In [96]:
df_resumen

Unnamed: 0,descrip,ventas_2024
0,ACETATO,258618.0
1,ALEMANISCO,67.0
2,ALEMANISCO PREMIUN,454.0
3,ANTISOLAR,15903.0
4,ANTISOLAR BASKET REGULAR,650.0
...,...,...
364,SARGA VENETA,1799.0
365,MUSELINA SPANDEX PLISADA,126.0
366,PIED DE POULE SOFT,542.0
367,TUL GLITTER ESTRELLAS,606.0


In [94]:
import plotly.express as px

# Crear una tabla resumen con la sumatoria de las predicciones para cada producto
df_resumen = df_predicciones.sum(axis=0).reset_index()
df_resumen.columns = ['descrip', 'ventas_2024']

# Crear la gráfica con Plotly Express
fig = px.bar(df_resumen, x='descrip', y='ventas_2024', title='Resumen de Ventas para 2024')
fig.update_layout(xaxis_title='Descripción del Producto', yaxis_title='Ventas Estimadas para 2024')

# Guardar la gráfica en un archivo HTML
fig.write_html("resumen_ventas_2024.html")

# Guardar el DataFrame en un archivo CSV
df_resumen.to_csv("resumen_ventas_2024.csv", index=False)

# Guardar el DataFrame en un archivo Excel
df_resumen.to_excel("resumen_ventas_2024.xlsx", index=False)

# Mostrar la gráfica
fig.show()


In [98]:
df_resumen.shape

(369, 2)