# Ingeniería de datos de los precios de compras del Supermercado La Osa - Madrid
* Se le dará formato adecuado a los datasets entregados por La Osa.

In [4]:
import pandas as pd
import seaborn as sn
import numpy as np
import matplotlib as ploty

%matplotlib inline
import warnings
warnings.filterwarnings("ignore")

### Importamos los datasets

In [5]:
#Datasets de compra de productos a proveedores 2021-2022
coste_enejun= pd.read_excel("Evolución_precio_enerojunio22.xls")
coste_juldic= pd.read_excel("Evolución_precio_juliodiciembre22.xls")
coste_2021= pd.read_excel("Price_history_2021.xls")
coste_2022= pd.read_excel("Price_history_122022.xls")

### Exploramos los datasets de precio
* `Price_history_122022.xls` -->Hay información de Diciembre del 2022, la cual aparentemente ya está en el archivo `Evolución_precio_juliodiciembre22.xls`
* Tenemos que corroborar si esta es informacion adicional del mes de Diciembre del 2022 o es información duplicada (Preguntar al Stakeholder)
* El supermercado comenzó en el año 2020 --> Preguntar si hay información de Dicembre 2020
* ¿Puede haber erro en los nombres de los archivos?

### Precios de Compra de Productos a Proveedores
* Se revisan los archivos:

`Evolución_precio_enerojunio22.xls` 

`Evolución_precio_juliodiciembre22.xls`

`Price_history_2021.xls`

`Price_history_122022.xls`




In [6]:
coste_enejun.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33361 entries, 0 to 33360
Data columns (total 8 columns):
 #   Column                                                  Non-Null Count  Dtype         
---  ------                                                  --------------  -----         
 0   External ID                                             21005 non-null  object        
 1   Producto/Nombre                                         21005 non-null  object        
 2   Coste                                                   21005 non-null  float64       
 3   Fecha                                                   21005 non-null  datetime64[ns]
 4   Producto/Cuenta analítica para gastos/Nombre a mostrar  21005 non-null  object        
 5   Producto/Referencia interna                             21005 non-null  float64       
 6   Producto/Proveedores/Nombre a mostrar                   33361 non-null  object        
 7   Producto/Categoría de producto/Nombre a mostrar         210

In [7]:
coste_enejun.isnull().sum()

External ID                                               12356
Producto/Nombre                                           12356
Coste                                                     12356
Fecha                                                     12356
Producto/Cuenta analítica para gastos/Nombre a mostrar    12356
Producto/Referencia interna                               12356
Producto/Proveedores/Nombre a mostrar                         0
Producto/Categoría de producto/Nombre a mostrar           12356
dtype: int64

In [8]:
coste_juldic.isnull().sum()

External ID                                               8566
Producto/Nombre                                           8566
Coste                                                     8566
Fecha                                                     8566
Producto/Cuenta analítica para gastos/Nombre a mostrar    8566
Producto/Referencia interna                               8566
Producto/Proveedores/Nombre a mostrar                        0
Producto/Categoría de producto/Nombre a mostrar           8566
dtype: int64

In [9]:
coste_2021.isnull().sum()

External ID                                               20535
Producto/Nombre                                           20535
Coste                                                     20535
Fecha                                                     20535
Producto/Cuenta analítica para gastos/Nombre a mostrar    20535
Producto/Referencia interna                               20535
Producto/Proveedores/Nombre a mostrar                         0
Producto/Categoría de producto/Nombre a mostrar           20535
dtype: int64

In [10]:
coste_2022.isnull().sum()

External ID                                               1445
Producto/Nombre                                           1445
Coste                                                     1445
Fecha                                                     1445
Producto/Cuenta analítica para gastos/Nombre a mostrar    1445
Producto/Referencia interna                               1445
Producto/Proveedores/Nombre a mostrar                        0
Producto/Categoría de producto/Nombre a mostrar           1445
dtype: int64

In [11]:
coste_enejun=coste_enejun.dropna()
coste_enejun.isnull().sum()

External ID                                               0
Producto/Nombre                                           0
Coste                                                     0
Fecha                                                     0
Producto/Cuenta analítica para gastos/Nombre a mostrar    0
Producto/Referencia interna                               0
Producto/Proveedores/Nombre a mostrar                     0
Producto/Categoría de producto/Nombre a mostrar           0
dtype: int64

In [12]:
coste_juldic= coste_juldic.dropna()
coste_juldic.isnull().sum()

External ID                                               0
Producto/Nombre                                           0
Coste                                                     0
Fecha                                                     0
Producto/Cuenta analítica para gastos/Nombre a mostrar    0
Producto/Referencia interna                               0
Producto/Proveedores/Nombre a mostrar                     0
Producto/Categoría de producto/Nombre a mostrar           0
dtype: int64

In [13]:
coste_2021=coste_2021.dropna()
coste_2021.isnull().sum()

External ID                                               0
Producto/Nombre                                           0
Coste                                                     0
Fecha                                                     0
Producto/Cuenta analítica para gastos/Nombre a mostrar    0
Producto/Referencia interna                               0
Producto/Proveedores/Nombre a mostrar                     0
Producto/Categoría de producto/Nombre a mostrar           0
dtype: int64

In [14]:
coste_2022=coste_2022.dropna()
coste_2022.isnull().sum()

External ID                                               0
Producto/Nombre                                           0
Coste                                                     0
Fecha                                                     0
Producto/Cuenta analítica para gastos/Nombre a mostrar    0
Producto/Referencia interna                               0
Producto/Proveedores/Nombre a mostrar                     0
Producto/Categoría de producto/Nombre a mostrar           0
dtype: int64

> #### Los 4 archivos de precios de compra tienen las mismas 8 columnas.
> #### Se concatenarán los 4 archivos en un solo dataframe `precios_compra_2022` para su manipulación.

> #### Las columnas o variables:

* External ID
* Producto/Nombre
* Coste
* Fecha
* Producto/Cuenta analítica para gastos/Nombre a mostrar
* Producto/Referencia interna
* Producto/Proveedores/Nombre a mostrar
* Producto/Categoría de producto/Nombre a mostrar


In [15]:
coste_compra_2021_2022 = pd.concat([coste_enejun, coste_juldic,coste_2021,coste_2021])
coste_compra_2021_2022.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 111268 entries, 0 to 57557
Data columns (total 8 columns):
 #   Column                                                  Non-Null Count   Dtype         
---  ------                                                  --------------   -----         
 0   External ID                                             111268 non-null  object        
 1   Producto/Nombre                                         111268 non-null  object        
 2   Coste                                                   111268 non-null  float64       
 3   Fecha                                                   111268 non-null  datetime64[ns]
 4   Producto/Cuenta analítica para gastos/Nombre a mostrar  111268 non-null  object        
 5   Producto/Referencia interna                             111268 non-null  float64       
 6   Producto/Proveedores/Nombre a mostrar                   111268 non-null  object        
 7   Producto/Categoría de producto/Nombre a mostrar  

In [16]:
coste_compra_2021_2022.columns

Index(['External ID', 'Producto/Nombre', 'Coste', 'Fecha',
       'Producto/Cuenta analítica para gastos/Nombre a mostrar',
       'Producto/Referencia interna', 'Producto/Proveedores/Nombre a mostrar',
       'Producto/Categoría de producto/Nombre a mostrar'],
      dtype='object')

### Renombramos las columnas para que sea más fácil su manipulación

In [17]:
coste_compra_2021_2022.rename(columns={'External ID':'External_ID',
                              'Producto/Nombre':'Producto_nombre', 
                              'Coste':'Coste',
                             'Fecha':'Fecha', 
                              'Producto/Cuenta analítica para gastos/Nombre a mostrar':'Producto_nombre_publico',
                             'Producto/Referencia interna':'Producto_Referencia_interna', 
                              'Producto/Proveedores/Nombre a mostrar':'Producto_Proveedores_publico',
                              'Producto/Categoría de producto/Nombre a mostrar':'Producto_Categoría_publico'
                             }, inplace=True)
coste_compra_2021_2022.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 111268 entries, 0 to 57557
Data columns (total 8 columns):
 #   Column                        Non-Null Count   Dtype         
---  ------                        --------------   -----         
 0   External_ID                   111268 non-null  object        
 1   Producto_nombre               111268 non-null  object        
 2   Coste                         111268 non-null  float64       
 3   Fecha                         111268 non-null  datetime64[ns]
 4   Producto_nombre_publico       111268 non-null  object        
 5   Producto_Referencia_interna   111268 non-null  float64       
 6   Producto_Proveedores_publico  111268 non-null  object        
 7   Producto_Categoría_publico    111268 non-null  object        
dtypes: datetime64[ns](1), float64(2), object(5)
memory usage: 7.6+ MB


In [18]:
coste_compra_2021_2022.describe()

Unnamed: 0,Coste,Producto_Referencia_interna
count,111268.0,111268.0
mean,2.963484,2678.29464
std,3.425243,1691.079528
min,0.0,5.0
25%,1.35,1113.0
50%,2.01,2668.0
75%,3.1,4087.0
max,156.0,6499.0


In [19]:
coste_compra_2021_2022.dtypes

External_ID                             object
Producto_nombre                         object
Coste                                  float64
Fecha                           datetime64[ns]
Producto_nombre_publico                 object
Producto_Referencia_interna            float64
Producto_Proveedores_publico            object
Producto_Categoría_publico              object
dtype: object

In [20]:
coste_compra_2021_2022.head(5)

Unnamed: 0,External_ID,Producto_nombre,Coste,Fecha,Producto_nombre_publico,Producto_Referencia_interna,Producto_Proveedores_publico,Producto_Categoría_publico
0,__export__.product_price_history_78926_abded360,Envase Veer 33cl,0.15,2022-06-29 21:10:50,Eco,1637.0,(VEER) MISSON S.COOP.CYL.,"Seco Envasado / Vinos, cervezas, sidras / Cerv..."
1,__export__.product_price_history_78925_30713b35,Envase Veer 33cl,0.15,2022-06-29 20:25:26,Eco,1637.0,(VEER) MISSON S.COOP.CYL.,"Seco Envasado / Vinos, cervezas, sidras / Cerv..."
2,__export__.product_price_history_78916_73aa1b21,Fuet extra Biobardales 200 gr,2.95,2022-06-29 19:22:59,Eco,597.0,(BIOBARDALES) COMERCIAL BELDREA S.L.,Resto Producto Fresco / Charcutería animal / E...
3,__export__.product_price_history_78919_197ec6c0,"Preparado para legumbres chorizo, morcilla, pa...",2.9,2022-06-29 19:22:59,Eco,1252.0,(BIOBARDALES) COMERCIAL BELDREA S.L.,Resto Producto Fresco / Charcutería animal / E...
4,__export__.product_price_history_78918_c43ac4cb,Lomo extra lonchas Biobardales 100 gr,3.45,2022-06-29 19:22:59,Eco,877.0,(BIOBARDALES) COMERCIAL BELDREA S.L.,Resto Producto Fresco / Charcutería animal / E...


In [21]:
coste_compra_2021_2022= coste_compra_2021_2022.drop(['External_ID'],axis=1)

In [22]:
coste_compra_2021_2022.head(3)

Unnamed: 0,Producto_nombre,Coste,Fecha,Producto_nombre_publico,Producto_Referencia_interna,Producto_Proveedores_publico,Producto_Categoría_publico
0,Envase Veer 33cl,0.15,2022-06-29 21:10:50,Eco,1637.0,(VEER) MISSON S.COOP.CYL.,"Seco Envasado / Vinos, cervezas, sidras / Cerv..."
1,Envase Veer 33cl,0.15,2022-06-29 20:25:26,Eco,1637.0,(VEER) MISSON S.COOP.CYL.,"Seco Envasado / Vinos, cervezas, sidras / Cerv..."
2,Fuet extra Biobardales 200 gr,2.95,2022-06-29 19:22:59,Eco,597.0,(BIOBARDALES) COMERCIAL BELDREA S.L.,Resto Producto Fresco / Charcutería animal / E...


In [23]:
coste_compra_2021_2022.columns

Index(['Producto_nombre', 'Coste', 'Fecha', 'Producto_nombre_publico',
       'Producto_Referencia_interna', 'Producto_Proveedores_publico',
       'Producto_Categoría_publico'],
      dtype='object')

In [24]:
# Renombrar columnas
coste_compra_2021_2022.rename(columns={'Producto_nombre':'Nombre_producto', 
                            'Coste':'Coste_compra',
                            'Fecha':'Fecha_compra', 
                            'Producto_nombre_publico':'Tipo_producto',
                            'Producto_Referencia_interna':'ID_producto', 
                            'Producto_Proveedores_publico':'Proveedor_producto',
                            'Producto_Categoría_publico':'Categoria_producto'
                             }, inplace=True)
coste_compra_2021_2022.head(5)

Unnamed: 0,Nombre_producto,Coste_compra,Fecha_compra,Tipo_producto,ID_producto,Proveedor_producto,Categoria_producto
0,Envase Veer 33cl,0.15,2022-06-29 21:10:50,Eco,1637.0,(VEER) MISSON S.COOP.CYL.,"Seco Envasado / Vinos, cervezas, sidras / Cerv..."
1,Envase Veer 33cl,0.15,2022-06-29 20:25:26,Eco,1637.0,(VEER) MISSON S.COOP.CYL.,"Seco Envasado / Vinos, cervezas, sidras / Cerv..."
2,Fuet extra Biobardales 200 gr,2.95,2022-06-29 19:22:59,Eco,597.0,(BIOBARDALES) COMERCIAL BELDREA S.L.,Resto Producto Fresco / Charcutería animal / E...
3,"Preparado para legumbres chorizo, morcilla, pa...",2.9,2022-06-29 19:22:59,Eco,1252.0,(BIOBARDALES) COMERCIAL BELDREA S.L.,Resto Producto Fresco / Charcutería animal / E...
4,Lomo extra lonchas Biobardales 100 gr,3.45,2022-06-29 19:22:59,Eco,877.0,(BIOBARDALES) COMERCIAL BELDREA S.L.,Resto Producto Fresco / Charcutería animal / E...


In [25]:
# Obtén una lista con los nombres de las columnas  y el orden que queremos que tengan en el DataFrame
orden_columnas_compras = ['ID_producto', 'Nombre_producto', 'Categoria_producto','Tipo_producto', 'Proveedor_producto','Fecha_compra','Coste_compra'] 

In [26]:
# Reorganizamos el DataFrame 
coste_compra_2021_2022 = coste_compra_2021_2022.reindex(columns=orden_columnas_compras)
coste_compra_2021_2022.head(3)

Unnamed: 0,ID_producto,Nombre_producto,Categoria_producto,Tipo_producto,Proveedor_producto,Fecha_compra,Coste_compra
0,1637.0,Envase Veer 33cl,"Seco Envasado / Vinos, cervezas, sidras / Cerv...",Eco,(VEER) MISSON S.COOP.CYL.,2022-06-29 21:10:50,0.15
1,1637.0,Envase Veer 33cl,"Seco Envasado / Vinos, cervezas, sidras / Cerv...",Eco,(VEER) MISSON S.COOP.CYL.,2022-06-29 20:25:26,0.15
2,597.0,Fuet extra Biobardales 200 gr,Resto Producto Fresco / Charcutería animal / E...,Eco,(BIOBARDALES) COMERCIAL BELDREA S.L.,2022-06-29 19:22:59,2.95


In [27]:
coste_compra_2021_2022.ID_producto = coste_compra_2021_2022.ID_producto.astype('object')
coste_compra_2021_2022.Fecha_compra = coste_compra_2021_2022.Fecha_compra.astype('datetime64[ns]')


In [28]:
coste_compra_2021_2022.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 111268 entries, 0 to 57557
Data columns (total 7 columns):
 #   Column              Non-Null Count   Dtype         
---  ------              --------------   -----         
 0   ID_producto         111268 non-null  object        
 1   Nombre_producto     111268 non-null  object        
 2   Categoria_producto  111268 non-null  object        
 3   Tipo_producto       111268 non-null  object        
 4   Proveedor_producto  111268 non-null  object        
 5   Fecha_compra        111268 non-null  datetime64[ns]
 6   Coste_compra        111268 non-null  float64       
dtypes: datetime64[ns](1), float64(1), object(5)
memory usage: 6.8+ MB


In [29]:
coste_compra_2021_2022.isnull().sum()

ID_producto           0
Nombre_producto       0
Categoria_producto    0
Tipo_producto         0
Proveedor_producto    0
Fecha_compra          0
Coste_compra          0
dtype: int64

### Separamos el año y el mes de la fecha creando la columna año y la columna mes

In [30]:
coste_compra_2021_2022['Año_compra'] = coste_compra_2021_2022['Fecha_compra'].dt.year 
coste_compra_2021_2022['Mes_compra'] = coste_compra_2021_2022['Fecha_compra'].dt.month 
coste_compra_2021_2022[['Año_compra', 'Mes_compra','Fecha_compra']].head(5)

Unnamed: 0,Año_compra,Mes_compra,Fecha_compra
0,2022,6,2022-06-29 21:10:50
1,2022,6,2022-06-29 20:25:26
2,2022,6,2022-06-29 19:22:59
3,2022,6,2022-06-29 19:22:59
4,2022,6,2022-06-29 19:22:59


### Cambiamos el tipo de dato a int de las columnas `Mes_compra`y `Año_compra`

In [31]:
coste_compra_2021_2022['Mes_compra'] = coste_compra_2021_2022['Mes_compra'].astype('int')
coste_compra_2021_2022['Año_compra'] = coste_compra_2021_2022['Año_compra'].astype('int')
coste_compra_2021_2022[['Año_compra', 'Mes_compra','Fecha_compra']].head(5)

Unnamed: 0,Año_compra,Mes_compra,Fecha_compra
0,2022,6,2022-06-29 21:10:50
1,2022,6,2022-06-29 20:25:26
2,2022,6,2022-06-29 19:22:59
3,2022,6,2022-06-29 19:22:59
4,2022,6,2022-06-29 19:22:59


In [32]:
coste_compra_2021_2022.dtypes

ID_producto                   object
Nombre_producto               object
Categoria_producto            object
Tipo_producto                 object
Proveedor_producto            object
Fecha_compra          datetime64[ns]
Coste_compra                 float64
Año_compra                     int64
Mes_compra                     int64
dtype: object

### Generamos el csv para luego unirlo con el dataset de ventas

In [33]:
coste_compra_2021_2022.to_csv('coste_compra_2021_2022.csv', header=True, index=False) 

In [34]:
compras = pd.read_csv('coste_compra_2021_2022.csv', parse_dates=['Fecha_compra'], index_col= "Fecha_compra")
compras = compras.sort_values(by='Fecha_compra')

compras

Unnamed: 0_level_0,ID_producto,Nombre_producto,Categoria_producto,Tipo_producto,Proveedor_producto,Coste_compra,Año_compra,Mes_compra
Fecha_compra,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2021-01-01 12:18:55,6129.0,Gofio maíz bio La Piña 500 gr,"Seco Envasado / Panes, harinas / Harinas",Eco,(BIOGRAN) BIOGRAN S.L.,1.81,2021,1
2021-01-01 12:18:55,6129.0,Gofio maíz bio La Piña 500 gr,"Seco Envasado / Panes, harinas / Harinas",Eco,(BIOGRAN) BIOGRAN S.L.,1.81,2021,1
2021-01-01 12:22:37,3732.0,Copos amaranto bio El Granero Integral 250 gr,Seco Envasado / Cereales y semillas / Cereales,Eco,(BIOGRAN) BIOGRAN S.L.,2.21,2021,1
2021-01-01 12:22:37,3732.0,Copos amaranto bio El Granero Integral 250 gr,Seco Envasado / Cereales y semillas / Cereales,Eco,(BIOGRAN) BIOGRAN S.L.,2.21,2021,1
2021-01-01 12:23:33,3733.0,Copos 5 cereales bio El Granero Integral 500 gr,Seco Envasado / Desayunos y merienda / Cereales,Eco,(BIOGRAN) BIOGRAN S.L.,1.37,2021,1
...,...,...,...,...,...,...,...,...
2022-12-14 12:37:50,6193.0,Chocolate negro 85% de cacao madagascar Eathic...,Seco Envasado / Dulces y repostería / Chocolate,Eco,(IDEAS) INICIATIVAS DE ECONOMIA ALTERNATIVA Y ...,1.58,2022,12
2022-12-14 12:37:50,6493.0,Café eathica de altura Colombia molido BIO 250g,Seco Envasado / Cafés e infusiones / Cafés y c...,Eco,(IDEAS) INICIATIVAS DE ECONOMIA ALTERNATIVA Y ...,4.06,2022,12
2022-12-14 12:37:50,6194.0,Chocolate negro 80% de cacao ecuador Eathica 1...,Seco Envasado / Dulces y repostería / Chocolate,Eco,(IDEAS) INICIATIVAS DE ECONOMIA ALTERNATIVA Y ...,1.55,2022,12
2022-12-14 12:37:50,6463.0,Chocolate Leche y Arroz Inflado Ethiquable 100 gr,Seco Envasado / Dulces y repostería / Chocolate,Eco,(IDEAS) INICIATIVAS DE ECONOMIA ALTERNATIVA Y ...,1.41,2022,12


In [35]:
compras.columns.values

array(['ID_producto', 'Nombre_producto', 'Categoria_producto',
       'Tipo_producto', 'Proveedor_producto', 'Coste_compra',
       'Año_compra', 'Mes_compra'], dtype=object)

In [36]:
promedio_coste = compras.groupby('Nombre_producto')['Coste_compra'].mean()
# promedio_coste["Gofio maíz bio La Piña 500 gr"]
promedio_coste.head(20)

Nombre_producto
AJUSTE 31/12/20                                                      0.000000
Abrillantador Finish 500 ml                                          3.495000
Abrillantador lavavajillas Ecodoo 500 ml                             2.380000
Acedía grande limpia y entera                                       19.000000
Aceite caléndula y almendras Piel sana 100 ml                        7.440000
Aceite capilar reparación y cuidado espino amarillo Logona 75 ml     8.560000
Aceite coco Maya gold 250 ml                                         3.580000
Aceite coco Maya gold 450 ml                                         5.364545
Aceite corporal erótico (Vegano) Ecoeko 125 ml                       6.491667
Aceite corporal nutritivo Aceite Vizcántar 200 ml                   12.306000
Aceite corporal para embarazada (Vegano) Ecoeko 150 ml               8.909167
Aceite corporal relajante muscular Aceite Vizcántar 200 ml          12.284000
Aceite de aguacate olivado bio Finestra 250 ml  

In [41]:
inicio_periodo = '2021-01-01'
fin_periodo = '2021-01-31'
promedio_coste = compras.loc[(compras['Fecha_compra'] >= inicio_periodo) & (compras['Fecha_compra'] <= fin_periodo)].groupby('Nombre_producto')['Coste_compra'].mean()

KeyError: 'Fecha_compra'

In [38]:
compras['Coste_compra'].resample('M').mean().head(20)

Fecha_compra
2021-01-31    2.712561
2021-02-28    2.645743
2021-03-31    2.917625
2021-04-30    2.871727
2021-05-31    2.800243
2021-06-30    2.652901
2021-07-31    2.992823
2021-08-31    2.669025
2021-09-30    2.760005
2021-10-31    3.043342
2021-11-30    2.985441
2021-12-31    3.132769
2022-01-31    3.188280
2022-02-28    3.007382
2022-03-31    3.221071
2022-04-30    3.054571
2022-05-31    3.135778
2022-06-30    3.037446
2022-07-31    3.348247
2022-08-31    2.872345
Freq: M, Name: Coste_compra, dtype: float64