Fuente datos : https://www.mapa.gob.es/app/consumo-en-hogares/consulta11.asp

Los datos se han obtenido a través del scrapping de la página web del MAPA seleccionando:
- Grupo de productos : "Frutas Frescas" y "Patatas y Hortalizas"
- Tipo de establecimiento: "Internet", "Hipermercado" y "Supermercado"

In [20]:
# Se importan las librerías
import pandas as pd
import numpy as np
import os
import locale
locale.setlocale(locale.LC_TIME, 'es_ES.UTF-8')

'es_ES.UTF-8'

In [21]:
# Se crea una lista con todos los archivos csv de consumo de hortalizas a través de hipermercados
# Se limpian los datos eliminando las columnas vacías
# Correción de los valores de las columnas que salen multiplicados por 100 porque al descargarlos del MAPA con el scrapping se elimina la coma
# Se crea el dataset df_hh (hortalizas-hipermercado)
files = os.listdir("canalesVenta_Hortalizas_2013_2020/Hipermercados")
frames = []
df_hh = pd.DataFrame()
for file in files:
    df = pd.read_csv("canalesVenta_Hortalizas_2013_2020/Hipermercados/" + file, encoding = 'utf-8-sig',thousands='.')
    df.drop(columns = ['Unnamed: 5','Unnamed: 6'],inplace = True)
    df.iloc[:,1:5] = df.iloc[:,1:5].astype(float)/100
    frames.append(df)
df_hh = pd.concat(frames,axis = 0)

In [22]:
# Se crea una lista con todos los archivos csv de consumo de hortalizas a través de internet
# Se limpian los datos eliminando las columnas vacías
# Correción de los valores de las columnas que salen multiplicados por 100 porque al descargarlos del MAPA con el scrapping se elimina la coma
# Se crea el dataset df_hi (hortalizas-internet)
files = os.listdir("canalesVenta_Hortalizas_2013_2020/Internet")
frames = []
df_hi = pd.DataFrame()
for file in files:
    df = pd.read_csv("canalesVenta_Hortalizas_2013_2020/Internet/" + file, encoding = 'utf-8-sig',thousands='.')
    df.drop(columns = ['Unnamed: 5','Unnamed: 6'],inplace = True)
    df.iloc[:,1:5] = df.iloc[:,1:5].astype(float)/100
    frames.append(df)
df_hi = pd.concat(frames,axis = 0)

In [23]:
# Se crea una lista con todos los archivos csv de consumo de frutas a través de hipermercado
# Se limpian los datos eliminando las columnas vacías
# Correción de los valores de las columnas que salen multiplicados por 100 porque al descargarlos del MAPA con el scrapping se elimina la coma
# Se crea el dataset df_fh (frutas-hipermercado)
files = os.listdir("canalesVenta_Frutas_2013_2020/Hipermercados")
frames = []
df_fh = pd.DataFrame()
for file in files:
    df = pd.read_csv("canalesVenta_Frutas_2013_2020/Hipermercados/" + file, encoding = 'utf-8-sig',thousands='.')
    df.drop(columns = ['Unnamed: 5','Unnamed: 6'],inplace = True)
    df.iloc[:,1:5] = df.iloc[:,1:5].astype(float)/100
    frames.append(df)
df_fh = pd.concat(frames,axis = 0)

In [24]:
# Se crea una lista con todos los archivos csv de consumo de frutas a través de internet
# Se limpian los datos eliminando las columnas vacías
# Correción de los valores de las columnas que salen multiplicados por 100 porque al descargarlos del MAPA con el scrapping se elimina la coma
# Se crea el dataset df_fi (frutas-internet)
files = os.listdir("canalesVenta_Frutas_2013_2020/Internet")
frames = []
df_fi = pd.DataFrame()
for file in files:
    df = pd.read_csv("canalesVenta_Frutas_2013_2020/Internet/" + file, encoding = 'utf-8-sig',thousands='.')
    df.drop(columns = ['Unnamed: 5','Unnamed: 6'],inplace = True)
    df.iloc[:,1:5] = df.iloc[:,1:5].astype(float)/100
    frames.append(df)
df_fi = pd.concat(frames,axis = 0)

In [25]:
# Se crea una lista con todos los archivos csv de consumo de frutas a través de supermercados
# Se limpian los datos eliminando las columnas vacías
# Correción de los valores de las columnas que salen multiplicados por 100 porque al descargarlos del MAPA con el scrapping se elimina la coma
# Se crea el dataset df_fs (frutas-supermercado)
files = os.listdir("Supermercado_Frutas")
frames = []
df_fs = pd.DataFrame()
for file in files:
    df = pd.read_csv("Supermercado_Frutas/" + file, encoding = 'utf-8-sig',thousands='.')
    df.drop(columns = ['Unnamed: 5','Unnamed: 6'],inplace = True)
    df.iloc[:,1:5] = df.iloc[:,1:5].astype(float)/100
    frames.append(df)
df_fs = pd.concat(frames,axis = 0)

In [26]:
# Se crea una lista con todos los archivos csv de consumo de hortalizas a través de supermercados
# Se limpian los datos eliminando las columnas vacías
# Correción de los valores de las columnas que salen multiplicados por 100 porque al descargarlos del MAPA con el scrapping se elimina la coma
# Se crea el dataset df_hs (hortalizas-supermercado)
files = os.listdir("Supermercado_Hortalizas")
frames = []
df_hs = pd.DataFrame()
for file in files:
    df = pd.read_csv("Supermercado_Hortalizas/" + file, encoding = 'utf-8-sig',thousands='.')
    df.drop(columns = ['Unnamed: 5','Unnamed: 6'],inplace = True)
    df.iloc[:,1:5] = df.iloc[:,1:5].astype(float)/100
    frames.append(df)
df_hs = pd.concat(frames,axis = 0)

In [27]:
# Se realiza una máscara con los meses para pasarlos a número
lista_mes= ['Enero','Febrero','Marzo','Abril','Mayo','Junio','Julio','Agosto','Septiembre','Octubre','Noviembre','Diciembre']
mask1 = df_fi['Mes'].isin(lista_mes)
df_fi = df_fi[mask1]
mask2 = df_fh['Mes'].isin(lista_mes)
df_fh = df_fh[mask2]
mask3 = df_hh['Mes'].isin(lista_mes)
df_hh = df_hh[mask3]
mask4 = df_hi['Mes'].isin(lista_mes)
df_hi = df_hi[mask4]
mask5 = df_hs['Mes'].isin(lista_mes)
df_hs = df_hs[mask5]
mask6 = df_fs['Mes'].isin(lista_mes)
df_fs = df_fs[mask6]

In [28]:
# Pasamos todos los meses de dataset a número y se crea la columna fecha con el mes y el año
# Se convierte la columna fecha a índice
# Se ordena la columna fecha por año y mes
# Se realiza este proceso con todos los datasets
df_fi['Mes'] = pd.to_datetime(df_fi['Mes'], format='%B').dt.month
df_fi['Fecha'] =  pd.to_datetime(df_fi['Año'].map(str) + '-' + df_fi['Mes'].map(str)).dt.strftime('%m-%Y')
df_fi.set_index('Fecha',inplace=True)
df_fi.sort_values(by = ['Año','Mes'], inplace = True)

In [29]:
df_fh['Mes'] = pd.to_datetime(df_fh['Mes'], format='%B').dt.month
df_fh['Fecha'] =  pd.to_datetime(df_fh['Año'].map(str) + '-' + df_fh['Mes'].map(str)).dt.strftime('%m-%Y')
df_fh.set_index('Fecha',inplace=True)
df_fh.sort_values(by = ['Año','Mes'], inplace = True)

In [30]:
df_hi['Mes'] = pd.to_datetime(df_hi['Mes'], format='%B').dt.month
df_hi['Fecha'] =  pd.to_datetime(df_hi['Año'].map(str) + '-' + df_hi['Mes'].map(str)).dt.strftime('%m-%Y')
df_hi.set_index('Fecha',inplace=True)
df_hi.sort_values(by = ['Año','Mes'], inplace = True)

In [31]:
df_hh['Mes'] = pd.to_datetime(df_hh['Mes'], format='%B').dt.month
df_hh['Fecha'] =  pd.to_datetime(df_hh['Año'].map(str) + '-' + df_hh['Mes'].map(str)).dt.strftime('%m-%Y')
df_hh.set_index('Fecha',inplace=True)
df_hh.sort_values(by = ['Año','Mes'], inplace = True)

In [32]:
df_hs['Mes'] = pd.to_datetime(df_hs['Mes'], format='%B').dt.month
df_hs['Fecha'] =  pd.to_datetime(df_hs['Año'].map(str) + '-' + df_hs['Mes'].map(str)).dt.strftime('%m-%Y')
df_hs.set_index('Fecha',inplace=True)
df_hs.sort_values(by = ['Año','Mes'], inplace = True)

In [33]:
df_fs['Mes'] = pd.to_datetime(df_fs['Mes'], format='%B').dt.month
df_fs['Fecha'] =  pd.to_datetime(df_fs['Año'].map(str) + '-' + df_fs['Mes'].map(str)).dt.strftime('%m-%Y')
df_fs.set_index('Fecha',inplace=True)
df_fs.sort_values(by = ['Año','Mes'], inplace = True)

In [389]:
# # Se guardan todos los datasets para el análisis posterior en PowerBI
# df_fi.to_csv("Consumo_2013_2020_frutas_internet.csv", encoding = 'utf-8-sig')
# df_hi.to_csv("Consumo_2013_2020_hortalizas_internet.csv", encoding = 'utf-8-sig')
# df_hh.to_csv("Consumo_2013_2020_hortalizas_hipermercado.csv", encoding = 'utf-8-sig')
# df_fh.to_csv("Consumo_2013_2020_frutas_hipermercado.csv", encoding = 'utf-8-sig')
# df_fs.to_csv("Consumo_2013_2020_frutas_supermercado.csv", encoding = 'utf-8-sig')
# df_hs.to_csv("Consumo_2013_2020_hortalizas_supermercado.csv", encoding = 'utf-8-sig')

In [34]:
# Se crean los datasets por lugar de compra concatenando los datasets de frutas y hortalizas por cada lugar de compra
df_internet = pd.concat([df_hi,df_fi], axis = 0)
df_hipermercado = pd.concat([df_hh,df_fh], axis = 0)
df_supermercado = pd.concat([df_hs,df_fs], axis = 0)

In [392]:
# # Se guardan los datasets para el análisis posterior
# df_internet.to_csv("Consumo_2013_2020_internet.csv", encoding = 'utf-8-sig')
# df_hipermercado.to_csv("Consumo_2013_2020_hipermercado.csv", encoding = 'utf-8-sig')
# df_supermercado.to_csv("Consumo_2013_2020_supermercado.csv", encoding = 'utf-8-sig')