# **Estudio consumo alimentación en los hogares españoles**

Este notebook explica el trabajo de preprocesamiento y preparación de los datos para generar las visualizaciones del cuadro de mandos.

Para llevar a cabo esta tarea de manera práctica hemos seleccionado conjuntos de datos correspondientes a series anuales pertenecientes al [Ministerio de Agricultura, Pesca y Alimentación.](https://www.mapa.gob.es/es/alimentacion/temas/consumo-tendencias/panel-de-consumo-alimentario/series-anuales/)

Pero antes tenemos que realizar una serie de tareas para preparar los datos que posteriormente utilizaremos en las visualizaciones. A continuación, te explicamos cómo lo hacemos.

Los pasos que se seguirán para preparar los datos son los siguientes:

1.   Instalación de librerías y carga de los conjuntos de datos
2.   Análisis Exploratorio de los Datos (EDA)
3.   Generación de tablas preprocesas



## 1. Instalación de librerías y carga de los conjuntos de datos

Lo primero que debemos hacer es importar y cargar las librerías que utilizaremos en el preprocesamiento de los datos.

*    [pandas](https://pandas.pydata.org/) es una librería de Python especializada en el manejo y análisis de estructuras de datos.

*    [gitpython](https://gitpython.readthedocs.io/en/stable/) es una librería de Python que permite interactuar con el sistema de control de versiones Git.

In [None]:
# Mediante el comando !pip instalamos las librerias
!pip install pandas
!pip install gitpython

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting gitpython
  Downloading GitPython-3.1.31-py3-none-any.whl (184 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m184.3/184.3 kB[0m [31m9.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting gitdb<5,>=4.0.1 (from gitpython)
  Downloading gitdb-4.0.10-py3-none-any.whl (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.7/62.7 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting smmap<6,>=3.0.1 (from gitdb<5,>=4.0.1->gitpython)
  Downloading smmap-5.0.0-py3-none-any.whl (24 kB)
Installing collected packages: smmap, gitdb, gitpython
Successfully installed gitdb-4.0.10 gitpython-3.1.31 smmap-5.0.0


In [None]:
# Cargamos las librerías a utilizar
import pandas as pd
import git
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Clonamos el repositorio de github con los conjuntos de datos originales en el entorno de Google Colaboratory
git.Repo.clone_from("https://github.com/datosgobes/Laboratorio-de-Datos.git", "/content/repositorios")

<git.repo.base.Repo '/content/repositorios/.git'>

Cargamos utilizando varias funciones los datos que nos interesan de los distintos conjuntos de datos. Hay que tener en cuenta que la información que nos interesa para el análisis (consumo per cápita y gasto per cápita), se encuentra en hojas específicas de cada fichero excel.

In [None]:
# Introducimos dentro de una lista el nombre de los conjuntos de datos
files = ["2011", "2012", "2013", "2014", "2015", "2016", "2017", "2018", "2019", "2020", "2021"]

# Creamos una función que obtenga los datos que necesitamos para el análisis
def carga (df):
  df = pd.read_excel("/content/repositorios/Visualizaciones/Estudio_alimentacion_hogares_españoles/Datos_origen/" + df + ".xlsx", sheet_name=4, header=2)
  df["Análisis"] = "Consumo x cápita (kg)"
  return(df)

# Creamos una función que obtenga los datos que necesitamos para el análisis
def carga1 (df):
  df = pd.read_excel("/content/repositorios/Visualizaciones/Estudio_alimentacion_hogares_españoles/Datos_origen/" + df + ".xlsx", sheet_name=5, header=2)
  df["Análisis"] = "Consumo x cápita (kg)"
  return(df)

# Creamos una función que obtenga los datos que necesitamos para el análisis
def carga2 (df):
  df = pd.read_excel("/content/repositorios/Visualizaciones/Estudio_alimentacion_hogares_españoles/Datos_origen/" + df + ".xlsx", sheet_name=5, header=2)
  df["Análisis"] = "Gasto x cápita (euros)"
  return(df)

# Creamos una función que obtenga los datos que necesitamos para el análisis
def carga3 (df):
  df = pd.read_excel("/content/repositorios/Visualizaciones/Estudio_alimentacion_hogares_españoles/Datos_origen/" + df + ".xlsx", sheet_name=6, header=2)
  df["Análisis"] = "Gasto x cápita (euros)"
  return(df)

# Hacemos una llamada a la funciónes anteriores y creamos una tabla para cada uno de los conjuntos de datos relativos a la hoja del excel "CONSUMOXCAPITA"
df_2011_consumoxcapita = carga(files[0])
df_2012_consumoxcapita = carga(files[1])
df_2013_consumoxcapita = carga(files[2])
df_2014_consumoxcapita = carga(files[3])
df_2015_consumoxcapita = carga(files[4])
df_2016_consumoxcapita = carga(files[5])
df_2017_consumoxcapita = carga(files[6])
df_2018_consumoxcapita = carga(files[7])
df_2019_consumoxcapita = carga(files[8])
df_2020_consumoxcapita = carga1(files[9])
df_2021_consumoxcapita = carga1(files[10])

# Hacemos una llamada a la funciónes anteriores y creamos una tabla para cada uno de los conjuntos de datos relativos a la hoja del excel "GASTOXCAPITA"
df_2011_gastoxcapita = carga2(files[0])
df_2012_gastoxcapita = carga2(files[1])
df_2013_gastoxcapita = carga2(files[2])
df_2014_gastoxcapita = carga2(files[3])
df_2015_gastoxcapita = carga2(files[4])
df_2016_gastoxcapita = carga2(files[5])
df_2017_gastoxcapita = carga2(files[6])
df_2018_gastoxcapita = carga2(files[7])
df_2019_gastoxcapita = carga2(files[8])
df_2020_gastoxcapita = carga3(files[9])
df_2021_gastoxcapita = carga3(files[10])

In [None]:
# Juntamos en una tabla, la información obtenida anteriormente para cada uno de los años
df_2011 = pd.concat([df_2011_consumoxcapita, df_2011_gastoxcapita], ignore_index=True)
df_2012 = pd.concat([df_2012_consumoxcapita, df_2012_gastoxcapita], ignore_index=True)
df_2013 = pd.concat([df_2013_consumoxcapita, df_2013_gastoxcapita], ignore_index=True)
df_2014 = pd.concat([df_2014_consumoxcapita, df_2014_gastoxcapita], ignore_index=True)
df_2015 = pd.concat([df_2015_consumoxcapita, df_2015_gastoxcapita], ignore_index=True)
df_2016 = pd.concat([df_2016_consumoxcapita, df_2016_gastoxcapita], ignore_index=True)
df_2017 = pd.concat([df_2017_consumoxcapita, df_2017_gastoxcapita], ignore_index=True)
df_2018 = pd.concat([df_2018_consumoxcapita, df_2018_gastoxcapita], ignore_index=True)
df_2019 = pd.concat([df_2019_consumoxcapita, df_2019_gastoxcapita], ignore_index=True)
df_2020 = pd.concat([df_2021_consumoxcapita, df_2020_gastoxcapita], ignore_index=True)
df_2021 = pd.concat([df_2021_consumoxcapita, df_2021_gastoxcapita], ignore_index=True)

## 2. Análisis Exploratorio de Datos (EDA)

Realizamos un análisis exploratorio de los datos donde, por un lado, buscamos detectar anomalías y por otro lado, obtener información de los conjuntos de datos que estamos utilizando.

In [None]:
# Generamos una lista con las tablas de datos generadas en el apartado anterior a las que realizaremos el EDA
lista_df = [df_2011, df_2012, df_2013, df_2014,df_2015,df_2016,df_2017,df_2018, df_2019, df_2020, df_2021]

# Mediante un bucle "for" imprimimos en pantalla la principal información de cada tabla de datos que se encuentra en la lista
for i, df in enumerate(lista_df):
    # Generamos una variable con el nombre de la tabla de datos
    tabla_nombre = f"df_{2011 + i}"
    # Imprimimos en pantalla el nombre de la tabla de datos e información de cada una de ellas
    print("Nombre de la tabla de datos:", tabla_nombre)
    print(df.info())
    # Buscamos valores nulos o ausentes en la tabla de datos, imprimiento en pantalla si los hay o no
    if df.isna().any().any():
      print("Hay valores NA en la tabla de datos" + "\n")
    else:
      print("No hay valores NA en la tabla de datos" + "\n")

Nombre de la tabla de datos: df_2011
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1112 entries, 0 to 1111
Data columns (total 28 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Unnamed: 0          1112 non-null   object 
 1   T.ESPAÑA            1112 non-null   float64
 2   CATALUÑA            1112 non-null   float64
 3   ARAGON              1112 non-null   float64
 4   BALEARES            1112 non-null   float64
 5   VALENCIA            1112 non-null   float64
 6   MURCIA              1112 non-null   float64
 7   T.ANDALUCIA         1112 non-null   float64
 8   MADRID              1112 non-null   float64
 9   CASTILLA LA MANCHA  1112 non-null   float64
 10  EXTREMADURA         1112 non-null   float64
 11  CASTILLA LEON       1112 non-null   float64
 12  GALICIA             1112 non-null   float64
 13  ASTURIAS            1112 non-null   float64
 14  CANTABRIA           1112 non-null   float64
 15  PAIS VASCO        

Revisando la información de cada tabla de datos, encontramos una incoherencia. Las tablas de datos df_2019, df_2020 y df_2021 tienen 20 columnas mientras que el resto de las tablas tienen 28 columnas.

Hay columnas que no nos interesan para nuestro estudio, por lo que las eliminaremos haciendo que sean coherentes y muestren la misma información entre las distintas tablas de datos.

In [None]:
# Generamos una lista con el nombre de las columnas a eliminar
columnas_eliminar = ["NORESTE", "LEVANTE", "CENTRO-SUR", "NOROESTE", "NORTE", "NORESTE", "T.ESPAÑA", "CASTILLA LEON", "T.ANDALUCIA", "T.CANARIAS"]

# Mediante un bucle for, recorremos la lista con las tablas de datos eliminando de ellas las columnas indicadas anteriormente
for df in lista_df:
  df.drop(columns = columnas_eliminar, errors="ignore", inplace=True)

Otra incoherencia detectada es que los nombres de las variables para ciertas comunidades autónomas son distintos en varias tablas de datos, también los modificaremos para que sean coherentes entre sí.

In [None]:
# Mediante un bucle for, sustituimos el nombre de las varibales para que sean coherentes entre las distintas tablas de datos
for df in lista_df:
  df.columns = df.columns.str.replace("CASTILLA LA MANCHA", "CASTILLA - LA MANCHA", regex=False)
  df.columns = df.columns.str.replace("CASTILLA DE MADRID", "MADRID", regex=False)
  df.columns = df.columns.str.replace("PRINCIPADO DE ASTURIAS", "ASTURIAS", regex=False)
  df.columns = df.columns.str.replace("ILLES BALEARS", "BALEARES", regex=False)
  df.columns = df.columns.str.replace("C. FORAL DE NAVARRA", "NAVARRA", regex=False)
  df.columns = df.columns.str.replace("COMUNITAT VALENCIANA", "VALENCIA", regex=False)
  df.columns = df.columns.str.replace("ANDALUCÍA", "ANDALUCIA", regex=False)
  df.columns = df.columns.str.replace("CASTILLA Y LEÓN", "CASTILLA Y LEON", regex=False)
  df.columns = df.columns.str.replace("ARAGÓN", "ARAGON", regex=False)
  df.columns = df.columns.str.replace("REGIÓN DE MURCIA", "MURCIA", regex=False)
  df.columns = df.columns.str.replace("COMUNIDAD DE MADRID", "MADRID", regex=False)
  df.sort_index(axis=1, inplace=True)

La última de las incoherencias detectadas, es que en varias de las tablas de datos, se repiten el nombre de las variables de ciertas columnas, por lo que eliminaremos las columnas con valores duplicados.

In [None]:
# Mediante un bucle for eliminamos las columnas duplicadas en algunos de los datasets correspondientes a las Comunidades Autónomas de "Andalucia" y "Castilla y León"
for i in range(len(lista_df)):
   lista_df[i] = lista_df[i].loc[:, ~lista_df[i].columns.duplicated()]
   # Imprimimos en pantalla el número de filas y columnas de cada tabla de datos para comprobar que coinciden
   print(df.shape)

(1362, 19)
(1362, 19)
(1362, 19)
(1362, 19)
(1362, 19)
(1362, 19)
(1362, 19)
(1362, 19)
(1362, 19)
(1362, 19)
(1362, 19)


## 3. Generación de tablas preprocesadas

Una vez cargados los conjuntos de datos y realizado el análisis exploratorio de datos (EDA), procederemos a obtener las tablas de datos preprocesados con la estructura y formato adecuados para alimentar la herramienta de visualización que utilizaremos en la generación del cuadro de mandos.

En primer lugar, añadimos una columna con el año correspondiente para cada una de las tablas de datos.

In [None]:
# Generamos una lista con los distintos años a introducir en las tablas de datos
files = ["2011", "2012", "2013", "2014", "2015", "2016", "2017", "2018", "2019", "2020", "2021"]

# Creamos la función "add_year" la cual introduce en la tabla de datos
def add_year(df, year):
  df["Año"] = year
  return df

df_2011 = add_year(lista_df[0], files[0])
df_2012 = add_year(lista_df[1], files[1])
df_2013 = add_year(lista_df[2], files[2])
df_2014 = add_year(lista_df[3], files[3])
df_2015 = add_year(lista_df[4], files[4])
df_2016 = add_year(lista_df[5], files[5])
df_2017 = add_year(lista_df[6], files[6])
df_2018 = add_year(lista_df[7], files[7])
df_2019 = add_year(lista_df[8], files[8])
df_2020 = add_year(lista_df[9], files[9])
df_2021 = add_year(lista_df[10], files[10])

lista_df_2 = [df_2011, df_2012, df_2013, df_2014,df_2015,df_2016,df_2017,df_2018, df_2019, df_2020, df_2021]

A continuación, unimos todas las tablas de datos correspondientes a cada uno de los años registrados en una sola denominada "df_total".

In [None]:
# Juntamos en una tabla de datos todas las correspondientes a los distintos años
df_total = pd.concat(lista_df_2)

Una vez tenemos todas las tablas de datos unificadas en una sola "df_total", procedemos a modificar el nombre de una de sus variables, de "Unnamed: 0" a "Categoría".

In [None]:
# Modificamos el nombre de la variable "Unnamed: 0"
df_total = df_total.rename(columns = {"Unnamed: 0" : "Categoria"})

Dado que tenemos una gran cantidad de alimentos distintos en la variable "Categoría", hemos decidido quedarnos con los princiopales para el estudio, por lo que realizaremos un filtrado en la tabla de datos unificada con la finalidad de quedarnos solamente con los que nos interesan.

In [None]:
# Creamos una nueva tabla de datos con las categorias de alimentación que nos interesan para el análisis
categoria = ["TOTAL CARNE", "TOTAL PESCA", "TOTAL LECHE LIQUIDA", "T.HUEVOS KGS", "DERIVADOS LACTEOS",
              "PAN", "BOLL.PAST.GALLET.CERE", "CHOCOLATES/CACAOS/SUC", "ARROZ", "TOTAL PASTAS", "AZUCAR",
              "LEGUMBRES", "T.FRUTAS FRESCAS", "T.HORTALEZAS FRESCAS", "TOTAL PATATAS", "FRUTOS SECOS",
              "PLATOS PREPARADOS", "CAFES E INFUSIONES", "TOTAL VINOS", "CERVEZAS", "T.BEBIDAS ESPIRITUOSA",
              "TOTAL ZUMO Y NECTAR", ".T.ALIMENT.ECOLOGICOS"]

df_total_filtrado = df_total[df_total["Categoria"].isin(categoria)]

Una vez filtrada la tabla de datos, vamos a transformar su formato de ancho a largo, adecuandola para su posterior uso en la herramienta de generación de cuadros de mando.

In [None]:
# Transformamos el formato de ancho a largo, manteniendo las variables "Año", "Categoria" y "Analisis" como identificadores
df_final = df_total_filtrado.melt(id_vars=["Año", "Categoria", "Análisis"], var_name="Territorio")

# Comprobamos que el cambio de ha realizado correctamente
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7888 entries, 0 to 7887
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Año         7888 non-null   object 
 1   Categoria   7888 non-null   object 
 2   Análisis    7888 non-null   object 
 3   Territorio  7888 non-null   object 
 4   value       7888 non-null   float64
dtypes: float64(1), object(4)
memory usage: 308.2+ KB


Modificar el tipo de variable de la columna "Año" a formato fecha

In [None]:
# Modificamos el formato de los datos de la variable "Año"
df_final["Año"]= pd.to_datetime(df_final["Año"], format="%Y")

Sustituimos el nombre de varios registros de la variable "Categorías" por nombres más apropiados

In [None]:
# Creamos un diccionario con las denominaciones a sustituir junto a su sustituto
reemplazos = {"TOTAL CARNE": "CARNE","TOTAL PESCA": "PESCA", "TOTAL LECHE LIQUIDA": "LECHE LÍQUIDA", "T.HUEVOS KGS": "HUEVOS","TOTAL PASTAS": "PASTA",
    "T.FRUTAS FRESCAS": "FRUTAS FRESCAS", "T.HORTALEZAS FRESCAS": "HORTALIZAS FRESCAS", "TOTAL PATATAS": "PATATAS", "TOTAL VINOS": "VINOS",
    "T.BEBIDAS ESPIRITUOSA": "BEBIDAS ESPIRITUOSAS", "TOTAL ZUMO Y NECTAR": "ZUMOS", ".T.ALIMENT.ECOLOGICOS": "ALIMENTOS ECOLÓGICOS"}

# Sustituimos en la columna "Categoría" los valores definidos en el diccionario anterior
df_final["Categoria"] = df_final["Categoria"].replace(reemplazos)

Guardamos la tabla de datos en formato .csv con el nombre de "tabla_preprocesada.csv", la cual utilizaremos para generar el cuadro de mandos.

In [None]:
# Guardamos en un archivo .csv la tabla de datos
df_final.to_csv("tabla_preprocesada.csv", index=False, encoding="utf8")

Una vez ejecutado todo el código, en la parte izquierda de la interfaz, dentro de la carpeta de archivos, encontraremos la tabla de datos preprocesada lista para su descarga.