# Dataset 1: Análisis exploratorio

El dataset 1 dispone de dos tipos de información, de Enero de 2018 hasta Junio 2020 tiene la información desagregada por CCAA de todos los productos. Sin embargo, de Julio 2020 a Noviembre 2020 solo dispone de la información para 24 productos a nivel nacional.

El dataset incluye información mensual sobre el consumo alimentario en España, información proveniente del Ministerio de Agricultura, Pesca y Alimentación. Está basado en encuestas efectuadas entre los consumidores y los responsables de compras de dichos establecimientos. Se presentan datos mensuales de consumo de frutas y hortalizas, mostrando las siguientes variables:

    - Cantidad (miles de Kgs o litros o unidades en el caso de los huevos)
    - Valor (miles de Euros)
    - Precio medio
    - Penetración (porcentajes de hogares que compran ese producto)
    - Cantidad per cápita
    - Gasto per cápita

In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
from pandas_profiling import ProfileReport
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns;
sns.set()

%config InlineBackend.figure_format = 'retina'
%matplotlib inline


#Esta celda de código permite reducir el tamaño de los márgenes laterales  y aprovechar mejor el tamaño de la ventana.
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))

# OBEJTIVO: Analizar el comportamiento del mercado español de frutas y hortalizas durante el periodo de pandemia (1/3/20 - 30/11/20).

En primer lugar, leemos el dataset. Como cada línea del txt acaba en '||', pandas lo toma como 2 columnas sin nombre, así que no las tendremos en cuenta para el análisis.

In [2]:
df1 = pd.read_csv('data/Dataset1.- DatosConsumoAlimentarioMAPAporCCAA.txt', sep='|', usecols=range(0,10))
df1

Unnamed: 0,Año,Mes,CCAA,Producto,Volumen (miles de kg),Valor (miles de €),Precio medio kg,Penetración (%),Consumo per capita,Gasto per capita
0,2018,Enero,Total Nacional,TOTAL PATATAS,10843072,8464008,078,794,238,185
1,2018,Enero,Total Nacional,PATATAS FRESCAS,7944566,5468829,069,6846,174,12
2,2018,Enero,Total Nacional,PATATAS CONGELADAS,39999,485779,121,1206,009,011
3,2018,Enero,Total Nacional,PATATAS PROCESADAS,499703,25094,502,4594,011,055
4,2018,Enero,Total Nacional,T.HORTALIZAS FRESCAS,20995724,37668856,179,9727,46,825
...,...,...,...,...,...,...,...,...,...,...
26629,2020,Noviembre,Total Nacional,UVAS,1591849,4275562,269,,036,096
26630,2020,Noviembre,Total Nacional,KIWI,1225315,4194906,342,,028,095
26631,2020,Noviembre,Total Nacional,PATATAS FRESCAS,8967998,7689934,086,,202,173
26632,2020,Noviembre,Total Nacional,T.HORTALIZAS FRESCAS,23855447,47259286,198,,538,1066


La variable Penetración es la única que tiene valores perdidos, que son 120. 

Los podemos imputar por la media. Para ello, primero sustituimos las comas de los decimales por puntos, y después convertimos la columna a numérica.

In [3]:
np.sum(df1['Penetración (%)'].isna())

120

In [4]:
df1['Penetración (%)'] = df1['Penetración (%)'].str.replace(',', '.', regex=False).astype(float)

In [5]:
df1['Penetración (%) imp'] = df1['Penetración (%)'].fillna(value=df1['Penetración (%)'].mean())

Todas las columnas vienen como string (menos la que acabamos de convertir), aunque, como vemos algunas de ellas son numéricas, así que las transformaremos.

In [6]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26634 entries, 0 to 26633
Data columns (total 11 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Año                    26634 non-null  int64  
 1   Mes                    26634 non-null  object 
 2   CCAA                   26634 non-null  object 
 3   Producto               26634 non-null  object 
 4   Volumen (miles de kg)  26634 non-null  object 
 5   Valor (miles de €)     26634 non-null  object 
 6   Precio medio kg        26634 non-null  object 
 7   Penetración (%)        26514 non-null  float64
 8   Consumo per capita     26634 non-null  object 
 9   Gasto per capita       26634 non-null  object 
 10  Penetración (%) imp    26634 non-null  float64
dtypes: float64(2), int64(1), object(8)
memory usage: 1.4+ MB


In [7]:
df1['Volumen (miles de kg)'] = df1['Volumen (miles de kg)'].str.replace(',', '.', regex=False).astype(float)
df1['Valor (miles de €)'] = df1['Valor (miles de €)'].str.replace(',', '.', regex=False).astype(float)
df1['Precio medio kg'] = df1['Precio medio kg'].str.replace(',', '.', regex=False).astype(float)
df1['Consumo per capita'] = df1['Consumo per capita'].str.replace(',', '.', regex=False).astype(float)
df1['Gasto per capita'] = df1['Gasto per capita'].str.replace(',', '.', regex=False).astype(float)

In [8]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26634 entries, 0 to 26633
Data columns (total 11 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Año                    26634 non-null  int64  
 1   Mes                    26634 non-null  object 
 2   CCAA                   26634 non-null  object 
 3   Producto               26634 non-null  object 
 4   Volumen (miles de kg)  26634 non-null  float64
 5   Valor (miles de €)     26634 non-null  float64
 6   Precio medio kg        26634 non-null  float64
 7   Penetración (%)        26514 non-null  float64
 8   Consumo per capita     26634 non-null  float64
 9   Gasto per capita       26634 non-null  float64
 10  Penetración (%) imp    26634 non-null  float64
dtypes: float64(7), int64(1), object(3)
memory usage: 1.9+ MB


### Profiling de las variables

In [9]:
profile = ProfileReport(df1, title='Consumo Alimentario por CCAA')
profile

Summarize dataset:   0%|          | 0/24 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



Como vemos en el profile, las variables `Gasto per capita` y `Consumo per capita` están altamente correlacionadas. 

También podemos ver cierta correlación entre estas variables y `Penetración (%)`. 

Lo mismo ocurre con las variables `Gasto per capita` y `Consumo per capita` con `Volumen (miles de kg)` y `Valor (miles de €)` (aunque la correlación no es tan alta). Cos estas variables, `Penetración (%)` también parece estar algo correlacionada.

Sobre las variables con correlación negativa, la más notable es `Precio medio kg` y `Consumo per capita` (aunque no es muy alta). Esta correlación negativa tiene sentido, ya que si el precio del producto es muy alto, se consumirá menos cantidad del mismo.

# Exportar datos

In [10]:
df1.to_csv('data/Dataset1.txt', sep='|', index=False)