# Procesamiento de Datos con Python

## Identificación del problema

### Seguridad Alimentaria

La seguridad alimentaria se define como el acceso físico, social y económico a alimentos seguros, nutritivos y en cantidad suficiente para cada persona de manera permanente, es decir, los requerimientos nutricionales y preferencias alimentarias de cada individuos son satisfechos, permitiéndoles llevar una vida activa y saludable. 

Los niveles de seguridad alimentaria se establecen según las siguientes características:
- **Disponibilidad:** Referente a la producción, almacenamiento, importaciones y exportaciones de alimentos.
- **Estabilidad:** Capacidad de almacenamiento para prevenir variaciones estacionales de los ciclos agrícolas o factores socioeconómicos.
- **Acceso:** Por causas físicas como cantidades insuficientes o aislamiento de las comunidades, o bien, por cuestiones socioeconómicas como el alza de precios.
- **Consumo:** Debe responder a las necesidades nutricionales y preferencias alimentarias ya que es el resultado de buenas prácticas de salud y alimentación, la correcta preparación de los
alimentos, la diversidad de la dieta y la buena distribución de los alimentos.

Uno de los Objetivos de Desarrollo Sostenible de la Organización de las Naciones Unidas es acabar con el hambre y desnutrición para 2030, en especial la que afecta a la infancia, pues se estima que 2 mil millones de personas experimentan algún grado de inseguridad alimentaria alrededor del mundo, por tanto, es un problema global aunque no afecte a todos por igual. Sin embargo, la cantidad de personas en situación de inseguridad alimentaria va en aumento debido a factores ambientales, como la degradación de los suelos, la escasez del agua, la contaminación atmosférica y el cambio climático, también a causa de situaciones socioeconómicas como la explosión demográfica, crisis económicas y problemas de gobernanza. 

En años recientes hemos transitado diferentes situaciones adversas, por mencionar algunas, la pandemia por COVID-19 y la guerra en Ucrania, que han derivado en una inflación sin precedentes y problemas de suministro de insumos, lo que sumará millones de personas a la pobreza extrema debido al aumento de los precios de los alimentos, teniendo un mayor impacto en las personas de los países de ingresos bajos y medianos, ya que gastan una mayor parte de sus ingresos en alimentos que las personas de los países de ingresos altos, aumentando el hambre y la desnutrición pues los precios de los alimentos han alcanzado máximos históricos. De acuerdo con una encuesta realizada por el Banco Mundial sobre 85 países, una cantidad importante de personas quedaron sin alimentos o redujeron su consumo en los primeros dos años de pandemia.

Bakalis y colaboradores (2020) desde el transcurso de la pandemia ya preveían que tal circunstancia representaría un desafío para el sistema de la cadena alimentaria dado que la restricción de movimiento afectaría desde la producción de alimentos hasta la logística y servicios relacionados con la distribución de estos en cantidades suficientes y a precios asequibles para todos. Además concluyeron que las consecuencias negativas se acentuarían en los miembros más vulnerables de la sociedad. También destacaron la importancia de los análisis multidisciplinarios para la toma de decisiones. 

Por otra parte, Swinnen y McDermott (2020) afirman que el impacto de COVID-19 en la seguridad alimentaria es heterogéneo, ya que afectó con más fuerza a las personas pobres con el aumento de precios simultáneo a la disminución de ingresos, por lo que aumentaron el consumo de granos y lo disminuyeron en los alimentos de mayor costo, como la carne, lácteos y verduras. Asimismo, programas públicos que brindan alimentación, nutrición y salud a las personas pobres se vieron interrumpidos.

Desde otro punto de vista, Workie et.al. (2020) determinaron que la pandemia afectaría indirectamente el poder adquisitivo y la capacidad de producción y distribución de alimentos sin olvidar las compras de pánico que produjeron un desequilibrio en el mercado que al mismo tiempo se vio interrumpido por las medidas de contención del virus. El decremento en la demanda de productos por el aislamiento afectó la capacidad de los productores para invertir provocando una disminución en la producción. Además remarcaron que no solo los países en desarrollo se verían afectados por el aumento de precios, sino que también los países desarrollados porque dependen del suministro proporcionado por los países en desarrollo.

No obstante, el Banco Mundial y el G7 están destinando fondos para impulsar la seguridad alimentaria y nutricional, reducir el riesgo y fortalecer los sistemas alimentarios, alguos países beneficiados con recursos millonarios son Bolivia, Chad, Ghana, Sierra Leona, Egipto y Tunez.

Todo esto provee de importancia y pertinencia a nuestro trabajo como analistas para identificar las variaciones en la disponibilidad de alimentos en los últimos años mientras ocurrian estos fenómenos atípicos, además de identificar a aquellos países más vulnerables en necesidad de apoyo de las organizaciones globales ya que este es un problema de caracter mundial.

## Planteamiento de problemas

Como nos hemos propuesto analizar las afectaciones de la pandemia por COVID-19 en la seguridad alimentaria, formulamos, en principio, las siguientes preguntas:

1. ¿En qué alimentos se presentó una mayor disminución en la producción?
2. ¿Algún alimento se mantuvo estable?
3. ¿Qué países disminuyeron en mayor medida su producción agrícola durante la pandemia?
4. ¿La cantidad de animales para consumo alimentario también experimentó cambios?
5. ¿Existe alguna relación entre la afectación alimentaria y el tamaño de la población de cada país?

## Datos

Se obtuvo una colección de datos de la plataforma Kaggle (https://www.kaggle.com/datasets/pranav941/-world-food-wealth-bank?select=live1.csv) que contiene las estadísticas de prácticamente las últimas 6 décadas, de 1959 a 2020, que cubren la producción de más de 150 cultivos únicos, más de 50 elementos de ganado, distribución de la tierra por uso y población. 

Como los datos cubren hasta el 2020, año en que se hizo pandemia el virus de COVID-19 y los estudios relacionados al problema fueron elaborados en ese año, contamos con los antecedentes y datos temporales necesarios para identificar variaciones y responder a nuestras preguntas.


## Análisis Exploratorio de Datos

In [1]:
# se importan los paquetes necesarios
import pandas as pd
import numpy as np

In [2]:
# para eliminar la notación científica en las visualizaciones ya que se utilizan cantidades grandes
pd.options.display.float_format = '{:.2f}'.format

In [3]:
# activamos nuestra unidad de almacenamiento Google Drive, donde se almacenaron los datasets
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [4]:
# lectura de datos
crop_data = pd.read_csv('/content/drive/MyDrive/crop1.csv', sep=',')
animal_data = pd.read_csv('/content/drive/MyDrive/live1.csv', sep=',')
pop_data = pd.read_csv('/content/drive/MyDrive/pop1.csv', sep=',')

Al utilizar la función `pd.read_csv` para cargar los CSV, esta los devuelve como DataFrames, lo que se verifica a continuación:



In [5]:
print('crop_data es de tipo', type(crop_data))
print('animal_data es de tipo', type(animal_data))
print('pop_data es de tipo', type(pop_data))

crop_data es de tipo <class 'pandas.core.frame.DataFrame'>
animal_data es de tipo <class 'pandas.core.frame.DataFrame'>
pop_data es de tipo <class 'pandas.core.frame.DataFrame'>


### crop_data

El DataFrame`crop_data`contiene la producción de cultivos durante las últimas 6 décadas para más de 200 países, analicemos este primer conjunto de datos.

In [6]:
crop_data

Unnamed: 0,Area,Item,Element,Year,Unit,Value
0,Afghanistan,"Almonds, with shell",Area harvested,1975,ha,0.00
1,Afghanistan,"Almonds, with shell",Area harvested,1976,ha,5900.00
2,Afghanistan,"Almonds, with shell",Area harvested,1977,ha,6000.00
3,Afghanistan,"Almonds, with shell",Area harvested,1978,ha,6000.00
4,Afghanistan,"Almonds, with shell",Area harvested,1979,ha,6000.00
...,...,...,...,...,...,...
1895970,Net Food Importing Developing Countries,Wheat,Production,2016,tonnes,52845182.00
1895971,Net Food Importing Developing Countries,Wheat,Production,2017,tonnes,57099662.00
1895972,Net Food Importing Developing Countries,Wheat,Production,2018,tonnes,55571780.00
1895973,Net Food Importing Developing Countries,Wheat,Production,2019,tonnes,53903035.00


Visualizamos los primeros y últimos registro del DataFrame y observamos que tenemos 1895975 registros y 6 columnas, lo cual también puede obtenerse con el método `shape`:

In [7]:
print(f"El DataFrame crop_data contiene {crop_data.shape[0]} filas y {crop_data.shape[1]} columnas")

El DataFrame crop_data contiene 1895975 filas y 6 columnas


En principio parece que tenemos una cantidad importante de registros pero no podemos determinarlo hasta tener el dataset limpio.

Visualizamos los nombres de las columnas

In [8]:
crop_data.columns

Index(['Area', 'Item', 'Element', 'Year', 'Unit', 'Value'], dtype='object')

Analicemos la primera columna,

In [9]:
crop_data['Area'].unique()

array(['Afghanistan', 'Albania', 'Algeria', 'Angola',
       'Antigua and Barbuda', 'Argentina', 'Armenia', 'Australia',
       'Austria', 'Azerbaijan', 'Bahamas', 'Bahrain', 'Bangladesh',
       'Barbados', 'Belarus', 'Belgium', 'Belgium-Luxembourg', 'Belize',
       'Benin', 'Bhutan', 'Bolivia (Plurinational State of)',
       'Bosnia and Herzegovina', 'Botswana', 'Brazil',
       'Brunei Darussalam', 'Bulgaria', 'Burkina Faso', 'Burundi',
       'Cabo Verde', 'Cambodia', 'Cameroon', 'Canada',
       'Central African Republic', 'Chad', 'Chile', 'China',
       'China, Hong Kong SAR', 'China, Macao SAR', 'China, mainland',
       'China, Taiwan Province of', 'Colombia', 'Comoros', 'Congo',
       'Cook Islands', 'Costa Rica', "Côte d'Ivoire", 'Croatia', 'Cuba',
       'Cyprus', 'Czechia', 'Czechoslovakia',
       "Democratic People's Republic of Korea",
       'Democratic Republic of the Congo', 'Denmark', 'Djibouti',
       'Dominica', 'Dominican Republic', 'Ecuador', 'Egypt',
      

In [10]:
print(f"Tenemos información de {len(crop_data['Area'].unique())} países")

Tenemos información de 245 países


Obsérvese que los últimos 5 elementos en la lista no son países, entonces solo estudiaremos a 240 países.

En la segunda columna se especifica el cultivo,

In [11]:
crop_data['Item'].unique()

array(['Almonds, with shell', 'Anise, badian, fennel, coriander',
       'Apples', 'Apricots', 'Barley', 'Berries nes', 'Figs',
       'Fruit, citrus nes', 'Fruit, fresh nes', 'Fruit, stone nes',
       'Grapes', 'Linseed', 'Maize', 'Melons, other (inc.cantaloupes)',
       'Millet', 'Nuts nes', 'Onions, dry', 'Oranges',
       'Peaches and nectarines', 'Pears', 'Pistachios', 'Plums and sloes',
       'Potatoes', 'Pulses nes', 'Rice, paddy', 'Seed cotton',
       'Sesame seed', 'Spices nes', 'Sugar beet', 'Sugar cane',
       'Sunflower seed', 'Vegetables, fresh nes', 'Walnuts, with shell',
       'Watermelons', 'Wheat', 'Beans, dry', 'Beans, green',
       'Broad beans, horse beans, dry', 'Cabbages and other brassicas',
       'Carrots and turnips', 'Cauliflowers and broccoli', 'Cherries',
       'Chestnut', 'Chillies and peppers, green',
       'Cucumbers and gherkins', 'Dates', 'Eggplants (aubergines)',
       'Garlic', 'Hops', 'Leeks, other alliaceous vegetables',
       'Lemons an

In [12]:
print(f"Se tienen {len(crop_data['Item'].unique())} cultivos distintos")

Se tienen 118 cultivos distintos


Para la tercera columna:

In [13]:
crop_data['Element'].unique()

array(['Area harvested', 'Yield', 'Production'], dtype=object)

Notamos que para cada cultivo tenemos información del área cosechada, el rendimiento y la producción. Entendemos área cosechada como la superficie de terreno destinada a determinado cultivo, el rendimiento es una medida de la cantidad cosechada de un cultivo por unidad de superficie de tierra y producción es la cantidad neta cosechada de un cultivo.

Para la cuarta columna es claro que es la año correspondiente a cada dato 

In [14]:
crop_data['Year'].min()

1961

In [15]:
min = crop_data['Year'].min()
max = crop_data['Year'].max()

print(f'Se tiene información desde {min} hasta {max}')

Se tiene información desde 1961 hasta 2020


Y en la quinta columna:

In [16]:
crop_data['Unit'].unique()

array(['ha', 'hg/ha', 'tonnes'], dtype=object)

se tienen las unidades de medida por cada cultivo, hectárea (ha) en el caso de área cultivada, hectogramo por hectárea (hg/ha) para el rendimiento y toneladas (tonnes) en la producción.

Y en la última columna se tiene la cantidad absoluta de cada cultivo.

In [17]:
crop_data.head(2)

Unnamed: 0,Area,Item,Element,Year,Unit,Value
0,Afghanistan,"Almonds, with shell",Area harvested,1975,ha,0.0
1,Afghanistan,"Almonds, with shell",Area harvested,1976,ha,5900.0


Cambiamos el nombre de las columnas, por otros nombres más intuitivos y se reordenan las columnas:

In [18]:
new_cols = {
'Area': 'country',
'Item': 'crop',
'Element' : 'productivity',
'Unit' : 'unit',
'Year' : 'year',
'Value' : 'quantity'
}

In [19]:
crop_df = crop_data.rename(columns=new_cols)[['country', 'year', 'crop', 'productivity','quantity','unit']]
crop_df.head(3)

Unnamed: 0,country,year,crop,productivity,quantity,unit
0,Afghanistan,1975,"Almonds, with shell",Area harvested,0.0,ha
1,Afghanistan,1976,"Almonds, with shell",Area harvested,5900.0,ha
2,Afghanistan,1977,"Almonds, with shell",Area harvested,6000.0,ha


### animal_data

Ahora, el DataFrame`animal_data` contiene el stock de animales vivos durante las últimas 6 décadas para más de 200 países. Veamos algunos de sus registros:

In [20]:
animal_data.head()

Unnamed: 0,Area,Item,Element,Year,Unit,Value
0,Afghanistan,Asses,Stocks,1961,Head,1300000.0
1,Afghanistan,Asses,Stocks,1962,Head,851850.0
2,Afghanistan,Asses,Stocks,1963,Head,1001112.0
3,Afghanistan,Asses,Stocks,1964,Head,1150000.0
4,Afghanistan,Asses,Stocks,1965,Head,1300000.0


In [21]:
print(f"El DataFrame animal_data contiene {animal_data.shape[0]} filas y {animal_data.shape[1]} columnas")

El DataFrame animal_data contiene 122467 filas y 6 columnas


Tenemos menos registros acerca de animales que de cultivos, pero los campos del DataFrame tienen los mismos nombres que el anterior como se ve a continuación:

In [22]:
animal_data.columns

Index(['Area', 'Item', 'Element', 'Year', 'Unit', 'Value'], dtype='object')

Para la primera columna:

In [23]:
animal_data["Area"].unique()

array(['Afghanistan', 'Albania', 'Algeria', 'Angola',
       'Antigua and Barbuda', 'Argentina', 'Armenia', 'Australia',
       'Austria', 'Azerbaijan', 'Bahamas', 'Bahrain', 'Bangladesh',
       'Barbados', 'Belarus', 'Belgium', 'Belgium-Luxembourg', 'Belize',
       'Benin', 'Bhutan', 'Bolivia (Plurinational State of)',
       'Bosnia and Herzegovina', 'Botswana', 'Brazil',
       'Brunei Darussalam', 'Bulgaria', 'Burkina Faso', 'Burundi',
       'Cabo Verde', 'Cambodia', 'Cameroon', 'Canada',
       'Central African Republic', 'Chad', 'Chile', 'China',
       'China, Hong Kong SAR', 'China, Macao SAR', 'China, mainland',
       'China, Taiwan Province of', 'Colombia', 'Comoros', 'Congo',
       'Cook Islands', 'Costa Rica', "Côte d'Ivoire", 'Croatia', 'Cuba',
       'Cyprus', 'Czechia', 'Czechoslovakia',
       "Democratic People's Republic of Korea",
       'Democratic Republic of the Congo', 'Denmark', 'Djibouti',
       'Dominica', 'Dominican Republic', 'Ecuador', 'Egypt',
      

In [24]:
print(f"Tenemos información de {len(animal_data['Area'].unique())} países")

Tenemos información de 243 países


Tenemos información de dos países menos que el dataset de cultivos, pero de la misma forma, los últimos 5 elementos de la lista no son países, entonces solo disponemos información de 238 países.

En la segunda columna tenemos el nombre de los animales:

In [25]:
animal_data['Item'].unique()

array(['Asses', 'Camels', 'Cattle', 'Chickens', 'Goats', 'Horses',
       'Mules', 'Sheep', 'Beehives', 'Buffaloes', 'Ducks',
       'Geese and guinea fowls', 'Pigs', 'Rabbits and hares'],
      dtype=object)

In [26]:
animal_data['Item'].value_counts()

Chickens                  13131
Cattle                    12956
Goats                     12543
Sheep                     12113
Pigs                      12038
Horses                    11168
Asses                      8777
Beehives                   8456
Ducks                      7362
Mules                      6509
Rabbits and hares          5140
Geese and guinea fowls     4660
Buffaloes                  3955
Camels                     3659
Name: Item, dtype: int64

Como la cantidad de veces que aparece cada animal es diferente, nos hace suponer que no todos los países tendrán registros para cada especie.

En la tercera columna:

In [27]:
animal_data['Element'].unique()

array(['Stocks'], dtype=object)

todos los registros son iguales, hace referencia a que hay existencia del correspondiente animal.

Es claro que la cuarta columna hace referencia al año al que corresponde la información,

In [28]:
min = animal_data['Year'].min()
max = animal_data['Year'].max()

print(f'Se tiene información desde {min} hasta {max}')

Se tiene información desde 1961 hasta 2020


 Y en la quinta columna se tiene:

In [29]:
animal_data['Unit'].unique()

array(['Head', '1000 Head', 'No'], dtype=object)

Indica las unidades en que se cuenta el número de ejemplares de cada especie, por cabeza (head), millar de cabezas (1000 head) o número de ejemplares (No).

En la última columna se tienen las cantidades absoutas.

In [30]:
animal_data.head(2)

Unnamed: 0,Area,Item,Element,Year,Unit,Value
0,Afghanistan,Asses,Stocks,1961,Head,1300000.0
1,Afghanistan,Asses,Stocks,1962,Head,851850.0


Eliminaremos la columna `Element` pues no aporta información

In [31]:
animal_data.drop(columns=['Element'], inplace=True)
animal_data.head()

Unnamed: 0,Area,Item,Year,Unit,Value
0,Afghanistan,Asses,1961,Head,1300000.0
1,Afghanistan,Asses,1962,Head,851850.0
2,Afghanistan,Asses,1963,Head,1001112.0
3,Afghanistan,Asses,1964,Head,1150000.0
4,Afghanistan,Asses,1965,Head,1300000.0


Renombramos y ordenamos las columnas restantes

In [32]:
new_cols = {
'Area': 'country',
'Item': 'animal',
'Year' : 'year',
'Unit' : 'unit',
'Value' : 'quantity'
}

In [33]:
animal_df = animal_data.rename(columns=new_cols)[['country', 'year', 'animal','quantity','unit']]
animal_df.head(3)

Unnamed: 0,country,year,animal,quantity,unit
0,Afghanistan,1961,Asses,1300000.0,Head
1,Afghanistan,1962,Asses,851850.0,Head
2,Afghanistan,1963,Asses,1001112.0,Head


### pop_data

Este DataFrame contiene la población de los países a lo largo de los años. Visualizamos algunas filas:

In [34]:
pop_data

Unnamed: 0,Country Name,Country Code,1960,1961,1962,1963,1964,1965,1966,1967,...,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,Aruba,ABW,54208.00,55434.00,56234.00,56699.00,57029.00,57357.00,57702.00,58044.00,...,102565.00,103165.00,103776.00,104339.00,104865.00,105361.00,105846.00,106310.00,106766.00,107195.00
1,Africa Eastern and Southern,AFE,130836765.00,134159786.00,137614644.00,141202036.00,144920186.00,148769974.00,152752671.00,156876454.00,...,547482863.00,562601578.00,578075373.00,593871847.00,609978946.00,626392880.00,643090131.00,660046272.00,677243299.00,694665117.00
2,Afghanistan,AFG,8996967.00,9169406.00,9351442.00,9543200.00,9744772.00,9956318.00,10174840.00,10399936.00,...,31161378.00,32269592.00,33370804.00,34413603.00,35383028.00,36296111.00,37171922.00,38041757.00,38928341.00,39835428.00
3,Africa Western and Central,AFW,96396419.00,98407221.00,100506960.00,102691339.00,104953470.00,107289875.00,109701811.00,112195950.00,...,370243017.00,380437896.00,390882979.00,401586651.00,412551299.00,423769930.00,435229381.00,446911598.00,458803476.00,470898870.00
4,Angola,AGO,5454938.00,5531451.00,5608499.00,5679409.00,5734995.00,5770573.00,5781305.00,5774440.00,...,25107925.00,26015786.00,26941773.00,27884380.00,28842482.00,29816769.00,30809787.00,31825299.00,32866268.00,33933611.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
261,Kosovo,XKX,947000.00,966000.00,994000.00,1022000.00,1050000.00,1078000.00,1106000.00,1135000.00,...,1807106.00,1818117.00,1812771.00,1788196.00,1777557.00,1791003.00,1797085.00,1788878.00,1790133.00,1806279.00
262,"Yemen, Rep.",YEM,5315351.00,5393034.00,5473671.00,5556767.00,5641598.00,5727745.00,5816241.00,5907873.00,...,24473176.00,25147112.00,25823488.00,26497881.00,27168210.00,27834811.00,28498683.00,29161922.00,29825968.00,30490639.00
263,South Africa,ZAF,17099836.00,17524533.00,17965733.00,18423157.00,18896303.00,19384838.00,19888259.00,20406863.00,...,52832659.00,53687125.00,54544184.00,55386369.00,56207649.00,57009751.00,57792520.00,58558267.00,59308690.00,60041996.00
264,Zambia,ZMB,3070780.00,3164330.00,3260645.00,3360099.00,3463211.00,3570466.00,3681953.00,3797877.00,...,14465148.00,14926551.00,15399793.00,15879370.00,16363449.00,16853608.00,17351714.00,17861034.00,18383956.00,18920657.00


In [35]:
print(f"El DataFrame pop_data contiene {pop_data.shape[0]} filas y {pop_data.shape[1]} columnas")

El DataFrame pop_data contiene 266 filas y 64 columnas


Este dataframe tiene más países de los que se tiene información en los otros dos csv, esto lo sabemos por el número de filas que se corresponden a cada país.

Se tiene una columna por cada año, aunque también abarca un año antes y un año después que los datos de cultivos y animales.

Y como no necesitamos el código de cada país, podemos eliminar las columnas `Country Code`, `1960` y `2021` además de cambiar el nombre de solo una columna:

In [36]:
pop_data.drop(columns=['Country Code', '1960', '2021'], inplace=True)
pop_df = pop_data.rename(columns={'Country Name':'country'})

E indexamos el DataFrame por el nombre de los países:

In [37]:
pop_df.set_index('country', inplace=True)
pop_df.head(3)

Unnamed: 0_level_0,1961,1962,1963,1964,1965,1966,1967,1968,1969,1970,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Aruba,55434.0,56234.0,56699.0,57029.0,57357.0,57702.0,58044.0,58377.0,58734.0,59070.0,...,102050.0,102565.0,103165.0,103776.0,104339.0,104865.0,105361.0,105846.0,106310.0,106766.0
Africa Eastern and Southern,134159786.0,137614644.0,141202036.0,144920186.0,148769974.0,152752671.0,156876454.0,161156430.0,165611760.0,170257189.0,...,532760424.0,547482863.0,562601578.0,578075373.0,593871847.0,609978946.0,626392880.0,643090131.0,660046272.0,677243299.0
Afghanistan,9169406.0,9351442.0,9543200.0,9744772.0,9956318.0,10174840.0,10399936.0,10637064.0,10893772.0,11173654.0,...,30117411.0,31161378.0,32269592.0,33370804.0,34413603.0,35383028.0,36296111.0,37171922.0,38041757.0,38928341.0


Obsérvese que se conservan los DataFrames originales.

## Limpieza de datos

Para el primer dataset, el que contiene información de los cultivos:

In [38]:
crop_df.info(show_counts=True)
# por el tamaño del DataFrame no se muestra la columna Non-Null Count por default,
# es necesario especificar el parámetro show_counts=True

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1895975 entries, 0 to 1895974
Data columns (total 6 columns):
 #   Column        Non-Null Count    Dtype  
---  ------        --------------    -----  
 0   country       1895975 non-null  object 
 1   year          1895975 non-null  int64  
 2   crop          1895975 non-null  object 
 3   productivity  1895975 non-null  object 
 4   quantity      1766475 non-null  float64
 5   unit          1895975 non-null  object 
dtypes: float64(1), int64(1), object(4)
memory usage: 86.8+ MB


Observemos que el tipo de dato para cada columna es correcto y únicamente tenemos valores nulos en la columna `quantity` pero esta es precisamente la columna que nos interesa. Además, en las columnas de tipo `object` que son cadenas, no tenemos caracteres inválidos o que nos denoten la falta de algún dato, esto lo pudimos inferir desde el uso del método `.unique()` en la sección pasada.

Si seleccionamos algunas filas al azar, visualizamos filas limpias excepto en la columna `quantity`

In [39]:
crop_df.sample(5)

Unnamed: 0,country,year,crop,productivity,quantity,unit
283455,Colombia,2004,"Fruit, citrus nes",Production,715741.0,tonnes
853147,Namibia,1995,Millet,Production,37100.0,tonnes
1218038,Trinidad and Tobago,1971,Bananas,Production,7000.0,tonnes
258212,"China, mainland",1988,Melonseed,Production,25000.0,tonnes
1857386,Low Income Food Deficit Countries,1964,"Beans, green",Production,229988.0,tonnes


Definimos la función `calcula_porcentajes` para observar la fracción de datos perdidos que tenemos y tener una visión general de cuánta falta de información tenemos.

In [40]:
def calcula_porcentajes(df):
  print(df.isna().sum()/len(df)*100) # len = df.shape[0] = numero de registros

In [41]:
calcula_porcentajes(crop_df)

country        0.00
year           0.00
crop           0.00
productivity   0.00
quantity       6.83
unit           0.00
dtype: float64


Un 6% de faltantes en principio no es muy alarmante, pero si éstos se acumulan en determinado país y en determinado cultivo, podría representar una dificultad para nuestro análisis, entonces, seleccionamos aquellos registros con valores nulos:

In [42]:
crop_nan = crop_df[crop_df.isna().any(1)]
crop_nan

Unnamed: 0,country,year,crop,productivity,quantity,unit
137,Afghanistan,1961,"Anise, badian, fennel, coriander",Area harvested,,ha
138,Afghanistan,1962,"Anise, badian, fennel, coriander",Area harvested,,ha
139,Afghanistan,1963,"Anise, badian, fennel, coriander",Area harvested,,ha
140,Afghanistan,1964,"Anise, badian, fennel, coriander",Area harvested,,ha
141,Afghanistan,1965,"Anise, badian, fennel, coriander",Area harvested,,ha
...,...,...,...,...,...,...
1894677,Net Food Importing Developing Countries,1983,Triticale,Production,,tonnes
1894678,Net Food Importing Developing Countries,1984,Triticale,Production,,tonnes
1894679,Net Food Importing Developing Countries,1985,Triticale,Production,,tonnes
1894680,Net Food Importing Developing Countries,1986,Triticale,Production,,tonnes


Agrupamos el DataFrame de datos faltantes por país y por cultivo para darnos una idea de cómo se distribuyen los NaN's:

In [43]:
nans = crop_nan.groupby(['country','crop']).size()
nans

country      crop                            
Afghanistan  Anise, badian, fennel, coriander    50
             Spices nes                          48
Africa       Chestnut                            48
             Fruit, stone nes                    23
             Hazelnuts, with shell               28
                                                 ..
Zimbabwe     Pineapples                          24
             Roots and tubers nes                46
             Strawberries                        58
             Vanilla                             58
             Vegetables, leguminous nes          29
Length: 3195, dtype: int64

Notamos que la falta de datos se presenta en varios países, lo cual es normal, pero en algunos cultivos hay bastantes datos faltantes, si estamos considerando un rango de 59 años, que nos falte más de un 50% de los datos no nos permitirá tener un entendimiento correcto del comportamiento usual de la productividad de un cultivo, entonces, en ese caso será mejor prescindir de ese cultivo.

In [44]:
droppear = pd.DataFrame(list(nans[nans > 59*0.5].index), columns=['country', 'crop'])
droppear

Unnamed: 0,country,crop
0,Afghanistan,"Anise, badian, fennel, coriander"
1,Afghanistan,Spices nes
2,Africa,Chestnut
3,Africa,Mushrooms and truffles
4,Africa,Triticale
...,...,...
1709,Zimbabwe,Oilseeds nes
1710,Zimbabwe,Pepper (piper spp.)
1711,Zimbabwe,Roots and tubers nes
1712,Zimbabwe,Strawberries


In [45]:
#definiremos una función pues utilizaremos el mismo proceso en dos datasets y 
#así automatizamos una parte de la limpieza de datos
def index_to_drop(delete, original,col):
  ind = []
  for i in delete.index:
    register = delete.loc[i]
    country = register['country']
    elem = register[col]
    #buscamos los registros correspondientes
    df = original[original['country']==country]
    df = df[df[col]==elem]
    #si aparece, guardamos los índices
    if len(df)>0:
      ind = ind + list(df.index)
  return ind

In [46]:
ind = index_to_drop(droppear, crop_df,'crop')

In [47]:
crop_dropped = crop_df.drop(index=ind)
calcula_porcentajes(crop_dropped)

country        0.00
year           0.00
crop           0.00
productivity   0.00
quantity       1.55
unit           0.00
dtype: float64


En este punto, hemos eliminado los registros que por falta de información no eran útiles para nuestro análisis, nótese que hemos perdido tanto registros nulos como no nulos, puesto que la cantidad de no nulos no era suficiente.

Se analizarán los cultivos para los que teníamos más de la mitad de información, y como nuestro objetivo es detectar cambios de comportamiento, reemplazaremos los datos faltantes por un valor típico, la media.

In [48]:
crop_dropped['quantity'] = crop_dropped['quantity'].fillna(crop_dropped['quantity'].mean())

In [49]:
calcula_porcentajes(crop_dropped)

country        0.00
year           0.00
crop           0.00
productivity   0.00
quantity       0.00
unit           0.00
dtype: float64


Reindexamos el dataset para hacerlos coincidir con la cantidad de registros:

In [50]:
crop_dropped.reset_index(drop=True, inplace=True)

Por ortografía haremos que los nombres de los países inicien con mayúsculas y las demás columnas de tipo object las convertiremos todas a minúsculas solo por practicidad, excepto la columna `unit` que ya está en minúsculas.

In [51]:
crop_dropped['country'] = crop_dropped['country'].str.title()
crop_dropped['crop'] = crop_dropped['crop'].str.lower()
crop_dropped['productivity'] = crop_dropped['productivity'].str.lower()

In [52]:
crop_dropped

Unnamed: 0,country,year,crop,productivity,quantity,unit
0,Afghanistan,1975,"almonds, with shell",area harvested,0.00,ha
1,Afghanistan,1976,"almonds, with shell",area harvested,5900.00,ha
2,Afghanistan,1977,"almonds, with shell",area harvested,6000.00,ha
3,Afghanistan,1978,"almonds, with shell",area harvested,6000.00,ha
4,Afghanistan,1979,"almonds, with shell",area harvested,6000.00,ha
...,...,...,...,...,...,...
1687989,Net Food Importing Developing Countries,2016,wheat,production,52845182.00,tonnes
1687990,Net Food Importing Developing Countries,2017,wheat,production,57099662.00,tonnes
1687991,Net Food Importing Developing Countries,2018,wheat,production,55571780.00,tonnes
1687992,Net Food Importing Developing Countries,2019,wheat,production,53903035.00,tonnes


¡Tenemos el dataset limpio!

In [53]:
crop_dropped.to_csv('/content/drive/MyDrive/crop_clean.csv')

Para el segundo dataframe:

In [54]:
animal_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 122467 entries, 0 to 122466
Data columns (total 5 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   country   122467 non-null  object 
 1   year      122467 non-null  int64  
 2   animal    122467 non-null  object 
 3   quantity  120203 non-null  float64
 4   unit      122467 non-null  object 
dtypes: float64(1), int64(1), object(3)
memory usage: 4.7+ MB


Nuevamente los tipos de datos son correctos pero tenemos datos faltantes en la columna `quantity.

Seleccionamos algunas filas al azar para comprobar que no hay problemas en las demás columnas.

In [55]:
animal_df.sample(5)

Unnamed: 0,country,year,animal,quantity,unit
60930,Namibia,2002,Sheep,2764253.0,Head
108297,Eastern Asia,1982,Goats,83883964.0,Head
84019,Switzerland,2003,Horses,52672.0,Head
75030,Saint Lucia,1995,Horses,1000.0,Head
28762,El Salvador,1961,Cattle,1135000.0,Head


Usamos la función `calcula_porcentajes` para darnos una idea general de la proporción de los datos faltantes.

In [56]:
calcula_porcentajes(animal_df)

country    0.00
year       0.00
animal     0.00
quantity   1.85
unit       0.00
dtype: float64


Tenemos aún menos valores faltantes, 1%, veamos si están distribuidos de manera homogénea en todo el dataset.

In [57]:
animal_nan = animal_df[animal_df.isna().any(1)]
animal_nan

Unnamed: 0,country,year,animal,quantity,unit
780,Albania,1961,Ducks,,1000 Head
781,Albania,1962,Ducks,,1000 Head
782,Albania,1963,Ducks,,1000 Head
783,Albania,1964,Ducks,,1000 Head
784,Albania,1965,Ducks,,1000 Head
...,...,...,...,...,...
117428,Polynesia,2018,Rabbits and hares,,1000 Head
117429,Polynesia,2019,Rabbits and hares,,1000 Head
117430,Polynesia,2020,Rabbits and hares,,1000 Head
117548,European Union (27),2018,Asses,,Head


In [58]:
nans = animal_nan.groupby(['country','animal']).size()
nans

country                             animal                
Albania                             Ducks                     42
                                    Geese and guinea fowls    42
                                    Mules                      6
Australia                           Buffaloes                 30
Australia and New Zealand           Buffaloes                 30
                                                              ..
United States of America            Mules                      3
Venezuela (Bolivarian Republic of)  Rabbits and hares         29
Western Africa                      Rabbits and hares         32
Western Europe                      Buffaloes                 19
Zambia                              Beehives                   7
Length: 143, dtype: int64

De nuevo, vemos que hay animales que tienen muchos datos faltantes en cada país, entonces, utilizaremos las especies de las cuales se dispone al menos un 50% de la información.

In [59]:
droppear = pd.DataFrame(list(nans[nans > 59*0.5].index), columns=['country', 'animal'])
droppear

Unnamed: 0,country,animal
0,Albania,Ducks
1,Albania,Geese and guinea fowls
2,Australia,Buffaloes
3,Australia and New Zealand,Buffaloes
4,Côte d'Ivoire,Ducks
5,Democratic People's Republic of Korea,Rabbits and hares
6,Finland,Ducks
7,Germany,Buffaloes
8,Ireland,Goats
9,Mozambique,Geese and guinea fowls


Muchos menos registros que eliminar.

In [60]:
ind = index_to_drop(droppear, animal_df,'animal')

In [61]:
animal_dropped = animal_df.drop(index=ind)
calcula_porcentajes(animal_dropped)

country    0.00
year       0.00
animal     0.00
quantity   0.98
unit       0.00
dtype: float64


Los valores faltantes restantes los sustituimos con el promedio:

In [62]:
animal_dropped['quantity'] = animal_dropped['quantity'].fillna(animal_dropped['quantity'].mean())

In [63]:
calcula_porcentajes(animal_dropped)

country    0.00
year       0.00
animal     0.00
quantity   0.00
unit       0.00
dtype: float64


Reindexamos el DataFrame

In [64]:
animal_dropped.reset_index(drop=True, inplace=True)

Verificamos que los países y animales no sean diferentes en cuanto a mayúsculas y minúsculas para homogeneizar la estructura de las cadenas:

In [65]:
animal_dropped['country'] = animal_dropped['country'].str.title()
animal_dropped['animal'] = animal_dropped['animal'].str.lower()
animal_dropped['unit'] = animal_dropped['unit'].str.lower()

In [66]:
animal_dropped

Unnamed: 0,country,year,animal,quantity,unit
0,Afghanistan,1961,asses,1300000.00,head
1,Afghanistan,1962,asses,851850.00,head
2,Afghanistan,1963,asses,1001112.00,head
3,Afghanistan,1964,asses,1150000.00,head
4,Afghanistan,1965,asses,1300000.00,head
...,...,...,...,...,...
120763,Net Food Importing Developing Countries,2016,sheep,364166482.00,head
120764,Net Food Importing Developing Countries,2017,sheep,371357850.00,head
120765,Net Food Importing Developing Countries,2018,sheep,377303293.00,head
120766,Net Food Importing Developing Countries,2019,sheep,397970957.00,head


El DataFrame está limpio, lo guardamos:

In [67]:
animal_dropped.to_csv('/content/drive/MyDrive/animal_clean.csv')

El último DataFrame, correspondiente al tamaño de la población, tiene muchas columnas y todas deben ser de tipo numérico.

In [68]:
pop_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 266 entries, Aruba to Zimbabwe
Data columns (total 60 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   1961    264 non-null    float64
 1   1962    264 non-null    float64
 2   1963    264 non-null    float64
 3   1964    264 non-null    float64
 4   1965    264 non-null    float64
 5   1966    264 non-null    float64
 6   1967    264 non-null    float64
 7   1968    264 non-null    float64
 8   1969    264 non-null    float64
 9   1970    264 non-null    float64
 10  1971    264 non-null    float64
 11  1972    264 non-null    float64
 12  1973    264 non-null    float64
 13  1974    264 non-null    float64
 14  1975    264 non-null    float64
 15  1976    264 non-null    float64
 16  1977    264 non-null    float64
 17  1978    264 non-null    float64
 18  1979    264 non-null    float64
 19  1980    264 non-null    float64
 20  1981    264 non-null    float64
 21  1982    264 non-null    float64
 22

En efecto, son de tipo numérico pero deberían ser de tipo int y no float. Pero antes de hacer el casting, debemos eliminar los valores faltantes, veamos dónde se encuentran

In [69]:
pop_df[pop_df.isna().any(1)]

Unnamed: 0_level_0,1961,1962,1963,1964,1965,1966,1967,1968,1969,1970,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Eritrea,1033320.0,1060489.0,1088859.0,1118152.0,1148188.0,1178875.0,1210304.0,1242633.0,1276122.0,1310947.0,...,3213969.0,,,,,,,,,
Not classified,,,,,,,,,,,...,,,,,,,,,,
Kuwait,300581.0,337346.0,378756.0,423900.0,472032.0,523169.0,577164.0,632911.0,688972.0,744444.0,...,3168054.0,3348852.0,3526382.0,3690939.0,3835588.0,3956862.0,4056102.0,4137314.0,4207077.0,4270563.0
West Bank and Gaza,,,,,,,,,,,...,3882986.0,3979998.0,4076708.0,4173398.0,4270092.0,4367088.0,4454805.0,4569087.0,4685306.0,4803269.0


Evidentemente la fila `Not classified` no es de utilidad, entonces podemos eliminarla:

In [70]:
pop_df.drop(index='Not classified', inplace=True)

Y como sólo utilizaremos los datos del último año (2020), no es necesario eliminar todos, entonces sólo nos ocuparemos de la fila `Eritrea`, que buscando en internet su población era de 5.068.831 habitantes, entonces:

In [71]:
pop_df['2020'].loc['Eritrea'] = 5068831

Como sólo nos interesa la última columna, sólo nos ocuparemos de que ésta tenga el tipo de dato más apropiado, int64 y no float64.

In [72]:
pop_df['2020'] = pop_df['2020'].astype(int)

In [73]:
pop_df['2020'].dtypes

dtype('int64')

Como el procesamiento fue muy breve, no guardaremos el DataFrame resultante. Además, como los índices no son de tipo numérico, no fue necesario reindexar el DataFrame.

## Respondiendo las preguntas planteadas

### ¿En qué alimentos se presentó una mayor disminución en la producción?

Recordemos que en el dataset de los cultivos contiene tres tipos de productividad, por área cultivada, por rendimiento y por producción. Por el planteamiento de la pregunta, usaremos únicamente los registros que contienen la producción neta

In [74]:
crop_1 = crop_dropped[crop_dropped['productivity']=='production']
crop_1.head()

Unnamed: 0,country,year,crop,productivity,quantity,unit
91,Afghanistan,1975,"almonds, with shell",production,0.0,tonnes
92,Afghanistan,1976,"almonds, with shell",production,9800.0,tonnes
93,Afghanistan,1977,"almonds, with shell",production,9000.0,tonnes
94,Afghanistan,1978,"almonds, with shell",production,12000.0,tonnes
95,Afghanistan,1979,"almonds, with shell",production,10500.0,tonnes


Ahora, tomaremos los datos de los antecedentes, antes del 2020

In [75]:
crop_before = crop_1[crop_1['year']<2020]
crop_before.sample(3)

Unnamed: 0,country,year,crop,productivity,quantity,unit
282979,Cyprus,1967,cabbages and other brassicas,production,3556.0,tonnes
408176,Gabon,1974,bananas,production,7700.0,tonnes
966887,South Africa,1986,soybeans,production,37900.0,tonnes


Y tomamos los datos a comparar

In [76]:
crop_2020 = crop_1[crop_1['year']==2020][['country','crop','quantity']]
crop_2020

Unnamed: 0,country,crop,quantity
136,Afghanistan,"almonds, with shell",39307.00
316,Afghanistan,apples,270857.00
496,Afghanistan,apricots,131788.00
676,Afghanistan,barley,127757.00
856,Afghanistan,berries nes,27772.00
...,...,...,...
1687273,Net Food Importing Developing Countries,"vegetables, fresh nes",27573767.00
1687453,Net Food Importing Developing Countries,"vegetables, leguminous nes",364378.00
1687633,Net Food Importing Developing Countries,"walnuts, with shell",75765.00
1687813,Net Food Importing Developing Countries,watermelons,8477580.00


Calculamos la media por cultivo global, es decir, de todos los países, en años anteriores.

In [77]:
promedio = pd.DataFrame(crop_before.groupby(['crop'])['quantity'].mean())
promedio

Unnamed: 0_level_0,quantity
crop,Unnamed: 1_level_1
"almonds, with shell",129031.58
"anise, badian, fennel, coriander",64554.79
apples,2117790.50
apricots,140451.91
artichokes,204012.74
...,...
"vegetables, fresh nes",3713580.25
"vegetables, leguminous nes",124244.85
"walnuts, with shell",109167.64
watermelons,2234294.34


calculamos la media para 2020:

In [78]:
promedio_2020 = pd.DataFrame(crop_2020.groupby(['crop'])['quantity'].mean())
promedio_2020

Unnamed: 0_level_0,quantity
crop,Unnamed: 1_level_1
"almonds, with shell",222204.83
"anise, badian, fennel, coriander",257561.34
apples,3502283.89
apricots,178305.84
artichokes,143215.98
...,...
"vegetables, fresh nes",6852856.87
"vegetables, leguminous nes",93246.88
"walnuts, with shell",212968.45
watermelons,3630795.15


In [79]:
crop_2020_mean = pd.merge(promedio,promedio_2020,left_index=True, right_index=True)
crop_2020_mean = crop_2020_mean.rename(columns={'quantity_x':'mean','quantity_y':'2020'})
crop_2020_mean

Unnamed: 0_level_0,mean,2020
crop,Unnamed: 1_level_1,Unnamed: 2_level_1
"almonds, with shell",129031.58,222204.83
"anise, badian, fennel, coriander",64554.79,257561.34
apples,2117790.50,3502283.89
apricots,140451.91,178305.84
artichokes,204012.74,143215.98
...,...,...
"vegetables, fresh nes",3713580.25,6852856.87
"vegetables, leguminous nes",124244.85,93246.88
"walnuts, with shell",109167.64,212968.45
watermelons,2234294.34,3630795.15


In [80]:
crop_2020_mean['difference'] = crop_2020_mean['2020']-crop_2020_mean['mean']
crop_2020_mean.sort_values('difference').head()

Unnamed: 0_level_0,mean,2020,difference
crop,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
sugar beet,16241046.85,13644078.63,-2596968.22
rye,1573579.64,817830.13,-755749.51
sweet potatoes,4536134.92,3832032.36,-704102.56
oats,1749709.5,1070749.49,-678960.02
buckwheat,373041.03,225168.63,-147872.41


Ordenamos de manera ascendente puesto que los valores con diferencias negativas, significa que su producción en el 2020 fue menor que la media de años anteriores.

La lista se encabeza por remolacha azucarera (sugar beet), centeno (rye), patatas dulces (sweet potatoes), avena (oats), alforfón (buckwheat).

### ¿Algún alimento se mantuvo estable?


Veamos qué alimentos experimentaron una menor variación.

In [81]:
crop_2020_mean['absolute_difference'] = np.abs(crop_2020_mean['difference'])
crop_2020_mean.sort_values('absolute_difference').head(5)

Unnamed: 0_level_0,mean,2020,difference,absolute_difference
crop,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
quinces,56866.8,57296.26,429.46,429.46
tung nuts,123976.25,126761.0,2784.75,2784.75
hemp tow waste,39949.39,35380.29,-4569.1,4569.1
cinnamon (cannella),41821.97,46678.18,4856.21,4856.21
"fruit, stone nes",58710.98,53554.83,-5156.15,5156.15


Los cultivos más estables fueron membrillos (quinces), nueces (tung nuts), residuos de cáñamo (hemp tow waste) y canela (cinnamon).

### ¿Qué países disminuyeron en mayor medida su producción agrícola durante la pandemia?

Calculamos la media de la producción total, de todos los cultivos, de cada país.

In [82]:
media = pd.DataFrame(crop_before.groupby(['country'])['quantity'].mean())
media

Unnamed: 0_level_0,quantity
country,Unnamed: 1_level_1
Afghanistan,199634.02
Africa,3766733.53
Albania,57295.93
Algeria,186254.21
Americas,13104928.34
...,...
World,45033542.46
Yemen,47651.84
Yugoslav Sfr,458613.34
Zambia,187509.27


Calculamos la media general de cada país en 2020.

In [83]:
media_2020 = pd.DataFrame(crop_2020.groupby(['country'])['quantity'].mean())
media_2020

Unnamed: 0_level_0,quantity
country,Unnamed: 1_level_1
Afghanistan,377602.09
Africa,7557420.59
Albania,72911.96
Algeria,476253.22
Americas,22773965.99
...,...
Western Europe,3555585.43
World,77371525.30
Yemen,47017.09
Zambia,530842.12


Unimos las medias por país:

In [84]:
crop_2020_media = pd.merge(media,media_2020,left_index=True, right_index=True)
crop_2020_media = crop_2020_media.rename(columns={'quantity_x':'mean','quantity_y':'2020'})
crop_2020_media

Unnamed: 0_level_0,mean,2020
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,199634.02,377602.09
Africa,3766733.53,7557420.59
Albania,57295.93,72911.96
Algeria,186254.21,476253.22
Americas,13104928.34,22773965.99
...,...,...
Western Europe,3295118.36,3555585.43
World,45033542.46,77371525.30
Yemen,47651.84,47017.09
Zambia,187509.27,530842.12


Se calculan las diferencias:

In [85]:
crop_2020_media['difference'] = crop_2020_media['2020']-crop_2020_media['mean']
res_3 = crop_2020_media.sort_values('difference')
res_3.head()

Unnamed: 0_level_0,mean,2020,difference
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cuba,1396453.56,518484.17,-877969.38
Poland,2018989.55,1292740.2,-726249.36
Caribbean,1116438.75,573479.89,-542958.86
Small Island Developing States,1171781.07,725443.12,-446337.95
Northern Europe,1731162.17,1367125.19,-364036.98


Las regiones más afectadas fueron Cuba, Polonia, El Caribe, Pequeños Estados Insulares en Desarrollo y el Norte de Europa.

###  ¿La cantidad de animales para consumo alimentario también experimentó cambios?

Ahora utilizamos el dataset de los animales, aunque las unidades son diferentes, esto se debe a la especie, por tanto, no hay problema con hacer las comparaciones de manera indistinta.

Separamos los datos de los antecedentes y los del 2020.

In [86]:
animal_before = animal_dropped[animal_dropped['year']<2020]
animal_before.head()

Unnamed: 0,country,year,animal,quantity,unit
0,Afghanistan,1961,asses,1300000.0,head
1,Afghanistan,1962,asses,851850.0,head
2,Afghanistan,1963,asses,1001112.0,head
3,Afghanistan,1964,asses,1150000.0,head
4,Afghanistan,1965,asses,1300000.0,head


In [87]:
animal_2020 = animal_dropped[animal_dropped['year']==2020][['country','animal','quantity']]
animal_2020

Unnamed: 0,country,animal,quantity
59,Afghanistan,asses,1535435.00
119,Afghanistan,camels,168928.00
179,Afghanistan,cattle,5085807.00
239,Afghanistan,chickens,13724.00
299,Afghanistan,goats,7967043.00
...,...,...,...
120527,Net Food Importing Developing Countries,horses,14954213.00
120587,Net Food Importing Developing Countries,mules,1879607.00
120647,Net Food Importing Developing Countries,pigs,69093831.00
120707,Net Food Importing Developing Countries,rabbits and hares,12872.00


Ahora agrupamos por especie y calculamos la media.

In [88]:
promedio =  pd.DataFrame(animal_before.groupby(['animal'])['quantity'].mean())
promedio = promedio.rename(columns={'quantity':'mean'})
promedio

Unnamed: 0_level_0,mean
animal,Unnamed: 1_level_1
asses,1726362.44
beehives,2556713.93
buffaloes,11781659.83
camels,2492776.76
cattle,28963848.01
chickens,280469.32
ducks,245645.56
geese and guinea fowls,82753.59
goats,17082710.92
horses,1580177.6


Lo mismo para los animales en stock en 2020:

In [89]:
promedio_2020 = pd.DataFrame(animal_2020.groupby(['animal'])['quantity'].mean())
promedio_2020 = promedio_2020.rename(columns={'quantity':'mean_2020'})
promedio_2020

Unnamed: 0_level_0,mean_2020
animal,Unnamed: 1_level_1
asses,2674208.49
beehives,3584970.88
buffaloes,11895482.07
camels,4197833.99
cattle,35069067.1
chickens,697892.14
ducks,427275.5
geese and guinea fowls,338032.78
goats,31011590.97
horses,1879076.73


Unimos ambos DataFrames:

In [90]:
animal_mean_2020 = pd.concat([promedio,promedio_2020],axis=1)
animal_mean_2020

Unnamed: 0_level_0,mean,mean_2020
animal,Unnamed: 1_level_1,Unnamed: 2_level_1
asses,1726362.44,2674208.49
beehives,2556713.93,3584970.88
buffaloes,11781659.83,11895482.07
camels,2492776.76,4197833.99
cattle,28963848.01,35069067.1
chickens,280469.32,697892.14
ducks,245645.56,427275.5
geese and guinea fowls,82753.59,338032.78
goats,17082710.92,31011590.97
horses,1580177.6,1879076.73


Calculamos la diferencia y ordenamos de manera ascendente:

In [91]:
animal_mean_2020['difference'] = animal_mean_2020['mean_2020']-animal_mean_2020['mean']
animal_mean_2020.sort_values('difference')

Unnamed: 0_level_0,mean,mean_2020,difference
animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
rabbits and hares,641627.64,735450.68,93823.04
buffaloes,11781659.83,11895482.07,113822.24
ducks,245645.56,427275.5,181629.94
geese and guinea fowls,82753.59,338032.78,255279.19
horses,1580177.6,1879076.73,298899.13
mules,676345.07,1005997.53,329652.46
chickens,280469.32,697892.14,417422.82
asses,1726362.44,2674208.49,947846.05
beehives,2556713.93,3584970.88,1028256.95
camels,2492776.76,4197833.99,1705057.23


Es curioso observar que ninguna especie experimentó decremento, al contrario, al ser la diferencia positiva significa que la disponibilidad se incrementó.

### ¿Existe alguna relación entre la afectación alimentaria y el tamaño de la población de cada país?

En la respuesta de la pregunta 3 vimos que los países más afectados fueron Cuba, Polonia, El Caribe, Pequeños Estados Insulares en Desarrollo y el Norte de Europa, qué posición ocupan éstos países según el tamaño de su población.

Primero, obtenemos el ranking construido en la pregunta 3.

In [92]:
top = list(res_3.index)

Ahora, ordenamos de manera descendente los países según su población:

In [93]:
pop_order = pop_df['2020'].sort_values(ascending=False).reset_index()

Ahora veamos qué posición ocupan los países más afectados

In [94]:
for i in top:
  if len(pop_order[pop_order['country']==i]):
    print(list(pop_order[pop_order['country']==i].index)+list(pop_order[pop_order['country']==i]['country']))

[127, 'Cuba']
[83, 'Poland']
[207, 'Djibouti']
[132, 'Sweden']
[62, 'Germany']
[53, 'Japan']
[105, 'Romania']
[161, 'Finland']
[223, 'Iceland']
[67, 'Italy']
[170, 'Ireland']
[186, 'Lithuania']
[159, 'Denmark']
[204, 'Mauritius']
[210, 'Guyana']
[118, 'Zimbabwe']
[125, 'Belgium']
[182, 'Armenia']
[236, 'Grenada']
[194, 'Slovenia']
[197, 'Latvia']
[112, 'Netherlands']
[177, 'Georgia']
[183, 'Jamaica']
[195, 'North Macedonia']
[208, 'Fiji']
[202, 'Estonia']
[176, 'Croatia']
[130, 'Greece']
[220, 'Brunei Darussalam']
[214, 'Luxembourg']
[225, 'Barbados']
[152, 'Serbia']
[143, 'Austria']
[140, 'Belarus']
[151, 'Bulgaria']
[205, 'Cyprus']
[211, 'Bhutan']
[184, 'Qatar']
[133, 'Portugal']
[215, 'Montenegro']
[78, 'Sudan']
[219, 'Malta']
[117, 'Somalia']
[126, 'Haiti']
[158, 'Turkmenistan']
[164, 'Norway']
[138, 'Hungary']
[179, 'Puerto Rico']
[240, 'Tonga']
[248, 'Marshall Islands']
[218, 'Maldives']
[245, 'Dominica']
[144, 'Switzerland']
[226, 'French Polynesia']
[264, 'Nauru']
[217, 'Cabo V

No parece haber un ordenamiento en cuanto al tamaño de la población respecto a la afectación de los países, por tanto, concluimos que no hay relación alguna.

## Planes futuros

Puede hacerse un análisis más formal empleando estadística utilizando un enfoque de series de tiempo para ajustar modelos a los datos hasta 2019 y pronosticar el 2020 y ver si está fuera de la inferencia puntual y por intervalo.

Esto podría aplicarse por cultivo, por especie animal, por país, o más precisamente, para cada cultivo de cada país.

Posteriormente, podemos evaluar si con el tiempo se restauró el comportamiento pasado después de la pandemia o ésto marcó un antes y un después en la dinámica de la seguridad alimentaria.

## Referencias Bibliográficas:

- Bakalis, S., Valdramidis, V. P., Argyropoulos, D., Ahrne, L., Chen, J., Cullen, P. J. & Van Impe, J. F. (2020). Perspectives from CO+ RE: How COVID-19 changed our food systems and food security paradigms. *Current Research in Food Science*, 3, 166.

- Banco Mundial. (15 de agosto de 2022). *Actualización sobre la seguridad alimentaria.* Recuperado de https://www.bancomundial.org/es/topic/agriculture/brief/food-security-update el 10 de septiembre de 20222.

- IBERDROLA. (2022). *La importancia de la seguridad alimentaria: ¿qué factores la ponen en peligro?*. Recuperado de https://www.iberdrola.com/compromiso-social/que-es-seguridad-alimentaria el 13 de septiembre de 2022.

- Swinnen, J., & McDermott, J. (2020). COVID‐19 and global food security. *EuroChoices*, 19(3), 26-33.

- Workie, E., Mackolil, J., Nyika, J., & Ramadas, S. (2020). Deciphering the impact of COVID-19 pandemic on food security, agriculture, and livelihoods: A review of the evidence from developing countries. *Current Research in Environmental Sustainability*, 2, 100014.