In [1]:
import pandas as pd
import numpy as np

## Datos de índices de producción.

1. Importar el archivo xls.

    Como conocemos el tipo de datos de varios nombres de columnas, la importación de los datos es:

In [2]:
df = pd.read_excel('data/FAOSTAT_data_en_8-19-2022.xls',
                   dtype={'Domain Code':str,
                          'Domain':'category',
                          'Area Code (FAO)':"category",
                          'Element Code':'category',
                          'Element':'category',
                          'Item Code (FAO)':'category',
                          'Item':'category',
                          'Year Code':'category',
                          'Unit':'category',
                          'Value': float,
                          'Flag':'category',
                          'Flag Description':str
})

2. Utiliza las funciones que te permitan ver las tres primeras y las tres últimas filas.

   Las funciones adeacuadas para esto son `head` y `tail`

In [3]:
df.head(3)

Unnamed: 0,Domain Code,Domain,Area Code (FAO),Area,Element Code,Element,Item Code (FAO),Item,Year Code,Year,Unit,Value,Flag,Flag Description
0,QI,Production Indices,9,Argentina,434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2016,2016,index,91.49,Fc,Calculated data
1,QI,Production Indices,9,Argentina,434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2017,2017,index,91.19,Fc,Calculated data
2,QI,Production Indices,9,Argentina,434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2018,2018,index,105.26,Fc,Calculated data


In [4]:
df.tail(3)

Unnamed: 0,Domain Code,Domain,Area Code (FAO),Area,Element Code,Element,Item Code (FAO),Item,Year Code,Year,Unit,Value,Flag,Flag Description
57,QI,Production Indices,236,Venezuela (Bolivarian Republic of),434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2018,2018,index,98.87,Fc,Calculated data
58,QI,Production Indices,236,Venezuela (Bolivarian Republic of),434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2019,2019,index,99.89,Fc,Calculated data
59,QI,Production Indices,236,Venezuela (Bolivarian Republic of),434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2020,2020,index,102.21,Fc,Calculated data


3. ¿Cuántas y cuáles son las columnas que tiene el archivo?

In [5]:
len(df.columns)

14

El archivo contiene 14 columnas. Podemos ver sus nombres con 

In [6]:
df.columns

Index(['Domain Code', 'Domain', 'Area Code (FAO)', 'Area', 'Element Code',
       'Element', 'Item Code (FAO)', 'Item', 'Year Code', 'Year', 'Unit',
       'Value', 'Flag', 'Flag Description'],
      dtype='object')

4. ¿Cuáles son los tipos de datos almacenados? ¿Qué devuelve las funciones dtypes y type?

Los tipos de datos almacenados los podemos ver con la función `dtypes` o con `info`. Con esta última tenemos acceso a más información sobre nuestros datos como la cantidad de columnas, filas, valores faltantes y el espacio que ocupa en memoria.

In [7]:
df.dtypes

Domain Code           object
Domain              category
Area Code (FAO)     category
Area                  object
Element Code        category
Element             category
Item Code (FAO)     category
Item                category
Year Code           category
Year                   int64
Unit                category
Value                float64
Flag                category
Flag Description      object
dtype: object

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   Domain Code       60 non-null     object  
 1   Domain            60 non-null     category
 2   Area Code (FAO)   60 non-null     category
 3   Area              60 non-null     object  
 4   Element Code      60 non-null     category
 5   Element           60 non-null     category
 6   Item Code (FAO)   60 non-null     category
 7   Item              60 non-null     category
 8   Year Code         60 non-null     category
 9   Year              60 non-null     int64   
 10  Unit              60 non-null     category
 11  Value             60 non-null     float64 
 12  Flag              60 non-null     category
 13  Flag Description  60 non-null     object  
dtypes: category(9), float64(1), int64(1), object(3)
memory usage: 3.5+ KB


In [9]:
type(df)

pandas.core.frame.DataFrame

La función type aplicado al objeto que almacena nuestros datos devuelve, como se observa, que es de tipo DataFrame. Si lo aplicamos a cada columna en particular devolverá que es una Serie y si la aplicamos a cada valor particular devolverá su tipo. Por ejemplo,

In [10]:
type(df.Value)

pandas.core.series.Series

In [11]:
type(df.Value[0])

numpy.float64

type(df)

5. ¿Hay valores nulos en los datos?

   A partir de info podemos notar que no existen valores nulos o vacíos. Para asegurarnos de ello podemos utilizar la función `isna`.

In [12]:
df.isna().sum()

Domain Code         0
Domain              0
Area Code (FAO)     0
Area                0
Element Code        0
Element             0
Item Code (FAO)     0
Item                0
Year Code           0
Year                0
Unit                0
Value               0
Flag                0
Flag Description    0
dtype: int64

6. Consulta el índice y verifica que sea una lista ordenada de números.

    Al igual que en el caso anterior se pudo haber utilizado la función info para responder esta pregunta, pero vamos a usar index que nos muestra las características del índice en nuestro DataFrame.

In [13]:
df.index

RangeIndex(start=0, stop=60, step=1)

7. Accede a la columna `Area` y utiliza una función para contar la cantidad de apariciones de cada valor.

    Para esto podemos utilizar la función value_counts.

In [14]:
df.Area.value_counts()

Argentina                             5
Bolivia (Plurinational State of)      5
Brazil                                5
Chile                                 5
Colombia                              5
Ecuador                               5
Guyana                                5
Paraguay                              5
Peru                                  5
Suriname                              5
Uruguay                               5
Venezuela (Bolivarian Republic of)    5
Name: Area, dtype: int64

Otra manera de contar estos valores es a partir de groupby

In [31]:
df.groupby("Area").count()['Item']

Area
Argentina                             5
Bolivia (Plurinational State of)      5
Brazil                                5
Chile                                 5
Colombia                              5
Ecuador                               5
Guyana                                5
Paraguay                              5
Peru                                  5
Suriname                              5
Uruguay                               5
Venezuela (Bolivarian Republic of)    5
Name: Item, dtype: int64

Con una función de agregación:

In [35]:
df.aggregate({"Area":'value_counts'})

Unnamed: 0,Area
Argentina,5
Bolivia (Plurinational State of),5
Brazil,5
Chile,5
Colombia,5
Ecuador,5
Guyana,5
Paraguay,5
Peru,5
Suriname,5


8. Del ítem anterior, ¿cuántos países hay en los datos?

In [15]:
len(df.Area.value_counts())

12

Se han almacenado 12 valores para los países.

9. Convierte la columna Year a tipo datetime utilizando pd.to_datetime(df.Year, format="%Y")

In [16]:
df.Year = pd.to_datetime(df.Year, format="%Y")

10. Aplica un filtro para Year en el que obtengas la información de 2020 y luego calcula el máximo a Value. ¿A qué país corresponde el valor hallado?

Se puede aplicar el filtro a partir de una consulta

In [45]:
year_2020 = df.query("Year == 2020")
year_2020.head()

Unnamed: 0,Domain Code,Domain,Area Code (FAO),Area,Element Code,Element,Item Code (FAO),Item,Year Code,Year,Unit,Value,Flag,Flag Description
4,QI,Production Indices,9,Argentina,434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2020,2020-01-01,index,94.69,Fc,Calculated data
9,QI,Production Indices,19,Bolivia (Plurinational State of),434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2020,2020-01-01,index,100.34,Fc,Calculated data
14,QI,Production Indices,21,Brazil,434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2020,2020-01-01,index,97.2,Fc,Calculated data
19,QI,Production Indices,40,Chile,434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2020,2020-01-01,index,101.58,Fc,Calculated data
24,QI,Production Indices,44,Colombia,434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2020,2020-01-01,index,96.38,Fc,Calculated data


El valor máximo para Value lo podemos calcular mediante

In [39]:
year_2020.Value.max()

151.82

Para saber a qué país pertenece este valor utilizaremos `idmax` para ver el valor del índice y luego acceder a esta observación.

In [41]:
year_2020.Value.idxmax()

34

Como ya se conoce el valor del índice podemos utilizar la función loc para ver los valores almacenados en esta fila.

In [44]:
year_2020.loc[34]

Domain Code                                                        QI
Domain                                             Production Indices
Area Code (FAO)                                                    91
Area                                                           Guyana
Element Code                                                      434
Element             Gross per capita Production Index Number (2014...
Item Code (FAO)                                                  1739
Item                                     Vegetables and Fruit Primary
Year Code                                                        2020
Year                                              2020-01-01 00:00:00
Unit                                                            index
Value                                                          151.82
Flag                                                               Fc
Flag Description                                      Calculated data
Name: 34, dtype: obj

De esta forma el país/área con mayor índice per capita es Guyana.

11. Utiliza la función describe de pandas y comenta los resultados.

In [18]:
df.describe()

Unnamed: 0,Value
count,60.0
mean,101.4895
std,16.244671
min,79.24
25%,93.7725
50%,99.65
75%,102.7825
max,171.56


Se tienen almacenados 60 valores, el índice per capita de la región en promedio es 101,49 con una desviación estándar 16,24. 

- El valor mínimo de los valores del índice es 79.24. 
- El 50% de los índices está por encima o por debajo  de 99.65.
- El valor máximo para el índice es 171.56

In [19]:
df.describe(include="category")

Unnamed: 0,Domain,Area Code (FAO),Element Code,Element,Item Code (FAO),Item,Year Code,Unit,Flag
count,60,60,60,60,60,60,60,60,60
unique,1,12,1,1,1,1,5,1,1
top,Production Indices,169,434,Gross per capita Production Index Number (2014...,1739,Vegetables and Fruit Primary,2016,index,Fc
freq,60,5,60,60,60,60,12,60,60


* Ahora, de las variables categóricas podemos decir que Domain tiene en todos sus valores Production Indices, Area Code (FAO) posee 12 valores únicos, el más frecuente es 169.

* Element Code, Item Code (FAO), Item, Unit y Flag solo tienen un valor único.

* Year Code tiene 5 valores únicos, el que más se repite es 2016 con 12 apariciones.

12. Aplica la función de agregación que permita calcular la suma de todos los índices de producción. 

In [20]:
df.aggregate({'Value':sum})

Value    6089.37
dtype: float64

13. Calcula el promedio de producción para cada país.

In [54]:
area_ = df.groupby('Area').mean("Value")
area_

Unnamed: 0_level_0,Value
Area,Unnamed: 1_level_1
Argentina,97.024
Bolivia (Plurinational State of),101.534
Brazil,98.372
Chile,101.012
Colombia,93.946
Ecuador,89.582
Guyana,146.676
Paraguay,101.232
Peru,107.096
Suriname,86.794


14. Calcula en una misma tabla el promedio y la suma de los índices de producción por país

In [22]:
df.groupby("Area Code (FAO)").aggregate({"Value":['sum', "mean"]})

Unnamed: 0_level_0,Value,Value
Unnamed: 0_level_1,sum,mean
Area Code (FAO),Unnamed: 1_level_2,Unnamed: 2_level_2
169,506.16,101.232
170,535.48,107.096
19,507.67,101.534
207,433.97,86.794
21,491.86,98.372
234,471.9,94.38
236,501.13,100.226
40,505.06,101.012
44,469.73,93.946
58,447.91,89.582


15. Calcula el valor mínimo de los promedios calculados en el ítem 13 anterior y determina a qué país pertenece.

In [23]:
area_.min()

Value    86.794
dtype: float64

In [24]:
area_.idxmin()

Value    Suriname
dtype: object

In [47]:
df.Value.idxmin()

21

In [48]:
df.loc[21]

Domain Code                                                        QI
Domain                                             Production Indices
Area Code (FAO)                                                    44
Area                                                         Colombia
Element Code                                                      434
Element             Gross per capita Production Index Number (2014...
Item Code (FAO)                                                  1739
Item                                     Vegetables and Fruit Primary
Year Code                                                        2017
Year                                              2017-01-01 00:00:00
Unit                                                            index
Value                                                           79.24
Flag                                                               Fc
Flag Description                                      Calculated data
Name: 21, dtype: obj