<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [45]:
from google.colab import drive

drive.mount("/content/drive")

import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [48]:
path = "/content/drive/MyDrive/data/libertad_prensa/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [49]:
# 1a.
dataframes = []
for nombre in archivos_anio:
  df_aux = pd.read_csv(nombre)
  dataframes.append(df_aux)

df_anio = pd.concat(dataframes)
df_anio = df_anio.rename(columns= lambda x: x.lower())
df_anio

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2001,35.50,59.0
1,AGO,2001,30.20,50.0
2,ALB,2001,,
3,AND,2001,,
4,ARE,2001,,
...,...,...,...,...
175,WSM,2005,,
176,YEM,2005,54.00,84.0
177,ZAF,2005,11.25,6.0
178,ZMB,2005,22.50,38.0


In [50]:
# 1b.
df_codigos = df_codigos.drop_duplicates(subset=['codigo_iso'])
df_codigos

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


In [51]:
# 1c.
df = pd.merge(df_anio,df_codigos,on='codigo_iso')
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2001,35.50,59.0,Afghanistán
1,AFG,2016,,114.0,Afghanistán
2,AFG,2018,37.28,118.0,Afghanistán
3,AFG,2017,39.46,120.0,Afghanistán
4,AFG,2012,37.36,112.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2007,54.00,87.0,Zimbabue
3056,ZWE,2019,42.23,127.0,Zimbabue
3057,ZWE,2013,39.19,124.0,Zimbabue
3058,ZWE,2006,62.00,115.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [52]:
# 2.

#¿Cuál es el número de observaciones en el conjunto de datos?
print("El numero de observaciones en el conjunto de datos es: "+str(df.shape[0])+"\n")

#¿Cuál es el número de columnas en el conjunto de datos?
print("El numero de columnas en el conjunto de datos es: "+str(df.shape[1])+"\n")

#Imprime el nombre de todas las columnas
nombrescolumnas = df.columns.tolist()
listanombres = ''
for nombre in nombrescolumnas:
  listanombres += nombre+' '
print("Los nombres de las columnas son: "+listanombres+"\n")

#¿Cuál es el tipo de datos de cada columna?
tipodato= df.dtypes
print("Los tipos de datos de las columnas son:")
print(tipodato)

#Describir el conjunto de datos (hint: .describe())
print("Una descripcion del conjunto de datos es:")
df.describe()

El numero de observaciones en el conjunto de datos es: 3060

El numero de columnas en el conjunto de datos es: 5

Los nombres de las columnas son: codigo_iso anio indice ranking pais 

Los tipos de datos de las columnas son:
codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object
Una descripcion del conjunto de datos es:


Unnamed: 0,anio,indice,ranking
count,3060.0,2664.0,2837.0
mean,2009.941176,205.782316,477.930913
std,5.786024,2695.525264,6474.935347
min,2001.0,0.0,1.0
25%,2005.0,15.295,34.0
50%,2009.0,28.0,70.0
75%,2015.0,41.2275,110.0
max,2019.0,64536.0,121056.0


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [53]:
# 3.

def resumen_df(df):
    nombres = df.columns
    l1 = []
    l2 = []

    for nombre in nombres:
      pd_series = df[nombre]

      #elementos distintos
      l_unique = pd_series.nunique()

      #elementos vacios
      l_vacios = pd_series.isnull().sum()

      l1.append(l_unique)
      l2.append(l_vacios)

    result = pd.DataFrame({'nombres': nombres})
    result['elementos_distintos'] = 0
    result['elementos_vacios'] = 0

    for i in range(df.shape[1]):
      result.loc[i,'elementos_distintos'] = l1[i]
      result.loc[i,'elementos_vacios'] = l2[i]

    return result

In [54]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [55]:
# 4.

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df.loc[lambda x: x['codigo_iso'].isin(america)]
df_america

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
85,ARG,2001,12.00,8.0,Argentina
86,ARG,2016,,47.0,Argentina
87,ARG,2018,26.05,52.0,Argentina
88,ARG,2017,25.07,50.0,Argentina
89,ARG,2012,25.67,40.0,Argentina
...,...,...,...,...,...
2953,VEN,2007,27.33,45.0,Venezuela
2954,VEN,2019,49.10,148.0,Venezuela
2955,VEN,2013,35.37,105.0,Venezuela
2956,VEN,2006,36.88,72.0,Venezuela


In [56]:
# 4a. para indice maximo

anios = df['anio'].unique()

d_max = dict()

for i in anios:
  df_a = df_america.loc[lambda x: x['anio'] == i] #Se extraen los elementos correspondientes a un solo año desde df
  max_index = df_a['indice'].max() #Se extrae el maximo indice del año
  df_b = df_a[df_a['indice']==max_index] #se extrae la fila correspondiente al maximo indice
  pais = list(df_b['pais']) #se extrae el o los paises que tengan maximo indice
  respais = [] #entonces se tomara solo el primero de aquellos paises con maximo indice

  if len(pais) < 1:
    pais.append('No hay datos')
    respais.append(pais[0])

  elif len(pais) >= 1:
    respais.append(pais[0])

  if pd.isna(max_index) == True:
    max_index = 0
  d_max[i] = [respais[0],max_index]

sorted(d_max.items())

[(2001, ['Cuba', 90.3]),
 (2002, ['Cuba', 97.83]),
 (2003, ['Argentina', 35826.0]),
 (2004, ['Cuba', 87.0]),
 (2005, ['Cuba', 95.0]),
 (2006, ['Cuba', 96.17]),
 (2007, ['Cuba', 88.33]),
 (2008, ['Cuba', 94.0]),
 (2009, ['Cuba', 78.0]),
 (2012, ['Cuba', 71.64]),
 (2013, ['Cuba', 70.92]),
 (2014, ['Cuba', 70.21]),
 (2015, ['Cuba', 70.23]),
 (2016, ['No hay datos', 0]),
 (2017, ['Cuba', 71.75]),
 (2018, ['Cuba', 68.9]),
 (2019, ['Cuba', 63.81])]

In [58]:
# 4a. para indice minimo

anios = df['anio'].unique()

d_min = dict()

for i in anios:
  df_a = df_america.loc[lambda x: x['anio'] == i] #Se extraen los elementos correspondientes a un solo año desde df
  min_index = df_a['indice'].min() #Se extrae el minimo indice del año
  df_b = df_a[df_a['indice']==min_index] #se extrae la fila correspondiente al minimo indice
  pais = list(df_b['pais']) #se extrae el o los paises que tengan minimo indice
  respais = [] #entonces se tomara solo el primero de aquellos paises con minimo indice

  if len(pais) < 1:
    pais.append('No hay datos')
    respais.append(pais[0])

  elif len(pais) >= 1:
    respais.append(pais[0])

  if pd.isna(min_index) == True:
    min_index = 0
  d_min[i] = [respais[0],min_index]

sorted(d_min.items())

[(2001, ['Canadá', 0.8]),
 (2002, ['Trinidad y Tobago', 1.0]),
 (2003, ['Trinidad y Tobago', 2.0]),
 (2004, ['Trinidad y Tobago', 2.0]),
 (2005, ['Bolivia', 4.5]),
 (2006, ['Canadá', 4.88]),
 (2007, ['Canadá', 3.33]),
 (2008, ['Canadá', 3.7]),
 (2009, ['Estados Unidos', 6.75]),
 (2012, ['Jamaica', 9.88]),
 (2013, ['Jamaica', 10.9]),
 (2014, ['Canadá', 10.99]),
 (2015, ['Costa Rica', 11.1]),
 (2016, ['No hay datos', 0]),
 (2017, ['Costa Rica', 11.93]),
 (2018, ['Jamaica', 11.33]),
 (2019, ['Jamaica', 11.13])]

In [59]:
# 4b. para maximo
max_index = df_america.groupby('anio').indice.max() #Se agrupan los datos de acuerdo al mayor indice por año
max = pd.merge(df_america,max_index, on='anio', suffixes=('','max')) #Se agrega max_index como columna a df_america
max = max[max.indice == max.indicemax] #Solo se conservan aquellos indices que coinciden con el max_index
max = max.drop(['codigo_iso','ranking','indicemax'],axis =1) #Se dejan como columnas a anio, indice y pais solamente
max = max.sort_values('anio') #Se ordenan los valores en base a la columna anio
print(max)

     anio    indice       pais
9    2001     90.30       Cuba
154  2002     97.83       Cuba
174  2003  35826.00  Argentina
241  2004     87.00       Cuba
473  2005     95.00       Cuba
444  2006     96.17       Cuba
357  2007     88.33       Cuba
270  2008     94.00       Cuba
328  2009     78.00       Cuba
125  2012     71.64       Cuba
415  2013     70.92       Cuba
212  2014     70.21       Cuba
299  2015     70.23       Cuba
96   2017     71.75       Cuba
67   2018     68.90       Cuba
386  2019     63.81       Cuba


In [60]:
# 4b. para minimo
min_index = df_america.groupby('anio').indice.min() #Se agrupan los datos de acuerdo al menor indice por año
min = pd.merge(df_america,min_index, on='anio', suffixes=('','min')) #Se agrega min_index como columna a df_america
min = min[min.indice == min.indicemin] #Solo se conservan aquellos indices que coinciden con el min_index
min = min.drop(['codigo_iso','ranking','indicemin'],axis =1) #Se dejan como columnas a anio, indice y pais solamente
min = min.sort_values('anio') #Se ordenan los valores en base a la columna anio
print(min)

     anio  indice               pais
5    2001    0.80             Canadá
170  2002    1.00  Trinidad y Tobago
199  2003    2.00  Trinidad y Tobago
257  2004    2.00  Trinidad y Tobago
467  2005    4.50            Bolivia
469  2005    4.50             Canadá
440  2006    4.88             Canadá
353  2007    3.33             Canadá
266  2008    3.70             Canadá
346  2009    6.75     Estados Unidos
133  2012    9.88            Jamaica
423  2013   10.90            Jamaica
208  2014   10.99             Canadá
298  2015   11.10         Costa Rica
95   2017   11.93         Costa Rica
75   2018   11.33            Jamaica
394  2019   11.13            Jamaica


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [61]:
# 5
df_pivot = df.pivot_table(
    index = 'codigo_iso',
    columns = 'anio',
    values = 'indice',
    aggfunc = 'max',
    fill_value= 0
)
df_pivot

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
