<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [93]:
import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

In [94]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [95]:
path = "/content/drive/MyDrive/data_sets/libertad_prensa/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [46]:
#1a) Solucion

list = [] #Se crea una lista vacía para llenarla con los dataframes
for arch in archivos_anio:
    df_temp = pd.read_csv(arch) #Se lee cada archivo
    list.append(df_temp) #Se agregan a la lista
df_anio = pd.concat(list) #Se juntan todas las listas para hacer una lista de listas
df_anio.columns = df_anio.columns.str.lower() #Se cambia el nombre de las columnas a minusculas
df_anio

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2019,36.55,121.0
1,AGO,2019,34.96,109.0
2,ALB,2019,29.84,82.0
3,AND,2019,24.63,37.0
4,ARE,2019,43.63,133.0
...,...,...,...,...
175,WSM,2018,16.69,22.0
176,YEM,2018,62.23,167.0
177,ZAF,2018,20.39,28.0
178,ZMB,2018,35.36,113.0


In [47]:
#1b) Solucion

df_codigos['codigo_iso'].value_counts() #Se cuentan los valores duplicados
df_codigos = df_codigos[df_codigos['pais']!='malo'] #Se elimina el duplicado
df_codigos

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


In [48]:
#1c) Solucion

df = pd.merge(df_anio,df_codigos,on='codigo_iso') #Se usa merge para juntar
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2019,36.55,121.0,Afghanistán
1,AFG,2003,28.25,49.0,Afghanistán
2,AFG,2009,51.67,105.0,Afghanistán
3,AFG,2012,37.36,112.0,Afghanistán
4,AFG,2015,37.75,114.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2016,,122.0,Zimbabue
3056,ZWE,2017,41.44,128.0,Zimbabue
3057,ZWE,2001,48.30,76.0,Zimbabue
3058,ZWE,2002,45.50,84.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [49]:
# Solucion

#a) #Cantidad de observaciones:

cant_fil = df.shape[0] #Se ve la cantidad de filas que tiene el df
print("El numero de observaciones es: ", cant_fil)
print("")

#b) #Numero de columnas

cant_col = df.shape[1] #Se ve la cantidad de columnas que tiene el df
print("El numero de columnas es: ", cant_col)
print("")

#c) #Imprimir el nombre de todas las columnas

print("El nombre de las columnas son:")
aux = df.columns.tolist() #Se crea una lista con todos los elementos
for j in range(len(aux)):
  print(aux[j])
print("")

#d) #Tipo de datos de cada columna

print("El tipo de dato de cada columna es:")
print(df.dtypes)
print("")

#e) #Descripción del conjunto de datos

print("El conjunto de datos descritos:")
print(df.describe(include='all'))

El numero de observaciones es:  3060

El numero de columnas es:  5

El nombre de las columnas son:
codigo_iso
anio
indice
ranking
pais

El tipo de dato de cada columna es:
codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object

El conjunto de datos descritos:
       codigo_iso         anio        indice        ranking     pais
count        3060  3060.000000   2664.000000    2837.000000     3060
unique        180          NaN           NaN            NaN      179
top           AFG          NaN           NaN            NaN  Nigeria
freq           17          NaN           NaN            NaN       34
mean          NaN  2009.941176    205.782316     477.930913      NaN
std           NaN     5.786024   2695.525264    6474.935347      NaN
min           NaN  2001.000000      0.000000       1.000000      NaN
25%           NaN  2005.000000     15.295000      34.000000      NaN
50%           NaN  2009.000000     28.000000      

3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [54]:
# Solucion

def resumen_df(df):
    nombres = df.columns

    unique_list = []
    null_list = []

    for j in nombres:
      unique = (len(df[j].unique())) #Se usa "unique" para ver los elementos que son nulos, por cada columna, y len para contar
      empty = (df[j].isnull().sum()) #Lo mismo de antes con "isnull"

      if empty!=0:
         unique = unique - 1;

#la condición de antes es necesaria, porque la función unique() cuenta los elementos nulos como un elemento único, pero nosotros
#no queremos contar este elemento, pues no aporta información útil, por lo que, si la cantidad de elementos vacíos es
#distinta de 0, se restará a la cantidad de elementos únicos.

      unique_list.append(unique)
      null_list.append(empty)

    result = pd.DataFrame({'nombres': nombres})
    result['elementos_distintos'] = unique_list #Se pone cada componente de "unique_list" en su correspondiente del df result
    result['elementos_vacios'] = null_list #Se pone cada componente de "null_list" en su correspondiente del df result

    return result

In [51]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [89]:
# Solucion

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df[df.codigo_iso.isin(america)] #Filtra el df inicial a través del codigo iso definido en america

#Se hará un diccionario con los países de índice menor y mayor para facilitar lectura

#a) Maximo

anios = df['anio'].unique() #Se crea una lista de los años

dict_mayor = dict() #Se crea un diccionario con los mayores elementos
for k in anios:
    paises = []
    df_aux = df_america.loc[lambda x: x['anio'] == k] #Se define un dataframe aux para filtrar por año
    max_indice = df_aux['indice'].max()
    df_aux = df_aux[df_aux['indice']==max_indice]
    paises.append(df_aux['pais']) #Se crea una lista de elementos de la columna que tendrán el nombre de los países
    new_paises=[] #Se crea la lista "new_paises", para evitar los espacios nulos y los datos que compartan indice
    if len(paises)<1:
      paises.append('No hay datos')
      new_paises.append(paises[0])
    elif len(paises)>=1:
      new_paises.append(paises[0])
    if (np.isnan(max_indice)==True): #Si el valor max_indice llega a ser nulo se cambia por un 0
      max_indice = 0
    dict_mayor[k] = [new_paises[0],max_indice] #Se crea una tupla con el nombre del país y su max_indice en el diccionario

sorted(dict_mayor.items()) #Ordenamos por año

[(2001,
  [677    Cuba
   Name: pais, dtype: object, 90.3]),
 (2002,
  [678    Cuba
   Name: pais, dtype: object, 97.83]),
 (2003,
  [86    Argentina
   Name: pais, dtype: object, 35826.0]),
 (2004,
  [671    Cuba
   Name: pais, dtype: object, 87.0]),
 (2005,
  [673    Cuba
   Name: pais, dtype: object, 95.0]),
 (2006,
  [669    Cuba
   Name: pais, dtype: object, 96.17]),
 (2007,
  [670    Cuba
   Name: pais, dtype: object, 88.33]),
 (2008,
  [672    Cuba
   Name: pais, dtype: object, 94.0]),
 (2009,
  [665    Cuba
   Name: pais, dtype: object, 78.0]),
 (2012,
  [666    Cuba
   Name: pais, dtype: object, 71.64]),
 (2013,
  [674    Cuba
   Name: pais, dtype: object, 70.92]),
 (2014,
  [668    Cuba
   Name: pais, dtype: object, 70.21]),
 (2015,
  [667    Cuba
   Name: pais, dtype: object, 70.23]),
 (2016, [Series([], Name: pais, dtype: object), 0]),
 (2017,
  [676    Cuba
   Name: pais, dtype: object, 71.75]),
 (2018,
  [679    Cuba
   Name: pais, dtype: object, 68.9]),
 (2019,
  [663   

In [88]:
#Solucion

#a) Minimo
dict_menor = dict() #Se crea un diccionario con los mayores elementos
for k in anios:
    paises = []
    df_aux = df_america.loc[lambda x: x['anio'] == k] #Se define un dataframe aux para filtrar por año
    min_indice = df_aux['indice'].min()
    df_aux = df_aux[df_aux['indice']==min_indice]
    paises.append(df_aux['pais']) #Se crea una lista de elementos de la columna que tendrán el nombre de los países
    new_paises = [] #Se crea la lista "new_paises", para evitar los espacios nulos y los datos que compartan indice
    if len(paises)<1:
      paises.append('No hay datos')
      new_paises.append(paises[0])
    elif len(paises)>=1:
      new_paises.append(paises[0])
    if (np.isnan(min_indice)==True): #Si el valor min_indice llega a ser nulo se cambia por un 0
      min_indice = 0
    dict_menor[k] = [new_paises[0],min_indice] #Se crea una tupla con el nombre del país y su min_indice en el diccionario

sorted(dict_menor.items()) #Ordenamos por año

[(2001,
  [473    Canadá
   Name: pais, dtype: object, 0.8]),
 (2002,
  [2786    Trinidad y Tobago
   Name: pais, dtype: object, 1.0]),
 (2003,
  [2772    Trinidad y Tobago
   Name: pais, dtype: object, 2.0]),
 (2004,
  [2779    Trinidad y Tobago
   Name: pais, dtype: object, 2.0]),
 (2005,
  [367    Bolivia
   469     Canadá
   Name: pais, dtype: object,
   4.5]),
 (2006,
  [465    Canadá
   Name: pais, dtype: object, 4.88]),
 (2007,
  [466    Canadá
   Name: pais, dtype: object, 3.33]),
 (2008,
  [468    Canadá
   Name: pais, dtype: object, 3.7]),
 (2009,
  [2909    Estados Unidos
   Name: pais, dtype: object, 6.75]),
 (2012,
  [1380    Jamaica
   Name: pais, dtype: object, 9.88]),
 (2013,
  [1388    Jamaica
   Name: pais, dtype: object, 10.9]),
 (2014,
  [464    Canadá
   Name: pais, dtype: object, 10.99]),
 (2015,
  [650    Costa Rica
   Name: pais, dtype: object, 11.1]),
 (2016, [Series([], Name: pais, dtype: object), 0]),
 (2017,
  [659    Costa Rica
   Name: pais, dtype: object,

In [90]:
#Solucion

#b) Maximo

max_indice = df_america.groupby('anio').indice.max() #Se asigna a cada año el mayor indice por país
data_max = df_america.merge(max_indice, on='anio', suffixes=('','_max')) #Se crea un dataframe ordenado por año
data_max = data_max[data_max.indice==data_max.indice_max].drop(['indice_max','codigo_iso','ranking',], axis=1) #Se sacan las columnas innecesarias
by_anio = data_max.sort_values('anio') #Se ordena por año
by_anio

Unnamed: 0,anio,indice,pais
415,2001,90.3,Cuba
444,2002,97.83,Cuba
29,2003,35826.0,Argentina
241,2004,87.0,Cuba
299,2005,95.0,Cuba
183,2006,96.17,Cuba
212,2007,88.33,Cuba
270,2008,94.0,Cuba
67,2009,78.0,Cuba
96,2012,71.64,Cuba


In [91]:
#Solucion

#b) Minimo

min_indice = df_america.groupby('anio').indice.min() #Se asigna a cada año el menor indice por país
data_min = df_america.merge(min_indice, on='anio', suffixes=('','_min')) #Se crea un dataframe ordenado por año
data_min = data_min[data_min.indice==data_min.indice_min].drop(['indice_min','codigo_iso','ranking',], axis=1) #Se sacan las columnas innecesarias
by_anio = data_min.sort_values('anio') #se ordena por anio
by_anio #Se ordena por año

Unnamed: 0,anio,indice,pais
411,2001,0.8,Canadá
460,2002,1.0,Trinidad y Tobago
54,2003,2.0,Trinidad y Tobago
257,2004,2.0,Trinidad y Tobago
293,2005,4.5,Bolivia
295,2005,4.5,Canadá
179,2006,4.88,Canadá
208,2007,3.33,Canadá
266,2008,3.7,Canadá
85,2009,6.75,Estados Unidos


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [92]:
# Solucion
table = pd.pivot_table(df, values='indice', index=['codigo_iso'], columns=['anio'], aggfunc=np.sum, fill_value=0)
table

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,0,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,0,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,0,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,0,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0,36.48,35.36,36.38
