<a href="https://colab.research.google.com/github/fralfaro/MAT281_2022/blob/main/labs/lab_03/lab_03.ipynb
" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/). 

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [72]:
import numpy as np 
import pandas as pd

from os import listdir
from os.path import isfile, join

In [73]:
path = "/content/data/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ] 
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:
 
1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.
 
> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [74]:
# respuesta

# 1.a
L=[] 
for archivo in archivos_anio:
    df=pd.read_csv(archivo) 
    L.append(df)  
df_anio=pd.concat(L) 
df_anio.columns=df_anio.columns.str.lower() 

# 1.b
repetido = df_codigos[df_codigos.duplicated(subset=["codigo_iso"], keep="first")] 
df_codigos=df_codigos[df_codigos['pais']!='malo']

# 1.c
df = pd.merge(df_codigos, df_anio, on='codigo_iso')
df

Unnamed: 0,codigo_iso,pais,anio,indice,ranking
0,AFG,Afghanistán,2002,40.17,78.0
1,AFG,Afghanistán,2005,44.25,67.0
2,AFG,Afghanistán,2014,37.44,116.0
3,AFG,Afghanistán,2009,51.67,105.0
4,AFG,Afghanistán,2008,54.25,103.0
...,...,...,...,...,...
3055,ZWE,Zimbabue,2012,38.12,117.0
3056,ZWE,Zimbabue,2019,42.23,127.0
3057,ZWE,Zimbabue,2015,40.41,118.0
3058,ZWE,Zimbabue,2018,40.53,126.0


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna? 
   * Describir el conjunto de datos (**hint**: .describe())
    

In [75]:
# respuesta

# a) observaciones

obs=df.shape[0] 
print(obs)
 
# b) columnas

col=df.shape[1] 
print(col)

# c) nombre de columnas

for k in range(0, len(df.columns.tolist())):
  print(df.columns.tolist()[k])

# d) tipos de datos

print(df.dtypes) 

# e) descripción de datos

print("El conjunto de datos descritos:")
print(df.describe(include='all')) 

3060
5
codigo_iso
pais
anio
indice
ranking
codigo_iso     object
pais           object
anio            int64
indice        float64
ranking       float64
dtype: object
El conjunto de datos descritos:
       codigo_iso     pais         anio        indice        ranking
count        3060     3060  3060.000000   2664.000000    2837.000000
unique        180      179          NaN           NaN            NaN
top           AFG  Nigeria          NaN           NaN            NaN
freq           17       34          NaN           NaN            NaN
mean          NaN      NaN  2009.941176    205.782316     477.930913
std           NaN      NaN     5.786024   2695.525264    6474.935347
min           NaN      NaN  2001.000000      0.000000       1.000000
25%           NaN      NaN  2005.000000     15.295000      34.000000
50%           NaN      NaN  2009.000000     28.000000      70.000000
75%           NaN      NaN  2015.000000     41.227500     110.000000
max           NaN      NaN  2019.000000  6

3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [76]:
# respuesta

def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    vacios=[]
    unicos=[]  
    nombres = df.columns
    for columna in nombres: 
      cant_vac=(df[columna].isnull().sum()) #suma de valores vacios
      vacios.append(cant_vac)
      if cant_vac > 0:      
         cant_uni=(len(df[columna].unique()))-1 #suma de valores unicos exceptuando el valor nulo
      else:
        cant_uni=(len(df[columna].unique())) #suma de valores unicos exceptuando el valor nulo 
      unicos.append(cant_uni) 
    result = pd.DataFrame({'nombres': nombres})
    result['elementos_distintos'] = unicos #ponemos cada componente de la lista unique en su correspondiente lugar en el df result
    result['elementos_vacios'] = vacios #ponemos cada componente de la lista null en su correspondiente lugar en el df result

    return result

In [77]:
# retornar 
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,pais,179,0
2,anio,17,0
3,indice,1550,396
4,ranking,193,223


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [78]:
# respuesta

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

#máximo con ciclo for:

df_america = df[df.codigo_iso.isin(america)] # se filtran los paises latino americanos
paises = []
for anio in df['anio'].unique():
  # filtrar 
  df_aux = df_america.loc[lambda x: x['anio'] == anio]
  # encontrar maximo de la columna objetivo
  max_indice = df_aux['indice'].max()
  # para filtrar solo los paises con el mayor indice
  df_aux=df_aux[df_aux['indice']==max_indice]
  lista = [list(df_aux['pais']), anio, max_indice] 
  paises.append(lista)
sorted(paises)

[[[], 2016, nan],
 [['Argentina'], 2003, 35826.0],
 [['Cuba'], 2001, 90.3],
 [['Cuba'], 2002, 97.83],
 [['Cuba'], 2004, 87.0],
 [['Cuba'], 2005, 95.0],
 [['Cuba'], 2006, 96.17],
 [['Cuba'], 2007, 88.33],
 [['Cuba'], 2008, 94.0],
 [['Cuba'], 2009, 78.0],
 [['Cuba'], 2012, 71.64],
 [['Cuba'], 2013, 70.92],
 [['Cuba'], 2014, 70.21],
 [['Cuba'], 2015, 70.23],
 [['Cuba'], 2017, 71.75],
 [['Cuba'], 2018, 68.9],
 [['Cuba'], 2019, 63.81]]

In [79]:
# respuesta

#mínimo con ciclo for:

paises = []
for anio in df['anio'].unique():
  # filtrar 
  df_aux = df_america.loc[lambda x: x['anio'] == anio]
  # encontrar mínimo de la columna objetivo
  min_indice = df_aux['indice'].min()
  # para filtrar solo los paises con el menor indice
  df_aux=df_aux[df_aux['indice']==min_indice]
  lista = [list(df_aux['pais']), anio, min_indice] 
  paises.append(lista)
sorted(paises)

[[[], 2016, nan],
 [['Bolivia', 'Canadá'], 2005, 4.5],
 [['Canadá'], 2001, 0.8],
 [['Canadá'], 2006, 4.88],
 [['Canadá'], 2007, 3.33],
 [['Canadá'], 2008, 3.7],
 [['Canadá'], 2014, 10.99],
 [['Costa Rica'], 2015, 11.1],
 [['Costa Rica'], 2017, 11.93],
 [['Estados Unidos'], 2009, 6.75],
 [['Jamaica'], 2012, 9.88],
 [['Jamaica'], 2013, 10.9],
 [['Jamaica'], 2018, 11.33],
 [['Jamaica'], 2019, 11.13],
 [['Trinidad y Tobago'], 2002, 1.0],
 [['Trinidad y Tobago'], 2003, 2.0],
 [['Trinidad y Tobago'], 2004, 2.0]]

In [80]:
# respuesta

#máximo con groupby:

max_indice = df_america.groupby('anio').indice.max()  # Se filtran los indices maximos para cada año
dt_max = df_america.merge(max_indice, on='anio', suffixes=('','_max'))  # Introducimos los indices maximos asociados a cada uno de sus años con una nueva columna
dt_max = dt_max[dt_max.indice==dt_max.indice_max].drop(['pais','codigo_iso','indice_max'], axis=1) # filtramos para obtener solo las columnas neceserias
dt_max

Unnamed: 0,anio,indice,ranking
9,2002,97.83,125.0
38,2005,95.0,109.0
67,2014,70.21,164.0
96,2009,78.0,129.0
125,2008,94.0,131.0
154,2017,71.75,173.0
212,2006,96.17,139.0
232,2003,35826.0,35.0
270,2004,87.0,112.0
299,2001,90.3,99.0


In [71]:
# respuesta

#mínimo con groupby:

min_indice = df_america.groupby('anio').indice.min()  # Se filtran los indices mínimos para cada año
dt_min = df_america.merge(min_indice, on='anio', suffixes=('','_min'))  # Introducimos los indices maximos asociados a cada uno de sus años con una nueva columna
dt_min = dt_min[dt_min.indice==dt_min.indice_min].drop(['pais','codigo_iso','indice_min'], axis=1) # filtramos para obtener solo las columnas neceserias
dt_min

Unnamed: 0,anio,indice,ranking
25,2002,1.0,2.0
32,2005,4.5,63.0
34,2005,4.5,63.0
63,2014,10.99,3.0
114,2009,6.75,115.0
121,2008,3.7,62.0
153,2017,11.93,6.0
208,2006,4.88,84.0
257,2003,2.0,30.0
286,2004,2.0,31.0


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://github.com/fralfaro/MAT281_2022/blob/main/labs/lab_03/images/img.png?raw=1" alt="Girl in a jacket" >

> **Hint**: Utilice la función **pd.pivot_table**.

In [81]:
# respuesta
table = pd.pivot_table(df, values='indice', index=['codigo_iso'], columns=['anio'], aggfunc=np.sum, fill_value=0)
table

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,0,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,0,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,0,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,0,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0,36.48,35.36,36.38
