<a href="https://colab.research.google.com/github/fralfaro/MAT281_2022/blob/main/labs/lab_03/lab_03.ipynb
" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/). 

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [2]:
import numpy as np 
import pandas as pd

from os import listdir
from os.path import isfile, join

In [3]:
path = "/content/data/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ] 
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')
archivos_anio

['/content/data/libertad_prensa_2002.csv',
 '/content/data/libertad_prensa_2005.csv',
 '/content/data/libertad_prensa_2014.csv',
 '/content/data/libertad_prensa_2009.csv',
 '/content/data/libertad_prensa_2008.csv',
 '/content/data/libertad_prensa_2017.csv',
 '/content/data/libertad_prensa_2016.csv',
 '/content/data/libertad_prensa_2006.csv',
 '/content/data/libertad_prensa_2003.csv',
 '/content/data/libertad_prensa_2004.csv',
 '/content/data/libertad_prensa_2001.csv',
 '/content/data/libertad_prensa_2007.csv',
 '/content/data/libertad_prensa_2012.csv',
 '/content/data/libertad_prensa_2019.csv',
 '/content/data/libertad_prensa_2015.csv',
 '/content/data/libertad_prensa_2018.csv',
 '/content/data/libertad_prensa_2013.csv']

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:
 
1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.
 
> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [4]:
# respuesta
"""
a)
"""
lista_por_anio = []
i = 0
for name in archivos_anio:            # Con este for juntamos los archivos
    df_temporal = pd.read_csv(name)
    lista_por_anio.append(df_temporal)
df_anio = pd.concat(lista_por_anio)
df_anio.columns = df_anio.columns.str.lower() # Aca paso los nombres de las columnas a minuscula
"""
b)
"""
df_codigos = df_codigos[df_codigos['pais'] != 'malo'] # Quitamos el elemento que esta repetido
"""
c)
"""
df = pd.merge(df_anio, df_codigos, on='codigo_iso') # Union de los archivos con la columna de codigo iso en comun

2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna? 
   * Describir el conjunto de datos (**hint**: .describe())
    

In [5]:
# respuesta
"""
a)
"""
observaciones = df.shape[0]
print('a:',observaciones)
"""
b)
"""
n_de_columnas = df.shape[1]
"""
c)
"""
for i in df:
  print(i)
"""
d)
"""
print(df.dtypes)
"""
e)
"""
df.describe(include = 'all')

a: 3060
codigo_iso
anio
indice
ranking
pais
codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object


Unnamed: 0,codigo_iso,anio,indice,ranking,pais
count,3060,3060.0,2664.0,2837.0,3060
unique,180,,,,179
top,AFG,,,,Nigeria
freq,17,,,,34
mean,,2009.941176,205.782316,477.930913,
std,,5.786024,2695.525264,6474.935347,
min,,2001.0,0.0,1.0,
25%,,2005.0,15.295,34.0,
50%,,2009.0,28.0,70.0,
75%,,2015.0,41.2275,110.0,


93. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [6]:
# respuesta

def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    nombres = df.columns
    result = pd.DataFrame({'nombres': nombres}) # Creamos el dataframe
    result['elementos_distintos'] = 0
    result['elementos_vacios'] = 0
    lista_elementos_distintos = []  # Listas para guardar los datos
    lista_elementos_nulos = []
    for i in nombres:
      elementos_distintos = len(df[i].unique()) # Accedemos a la cantidad de elementos distintos por columna
      elementos_vacios = df[i].isnull().sum() # Accedemos a la cantidad de elementos nulos por columnas
      if elementos_vacios != 0: # En el caso de que existan elementos nulos, le quitamos uno a los elementos distintos, pues toma el cuenta los elementos nulos
        elementos_distintos-=1
      lista_elementos_distintos.append(elementos_distintos) # Generamos la columna de elementos distintos
      lista_elementos_nulos.append(elementos_vacios) # Generamos la columna de elementos nulos
    result['elementos_distintos'] = lista_elementos_distintos # Las agregamos al dataframe
    result['elementos_vacios'] = lista_elementos_nulos
    return result

In [7]:
# retornar 
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [8]:
# respuesta

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']
df_america = df[df.codigo_iso.isin(america)]
"""
a)
"""
#Maximo

lista_anios = df['anio'].unique() # Vemos los años de los datos
max_anio = dict() # Diccionario para guardar los maximos por año
for i in lista_anios:  # Recorremos los años para buscar los maximos
    df_temp = df_america.loc[lambda x: x['anio'] == i]  # DataFrame restringido a el año i
    max_indice = df_temp['indice'].max()  # Calculamos el maximo indice en ese año
    df_temp = df_temp[df_temp['indice']==max_indice] # Nos quedamos con la fila que tiene el indice maximo
    lista_pais = list(df_temp['pais'])  # Creamos una lista para guardar el pais asociado al indice maximo
    if len(lista_pais)<1: # Caso donde no hay datos asociados al pais
      lista_pais.append('No hay datos')
    if np.isnan(max_indice) == True:  # Caso donde no hay datos asociados al indice
      max_indice = 0
    lista_pais_indice = [lista_pais[0],max_indice]  # Creamos una lista para agregar al diccionario
    max_anio[i] = lista_pais_indice # Agregamos la lista al diccionario

#Minimo

min_anio = dict() # La explicacion para el minimo es analoga a la de arriba
for i in lista_anios:  
    df_temp = df_america.loc[lambda x: x['anio'] == i]
    min_indice = df_temp['indice'].min()
    df_temp = df_temp[df_temp['indice']==min_indice]
    lista_pais = list(df_temp['pais']) 
    if len(lista_pais)<1:
      lista_pais.append('No hay datos')
    if np.isnan(min_indice) == True:
      min_indice = 0
    lista_pais_indice = [lista_pais[0],min_indice]
    min_anio[i] = lista_pais_indice

"""
b)
"""
#Maximo

max_indice = df_america.groupby('anio').indice.max()  # Se guardan los indices maximos por año
df_max = df_america.merge(max_indice, on='anio', suffixes=('','_max'))  # Agregamos una nueva columna, la cual tendra los indices maximos asociados a su respectivo año
df_max = df_max[df_max.indice==df_max.indice_max].drop(['pais','ranking','indice_max'], axis=1) # Nos quedamos solo con los que tienen indice = indice_max

#Minimo

min_indice = df_america.groupby('anio').indice.min()  # Explicacion analoga al maximo
df_min = df_america.merge(min_indice, on='anio', suffixes=('','_min'))
df_min = df_min[df_min.indice==df_min.indice_min].drop(['pais','ranking','indice_min'], axis=1)

df_min

Unnamed: 0,codigo_iso,anio,indice
25,TTO,2002,1.0
32,BOL,2005,4.5
34,CAN,2005,4.5
63,CAN,2014,10.99
114,USA,2009,6.75
121,CAN,2008,3.7
153,CRI,2017,11.93
208,CAN,2006,4.88
257,TTO,2003,2.0
286,TTO,2004,2.0


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://github.com/fralfaro/MAT281_2022/blob/main/labs/lab_03/images/img.png?raw=1" alt="Girl in a jacket" >

> **Hint**: Utilice la función **pd.pivot_table**.

In [10]:
# respuesta
pivotTable = pd.pivot_table(df, values = 'indice', index = ['codigo_iso'], columns = ['anio'],aggfunc = np.sum, fill_value = 0 )
pivotTable

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,0,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,0,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,0,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,0,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0,36.48,35.36,36.38
