<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03
Felipe Asbún
202010509-K

Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [137]:
import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

In [138]:
from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [139]:
#path = "data/"

#archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
#df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

path = "drive/MyDrive/Colab Notebooks/data/"
archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f]
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')
df_codigos.head()

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos


 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [140]:
#1.a
anios = [pd.read_csv(anio) for anio in archivos_anio]                           # Lee cada archivo en archivos_anio, almacenándolos en dataframes acoplados en una lista
df_anio = pd.concat(anios)                                                      # Concatena los dataframes
df_anio.columns = df_anio.columns.str.lower()                                   # Normaliza los nombres de las columnas

df_anio.head()

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2016,,114.0
1,AGO,2016,,119.0
2,ALB,2016,,72.0
3,AND,2016,,32.0
4,ARE,2016,,113.0


In [141]:
#1.b
print(df_codigos['codigo_iso'].value_counts().loc[lambda x: x>1])               # Muestra los elementos que repetidos más de 1 vez
df_codigos = df_codigos.drop_duplicates(subset='codigo_iso')                    # Elimina las filas duplicados

ZWE    2
Name: codigo_iso, dtype: int64


In [153]:
#1.c
df = df_anio.merge(df_codigos, how='inner', on='codigo_iso')                    # Une el dataframe df_anio con la de df_codigos
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2016,,114.0,Afghanistán
1,AFG,2017,39.46,120.0,Afghanistán
2,AFG,2008,54.25,103.0,Afghanistán
3,AFG,2013,37.07,117.0,Afghanistán
4,AFG,2012,37.36,112.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2006,62.00,115.0,Zimbabue
3056,ZWE,2014,39.19,124.0,Zimbabue
3057,ZWE,2002,45.50,84.0,Zimbabue
3058,ZWE,2015,40.41,118.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [154]:
#2
print("Número de observaciones: ")
print(len(df['codigo_iso'].unique()))

print("\nNúmero de columnas: ")
print(len(df.columns))

print("\nNombre de las columnas: ")
print(df.columns.tolist())

print("\nTipo de datos de cada columna: ")
print(df.dtypes)

print("\nDescripción del dataframe: ")
print(df.describe(include='all'))


Número de observaciones: 
180

Número de columnas: 
5

Nombre de las columnas: 
['codigo_iso', 'anio', 'indice', 'ranking', 'pais']

Tipo de datos de cada columna: 
codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object

Descripción del dataframe: 
       codigo_iso         anio        indice        ranking     pais
count        3060  3060.000000   2664.000000    2837.000000     3060
unique        180          NaN           NaN            NaN      179
top           AFG          NaN           NaN            NaN  Nigeria
freq           17          NaN           NaN            NaN       34
mean          NaN  2009.941176    205.782316     477.930913      NaN
std           NaN     5.786024   2695.525264    6474.935347      NaN
min           NaN  2001.000000      0.000000       1.000000      NaN
25%           NaN  2005.000000     15.295000      34.000000      NaN
50%           NaN  2009.000000     28.000000      70.000000  

3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [144]:
# respuesta

def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    nombres = df.columns

    result = pd.DataFrame({'nombres': nombres})
    l_unique = []
    l_empty = []
    for name in nombres:                                                        # Almacena la cantidad de elementos únicos y repetidos por cada columna de forma ordenada
        l_unique.append(df[name].nunique())
        l_empty.append(df[name].isnull().sum())

    result['elementos_distintos'] = l_unique
    result['elementos_vacios'] = l_empty

    return result

In [145]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [146]:
# respuesta

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df[df['codigo_iso'].isin(america)]                                 # Filtra las filas del dataframe cuyo elemento de codigo_iso está en america
df_america.head()

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
85,ARG,2016,,47.0,Argentina
86,ARG,2017,25.07,50.0,Argentina
87,ARG,2008,11.33,11.0,Argentina
88,ARG,2013,25.27,44.0,Argentina
89,ARG,2012,25.67,40.0,Argentina


In [150]:
#a) Mediante for

years = sorted(df_america['anio'].unique().tolist())                            # Obtiene los distintos años del dataframe
dict_max = {}
dict_min = {}
for year in years:                                                              # Itera por cada año, obteniendo los índices de los elementos con mayor
    id_max = df_america[df_america['anio']==year]['indice'].idxmax()            # y menor índice. Luego, los almacena en un diccionario cada uno, con par
    id_min = df_america[df_america['anio']==year]['indice'].idxmin()            # llave=año y valor=(país correspondiente al índice obtenido).
    if not np.isnan(id_max):
        dict_max[year] = df_america['pais'].loc[id_max]
    if not np.isnan(id_min):
        dict_min[year] = df_america['pais'].loc[id_min]

df_pais_min_max = pd.concat([                                                   # Crea un dataframe concatenando dos dataframes creados a partir de los
    pd.DataFrame(pd.Series(dict_max)).T,                                        # anteriores diccionarios.
    pd.DataFrame(pd.Series(dict_min)).T
    ]
                ).T

df_pais_min_max.columns = ['pais_max_indice', 'pais_min_indice']
df_pais_min_max

Unnamed: 0,pais_max_indice,pais_min_indice
2001,Cuba,Canadá
2002,Cuba,Trinidad y Tobago
2003,Argentina,Trinidad y Tobago
2004,Cuba,Trinidad y Tobago
2005,Cuba,Bolivia
2006,Cuba,Canadá
2007,Cuba,Canadá
2008,Cuba,Canadá
2009,Cuba,Estados Unidos
2012,Cuba,Jamaica


In [152]:
#b) Mediante groupby

group = df_america[['anio','indice','pais']].dropna().groupby('anio')           # Filtra las columnas y las agrupa por año
df_id_max = group.idxmax(numeric_only=True).astype('int64')                     # Se obtienen los índices de los elementos de mayor y menor índice
df_id_min = group.idxmin(numeric_only=True).astype('int64')


df_max = df_america.loc[df_id_max.values.T.tolist()[0]][['anio','pais']]        # Localiza las filas con los índices anteriores, almacenando por año y país
df_min = df_america.loc[df_id_min.values.T.tolist()[0]][['anio','pais']]
df_max = df_max.rename(columns={'pais': 'pais_max_indice'})                     # Renombra las columnas
df_min = df_min.rename(columns={'pais': 'pais_min_indice'})

pd.merge(df_max, df_min, on='anio')                                             # Mezcla los dataframes anteriores, con año la columna en común


Unnamed: 0,anio,pais_max_indice,pais_min_indice
0,2001,Cuba,Canadá
1,2002,Cuba,Trinidad y Tobago
2,2003,Argentina,Trinidad y Tobago
3,2004,Cuba,Trinidad y Tobago
4,2005,Cuba,Bolivia
5,2006,Cuba,Canadá
6,2007,Cuba,Canadá
7,2008,Cuba,Canadá
8,2009,Cuba,Estados Unidos
9,2012,Cuba,Jamaica


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [149]:
df.pivot_table(                                                                 # Pivotea una tabla con índice los códigos iso, columnas los años y valores
    index='codigo_iso',                                                         # el máximo índice que obtuvieron los países en cada año. Se rellenan los datos
    columns='anio',                                                             # faltantes con 0.
    values='indice',
    fill_value=0,
    aggfunc=np.max
    )

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
