<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

In [3]:
path = "/content/drive/MyDrive/MAT281/libertad_prensa/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')


 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [4]:
# a)
anios = []
for name in archivos_anio:
    df_temp = pd.read_csv(name)
    anios.append(df_temp)

df_anio = pd.concat(anios)
df_anio.columns = df_anio.columns.str.lower()
df_anio.head(1000)


Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2004,39.17,62.0
1,AGO,2004,18.00,26.0
2,ALB,2004,14.17,17.0
3,AND,2004,,
4,ARE,2004,25.75,45.0
...,...,...,...,...
95,LIE,2014,17.67,22.0
96,LKA,2014,60.28,158.0
97,LSO,2014,28.36,71.0
98,LTU,2014,18.80,26.0


In [5]:
# b)
print("\nEl dato repetido en la dataframe de códigos es:")
print(df_codigos['codigo_iso'].value_counts().loc[lambda x: x>1])

df_codigos = df_codigos.drop_duplicates('codigo_iso')

print("\nLa dataframe ya no tiene elementos repetidos:")
print(df_codigos['codigo_iso'].value_counts().loc[lambda x: x>1])



El dato repetido en la dataframe de códigos es:
ZWE    2
Name: codigo_iso, dtype: int64

La dataframe ya no tiene elementos repetidos:
Series([], Name: codigo_iso, dtype: int64)


Notemos que el segundo print dará vacio pues todos los valores poseen una sigla. Ninguno está duplicado.





In [6]:
# c)
df = df_anio.merge(df_codigos, on = 'codigo_iso')
df.head()

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2004,39.17,62.0,Afghanistán
1,AFG,2012,37.36,112.0,Afghanistán
2,AFG,2002,40.17,78.0,Afghanistán
3,AFG,2007,59.25,92.0,Afghanistán
4,AFG,2006,56.5,107.0,Afghanistán


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [7]:
# Número de observaciones considerando datos nulos
tot_datos_NaN = df.size

# Número de observaciones considerando datos no-nulos
tot_datos = df.count().sum()

print("\nNúmero de observaciones considerando...\ndatos nulos:",tot_datos_NaN,"\ndatos no-nulos:", tot_datos)


Número de observaciones considerando...
datos nulos: 15300 
datos no-nulos: 14681


In [8]:
# Número de columnas
num_col = df.shape[1]
print("\nEl número de columnas en el conjunto de datos es:", num_col)


El número de columnas en el conjunto de datos es: 5


In [9]:
# Nombres de columnas
print("\nLos nombres de las columnas son:")
for i in range(num_col):
  print(df.columns[i])


Los nombres de las columnas son:
codigo_iso
anio
indice
ranking
pais


In [10]:
# Tipo de dato de columnas
print("\nEl tipo de dato de cada columna es:")
df.dtypes


El tipo de dato de cada columna es:


codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object

In [11]:
# Descripción del conjunto de datos
df.describe(include="all")

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
count,3060,3060.0,2664.0,2837.0,3060
unique,180,,,,179
top,AFG,,,,Nigeria
freq,17,,,,34
mean,,2009.941176,205.782316,477.930913,
std,,5.786024,2695.525264,6474.935347,
min,,2001.0,0.0,1.0,
25%,,2005.0,15.295,34.0,
50%,,2009.0,28.0,70.0,
75%,,2015.0,41.2275,110.0,


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [12]:
# respuesta
def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    nombres = df.columns

    l1 = []
    l2 = []

    for nombre in nombres:
      pd_series = df[nombre]
      #elementos distintos
      l_unique = pd_series.nunique()
      #elements vacios
      l_vacios = pd_series.isnull().sum()

      l1.append(l_unique)
      l2.append(l_vacios)

    result = pd.DataFrame({'nombres': nombres})
    result['elementos_distintos'] = l1
    result['elementos_vacios'] = l2

    return result

In [13]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [128]:
# respuesta

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df.loc[lambda x: x['codigo_iso'].isin(america)]
df_america

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
85,ARG,2004,13.67,15.0,Argentina
86,ARG,2012,25.67,40.0,Argentina
87,ARG,2002,15.17,15.0,Argentina
88,ARG,2007,14.08,13.0,Argentina
89,ARG,2006,24.83,49.0,Argentina
...,...,...,...,...,...
2953,VEN,2018,46.03,143.0,Venezuela
2954,VEN,2001,25.00,34.0,Venezuela
2955,VEN,2009,47.33,93.0,Venezuela
2956,VEN,2003,24.63,43.0,Venezuela


In [132]:
# a) cicle for
anio = sorted(df_america['anio'].unique())
codes_iso = df_america['codigo_iso'].unique()

df_indice = pd.DataFrame({'anio' : anio})

paises_i_max = []
paises_i_min = []
indices_max = []
indices_min = []

for age in anio:
    df_anio = df_america[df_america['anio'] == age]

    if pd.isna(df_anio['indice'].max()) == 0:
        fila_max = df_anio[df_anio['indice'] == df_anio['indice'].max()]
        pais_max = fila_max['pais'].iloc[0]
        i_max = fila_max['indice'].iloc[0]

        fila_min = df_anio[df_anio['indice'] == df_anio['indice'].min()]
        pais_min = fila_min['pais'].iloc[0]
        i_min = fila_min['indice'].iloc[0]

    paises_i_max.append(pais_max)
    paises_i_min.append(pais_min)
    indices_max.append(i_max)
    indices_min.append(i_min)

df_indice['pais_indice_maximo'] = paises_i_max
df_indice['indice_maximo'] = indices_max
df_indice['pais_indice_minimo'] = paises_i_min
df_indice['indice_minimo'] = indices_min

df_indice

Unnamed: 0,anio,pais_indice_maximo,indice_maximo,pais_indice_minimo,indice_minimo
0,2001,Cuba,90.3,Canadá,0.8
1,2002,Cuba,97.83,Trinidad y Tobago,1.0
2,2003,Argentina,35826.0,Trinidad y Tobago,2.0
3,2004,Cuba,87.0,Trinidad y Tobago,2.0
4,2005,Cuba,95.0,Bolivia,4.5
5,2006,Cuba,96.17,Canadá,4.88
6,2007,Cuba,88.33,Canadá,3.33
7,2008,Cuba,94.0,Canadá,3.7
8,2009,Cuba,78.0,Estados Unidos,6.75
9,2012,Cuba,71.64,Jamaica,9.88


In [133]:
# b) group by
df_americaM = df_america.copy()
df_americam = df_america.copy()

df_americaM['indice'].fillna(0, inplace = True)
df_americaM[df_americaM['pais'] == 'Antigua y Barbuda']
grupo = df_americaM.groupby('anio')

df_max = grupo.agg({'indice':np.max}).reset_index()
max_indices = grupo['indice'].idxmax()
p_indice_M = df_america.loc[max_indices, 'pais'].values
df_max['pais_indice_maximo'] = p_indice_M
df_max.rename(columns={'indice': 'indice_maximo'}, inplace=True)

df_americam['indice'] = df_americam['indice'].fillna(65000)
grupo = df_americam.groupby('anio')

df_min = grupo.agg({'indice':np.min}).reset_index()
min_indices = grupo['indice'].idxmin()
p_indice_m = df_america.loc[min_indices, 'pais'].values
df_min['pais_indice_minimo'] = p_indice_m
df_min.rename(columns={'indice': 'indice_minimo'}, inplace=True)

df_indice = pd.merge(df_max, df_min, on = 'anio')
df_indice


Unnamed: 0,anio,indice_maximo,pais_indice_maximo,indice_minimo,pais_indice_minimo
0,2001,90.3,Cuba,0.8,Canadá
1,2002,97.83,Cuba,1.0,Trinidad y Tobago
2,2003,35826.0,Argentina,2.0,Trinidad y Tobago
3,2004,87.0,Cuba,2.0,Trinidad y Tobago
4,2005,95.0,Cuba,4.5,Bolivia
5,2006,96.17,Cuba,4.88,Canadá
6,2007,88.33,Cuba,3.33,Canadá
7,2008,94.0,Cuba,3.7,Canadá
8,2009,78.0,Cuba,6.75,Estados Unidos
9,2012,71.64,Cuba,9.88,Jamaica


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [None]:
df_pivot = df.pivot_table(
    index = 'codigo_iso',
    columns = 'anio',
    values = 'indice',
    fill_value = 0
)
df_pivot

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
