<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

In [None]:
path = "/content/drive/MyDrive/Aplica/libertad_prensa/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [None]:
#respuesta
for name in archivos_anio:
  print(name)

/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2013.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2017.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2015.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2005.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2019.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2014.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2009.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2008.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2006.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2003.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2007.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2016.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2002.csv
/content/drive/MyDrive/Aplica/libertad_prensa/libertad_prensa_2018.csv
/conte

In [None]:
anios = []
for name in archivos_anio:
  df_anio = pd.read_csv(name)
  anios.append(df_anio)

In [None]:
#eliminar los duplicados

df_codigos = df_codigos.drop_duplicates('codigo_iso')

In [None]:
#normalizar el nombre de las columnas

for i in range(len(anios)):
  anios[i].columns = anios[i].columns.str.lower()

#juntar información
  df = pd.concat(anios)

df = pd.merge(df,df_codigos, on = 'codigo_iso')
df.head()

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2013,37.07,117.0,Afghanistán
1,AFG,2017,39.46,120.0,Afghanistán
2,AFG,2015,37.75,114.0,Afghanistán
3,AFG,2005,44.25,67.0,Afghanistán
4,AFG,2019,36.55,121.0,Afghanistán


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [None]:
# N° de observaciones
print(" El numero de observaciones es:")
df.shape[0]

 El numero de observaciones es:


3060

In [None]:
# N° de columnas
print(" El numero de columnas es:")
df.shape[1]

 El numero de columnas es:


5

In [None]:
# Nombre de las columnas
df.columns

Index(['codigo_iso', 'anio', 'indice', 'ranking', 'pais'], dtype='object')

In [None]:
# Tipo de dato por columna
print(" El tipo de dato por columnas es:")
df.dtypes

 El tipo de dato por columnas es:


codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object

3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [None]:
# respuesta

def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    nombres = df.columns

    result = pd.DataFrame({'nombres': nombres})

    distintos = []
    vacios = []

    for i in nombres:
      vacios.append(df[i].isnull().sum())
      distintos.append(len(df[i].unique()))

    result['elementos_distintos'] = distintos
    result['elementos_vacios'] = vacios


    return result

In [None]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1551,396
3,ranking,194,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [None]:
# respuesta

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df[df['codigo_iso'].isin(america)]
df_america.head()

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
85,ARG,2013,25.27,44.0,Argentina
86,ARG,2017,25.07,50.0,Argentina
87,ARG,2015,25.09,50.0,Argentina
88,ARG,2005,17.3,22.0,Argentina
89,ARG,2019,28.3,57.0,Argentina


In [131]:
# Ciclo For maximo
# Ciclo For maximo
anios = df['anio'].unique()

dict_max = dict()
for a in anios:
    df_copia = df_america.loc[lambda x: x['anio'] == a]
    indice_max = df_copia['indice'].max()
    df_copia = df_copia[df_copia['indice'] == indice_max]
    paises = list(df_copia['pais'])
    paises_nuevos = []

    if len(paises) < 1:
      paises.append(np.NaN)
      paises_nuevos.append(paises[0])
    elif len(paises) >= 1:
      paises_nuevos.append(paises[0])
    if (np.isnan(indice_max) == True):
      indice_max = 0
    dict_max[a] = [paises_nuevos[0],indice_max]

sorted(dict_max.items())

[(2001, ['Cuba', 90.3]),
 (2002, ['Cuba', 97.83]),
 (2003, ['Argentina', 35826.0]),
 (2004, ['Cuba', 87.0]),
 (2005, ['Cuba', 95.0]),
 (2006, ['Cuba', 96.17]),
 (2007, ['Cuba', 88.33]),
 (2008, ['Cuba', 94.0]),
 (2009, ['Cuba', 78.0]),
 (2012, ['Cuba', 71.64]),
 (2013, ['Cuba', 70.92]),
 (2014, ['Cuba', 70.21]),
 (2015, ['Cuba', 70.23]),
 (2016, [nan, 0]),
 (2017, ['Cuba', 71.75]),
 (2018, ['Cuba', 68.9]),
 (2019, ['Cuba', 63.81])]

In [141]:
# Ciclo For minimo
dict_menor= dict()
for a in anios:
    df_copia = df_america.loc[lambda x: x['anio'] == a]
    indice_min = df_copia['indice'].min()
    df_copia = df_copia[df_copia['indice'] == indice_min]
    paises = list(df_copia['pais'])
    paises_nuevos = []

    if len(paises) < 1:
      paises.append('No hay datos')
      paises_nuevos.append(paises[0])
    elif len(paises) >= 1:
      paises_nuevos.append(paises[0])
    if (np.isnan(indice_min) == True):
      indice_min = 0
    dict_menor[a] = [paises_nuevos[0],indice_min]

sorted(dict_menor.items())

[(2001, ['Canadá', 0.8]),
 (2002, ['Trinidad y Tobago', 1.0]),
 (2003, ['Trinidad y Tobago', 2.0]),
 (2004, ['Trinidad y Tobago', 2.0]),
 (2005, ['Bolivia', 4.5]),
 (2006, ['Canadá', 4.88]),
 (2007, ['Canadá', 3.33]),
 (2008, ['Canadá', 3.7]),
 (2009, ['Estados Unidos', 6.75]),
 (2012, ['Jamaica', 9.88]),
 (2013, ['Jamaica', 10.9]),
 (2014, ['Canadá', 10.99]),
 (2015, ['Costa Rica', 11.1]),
 (2016, ['No hay datos', 0]),
 (2017, ['Costa Rica', 11.93]),
 (2018, ['Jamaica', 11.33]),
 (2019, ['Jamaica', 11.13])]

In [142]:
# Groupby maximo
indice_max = df_america.groupby('anio').indice.max()
data_max = df_america.merge(indice_max, on='anio', suffixes=('','_max'))
data_max= data_max[data_max.indice==data_max.indice_max].drop(['indice_max','codigo_iso','ranking',], axis=1)
by_anio = data_max.sort_values('anio')
by_anio

Unnamed: 0,anio,indice,pais
473,2001,90.3,Cuba
357,2002,97.83,Cuba
261,2003,35826.0,Argentina
444,2004,87.0,Cuba
96,2005,95.0,Cuba
241,2006,96.17,Cuba
299,2007,88.33,Cuba
212,2008,94.0,Cuba
183,2009,78.0,Cuba
415,2012,71.64,Cuba


In [128]:
# Groupby minimo
indic_min = df_america.groupby('anio').indice.min()
data_min = df_america.merge(indice_min, on='anio', suffixes=('','_min'))
data_min= data_min[data_min.indice==data_min.indice_min].drop(['indice_min','codigo_iso','ranking',], axis=1)
by_anio = data_min.sort_values('anio')
by_anio

Unnamed: 0,anio,indice,pais
469,2001,0.8,Canadá
373,2002,1.0,Trinidad y Tobago
286,2003,2.0,Trinidad y Tobago
460,2004,2.0,Trinidad y Tobago
90,2005,4.5,Bolivia
92,2005,4.5,Canadá
237,2006,4.88,Canadá
295,2007,3.33,Canadá
208,2008,3.7,Canadá
201,2009,6.75,Estados Unidos


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [None]:
# Datos pivoteados para ser mostrados de manera más clara

df_pivot = df.pivot_table(index = 'codigo_iso', columns = 'anio', values = 'indice', fill_value = 0, aggfunc=np.max)
df_pivot

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
