<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [1]:
import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

In [2]:
#conectar con Google Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
path = "/content/drive/MyDrive/MAT281/libertad_prensa/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

#Ordenar los archivos para una mejor lectura
archivos_anio.sort()

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [4]:
from pandas.core.indexers.utils import length_of_indexer
#a)
df_anio = [pd.read_csv(x) for x in archivos_anio]

for i in range(len(df_anio)):
    df_anio[i].columns = df_anio[i].columns.str.lower()

df_anio

[    codigo_iso  anio  indice  ranking
 0          AFG  2001    35.5     59.0
 1          AGO  2001    30.2     50.0
 2          ALB  2001     NaN      NaN
 3          AND  2001     NaN      NaN
 4          ARE  2001     NaN      NaN
 ..         ...   ...     ...      ...
 175        WSM  2001     NaN      NaN
 176        YEM  2001    34.8     58.0
 177        ZAF  2001     7.5     86.0
 178        ZMB  2001    26.8     38.0
 179        ZWE  2001    48.3     76.0
 
 [180 rows x 4 columns],
     codigo_iso  anio  indice  ranking
 0          AFG  2002   40.17     78.0
 1          AGO  2002   28.00     46.0
 2          ALB  2002    6.50    100.0
 3          AND  2002     NaN      NaN
 4          ARE  2002   37.00     68.0
 ..         ...   ...     ...      ...
 175        WSM  2002     NaN      NaN
 176        YEM  2002   41.83     79.0
 177        ZAF  2002    3.33     48.0
 178        ZMB  2002   23.25     35.0
 179        ZWE  2002   45.50     84.0
 
 [180 rows x 4 columns],
     codig

In [5]:
#b)
df_codigos = df_codigos.drop_duplicates('codigo_iso')

df_codigos

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


In [6]:
#c)
df = pd.concat(df_anio)
df = pd.merge(df, df_codigos, on = 'codigo_iso')

df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2001,35.50,59.0,Afghanistán
1,AFG,2002,40.17,78.0,Afghanistán
2,AFG,2003,28.25,49.0,Afghanistán
3,AFG,2004,39.17,62.0,Afghanistán
4,AFG,2005,44.25,67.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2015,40.41,118.0,Zimbabue
3056,ZWE,2016,,122.0,Zimbabue
3057,ZWE,2017,41.44,128.0,Zimbabue
3058,ZWE,2018,40.53,126.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [7]:
print('El número de filas es:')
df.shape[0]

El número de filas es:


3060

In [8]:
print('El número de columnas es:')
df.shape[1]

El número de columnas es:


5

In [9]:
print('Las columnas son:')
df.columns

Las columnas son:


Index(['codigo_iso', 'anio', 'indice', 'ranking', 'pais'], dtype='object')

In [10]:
print('El tipo de dato de cada columna:')
df.dtypes

El tipo de dato de cada columna:


codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object

In [11]:
df.describe()

Unnamed: 0,anio,indice,ranking
count,3060.0,2664.0,2837.0
mean,2009.941176,205.782316,477.930913
std,5.786024,2695.525264,6474.935347
min,2001.0,0.0,1.0
25%,2005.0,15.295,34.0
50%,2009.0,28.0,70.0
75%,2015.0,41.2275,110.0
max,2019.0,64536.0,121056.0


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [12]:
# respuesta

def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios por columnas
    """
    nombres = df.columns
    result = pd.DataFrame({'nombres': nombres})

    l_vacios = []
    l_difer = []

    for x in nombres:
      l_vacios.append(df[x].isna().sum())
      l_difer.append(df[x].nunique())

    result['elementos_distintos'] = l_difer
    result['elementos_vacios'] = l_vacios

    return result

In [13]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [90]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

#a)
df_copia = df.sort_values(by = ['anio', 'indice'], ascending= True)
df_america = df_copia[df['codigo_iso'].isin(america)]

print('Los paises con menor indice por año son:')
print()
print('año \t indice \t Pais')

for valor in range(0,df_america.shape[0],len(america)):
    print(df_america.iloc[valor]['anio'], '\t', df_america.iloc[valor]['indice'],'\t', df_america.iloc[valor]['pais'] )



Los paises con menor indice por año son:

año 	 indice 	 Pais
2001 	 0.8 	 Canadá
2002 	 1.0 	 Trinidad y Tobago
2003 	 2.0 	 Trinidad y Tobago
2004 	 2.0 	 Trinidad y Tobago
2005 	 4.5 	 Bolivia
2006 	 4.88 	 Canadá
2007 	 3.33 	 Canadá
2008 	 3.7 	 Canadá
2009 	 6.75 	 Estados Unidos
2012 	 9.88 	 Jamaica
2013 	 10.9 	 Jamaica
2014 	 10.99 	 Canadá
2015 	 11.1 	 Costa Rica
2016 	 nan 	 Argentina
2017 	 11.93 	 Costa Rica
2018 	 11.33 	 Jamaica
2019 	 11.13 	 Jamaica


  df_america = df_copia[df['codigo_iso'].isin(america)]


In [99]:
from sqlalchemy import false
print('Los paises con mayor indice por año son:')
print()
print('año \t indice \t Pais')

df_copia = df.sort_values(by = ['anio', 'indice'], ascending= False)
df_america = df_copia[df['codigo_iso'].isin(america)]

for valor in range(0,df_america.shape[0],len(america)):
    print(df_america.iloc[valor]['anio'], '\t', df_america.iloc[valor]['indice'],'\t', df_america.iloc[valor]['pais'] )

Los paises con mayor indice por año son:

año 	 indice 	 Pais
2019 	 63.81 	 Cuba
2018 	 68.9 	 Cuba
2017 	 71.75 	 Cuba
2016 	 nan 	 Argentina
2015 	 70.23 	 Cuba
2014 	 70.21 	 Cuba
2013 	 70.92 	 Cuba
2012 	 71.64 	 Cuba
2009 	 78.0 	 Cuba
2008 	 94.0 	 Cuba
2007 	 88.33 	 Cuba
2006 	 96.17 	 Cuba
2005 	 95.0 	 Cuba
2004 	 87.0 	 Cuba
2003 	 35826.0 	 Argentina
2002 	 97.83 	 Cuba
2001 	 90.3 	 Cuba


  df_america = df_copia[df['codigo_iso'].isin(america)]


In [53]:
#b)
df_copia = df.sort_values(by = 'indice', ascending= True)
df_america = df_copia[df['codigo_iso'].isin(america)] #Separar a los paises de america
grupo = df_america.groupby( 'anio') #agupar por año
print('Los paises con el menor indice por año son:')
grupo.first()

Los paises con el menor indice por año son:


  df_america = df_copia[df['codigo_iso'].isin(america)] #Separar a los paises de america


Unnamed: 0_level_0,codigo_iso,indice,ranking,pais
anio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2001,CAN,0.8,2.0,Canadá
2002,TTO,1.0,2.0,Trinidad y Tobago
2003,TTO,2.0,30.0,Trinidad y Tobago
2004,TTO,2.0,31.0,Trinidad y Tobago
2005,BOL,4.5,63.0,Bolivia
2006,CAN,4.88,84.0,Canadá
2007,CAN,3.33,50.0,Canadá
2008,CAN,3.7,62.0,Canadá
2009,USA,6.75,115.0,Estados Unidos
2012,JAM,9.88,176.0,Jamaica


In [48]:
df_copia = df.sort_values(by = 'indice', ascending= False)
df_america = df_copia[df['codigo_iso'].isin(america)] #Separar a los paises de america
grupo = df_america.groupby( 'anio') #agupar por año
print('Los paises con el mayor indice por año son:')
grupo.first()

Los paises con el mayor indice por año son:


  df_america = df_copia[df['codigo_iso'].isin(america)] #Separar a los paises de america


Unnamed: 0_level_0,codigo_iso,indice,ranking,pais
anio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2001,CUB,90.3,99.0,Cuba
2002,CUB,97.83,125.0,Cuba
2003,ARG,35826.0,35.0,Argentina
2004,CUB,87.0,112.0,Cuba
2005,CUB,95.0,109.0,Cuba
2006,CUB,96.17,139.0,Cuba
2007,CUB,88.33,117.0,Cuba
2008,CUB,94.0,131.0,Cuba
2009,CUB,78.0,129.0,Cuba
2012,CUB,71.64,162.0,Cuba


In [15]:
print('El pais con el mayor indice es:')
print(grupo[['indice']].max().reset_index().max())

El pais con el mayor indice es:
anio       2019.0
indice    35826.0
dtype: float64


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [16]:
df.groupby(['pais','anio']).max()
df_pivot = df.pivot_table(index="codigo_iso", columns="anio", values="indice", fill_value= 0, aggfunc=np.max)
df_pivot

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
