<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

In [3]:
path = "/content/drive/MyDrive/Mat281Lab032/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

print(listdir(path))
for arch in archivos_anio:
  print(arch)

df_codigos

['libertad_prensa_2003.csv', 'libertad_prensa_2001.csv', 'libertad_prensa_2009.csv', 'libertad_prensa_2004.csv', 'libertad_prensa_2008.csv', 'libertad_prensa_2017.csv', 'libertad_prensa_2005.csv', 'libertad_prensa_2012.csv', 'libertad_prensa_2016.csv', 'libertad_prensa_codigo.csv', 'libertad_prensa_2019.csv', 'libertad_prensa_2006.csv', 'libertad_prensa_2014.csv', 'libertad_prensa_2007.csv', 'libertad_prensa_2018.csv', 'libertad_prensa_2002.csv', 'libertad_prensa_2013.csv', 'libertad_prensa_2015.csv']
/content/drive/MyDrive/Mat281Lab032/libertad_prensa_2003.csv
/content/drive/MyDrive/Mat281Lab032/libertad_prensa_2001.csv
/content/drive/MyDrive/Mat281Lab032/libertad_prensa_2009.csv
/content/drive/MyDrive/Mat281Lab032/libertad_prensa_2004.csv
/content/drive/MyDrive/Mat281Lab032/libertad_prensa_2008.csv
/content/drive/MyDrive/Mat281Lab032/libertad_prensa_2017.csv
/content/drive/MyDrive/Mat281Lab032/libertad_prensa_2005.csv
/content/drive/MyDrive/Mat281Lab032/libertad_prensa_2012.csv
/cont

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia
179,ZWE,Zimbabue


# Sección nueva

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [58]:
# Respuesta a)

# Creamos el dataframe con la información de todos los años

# Futura lista de dataframes tipo 'libertad_prensa_anio':
anios = []

for arch in archivos_anio:
  df_temp = pd.read_csv(arch)
  anios.append(df_temp)

df_anio = pd.concat(anios)

# Normalizamos las columnas del dataframe a minúscula
df_anio.columns = df_anio.columns.str.lower()

df_anio

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2003,28.25,49.0
1,AGO,2003,26.50,44.0
2,ALB,2003,11.50,11.0
3,AND,2003,,
4,ARE,2003,50.25,88.0
...,...,...,...,...
175,WSM,2015,18.80,25.0
176,YEM,2015,67.07,163.0
177,ZAF,2015,21.92,35.0
178,ZMB,2015,35.08,108.0


In [5]:
# Respuesta b)

# Contar datos
df_count_codigos = df_codigos['codigo_iso'].value_counts()

df_count_codigos

ZWE    2
MRT    1
MWI    1
MYS    1
NAM    1
      ..
GMB    1
GNB    1
GNQ    1
GRC    1
KWT    1
Name: codigo_iso, Length: 180, dtype: int64

In [6]:
# Eliminar datos duplicados
df_codigos = df_codigos.drop_duplicates(subset = ['codigo_iso'])

In [7]:
# Verificación:
df_count_codigos = df_codigos['codigo_iso'].value_counts()

df_count_codigos

AFG    1
MRT    1
MWI    1
MYS    1
NAM    1
      ..
GMB    1
GNB    1
GNQ    1
GRC    1
ZWE    1
Name: codigo_iso, Length: 180, dtype: int64

In [8]:
# Respuesta c)

# Crear el archivo df que junte la información del archivo df_anio con df_codigo por la columna codigo_iso
df = df_anio.merge(df_codigos, on = 'codigo_iso')

df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2003,28.25,49.0,Afghanistán
1,AFG,2001,35.50,59.0,Afghanistán
2,AFG,2009,51.67,105.0,Afghanistán
3,AFG,2004,39.17,62.0,Afghanistán
4,AFG,2008,54.25,103.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2007,54.00,87.0,Zimbabue
3056,ZWE,2018,40.53,126.0,Zimbabue
3057,ZWE,2002,45.50,84.0,Zimbabue
3058,ZWE,2013,39.19,124.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [9]:
print("El número de observaciones es:", df.shape[0])
print("")
print("El número de columnas es:", df.shape[1])
print("")
columnas = df.columns
print("Nombre de cada columna:")
for columna in columnas:
    print("-", columna)
print("")
tipos_de_datos = df.dtypes
print("Columna:     Tipo de dato:")
print(tipos_de_datos)

El número de observaciones es: 3060

El número de columnas es: 5

Nombre de cada columna:
- codigo_iso
- anio
- indice
- ranking
- pais

Columna:     Tipo de dato:
codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object


In [10]:
estadisticas = df.describe(include = 'all')

estadisticas

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
count,3060,3060.0,2664.0,2837.0,3060
unique,180,,,,179
top,AFG,,,,Nigeria
freq,17,,,,34
mean,,2009.941176,205.782316,477.930913,
std,,5.786024,2695.525264,6474.935347,
min,,2001.0,0.0,1.0,
25%,,2005.0,15.295,34.0,
50%,,2009.0,28.0,70.0,
75%,,2015.0,41.2275,110.0,


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [59]:
# Respuesta 3

def resumen_df(df):

    nombres = df.columns

    unicos = []
    vacios = []

    for nombre in nombres:
      # Cuenta el número de elementos únicos de la columna nombre:
      unico = df[nombre].nunique()
      unicos.append(unico)
      # Cuenta el total de elementos vacíos de la columna nombre:
      vacio = df[nombre].isnull().sum()
      vacios.append(vacio)

    result = pd.DataFrame({'nombres': nombres})
    result['elementos_distintos'] = unicos
    result['elementos_vacios'] = vacios

    return result

In [12]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [13]:
# Respuesta 4)

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df.loc[lambda x: x['codigo_iso'].isin(america)]

df_america

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
85,ARG,2003,35826.00,35.0,Argentina
86,ARG,2001,12.00,8.0,Argentina
87,ARG,2009,16.35,24.0,Argentina
88,ARG,2004,13.67,15.0,Argentina
89,ARG,2008,11.33,11.0,Argentina
...,...,...,...,...,...
2953,VEN,2007,27.33,45.0,Venezuela
2954,VEN,2018,46.03,143.0,Venezuela
2955,VEN,2002,27.83,45.0,Venezuela
2956,VEN,2013,35.37,105.0,Venezuela


In [60]:
# 4.a) Mediante ciclo for:

# Lista de los años no repetidos:
anios = sorted(df_america['anio'].unique())

for anio in anios:

  # Dataframe filtrado por el año que se está revisando:
  df_anual = df_america.loc[lambda x: x['anio'] == anio]

  # Variable que almacena el índice máximo del año:
  max_indice_anual = df_anual['indice'].max()

  # Variable que almacena el índice mínimo del año:
  min_indice_anual = df_anual['indice'].min()

  # Filtra df_anual a aquellos que contengan el máximo índice:
  df_anual_max = df_anual[df_anual['indice']==max_indice_anual]

  # Filtra df_anual a aquellos que contengan el mínimo índice:
  df_anual_min = df_anual[df_anual['indice']==min_indice_anual]


  if df_anual_max.shape[0] >= 1:  # Es decir, si hay índices registrados en el año que se está revisando
    print('En', anio, ':')
    print(' País con mayor índice =', df_anual_max['pais'].iloc[0], 'con', max_indice_anual)
    print(' País con menor índice =', df_anual_min['pais'].iloc[0], 'con', min_indice_anual, '\n')

  else:
    print('En', anio, 'no se registran datos.\n')

En 2001 :
 País con mayor índice = Cuba con 90.3
 País con menor índice = Canadá con 0.8 

En 2002 :
 País con mayor índice = Cuba con 97.83
 País con menor índice = Trinidad y Tobago con 1.0 

En 2003 :
 País con mayor índice = Argentina con 35826.0
 País con menor índice = Trinidad y Tobago con 2.0 

En 2004 :
 País con mayor índice = Cuba con 87.0
 País con menor índice = Trinidad y Tobago con 2.0 

En 2005 :
 País con mayor índice = Cuba con 95.0
 País con menor índice = Bolivia con 4.5 

En 2006 :
 País con mayor índice = Cuba con 96.17
 País con menor índice = Canadá con 4.88 

En 2007 :
 País con mayor índice = Cuba con 88.33
 País con menor índice = Canadá con 3.33 

En 2008 :
 País con mayor índice = Cuba con 94.0
 País con menor índice = Canadá con 3.7 

En 2009 :
 País con mayor índice = Cuba con 78.0
 País con menor índice = Estados Unidos con 6.75 

En 2012 :
 País con mayor índice = Cuba con 71.64
 País con menor índice = Jamaica con 9.88 

En 2013 :
 País con mayor índic

In [None]:
# 4.b) Mediante groupby:

# Agrupar df_america por 'anio':
df_groupby_anios = df_america.groupby('anio')

# Obtener máximo y mínimo indice por año:
indices = df_groupby_anios.agg({'indice' : [max, min]}).reset_index()

# A df_america le agrega las columnas del índice máximo y mínimo, donde para cada fila se le asigna el de su año correspondiente:
df_temp = pd.merge(df_america, indices, how = 'inner', on = 'anio')

# Quitamos columnas innecesarias para el análisis:
df_temp = df_temp.drop(['codigo_iso', 'ranking'], axis = 'columns')

# Generamos filtro para después eliminar las filas que no nos interesan:
mask1 = (df_temp['indice'] == df_temp[('indice', 'max')])
mask2 = (df_temp['indice'] == df_temp[('indice', 'min')])


En la siguiente celda se realizan varias operaciones. Primero, filtramos las filas de los países que su índice no coincide con el índice máximo del año con mask1. Luego, con .sort_values('anio') ordenamos las filas por año. Después, .drop() elimina las columnas que ya no se necesitan, .set_index convierte la columna 'anio' en los índices del dataframe y, por último, para que se entienda mejor, renombramos la columna 'indice' como 'indice_max'.

In [56]:
df_temp[mask1].sort_values('anio').drop([('indice', 'max'), ('indice', 'min')], axis = 'columns').set_index(['anio']).rename(columns={'indice': 'indice_max'})

Unnamed: 0_level_0,indice_max,pais
anio,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,90.3,Cuba
2002,97.83,Cuba
2003,35826.0,Argentina
2004,87.0,Cuba
2005,95.0,Cuba
2006,96.17,Cuba
2007,88.33,Cuba
2008,94.0,Cuba
2009,78.0,Cuba
2012,71.64,Cuba


In [57]:
# Análogo a lo anterior
df_temp[mask2].sort_values('anio').drop([('indice', 'max'), ('indice', 'min')], axis = 'columns').set_index(['anio']).rename(columns={'indice': 'indice_min'})

Unnamed: 0_level_0,indice_min,pais
anio,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,0.8,Canadá
2002,1.0,Trinidad y Tobago
2003,2.0,Trinidad y Tobago
2004,2.0,Trinidad y Tobago
2005,4.5,Bolivia
2005,4.5,Canadá
2006,4.88,Canadá
2007,3.33,Canadá
2008,3.7,Canadá
2009,6.75,Estados Unidos


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [17]:
# Respuesta 5)

df_pivot = df.pivot_table(
    index = 'codigo_iso',
    columns = 'anio',
    values = 'indice',
    fill_value = 0
)

df_pivot

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
