<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [2]:
import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
path = "/content/drive/MyDrive/libertad_prensa/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')
df_codigos

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia
179,ZWE,Zimbabue


 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [5]:
#1A
dfs = [] #lista de dataframes
for archivo in archivos_anio:
  df_temporal = pd.read_csv(archivo)
  dfs.append(df_temporal)
for anio in dfs: #normalizar el nombre de las columnas
  anio.columns = anio.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
#concatenamos por año
df_anios = pd.concat(dfs)

  anio.columns = anio.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
  anio.columns = anio.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
  anio.columns = anio.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
  anio.columns = anio.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
  anio.columns = anio.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
  anio.columns = anio.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
  anio.columns = anio.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
  anio.columns = anio.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
  anio.columns = anio.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
  anio.columns = anio.column

In [6]:
#1B
print(df_codigos['codigo_iso'].value_counts().loc[lambda x: x>1]) #encontrar el dato
df_codigos.drop_duplicates(subset=['codigo_iso'], inplace=True)
df_codigos

ZWE    2
Name: codigo_iso, dtype: int64


Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


In [7]:
#1C
#merge con df_codigos
df = pd.merge(df_anios, df_codigos, on='codigo_iso')
df



Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2012,37.36,112.0,Afghanistán
1,AFG,2015,37.75,114.0,Afghanistán
2,AFG,2003,28.25,49.0,Afghanistán
3,AFG,2009,51.67,105.0,Afghanistán
4,AFG,2005,44.25,67.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2006,62.00,115.0,Zimbabue
3056,ZWE,2014,39.19,124.0,Zimbabue
3057,ZWE,2013,39.19,124.0,Zimbabue
3058,ZWE,2019,42.23,127.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [8]:
#2
print('*HAY ',df.shape[0],' OBSERVACIONES EN EL CONJUNTO DE DATOS')
print('*HAY ',df.shape[1],' COLUMNAS EN EL CONJUNTO DE DATOS')
print('*LOS NOMBRES DE LAS COLUMNAS SON:')
for i in range(df.shape[1]):
  print(df.columns[i])
print('*EL TIPO DE DATO DE CADA COLUMNA ES: \n', df.dtypes)
print('*DESCRIBIENDO EL CONJUNTO DE DATOS:')
df.describe()


*HAY  3060  OBSERVACIONES EN EL CONJUNTO DE DATOS
*HAY  5  COLUMNAS EN EL CONJUNTO DE DATOS
*LOS NOMBRES DE LAS COLUMNAS SON:
codigo_iso
anio
indice
ranking
pais
*EL TIPO DE DATO DE CADA COLUMNA ES: 
 codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object
*DESCRIBIENDO EL CONJUNTO DE DATOS:


Unnamed: 0,anio,indice,ranking
count,3060.0,2664.0,2837.0
mean,2009.941176,205.782316,477.930913
std,5.786024,2695.525264,6474.935347
min,2001.0,0.0,1.0
25%,2005.0,15.295,34.0
50%,2009.0,28.0,70.0
75%,2015.0,41.2275,110.0
max,2019.0,64536.0,121056.0


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [9]:
# 3
def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """


    nombres = df.columns
    l_unicos = []
    l_vacios = []

    for nombre in nombres:
      l_unicos.append(len(df[nombre].unique()))

    for nombre in nombres:
      temp = df[df[nombre].isnull()] #lista que contiene los vacios de la columna
      l_vacios.append(len(temp))

    result = pd.DataFrame({'nombres': nombres})
    result['elementos_distintos'] = l_unicos
    result['elementos_vacios'] = l_vacios

    return result

In [10]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1551,396
3,ranking,194,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [11]:
#CON UN CICLO FOR
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']
l_mayor = []
l_menor = []
anos = df['anio'].unique()
for ano in anos:
  temp_max = float('-inf')
  temp_min = float('inf')
  max_country = None
  min_country = None

  for i in range(df.shape[0]):
    if (df['anio'][i] == ano) and (df['codigo_iso'][i] in america):
      if df['indice'][i] > temp_max:
        temp_max = df['indice'][i]
        max_country = df['pais'][i]
      if df['indice'][i] < temp_min:
        temp_min = df['indice'][i]
        min_country = df['pais'][i]

  l_mayor.append(max_country)
  l_menor.append(min_country)

result = pd.DataFrame({'Año': anos})
result['Mayor índice'] = l_mayor
result['Menor índice'] = l_menor
result

Unnamed: 0,Año,Mayor índice,Menor índice
0,2012,Cuba,Jamaica
1,2015,Cuba,Costa Rica
2,2003,Argentina,Trinidad y Tobago
3,2009,Cuba,Estados Unidos
4,2005,Cuba,Bolivia
5,2016,,
6,2007,Cuba,Canadá
7,2017,Cuba,Costa Rica
8,2018,Cuba,Jamaica
9,2004,Cuba,Trinidad y Tobago


In [23]:
# CON GROUPBY

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']


df = pd.merge(df_anios, df_codigos, on='codigo_iso') #definimos df
df_latam = df[df['codigo_iso'].isin(america)] #filtrar latam

min_indice = df_latam.groupby('anio').indice.min()
data_min = df_latam.merge(min_indice, on='anio', suffixes=('','_min'))
data_min= data_min[data_min.indice==data_min.indice_min].drop(['indice_min','codigo_iso','ranking',], axis=1)


max_indice = df_latam.groupby('anio').indice.max()
data_max = df_latam.merge(max_indice, on='anio', suffixes=('','_max'))
data_max= data_max[data_max.indice==data_max.indice_max].drop(['indice_max','codigo_iso','ranking',], axis=1)



In [27]:
data_min


Unnamed: 0,anio,indice,pais
17,2012,9.88,Jamaica
37,2015,11.1,Costa Rica
83,2003,2.0,Trinidad y Tobago
114,2009,6.75,Estados Unidos
119,2005,4.5,Bolivia
121,2005,4.5,Canadá
179,2007,3.33,Canadá
211,2017,11.93,Costa Rica
249,2018,11.33,Jamaica
286,2004,2.0,Trinidad y Tobago


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [14]:
df_pivot = df.pivot_table(
    index = "codigo_iso",
    columns = "anio",
    values = "indice",
    fill_value = 0

)



In [15]:
df_pivot

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
