<a href="https://colab.research.google.com/github/fralfaro/MAT281_2022/blob/main/labs/lab_03/lab_03.ipynb
" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/). 

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [3]:
import numpy as np 
import pandas as pd

from os import listdir
from os.path import isfile, join

In [5]:
ruta = pd.read_csv("/content/data/libertad_prensa_2001.csv")
ruta

Unnamed: 0,CODIGO_ISO,ANIO,INDICE,RANKING
0,AFG,2001,35.5,59.0
1,AGO,2001,30.2,50.0
2,ALB,2001,,
3,AND,2001,,
4,ARE,2001,,
...,...,...,...,...
175,WSM,2001,,
176,YEM,2001,34.8,58.0
177,ZAF,2001,7.5,86.0
178,ZMB,2001,26.8,38.0


In [6]:
path = "/content/data/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ] 
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

#entrega la Ruta de cada archivo de la carpeta
#archivos_anio

#Lee el archivo
df_codigos


Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia
179,ZWE,Zimbabue


 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:
 
1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.
 
> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [15]:
# respuesta

# Parte 1
columns = pd.read_csv(archivos_anio[0]).columns.str.lower() # nombre para las columnas
df_anio = pd.DataFrame([],columns) # crea un dataframe vacio, solo con nombre de las columnas
dic = [] # agrega en un diccionario todos los dataFrame
for name in archivos_anio:
  df_auxiliar = pd.read_csv(name) #abre el archivo
  df_auxiliar.columns = df_auxiliar.columns.str.lower() # cambia el nombre de las columnas a minúsculas
  dic.append(df_auxiliar) # agrega el dataframe a un diccionario

df_anio = pd.concat(dic) # junta todos los dataframe del diccionario
df_anio
# Parte 2
valores = df_codigos['codigo_iso'].value_counts()
#print(valores)
#Indica que ZWE tiene problemas, una celda utiliza el país "malo"

filtro = df_codigos['pais'] == 'malo' # filtra para el pais "malo"
filas_elim = df_codigos.loc[filtro] # busca la fila que cumple la condición
#(filas_elim.index[0])
if np.shape(filas_elim.index)[0] != 0:
  df_codigos = df_codigos.drop(filas_elim.index[0])  #elimina la fila
print(df_codigos)

# Parte 3
df = pd.merge(df_anio, df_codigos, on='codigo_iso')
df

    codigo_iso                    pais
0          AFG             Afghanistán
1          AGO                  Angola
2          ALB                 Albania
3          AND                 Andorra
4          ARE  Emiratos Árabes Unidos
..         ...                     ...
175        WSM                   Samoa
176        YEM                   Yemen
177        ZAF               Sudáfrica
178        ZMB                  Zambia
179        ZWE                Zimbabue

[180 rows x 2 columns]


Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2006,56.50,107.0,Afghanistán
1,AFG,2019,36.55,121.0,Afghanistán
2,AFG,2002,40.17,78.0,Afghanistán
3,AFG,2003,28.25,49.0,Afghanistán
4,AFG,2012,37.36,112.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2009,39.50,81.0,Zimbabue
3056,ZWE,2001,48.30,76.0,Zimbabue
3057,ZWE,2015,40.41,118.0,Zimbabue
3058,ZWE,2008,46.50,90.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna? 
   * Describir el conjunto de datos (**hint**: .describe())
    

In [9]:
# respuesta
size = np.shape(df)
print('El número de observaciones en el conjunto de datos es de '+ str(size[0])) # imprime nro de filas
print('El número de columnas en el conjunto de datos es de '+ str(size[1])) # imprime nro de columnas
print('El nombre de las columnas es el siguiente:')
print(df.columns)
print('El tipo de objeto en cada columna es:')
df.dtypes
#imprime el conjunto de datos
print(df.describe())
print('Comentarios: se puede observar en la tabla que la media es de 205, sin embargo, la desviación estandar es muy alta, lo que se debe a que existen algunos datos con valores de índice muy grandes')
print('Más aún, como se muestra el 75% de los datos recién tiene un índice de 41.227, muy bajo en comparación al valor medio, mientras que el valor máximo es de 64536, siendo muy alto en comparación a la media similarmente')





El número de observaciones en el conjunto de datos es de 3060
El número de columnas en el conjunto de datos es de 5
El nombre de las columnas es el siguiente:
Index(['codigo_iso', 'anio', 'indice', 'ranking', 'pais'], dtype='object')
El tipo de objeto en cada columna es:
              anio        indice        ranking
count  3060.000000   2664.000000    2837.000000
mean   2009.941176    205.782316     477.930913
std       5.786024   2695.525264    6474.935347
min    2001.000000      0.000000       1.000000
25%    2005.000000     15.295000      34.000000
50%    2009.000000     28.000000      70.000000
75%    2015.000000     41.227500     110.000000
max    2019.000000  64536.000000  121056.000000
Comentarios: se puede observar en la tabla que la media es de 205, sin embargo, la desviación estandar es muy alta, lo que se debe a que existen algunos datos con valores de índice muy grandes
Más aún, como se muestra el 75% de los datos recién tiene un índice de 41.227, muy bajo en comparación 

3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [10]:
# respuesta

def resumen_df(df):
    nombres = df.columns
    ele_distintos = []
    ele_vacios = []
    for columnas in nombres:
      contador = len(df[columnas].value_counts()) # cuenta el número de elementos distintos
      ele_distintos.append(contador) # se agrega a un vector
      mask = lambda df: df[columnas].isnull()
      mask2 = df[mask]
      ele_vacios.append(np.shape(mask2)[0])
    
    result = pd.DataFrame({'nombres': nombres})
    result['elementos_distintos'] = ele_distintos
    result['elementos_vacios'] = ele_vacios
    
    return result

In [None]:
# retornar 
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [11]:
# respuesta

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

# Mediante un for
# Primero se hará una lista de los años
df_orden = df.sort_values('anio')
size = np.shape(df_orden)

anios = []
for i in range(0,size[0]):
  if df['anio'][i] not in anios:
    anios.append(df['anio'][i])
anios.sort() # se ordenan por año

cont = 0
p_max = []
p_min = []

for anio in anios:
  minimo = 100000 # Se guarda un valor muy grande, ya que en el caso de que un año no tenga información, se reconocerá este valor al final del programa y se guardará como pais NaN
  maximo = np.nan
  for i in range(0,size[0]):
    if df_orden['anio'][i] == anio and df_orden['codigo_iso'][i] in america: 
      serie_min = pd.Series([minimo, df_orden['indice'][i]]) # se agrega en una serie el valor i y el i-1 
      minimo = serie_min.min() # selecciona el menor valor de la serie
      if minimo == df_orden['indice'][i]: # se guarda el pais con menor indice
        pais_min = df_orden['pais'][i]
      serie_max = pd.Series([maximo, df_orden['indice'][i]]) # se repite el mismo procedimiento pero con los valores máximos
      maximo = serie_max.max()
      if maximo == df_orden['indice'][i]:
        pais_max = df_orden['pais'][i]
  # Se agregan los paises seleccionados a una lista
  if minimo == 100000:
    p_min.append(np.nan) # Se entrega el valor de NaN si en el año X no se tiene información de los índices
    p_max.append(np.nan)
  else:
    p_min.append(pais_min)
    p_max.append(pais_max)

# Se escribe la información como un DataFrame
serie = pd.DataFrame({'anio': anios, 'mín':p_min, 'máx': p_max})
serie



Unnamed: 0,anio,mín,máx
0,2001,Canadá,Cuba
1,2002,Trinidad y Tobago,Cuba
2,2003,Trinidad y Tobago,Argentina
3,2004,Trinidad y Tobago,Cuba
4,2005,Canadá,Cuba
5,2006,Canadá,Cuba
6,2007,Canadá,Cuba
7,2008,Canadá,Cuba
8,2009,Estados Unidos,Cuba
9,2012,Jamaica,Cuba


In [12]:
# Mediante un groupby

def min_max(x): # función a la cual se le ingresa un grupo de valores, y busca el mayor y menor indice
#entrega los nombres de los países
  # Calcula el indice minimo y máximo
  min = x['indice'].min() # busca el valor minimo y máximo
  max = x['indice'].max()
  mask_min = (x['indice'] == min) # Encuentra el pais con el valor mínimo y máximo encontrado
  mask_max = (x['indice'] == max)

  names = {'mín': x[mask_min]['pais'].values, 'máx': x[mask_max]['pais'].values} # define los valores 
  return pd.Series(names, index=['mín','máx']) # entrega los valores como un dataFrame

df_america = df[df.codigo_iso.isin(america)] # define un dataframe con los elementos de codigo_iso que esten en la lista america
df_america = df_america.groupby("anio") # agrupa por año
df_min_max = df_america.apply(min_max).reset_index()
df_min_max

Unnamed: 0,anio,mín,máx
0,2001,[Canadá],[Cuba]
1,2002,[Trinidad y Tobago],[Cuba]
2,2003,[Trinidad y Tobago],[Argentina]
3,2004,[Trinidad y Tobago],[Cuba]
4,2005,"[Bolivia, Canadá]",[Cuba]
5,2006,[Canadá],[Cuba]
6,2007,[Canadá],[Cuba]
7,2008,[Canadá],[Cuba]
8,2009,[Estados Unidos],[Cuba]
9,2012,[Jamaica],[Cuba]


In [13]:
# Comentario: 
# Al utilizar el método de groupby éste es mejor, ya que para que el caso del año 2005
# se muestran los dos años que tienen el mismo valor, al utilizar los for, éste programa
# muestra el último valor almacenado

5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://github.com/fralfaro/MAT281_2022/blob/main/labs/lab_03/images/img.png?raw=1" alt="Girl in a jacket" >

> **Hint**: Utilice la función **pd.pivot_table**.

In [14]:
# respuesta
#df = df.sort_values('codigo_iso')
df['indice'].fillna(0, inplace = True)
df_pivot = df.pivot_table(index = 'codigo_iso', columns = 'anio', values = 'indice')
df_pivot



anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0.0,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,0.0,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0.0,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0.0,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,0.0,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,0.0,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0.0,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,0.0,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0.0,36.48,35.36,36.38
