<a href="https://colab.research.google.com/github/fralfaro/MAT281_2022/blob/main/labs/lab_03/lab_03.ipynb
" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/). 

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [1]:
import numpy as np 
import pandas as pd

from os import listdir
from os.path import isfile, join

In [2]:
path = "/content/data/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ] 
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:
 
1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.
 
> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [3]:

for name in archivos_anio:
    print(name)

/content/data/libertad_prensa_2006.csv
/content/data/libertad_prensa_2018.csv
/content/data/libertad_prensa_2017.csv
/content/data/libertad_prensa_2009.csv
/content/data/libertad_prensa_2007.csv
/content/data/libertad_prensa_2013.csv
/content/data/libertad_prensa_2002.csv
/content/data/libertad_prensa_2016.csv
/content/data/libertad_prensa_2008.csv
/content/data/libertad_prensa_2015.csv
/content/data/libertad_prensa_2001.csv
/content/data/libertad_prensa_2003.csv
/content/data/libertad_prensa_2014.csv
/content/data/libertad_prensa_2004.csv
/content/data/libertad_prensa_2019.csv
/content/data/libertad_prensa_2005.csv
/content/data/libertad_prensa_2012.csv


In [4]:
#creamos el dataframe con la información de todos los años
anios = []
for name in archivos_anio:
  df_temp = pd.read_csv(name)
  anios.append(df_temp)

df_anio = pd.concat(anios)
df_anio

Unnamed: 0,CODIGO_ISO,ANIO,INDICE,RANKING
0,AFG,2006,56.50,107.0
1,AGO,2006,26.50,55.0
2,ALB,2006,25.50,53.0
3,AND,2006,,
4,ARE,2006,20.25,35.0
...,...,...,...,...
175,WSM,2012,23.84,34.0
176,YEM,2012,69.22,158.0
177,ZAF,2012,24.56,38.0
178,ZMB,2012,27.93,57.0


In [5]:
#cambiamos los nombres de las columnas de df_anio a minúsculas
columnas = df_anio.columns
df_anio = df_anio.rename(columns={columnas[0]:columnas[0].lower(),columnas[1]:columnas[1].lower(),columnas[2]:columnas[2].lower(),columnas[3]:columnas[3].lower()})
df_anio

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2006,56.50,107.0
1,AGO,2006,26.50,55.0
2,ALB,2006,25.50,53.0
3,AND,2006,,
4,ARE,2006,20.25,35.0
...,...,...,...,...
175,WSM,2012,23.84,34.0
176,YEM,2012,69.22,158.0
177,ZAF,2012,24.56,38.0
178,ZMB,2012,27.93,57.0


In [6]:
#eliminamos el dato repetido en df_codigos
conteo = df_codigos["codigo_iso"].value_counts()
mask = []
(n_filas, n_cols) = df_codigos.shape
for i in range(n_filas):
  if conteo[df_codigos["codigo_iso"][i]] > 1:     #chequeamos que efectivamente esté repetido
    if df_codigos["pais"][i] == "malo":           #reemplazamos el dato malo
      mask.append(False)
    else:
      mask.append(True)
  else:
    mask.append(True)

df_codigos = df_codigos[mask]
df_codigos["codigo_iso"].value_counts()


AFG    1
MRT    1
MWI    1
MYS    1
NAM    1
      ..
GMB    1
GNB    1
GNQ    1
GRC    1
ZWE    1
Name: codigo_iso, Length: 180, dtype: int64

In [7]:
df = pd.merge(df_codigos,df_anio)
df

Unnamed: 0,codigo_iso,pais,anio,indice,ranking
0,AFG,Afghanistán,2006,56.50,107.0
1,AFG,Afghanistán,2018,37.28,118.0
2,AFG,Afghanistán,2017,39.46,120.0
3,AFG,Afghanistán,2009,51.67,105.0
4,AFG,Afghanistán,2007,59.25,92.0
...,...,...,...,...,...
3055,ZWE,Zimbabue,2014,39.19,124.0
3056,ZWE,Zimbabue,2004,64.25,97.0
3057,ZWE,Zimbabue,2019,42.23,127.0
3058,ZWE,Zimbabue,2005,50.00,77.0


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna? 
   * Describir el conjunto de datos (**hint**: .describe())
    

In [8]:
# respuesta
(n_obs, n_cols) = df.shape
print("Hay", n_obs, "observaciones en el conjunto de datos")
print("Hay", n_cols, "columnas en el conjunto de datos")
print("Las columnas del conjunto de datos y su respectivo tipo son:")
df.dtypes


Hay 3060 observaciones en el conjunto de datos
Hay 5 columnas en el conjunto de datos
Las columnas del conjunto de datos y su respectivo tipo son:


codigo_iso     object
pais           object
anio            int64
indice        float64
ranking       float64
dtype: object

In [9]:
df.describe()

Unnamed: 0,anio,indice,ranking
count,3060.0,2664.0,2837.0
mean,2009.941176,205.782316,477.930913
std,5.786024,2695.525264,6474.935347
min,2001.0,0.0,1.0
25%,2005.0,15.295,34.0
50%,2009.0,28.0,70.0
75%,2015.0,41.2275,110.0
max,2019.0,64536.0,121056.0


Es claro que hay datos malos en las observaciones

3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [10]:
# respuesta

def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    (a,b)=df.shape
    nombres = df.columns
    distintos = []
    vacios = []
    for nombre in nombres:
      curr_elements = []
      d = 0                                         #contador elementos distintos
      v = 0                                         #contador elementos vacios
      for i in range(a):
        if df[nombre].isnull()[i]:
          v+=1
        elif df[nombre][i] not in curr_elements:
          d+=1
          curr_elements.append(df[nombre][i])
      distintos.append(d)
      vacios.append(v)


    result = pd.DataFrame({'nombres': nombres})
    result['elementos_distintos'] = distintos
    result['elementos_vacios'] = vacios
    
    return result

In [11]:
# retornar 
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,pais,179,0
2,anio,17,0
3,indice,1550,396
4,ranking,193,223


Esto confirma nuestras sospechas (al menos para el ranking), pues hay 193 puestos distintos pero solo 180 países.
Además, dos países tienen el mismo nombre.

4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [12]:
# creamos un dataframe que solo contenga a los paises de america

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']
mask = []
for codigo in df["codigo_iso"]:
  if codigo in america:
    mask.append(True)
  else:
    mask.append(False)
df_america = df[mask]
df_america

Unnamed: 0,codigo_iso,pais,anio,indice,ranking
85,ARG,Argentina,2006,24.83,49.0
86,ARG,Argentina,2018,26.05,52.0
87,ARG,Argentina,2017,25.07,50.0
88,ARG,Argentina,2009,16.35,24.0
89,ARG,Argentina,2007,14.08,13.0
...,...,...,...,...,...
2953,VEN,Venezuela,2014,40.61,130.0
2954,VEN,Venezuela,2004,23.00,39.0
2955,VEN,Venezuela,2019,49.10,148.0
2956,VEN,Venezuela,2005,29.00,51.0


In [13]:
df_america2 = df_america.set_index(["pais","codigo_iso"])  
def max_indice(x):
  names={
      "pais": x["indice"].idxmax(),
      "ind": x["indice"].max()
  }
  return pd.Series(names, index = ["pais", "ind"])
grupo = df_america2.groupby(["anio"],as_index = False)
grupo.apply(max_indice)

Unnamed: 0,anio,pais,ind
0,2001,"(Cuba, CUB)",90.3
1,2002,"(Cuba, CUB)",97.83
2,2003,"(Argentina, ARG)",35826.0
3,2004,"(Cuba, CUB)",87.0
4,2005,"(Cuba, CUB)",95.0
5,2006,"(Cuba, CUB)",96.17
6,2007,"(Cuba, CUB)",88.33
7,2008,"(Cuba, CUB)",94.0
8,2009,"(Cuba, CUB)",78.0
9,2012,"(Cuba, CUB)",71.64


In [14]:
def min_indice(x):
  names={
      "pais": x["indice"].idxmin(),
      "ind": x["indice"].min()
  }
  return pd.Series(names, index = ["pais", "ind"])
grupo.apply(min_indice)

Unnamed: 0,anio,pais,ind
0,2001,"(Canadá, CAN)",0.8
1,2002,"(Trinidad y Tobago, TTO)",1.0
2,2003,"(Trinidad y Tobago, TTO)",2.0
3,2004,"(Trinidad y Tobago, TTO)",2.0
4,2005,"(Bolivia, BOL)",4.5
5,2006,"(Canadá, CAN)",4.88
6,2007,"(Canadá, CAN)",3.33
7,2008,"(Canadá, CAN)",3.7
8,2009,"(Estados Unidos, USA)",6.75
9,2012,"(Jamaica, JAM)",9.88


In [17]:
dic_max = {}
for anio in df_america2["anio"]:
  df_temp = df_america2.loc[lambda x: x["anio"]==anio]
  indice = df_temp["indice"].max()
  pais = df_temp["indice"].idxmax()
  dic_max[anio] = (pais, indice)

dic_max

{2006: (('Cuba', 'CUB'), 96.17),
 2018: (('Cuba', 'CUB'), 68.9),
 2017: (('Cuba', 'CUB'), 71.75),
 2009: (('Cuba', 'CUB'), 78.0),
 2007: (('Cuba', 'CUB'), 88.33),
 2013: (('Cuba', 'CUB'), 70.92),
 2002: (('Cuba', 'CUB'), 97.83),
 2016: (nan, nan),
 2008: (('Cuba', 'CUB'), 94.0),
 2015: (('Cuba', 'CUB'), 70.23),
 2001: (('Cuba', 'CUB'), 90.3),
 2003: (('Argentina', 'ARG'), 35826.0),
 2014: (('Cuba', 'CUB'), 70.21),
 2004: (('Cuba', 'CUB'), 87.0),
 2019: (('Cuba', 'CUB'), 63.81),
 2005: (('Cuba', 'CUB'), 95.0),
 2012: (('Cuba', 'CUB'), 71.64)}

In [18]:
dic_min = {}
for anio in df_america2["anio"]:
  df_temp = df_america2.loc[lambda x: x["anio"]==anio]
  indice = df_temp["indice"].min()
  pais = df_temp["indice"].idxmin()
  dic_min[anio] = (pais, indice)

dic_min

{2006: (('Canadá', 'CAN'), 4.88),
 2018: (('Jamaica', 'JAM'), 11.33),
 2017: (('Costa Rica', 'CRI'), 11.93),
 2009: (('Estados Unidos', 'USA'), 6.75),
 2007: (('Canadá', 'CAN'), 3.33),
 2013: (('Jamaica', 'JAM'), 10.9),
 2002: (('Trinidad y Tobago', 'TTO'), 1.0),
 2016: (nan, nan),
 2008: (('Canadá', 'CAN'), 3.7),
 2015: (('Costa Rica', 'CRI'), 11.1),
 2001: (('Canadá', 'CAN'), 0.8),
 2003: (('Trinidad y Tobago', 'TTO'), 2.0),
 2014: (('Canadá', 'CAN'), 10.99),
 2004: (('Trinidad y Tobago', 'TTO'), 2.0),
 2019: (('Jamaica', 'JAM'), 11.13),
 2005: (('Bolivia', 'BOL'), 4.5),
 2012: (('Jamaica', 'JAM'), 9.88)}

Vemos que los resultados coinciden, por lo que ambas formas de resolver el problema son equivalentes.

5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://github.com/fralfaro/MAT281_2022/blob/main/labs/lab_03/images/img.png?raw=1" alt="Girl in a jacket" >

> **Hint**: Utilice la función **pd.pivot_table**.

In [15]:
# respuesta
df_pivot = df.pivot_table(index="codigo_iso", columns="anio", values="indice",fill_value=0)

In [16]:
df_pivot

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
