<a href="https://colab.research.google.com/github/fralfaro/MAT281_2022/blob/main/labs/lab_03/lab_03.ipynb
" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/). 

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [None]:
import numpy as np 
import pandas as pd

from os import listdir
from os.path import isfile, join

In [None]:
path ="/content/data/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ] 
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

In [None]:
df_codigos

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia
179,ZWE,Zimbabue


 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:
 
1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.
 
> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [None]:
# respuesta para la a)
frames= []
for name in archivos_anio:
  df_temporal= pd.read_csv(name)
  frames.append(df_temporal)
  df_anio= pd.concat(frames)
df_anio.columns= df_anio.columns.str.lower() #pasar el nombre de las columnas a minuscula 


In [None]:
#respuesta para la b 
df_codigos['codigo_iso'].value_counts(ascending= True)
for i in df_codigos.index:
  if df_codigos['pais'][i]=='malo':
    df_codigos= df_codigos.drop([i],axis=0)




In [None]:
df_codigos

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


In [None]:
#respuesta para la c)
df=pd.merge(df_anio,df_codigos,on ='codigo_iso')

In [None]:
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2002,40.17,78.0,Afghanistán
1,AFG,2005,44.25,67.0,Afghanistán
2,AFG,2014,37.44,116.0,Afghanistán
3,AFG,2009,51.67,105.0,Afghanistán
4,AFG,2008,54.25,103.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2012,38.12,117.0,Zimbabue
3056,ZWE,2019,42.23,127.0,Zimbabue
3057,ZWE,2015,40.41,118.0,Zimbabue
3058,ZWE,2018,40.53,126.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna? 
   * Describir el conjunto de datos (**hint**: .describe())
    

In [None]:
# numero de observaciones
df.shape[0]

3060

In [None]:
#numero de columnas
df.shape[1]

5

In [None]:
#nombre de las columnas
df.columns

Index(['codigo_iso', 'anio', 'indice', 'ranking', 'pais'], dtype='object')

In [None]:
#tipo de datos de las columnas
df.dtypes

codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object

In [None]:
#describir el conjunto de datos
df.describe()

Unnamed: 0,anio,indice,ranking
count,3060.0,2664.0,2837.0
mean,2009.941176,205.782316,477.930913
std,5.786024,2695.525264,6474.935347
min,2001.0,0.0,1.0
25%,2005.0,15.295,34.0
50%,2009.0,28.0,70.0
75%,2015.0,41.2275,110.0
max,2019.0,64536.0,121056.0


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [None]:
# respuesta

def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    nombres = df.columns
    lista= []
    lista2= []
    result = pd.DataFrame({'nombres': nombres})
    for i in result.index:
      valor= df[result.iloc[i]].value_counts()
      lista.append(valor.shape[0])
      no_vacio= df[result.iloc[i]].dropna()
      lista2.append(df.shape[0]-no_vacio.shape[0])
    result['elementos_distintos'] = lista
    result['elementos_vacios'] = lista2
    return result

In [None]:
# retornar 
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [None]:
# respuesta
frames= []
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA','VEN']
# filtrar
for pais in america:
  df_aux=df.loc[lambda x: x['codigo_iso']==pais]
  frames.append(df_aux)
  df_america= pd.concat(frames)
  

In [None]:
df_america['indice']

85      15.17
86      17.30
87      26.11
88      16.35
89      11.33
        ...  
2953    34.44
2954    49.10
2955    44.77
2956    46.03
2957    35.37
Name: indice, Length: 493, dtype: float64

In [None]:
#mediante groupby
df_aux2=df_america.groupby(['anio','codigo_iso']).max()
df_aux2.groupby(['anio']).indice.idxmax() #mayor indice


anio
2001    (2001, CUB)
2002    (2002, CUB)
2003    (2003, ARG)
2004    (2004, CUB)
2005    (2005, CUB)
2006    (2006, CUB)
2007    (2007, CUB)
2008    (2008, CUB)
2009    (2009, CUB)
2012    (2012, CUB)
2013    (2013, CUB)
2014    (2014, CUB)
2015    (2015, CUB)
2016            NaN
2017    (2017, CUB)
2018    (2018, CUB)
2019    (2019, CUB)
Name: indice, dtype: object

In [None]:
df_aux2.groupby(['anio']).indice.idxmin() #menor indice

anio
2001    (2001, CAN)
2002    (2002, TTO)
2003    (2003, TTO)
2004    (2004, TTO)
2005    (2005, BOL)
2006    (2006, CAN)
2007    (2007, CAN)
2008    (2008, CAN)
2009    (2009, USA)
2012    (2012, JAM)
2013    (2013, JAM)
2014    (2014, CAN)
2015    (2015, CRI)
2016            NaN
2017    (2017, CRI)
2018    (2018, JAM)
2019    (2019, JAM)
Name: indice, dtype: object

In [None]:
df_aux2

Unnamed: 0_level_0,Unnamed: 1_level_0,indice,ranking,pais
anio,codigo_iso,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2001,ARG,12.00,8.0,Argentina
2001,ATG,,,Antigua y Barbuda
2001,BLZ,,,Belize
2001,BOL,14.50,13.0,Bolivia
2001,BRA,18.80,18.0,Brasil
...,...,...,...,...
2019,SUR,16.38,20.0,Surinam
2019,TTO,24.74,39.0,Trinidad y Tobago
2019,URY,16.06,19.0,Uruguay
2019,USA,25.69,48.0,Estados Unidos


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://github.com/fralfaro/MAT281_2022/blob/main/labs/lab_03/images/img.png?raw=1" alt="Girl in a jacket" >

> **Hint**: Utilice la función **pd.pivot_table**.

In [None]:
# respuesta
df=df.fillna(0)
df_pivot= pd.pivot_table(df,index='codigo_iso',columns= 'anio',values='indice',fill_value='',aggfunc=pd.np.max)


  This is separate from the ipykernel package so we can avoid doing imports until


In [None]:
df_pivot

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0.0,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,0.0,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0.0,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0.0,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,0.0,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,0.0,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0.0,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,0.0,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0.0,36.48,35.36,36.38
