<a href="https://colab.research.google.com/github/fralfaro/MAT281_2022/blob/main/labs/lab_03/lab_03.ipynb
" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/). 

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [None]:
#Importar librerias a utilizar
import numpy as np 
import pandas as pd

from os import listdir
from os.path import isfile, join

In [None]:
#Ruta donde se encuentran los archivos
path = "/content/data/"
#DataFrames
archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ] 
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:
 
1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.
 
> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

1)a)Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.

In [None]:
# respuesta
#Crear dataframe df_anio.
frames = list()
for name in archivos_anio:
  df_temporal = pd.read_csv(name)
  frames.append(df_temporal)
df_anio = pd.concat(frames)

In [None]:
#Normalizar nombre de las columnas a minusculas.
df_anio_n = df_anio.columns.str.lower()

In [None]:
#Cambiar el nombre de las columnas a minusculas. 
df_anio = df_anio.rename(columns={"CODIGO_ISO": "codigo_iso", "ANIO": "anio", "INDICE": "indice", "RANKING": "ranking"})
print('df_anio:')
df_anio.head()

df_anio:


Unnamed: 0,codigo_iso,anio,indice,ranking
90,KWT,2001,25.5,35.0
2,ALB,2001,,
3,AND,2001,,
4,ARE,2001,,
5,ARG,2001,12.0,8.0


In [None]:
#Reordena la culumna anio de menor a mayor.
df_anio = df_anio.sort_values("anio")
print('df_anio:')
df_anio.head()

df_anio:


Unnamed: 0,codigo_iso,anio,indice,ranking
90,KWT,2001,25.5,35.0
2,ALB,2001,,
3,AND,2001,,
4,ARE,2001,,
5,ARG,2001,12.0,8.0


1)b)Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.

In [None]:
#Mirar archivo df_codigo
print('df_codigos:')
df_codigos

df_codigos:


Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


In [None]:
#Eliminar el último dato duplicado.
df_codigos = df_codigos.drop_duplicates(subset=['codigo_iso'], keep='first')
print('df_codigos:')
df_codigos

df_codigos:


Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


1)c)Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna codigo_iso.

In [None]:
#Crea archivo df con df_anio y df_codigos. 
left = df_codigos
right = df_anio
df = pd.merge(left, right, on='codigo_iso')
print('df:')
df

df:


Unnamed: 0,codigo_iso,pais,anio,indice,ranking
0,AFG,Afghanistán,2001,35.50,59.0
1,AFG,Afghanistán,2002,40.17,78.0
2,AFG,Afghanistán,2003,28.25,49.0
3,AFG,Afghanistán,2004,39.17,62.0
4,AFG,Afghanistán,2005,44.25,67.0
...,...,...,...,...,...
3055,ZWE,Zimbabue,2015,40.41,118.0
3056,ZWE,Zimbabue,2016,,122.0
3057,ZWE,Zimbabue,2017,41.44,128.0
3058,ZWE,Zimbabue,2018,40.53,126.0


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna? 
   * Describir el conjunto de datos (**hint**: .describe())
    

In [None]:
#Encontrar número de observaciones en el conjunto de datos.
observaciones = 0
observaciones = df.shape[0]*df.shape[1]
print("Cantidad de observaciones:")
print(observaciones)

Cantidad de observaciones:
15300


In [None]:
#Número de columnas.
print("número de columnas:")
print(df.shape[1])

número de columnas:
5


In [None]:
#Imprimir nombre de columnas.
print("nombre de columnas:")
print(df.columns)

nombre de columnas:
Index(['codigo_iso', 'pais', 'anio', 'indice', 'ranking'], dtype='object')


In [None]:
#Tipo de dato de cada columna.
print("tipos de datos:")
print(df.dtypes)

tipos de datos:
codigo_iso     object
pais           object
anio            int64
indice        float64
ranking       float64
dtype: object


In [None]:
#Describe el conjunto de datos.
print("descripción:")
df.describe(include = 'all')

descripción:


Unnamed: 0,codigo_iso,pais,anio,indice,ranking
count,3060,3060,3060.0,2664.0,2837.0
unique,180,179,,,
top,AFG,Nigeria,,,
freq,17,34,,,
mean,,,2009.941176,205.782316,477.930913
std,,,5.786024,2695.525264,6474.935347
min,,,2001.0,0.0,1.0
25%,,,2005.0,15.295,34.0
50%,,,2009.0,28.0,70.0
75%,,,2015.0,41.2275,110.0


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [None]:
# respuesta
def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    nombres = df.columns
    
    result = pd.DataFrame({'nombres': nombres})
    distintos = list()
    vacios = list()
    for column in df:
      lista= list(df.columns.values)
      for i in range(len(nombres)):
        distintos.append(df[nombres[i]].values.unique())
        vacios.append(df[nombres[i]].values.isna().sum())

    result['elementos_distintos'] = distintos
    result['elementos_vacios'] = vacios
    
    return result

In [None]:
# retornar 
resumen_df(df)

AttributeError: ignored

4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [None]:
# respuesta
#Filtrar solo paises latinoamericanos.
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']
#Crear df_america para filtrar el DataFreame df para solo paises latino americanos.
df_america = df[df.codigo_iso.isin(america)]
df_america = df_america.sort_values('anio')
print('df_america:')
df_america

df_america:


Unnamed: 0,codigo_iso,pais,anio,indice,ranking
85,ARG,Argentina,2001,12.00,8.0
2907,USA,Estados Unidos,2001,4.80,66.0
340,BLZ,Belize,2001,,
799,ECU,Ecuador,2001,5.50,78.0
1785,MEX,México,2001,24.80,33.0
...,...,...,...,...,...
2787,TTO,Trinidad y Tobago,2019,24.74,39.0
679,CUB,Cuba,2019,63.81,169.0
2481,SLV,El Salvador,2019,29.81,81.0
662,CRI,Costa Rica,2019,12.24,10.0


4)a)Mediante un ciclo for.

In [None]:
#Creación DataFrame df_indices con indices por año.
df_indices = pd.pivot_table(df, values='indice', index=['codigo_iso'],columns=['anio'], aggfunc=np.sum)
print('df_indices:')
df_indices

df_indices:


anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0.0,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,0.0,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0.0,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0.0,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,0.0,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,0.0,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0.0,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,0.0,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0.0,36.48,35.36,36.38


In [None]:
#encuentra por año el país con mayor y menor indice con ciclo for.
anios = df_america['anio'].unique()
temporal=dict()
for anio in anios:
  temporal[anio] = df[anio].values


4)b) Mediante un groupby.

In [None]:
#Creación groupby con codigo_iso e indice
grupo = df_america.groupby(['codigo_iso','indice']) 
grupo

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f829d458310>

In [None]:
#encuentra por año el país con mayor y menor indice con groupby.

5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://github.com/fralfaro/MAT281_2022/blob/main/labs/lab_03/images/img.png?raw=1" alt="Girl in a jacket" >

> **Hint**: Utilice la función **pd.pivot_table**.

In [None]:
# respuesta
#Creación DataFrame df_indices con indices por año.
df_indices = pd.pivot_table(df, values='indice', index=['codigo_iso'],columns=['anio'], aggfunc=np.sum)
print('df_indices:')
df_indices

df_indices:


anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0.0,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,0.0,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0.0,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0.0,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,0.0,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,0.0,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0.0,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,0.0,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0.0,36.48,35.36,36.38
