<a href="https://colab.research.google.com/github/fralfaro/MAT281_2022/blob/main/labs/lab_03/lab_03.ipynb
" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/). 

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [1]:
import numpy as np 
import pandas as pd

from os import listdir
from os.path import isfile, join

In [2]:
path = "/content/data/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ] 
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:
 
1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.
 
> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [3]:
# respuesta a)
lista = []                                      #lista de archivos con informacion de libertad de pensa por año
for name in archivos_anio:                      #ciclo for para añadir los nombres de los archivos
    df_temporal=pd.read_csv(name)
    lista.append(df_temporal)
df_anio = pd.concat(lista)                      #creacion del archivo con la informacion de cada año
df_anio.columns = df_anio.columns.str.lower()   #se coloca en minuscula las columnas
df_anio

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2002,40.17,78.0
1,AGO,2002,28.00,46.0
2,ALB,2002,6.50,100.0
3,AND,2002,,
4,ARE,2002,37.00,68.0
...,...,...,...,...
175,WSM,2013,22.02,29.0
176,YEM,2013,67.26,161.0
177,ZAF,2013,23.19,31.0
178,ZMB,2013,30.89,82.0


In [4]:
#respuesta b)
print(f"Repeticiones de los datos:\n {df_codigos['codigo_iso'].value_counts()}")          #busqueda del dato repetido
mask1 = (df_codigos['codigo_iso']=='ZWE')                                                 #mascara para ver datos repetidos
print(f"\nInformacion de datos repetidos:\n {df_codigos[mask1]}")                         #ver la informacion de los datos repetidos y ver el criterio del dato a eliminar
mask2 = (df_codigos['pais']!='malo')                                                      #mascara para mantenerr los datos a conservar
df_codigo = df_codigos[mask2]                                                             #informacion sin el dato duplicado
df_codigo

Repeticiones de los datos:
 ZWE    2
MRT    1
MWI    1
MYS    1
NAM    1
      ..
GMB    1
GNB    1
GNQ    1
GRC    1
KWT    1
Name: codigo_iso, Length: 180, dtype: int64

Informacion de datos repetidos:
     codigo_iso      pais
179        ZWE  Zimbabue
180        ZWE      malo


Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


In [5]:
#respuesta c)
df = pd.merge(df_anio, df_codigo, how='left', on=['codigo_iso'])
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2002,40.17,78.0,Afghanistán
1,AGO,2002,28.00,46.0,Angola
2,ALB,2002,6.50,100.0,Albania
3,AND,2002,,,Andorra
4,ARE,2002,37.00,68.0,Emiratos Árabes Unidos
...,...,...,...,...,...
3055,WSM,2013,22.02,29.0,Samoa
3056,YEM,2013,67.26,161.0,Yemen
3057,ZAF,2013,23.19,31.0,Sudáfrica
3058,ZMB,2013,30.89,82.0,Zambia


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna? 
   * Describir el conjunto de datos (**hint**: .describe())
    

In [6]:
# respuesta
print(f"El numero de observacionde en el conjunto de datos son: {df.shape[0]} \n")
print(f"El numero de columnas en el conjunto de datos son: {df.shape[1]} \n")
print("El nombre de todas las columnas del conjunto de datos y su respectivo de tipo de datos son: \n")
print(df.dtypes)
print("La siguiente tabla describe este conjunto de datos: \n")
df.describe(include='all')


El numero de observacionde en el conjunto de datos son: 3060 

El numero de columnas en el conjunto de datos son: 5 

El nombre de todas las columnas del conjunto de datos y su respectivo de tipo de datos son: 

codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object
La siguiente tabla describe este conjunto de datos: 



Unnamed: 0,codigo_iso,anio,indice,ranking,pais
count,3060,3060.0,2664.0,2837.0,3060
unique,180,,,,179
top,AFG,,,,Nigeria
freq,17,,,,34
mean,,2009.941176,205.782316,477.930913,
std,,5.786024,2695.525264,6474.935347,
min,,2001.0,0.0,1.0,
25%,,2005.0,15.295,34.0,
50%,,2009.0,28.0,70.0,
75%,,2015.0,41.2275,110.0,


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [7]:
# respuesta
def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    nombres = df.columns
    result = pd.DataFrame({'nombre':nombres})
    list_elem_dist = []
    list_num_elem_dist = []
    list_num_elem_void = []
    for columna in nombres:                                                                   #ciclo for para obtener los nombres de la columna a analizar
      temporal = df[columna]                                                                  #columna a analizar del conjunto de datos
      null_temporal = temporal[temporal.isnull()]                                             #seccion de la columna analizada con elementos vacios
      class_temporal = temporal[temporal.notnull()].unique()                                  #obtencion de los diferentes elementos en la columna analizada
      list_elem_dist.append(class_temporal)
      list_num_elem_dist.append(class_temporal.size)
      list_num_elem_void.append(null_temporal.size)
    result['numero_elementos_distintos'] = list_num_elem_dist
    result['elementos_distintos'] = list_elem_dist
    result['numero_elementos_vacios'] = list_num_elem_void
    return result



In [8]:
# retornar 
resumen_df(df)

Unnamed: 0,nombre,numero_elementos_distintos,elementos_distintos,numero_elementos_vacios
0,codigo_iso,180,"[AFG, AGO, ALB, AND, ARE, ARG, ARM, ATG, AUS, ...",0
1,anio,17,"[2002, 2005, 2014, 2009, 2008, 2017, 2016, 200...",0
2,indice,1550,"[40.17, 28.0, 6.5, 37.0, 15.17, 25.17, 9.25, 2...",396
3,ranking,193,"[78.0, 46.0, 100.0, 68.0, 15.0, 39.0, 118.0, 3...",223
4,pais,179,"[Afghanistán, Angola, Albania, Andorra, Emirat...",0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [31]:
# respuesta

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df[df.codigo_iso.isin(america)]
df_america = df_america.sort_values('anio')
anios = df_america['anio'].unique()

print("Usando un ciclo for, se tiene que: \n")
for anio in anios:                                                          #usando ciclo for para obtener las cosas solicitadas por año
  mask_temporal = (df_america['anio']==anio)                                #mascara para tomar los datos del año a considerar
  temporal = df_america[mask_temporal]
  temporal = temporal.sort_values('indice')                                 #ordenamiento de los datos del año a considerar de menor a mayor por indice
  min_pais = temporal['pais'].iloc[0]                                       #pais con menor indice en el año a considerar
  temporal = temporal.sort_values('indice', ascending=False)                #ordenamiento de los datos del año a considerar de mayor a menor por indice
  max_pais = temporal['pais'].iloc[0]                                       #pais con mayor indice en el año a considerar
  print("En el año", anio, "los paises latinomaericanos con mayor y menor indice respectivamente son:", max_pais,",", min_pais)

print("\n Usando groupby, se tiene que los paises latinoamericano por año con mayor indice son: \n")
max_indice = df_america.groupby('anio').indice.max()                                                                                              #obtencion del maximo indice por año
df_america_max = df_america.merge(max_indice, on='anio', suffixes=('','_max'))                                                                    #union del archivo df_america con el maximo indice por año
df_america_max = df_america_max[df_america_max.indice==df_america_max.indice_max].drop(['codigo_iso','indice','ranking','indice_max'], axis=1)    #identificacion de los paises latinoamericanos con maximo indice por año
print(df_america_max)
print("\n Usando groupby, se tiene que los paise latinoamericanos por año con menor indice son: \n")
min_indice=df_america.groupby('anio').indice.min()                                                                                                #obtencion del minimo indice por año
df_america_min = df_america.merge(min_indice, on='anio', suffixes=('','_min'))                                                                    #union del archivo df_america con el minimo indice por año
df_america_min = df_america_min[df_america_min.indice==df_america_min.indice_min].drop(['codigo_iso','indice','ranking','indice_min'], axis=1)    #identificacion de los paises latinoamericanos con minimo indice por año
print(df_america_min)



Usando un ciclo for, se tiene que: 

En el año 2001 los paises latinomaericanos con mayor y menor indice respectivamente son: Cuba , Canadá
En el año 2002 los paises latinomaericanos con mayor y menor indice respectivamente son: Cuba , Trinidad y Tobago
En el año 2003 los paises latinomaericanos con mayor y menor indice respectivamente son: Argentina , Trinidad y Tobago
En el año 2004 los paises latinomaericanos con mayor y menor indice respectivamente son: Cuba , Trinidad y Tobago
En el año 2005 los paises latinomaericanos con mayor y menor indice respectivamente son: Cuba , Canadá
En el año 2006 los paises latinomaericanos con mayor y menor indice respectivamente son: Cuba , Canadá
En el año 2007 los paises latinomaericanos con mayor y menor indice respectivamente son: Cuba , Canadá
En el año 2008 los paises latinomaericanos con mayor y menor indice respectivamente son: Cuba , Canadá
En el año 2009 los paises latinomaericanos con mayor y menor indice respectivamente son: Cuba , Estad

5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://github.com/fralfaro/MAT281_2022/blob/main/labs/lab_03/images/img.png?raw=1" alt="Girl in a jacket" >

> **Hint**: Utilice la función **pd.pivot_table**.

In [10]:
# respuesta
df1=df.fillna(0)
df_pivot=df1.pivot_table(index="codigo_iso", columns= "anio", values= "indice", fill_value= '', aggfunc=pd.np.max)
df_pivot

  This is separate from the ipykernel package so we can avoid doing imports until


anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0.0,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,0.0,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0.0,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0.0,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,0.0,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,0.0,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0.0,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,0.0,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0.0,36.48,35.36,36.38
