<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [167]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [168]:
import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

In [169]:
path='/content/drive/MyDrive/Datos_Aplica/libertad_prensa/'

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
df_codigo = pd.read_csv(path + 'libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [191]:
anios=[]
for name in archivos_anio:
  anios.append(pd.read_csv(name))
df_anio=pd.concat(anios)
df_anio.columns=df_anio.columns.str.lower()

recorremos los archivos y creamos una lista con estos, luego leemos cada archivo y lo agregamos a la lista $\textit{anios}$ para ultimo quedar con un archivo con todos los datos. Dejamas en minúscula los nombres de las columnas

In [192]:
df_codigo['codigo_iso'].value_counts()

ZWE    2
MRT    1
MWI    1
MYS    1
NAM    1
      ..
GMB    1
GNB    1
GNQ    1
GRC    1
KWT    1
Name: codigo_iso, Length: 180, dtype: int64

Notemos que el comando value_counts() nos cuenta los valores repetidos y lo ordena de mayor a menor. Notamos que el dato duplicado es ZWE

In [201]:
df_codigo=df_codigo.drop_duplicates()
a=0
for i in range(0,len(df_codigo['codigo_iso'].isnull())):
  a+=1
  if df_codigo['codigo_iso'].isnull()[i]==True:
    df=df_codigo.drop([b-1],axis=0)
df_codigo=df
df_codigo

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


Con drop_duplicates() borramos el dato duplicado. Usando el $\textit{for}$ vemos cual es el dato nulo y borramos su fila correspondiente, para que darnos con los datos unicos

In [329]:
df=pd.merge(df_anio,df_codigo,on='codigo_iso')
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2019,36.55,121.0,Afghanistán
1,AFG,2016,,114.0,Afghanistán
2,AFG,2018,37.28,118.0,Afghanistán
3,AFG,2017,39.46,120.0,Afghanistán
4,AFG,2014,37.44,116.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2001,48.30,76.0,Zimbabue
3056,ZWE,2005,50.00,77.0,Zimbabue
3057,ZWE,2004,64.25,97.0,Zimbabue
3058,ZWE,2003,67.50,108.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [214]:
df.shape[0]

3060

In [216]:
df.shape[1]

5

In [228]:
df.columns

Index(['codigo_iso', 'anio', 'indice', 'ranking', 'pais'], dtype='object')

In [226]:
df.dtypes

codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object

In [234]:
df.describe(include='all')

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
count,3060,3060.0,2664.0,2837.0,3060
unique,180,,,,179
top,AFG,,,,Nigeria
freq,17,,,,34
mean,,2009.941176,205.782316,477.930913,
std,,5.786024,2695.525264,6474.935347,
min,,2001.0,0.0,1.0,
25%,,2005.0,15.295,34.0,
50%,,2009.0,28.0,70.0,
75%,,2015.0,41.2275,110.0,


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [356]:
# respuesta

def resumen_df(df):

    result = pd.DataFrame({'nombres': df.columns})
    result['elementos_distintos']=list(df.nunique())
    result['elementos_vacios'] = list(df.isnull().sum())

    return result

In [362]:
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [517]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df[df['codigo_iso'].isin(america)]
df_america.groupby(['anio']).max().reset_index()
df_america[df_america['indice'].isin([90.30])]

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
675,CUB,2001,90.3,99.0,Cuba


In [None]:
df_america.groupby(['anio','codigo_iso']).describe()

In [422]:
df_america

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
85,ARG,2019,28.30,57.0,Argentina
86,ARG,2016,,47.0,Argentina
87,ARG,2018,26.05,52.0,Argentina
88,ARG,2017,25.07,50.0,Argentina
89,ARG,2014,26.11,52.0,Argentina
...,...,...,...,...,...
2953,VEN,2001,25.00,34.0,Venezuela
2954,VEN,2005,29.00,51.0,Venezuela
2955,VEN,2004,23.00,39.0,Venezuela
2956,VEN,2003,24.63,43.0,Venezuela


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [364]:
df.pivot_table(index='pais', columns='anio', values='indice', fill_value=0, aggfunc=np.max)

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Afghanistán,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
Albania,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
Alemania,1.5,1.33,2.00,4.00,5.50,5.75,4.50,3.50,4.25,10.24,10.23,11.47,14.80,14.97,14.39,14.60
Algeria,31.0,33.00,43.50,40.33,40.00,40.50,31.33,49.56,47.33,36.54,36.26,36.63,41.69,42.83,43.13,45.75
Andorra,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Vietnam,81.3,89.17,86.88,73.25,67.25,79.25,86.17,81.67,75.75,71.78,72.36,72.63,74.27,73.96,75.05,74.93
West Bank y Gaza,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,42.90,42.96,44.68
Yemen,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
Zambia,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
