<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [2]:
import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
path = "/content/drive/MyDrive/DatosLab/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [5]:
#a)
df_anio=[] #lista a concatenar
for archivo in archivos_anio:
  df_anio.append(pd.read_csv(archivo))
df_anio=pd.concat(df_anio)
df_anio.columns=df_anio.columns.str.lower()

In [None]:
df_anio

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2001,35.50,59.0
1,AGO,2001,30.20,50.0
2,ALB,2001,,
3,AND,2001,,
4,ARE,2001,,
...,...,...,...,...
175,WSM,2019,18.25,22.0
176,YEM,2019,61.66,168.0
177,ZAF,2019,22.19,31.0
178,ZMB,2019,36.38,119.0


In [6]:
#b) usando lo visto en clases
df_codigos['codigo_iso'].value_counts()

ZWE    2
MRT    1
MWI    1
MYS    1
NAM    1
      ..
GMB    1
GNB    1
GNQ    1
GRC    1
KWT    1
Name: codigo_iso, Length: 180, dtype: int64

In [7]:
#por tanto, ZWE tiene dos paises, veamoslo
df_codigos[lambda x: x['codigo_iso']=='ZWE']

Unnamed: 0,codigo_iso,pais
179,ZWE,Zimbabue
180,ZWE,malo


In [8]:
#eliminaremos el malo, que está en la ultima posición
df_codigos= df_codigos[0:-1] #no ejecutar más de una vez, pues terminará eliminando datos sin querer
df_codigos

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


In [9]:
#c) siguiendo el hint,
df=pd.merge(df_anio,df_codigos,on='codigo_iso')

In [None]:
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2001,35.50,59.0,Afghanistán
1,AFG,2002,40.17,78.0,Afghanistán
2,AFG,2003,28.25,49.0,Afghanistán
3,AFG,2004,39.17,62.0,Afghanistán
4,AFG,2005,44.25,67.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2015,40.41,118.0,Zimbabue
3056,ZWE,2016,,122.0,Zimbabue
3057,ZWE,2017,41.44,128.0,Zimbabue
3058,ZWE,2018,40.53,126.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [10]:
df.shape

(3060, 5)

Tenemos  3026 observaciones (que son filas) y 5 columnas

In [11]:
#imprimimos el nombre de todas las columnas.
df.columns

Index(['codigo_iso', 'anio', 'indice', 'ranking', 'pais'], dtype='object')

In [12]:
#vamos los tipos de datos
df.dtypes

codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object

Tenemos que 'codigo_iso' es un object (basicamente, es un string pero de pandas según internet), 'anio' es un int64 (entero de 64bit) , 'indice' es un float64 (numero tipo punto flotante de 64bit), 'ranking' es un float64 y 'pais' es un object.  

In [13]:
#describimos el df
df.describe(include="all")

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
count,3060,3060.0,2664.0,2837.0,3060
unique,180,,,,179
top,AFG,,,,Nigeria
freq,17,,,,34
mean,,2009.941176,205.782316,477.930913,
std,,5.786024,2695.525264,6474.935347,
min,,2001.0,0.0,1.0,
25%,,2005.0,15.295,34.0,
50%,,2009.0,28.0,70.0,
75%,,2015.0,41.2275,110.0,


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [14]:
# respuesta

def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    nombres = df.columns
    lista_ndistintos=[]
    lista_nvacios=[]
    for columna in nombres:
      lista_ndistintos.append(len(df[columna].unique()))
      lista_nvacios.append(df[columna].isnull().sum())



    result = pd.DataFrame({'nombres': nombres})
    result['elementos_distintos'] = lista_ndistintos
    result['elementos_vacios'] = lista_nvacios

    return result

In [15]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1551,396
3,ranking,194,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [99]:
# respuesta

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df[lambda x: x['codigo_iso'].isin(america)] #busque en internet, ya que x[] in america no sirve.
df_america=df_america.dropna(subset = "indice")

In [100]:

#a) ciclo for

años = df_america['anio'].unique()
dicc_max={}
dicc_min={}

for año in años:
      posicion_max=df_america[lambda x: x['anio']==año]['indice'].idxmax()
      posicion_min=df_america[lambda x: x['anio']==año]['indice'].idxmin()
      if not np.isnan(posicion_max):
          dicc_max[año]=df_america['pais'].loc[posicion_max]

      if not np.isnan(posicion_min):
          dicc_min[año]=df_america['pais'].loc[posicion_min]
df_final1=(pd.Series(dicc_max)).to_frame(name='maximo')

df_final1['minimo']=pd.Series(dicc_min)
df_final1

Unnamed: 0,maximo,minimo
2001,Cuba,Canadá
2002,Cuba,Trinidad y Tobago
2003,Argentina,Trinidad y Tobago
2004,Cuba,Trinidad y Tobago
2005,Cuba,Bolivia
2006,Cuba,Canadá
2007,Cuba,Canadá
2008,Cuba,Canadá
2009,Cuba,Estados Unidos
2012,Cuba,Jamaica


In [101]:
#a) Usando groupby
grupo=df_america.groupby('anio')[['pais','indice']]
df_max=grupo.apply(lambda x: df_america['pais'].loc[x['indice'].idxmax()]).to_frame()
df_max.rename(columns={0:'maximo indice'})
df_min=grupo.apply(lambda x: df_america['pais'].loc[x['indice'].idxmin()]).to_frame()
df_min.rename(columns={0:'minimo indice'})
df_america_final = pd.merge(df_min,df_max,on='anio')
df_america_final.rename(columns={'0_x':'min indice','0_y':'max indice'})

Unnamed: 0_level_0,min indice,max indice
anio,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,Canadá,Cuba
2002,Trinidad y Tobago,Cuba
2003,Trinidad y Tobago,Argentina
2004,Trinidad y Tobago,Cuba
2005,Bolivia,Cuba
2006,Canadá,Cuba
2007,Canadá,Cuba
2008,Canadá,Cuba
2009,Estados Unidos,Cuba
2012,Jamaica,Cuba


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [98]:
df_pivoteado=df.pivot_table(index='codigo_iso',columns='anio', values='indice', fill_value=0, aggfunc = np.max)
df_pivoteado

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
