<a href="https://colab.research.google.com/github/fralfaro/MAT281_2024/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°032


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_01.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula (antes del año 2010).
* **libertad_prensa_02.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula (después del año 2010).




In [151]:
import numpy as np
import pandas as pd

# lectura de datos
archivos_anio = [
    'https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_01.csv',
    'https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_02.csv'
 ]
df_codigos = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [152]:
# (1.a)
df_anio1=pd.read_csv(archivos_anio[0])
df_anio2=pd.read_csv(archivos_anio[1])
df_anio=pd.concat([df_anio1,df_anio2],ignore_index=True).rename(str.lower,axis='columns')
df_anio

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2001,35.50,59.0
1,AGO,2001,30.20,50.0
2,ALB,2001,,
3,AND,2001,,
4,ARE,2001,,
...,...,...,...,...
3055,WSM,2019,18.25,22.0
3056,YEM,2019,61.66,168.0
3057,ZAF,2019,22.19,31.0
3058,ZMB,2019,36.38,119.0


In [153]:
# (1.b)
df_codigos=df_codigos.drop_duplicates(subset='codigo_iso')
df_codigos

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


In [154]:
# (1.c)
df=pd.merge(df_anio,df_codigos,on='codigo_iso')
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2001,35.50,59.0,Afghanistán
1,AFG,2002,40.17,78.0,Afghanistán
2,AFG,2003,28.25,49.0,Afghanistán
3,AFG,2004,39.17,62.0,Afghanistán
4,AFG,2005,44.25,67.0,Afghanistán
...,...,...,...,...,...
3055,ZWE,2015,40.41,118.0,Zimbabue
3056,ZWE,2016,,122.0,Zimbabue
3057,ZWE,2017,41.44,128.0,Zimbabue
3058,ZWE,2018,40.53,126.0,Zimbabue


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [305]:
#Numero de observaciones
numObs=df.shape[0]
print("Numero de observaciones:",numObs)

#Numero de columnas
numCol=df.shape[1]
print("Numero de columnas:",numCol)

#Nombres de columnas
nomCol=df.columns.tolist()
print("Nombres de columnas:",nomCol)

#Tipos de dato de columnas
colType=df.dtypes.tolist()
print("Tipos de dato de columnas:",colType)

#Descripcion del conjunto de datos
print("\nDescripcion del conjunto de datos:")
df.describe()

Numero de observaciones: 3060
Numero de columnas: 5
Nombres de columnas: ['codigo_iso', 'anio', 'indice', 'ranking', 'pais']
Tipos de dato de columnas: [dtype('O'), dtype('int64'), dtype('float64'), dtype('float64'), dtype('O')]

Descripcion del conjunto de datos:


Unnamed: 0,anio,indice,ranking
count,3060.0,2664.0,2837.0
mean,2009.941176,205.782316,477.930913
std,5.786024,2695.525264,6474.935347
min,2001.0,0.0,1.0
25%,2005.0,15.295,34.0
50%,2009.0,28.0,70.0
75%,2015.0,41.2275,110.0
max,2019.0,64536.0,121056.0


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [304]:
# respuesta
def resumen_df(df):
    """
    Función para generar un resumen de un DataFrame que incluye
    el número de elementos distintos y vacíos por columna.

    Args:
    df (pd.DataFrame): DataFrame a resumir.

    Returns:
    pd.DataFrame: DataFrame resumen con el nombre de las columnas,
                  cantidad de elementos distintos y cantidad de elementos vacíos.
    """
    # Crear un DataFrame de resultado con los nombres de las columnas
    nombres = df.columns
    result = pd.DataFrame({'nombres': nombres})

    # Calcular el número de elementos distintos por columna
    result['elementos_distintos'] = df.nunique().values

    # Calcular el número de elementos vacíos (NaN) por columna
    result['elementos_vacios'] = df.isnull().sum().values

    return result

In [157]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [303]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america =  pd.DataFrame()

In [306]:
# (4.a)
lista_anios=df['anio'].unique().tolist()
minmaxlist=[]
for anio in lista_anios:
  df_filtro_anio=df[df['anio']==anio].dropna(subset='indice') #NOTA: Aqui se filtraron fuera del dataframe los datos que tenian NaN en el indice, pues son incomparables.
  df_america_anio=df_filtro_anio[df_filtro_anio['codigo_iso'].isin(america)].sort_values(by='indice',ascending=True)
  if(df_america_anio.shape[0]!=0): #Revisar que el DataFrame tenga elementos despues de aplicar los filtros.
    minmaxlist.append([anio,df_america_anio.iloc[0]['pais'],df_america_anio.iloc[0]['indice'],df_america_anio.iloc[-1]['pais'],df_america_anio.iloc[-1]['indice']])
df_america_mayormenor=pd.DataFrame(minmaxlist,columns=['anio','minPais','minIndice','maxPais','maxIndice'])
df_america_mayormenor

Unnamed: 0,anio,minPais,minIndice,maxPais,maxIndice
0,2001,Canadá,0.8,Cuba,90.3
1,2002,Trinidad y Tobago,1.0,Cuba,97.83
2,2003,Trinidad y Tobago,2.0,Argentina,35826.0
3,2004,Trinidad y Tobago,2.0,Cuba,87.0
4,2005,Bolivia,4.5,Cuba,95.0
5,2006,Canadá,4.88,Cuba,96.17
6,2007,Canadá,3.33,Cuba,88.33
7,2008,Canadá,3.7,Cuba,94.0
8,2009,Estados Unidos,6.75,Cuba,78.0
9,2012,Jamaica,9.88,Cuba,71.64


In [301]:
# (4.b)
df_filtro_america=df[df['codigo_iso'].isin(america)].dropna(subset='indice') #NOTA: Aqui se filtraron fuera del dataframe los datos que tenian NaN en el indice, pues son incomparables.
df_america_maxindice=df_filtro_america.groupby('anio')['indice'].max()
df_america_minindice=df_filtro_america.groupby('anio')['indice'].min()
df_filtro_america['maxIndice']=df_america_maxindice.loc[df_filtro_america['anio']].tolist()
df_filtro_america['minIndice']=df_america_minindice.loc[df_filtro_america['anio']].tolist()
df_filtro_america['difMax']=df_filtro_america['maxIndice']-df_filtro_america['indice']
df_filtro_america['difMin']=df_filtro_america['indice']-df_filtro_america['minIndice']
condicionMax=(df_filtro_america['difMax']==0)
condicionMin=(df_filtro_america['difMin']==0)
df_max_anio=df_filtro_america.loc[condicionMax].drop_duplicates(subset='anio').drop(columns=['codigo_iso','ranking','indice','minIndice','difMax','difMin']).sort_values(by='anio',ascending=True,ignore_index=True)
df_min_anio=df_filtro_america.loc[condicionMin].drop_duplicates(subset='anio').drop(columns=['codigo_iso','ranking','indice','maxIndice','difMax','difMin']).sort_values(by='anio',ascending=True,ignore_index=True)
df_max_anio.rename(columns={'pais':'maxPais'},inplace=True)
df_min_anio.rename(columns={'pais':'minPais'},inplace=True)
df_america_minmax=pd.merge(df_min_anio,df_max_anio,on=['anio'],how='inner')
df_america_minmax



Unnamed: 0,anio,minPais,minIndice,maxPais,maxIndice
0,2001,Canadá,0.8,Cuba,90.3
1,2002,Trinidad y Tobago,1.0,Cuba,97.83
2,2003,Trinidad y Tobago,2.0,Argentina,35826.0
3,2004,Trinidad y Tobago,2.0,Cuba,87.0
4,2005,Bolivia,4.5,Cuba,95.0
5,2006,Canadá,4.88,Cuba,96.17
6,2007,Canadá,3.33,Cuba,88.33
7,2008,Canadá,3.7,Cuba,94.0
8,2009,Estados Unidos,6.75,Cuba,78.0
9,2012,Jamaica,9.88,Cuba,71.64


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

> **Hint**: Utilice la función **pd.pivot_table**.



In [300]:
#Como los datos entregados son el indice que alcanza cada pais cada anio, el maximo es el mismo indice.
df_maxIndice_pais_anio=df.fillna(0).pivot_table(index='pais',columns='anio',values='indice')
df_maxIndice_pais_anio

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
Afghanistán,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0.0,39.46,37.28,36.55
Albania,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0.0,29.92,29.49,29.84
Alemania,1.5,1.33,2.00,4.00,5.50,5.75,4.50,3.50,4.25,10.24,10.23,11.47,14.80,0.0,14.97,14.39,14.60
Algeria,31.0,33.00,43.50,40.33,40.00,40.50,31.33,49.56,47.33,36.54,36.26,36.63,41.69,0.0,42.83,43.13,45.75
Andorra,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0.0,21.03,22.21,24.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Vietnam,81.3,89.17,86.88,73.25,67.25,79.25,86.17,81.67,75.75,71.78,72.36,72.63,74.27,0.0,73.96,75.05,74.93
West Bank y Gaza,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.0,42.90,42.96,44.68
Yemen,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0.0,65.80,62.23,61.66
Zambia,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0.0,36.48,35.36,36.38
