<a href="https://colab.research.google.com/github/fralfaro/MAT281_2024/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°032


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/). 

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_01.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula (antes del año 2010).
* **libertad_prensa_02.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula (después del año 2010).




In [19]:
import numpy as np 
import pandas as pd

# lectura de datos
archivos_anio = [
    'https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_01.csv',
    'https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_02.csv'
 ] 
df_codigos = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_codigo.csv')
df_codigos

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia
179,ZWE,Zimbabue


 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:
 
1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.
 
> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [17]:
# a)
# lectura de archivos
df_anio_1=pd.read_csv(archivos_anio[0])
df_anio_2=pd.read_csv(archivos_anio[1])
# normalizar columnas a minuscula
df_anio_1.columns = df_anio_1.columns.str.lower()
df_anio_2.columns = df_anio_2.columns.str.lower()
# creacion de archivo
df_anio=pd.concat([df_anio_1,df_anio_2])
df_anio

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2001,35.50,59.0
1,AGO,2001,30.20,50.0
2,ALB,2001,,
3,AND,2001,,
4,ARE,2001,,
...,...,...,...,...
1435,WSM,2019,18.25,22.0
1436,YEM,2019,61.66,168.0
1437,ZAF,2019,22.19,31.0
1438,ZMB,2019,36.38,119.0


In [22]:
# b)
df_codigos = df_codigos.drop_duplicates(subset='codigo_iso')
df_codigos

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia


In [21]:
#c) Creamos un merge de los 3 df
df = pd.merge(df_anio, df_codigos, on='codigo_iso')
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2001,35.50,59.0,Afghanistán
1,AGO,2001,30.20,50.0,Angola
2,ALB,2001,,,Albania
3,AND,2001,,,Andorra
4,ARE,2001,,,Emiratos Árabes Unidos
...,...,...,...,...,...
3055,WSM,2019,18.25,22.0,Samoa
3056,YEM,2019,61.66,168.0,Yemen
3057,ZAF,2019,22.19,31.0,Sudáfrica
3058,ZMB,2019,36.38,119.0,Zambia


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna? 
   * Describir el conjunto de datos (**hint**: .describe())
    

In [23]:
#establecemos la cantidad de filas y columnas
num_obs, num_column = df.shape
print("Número de observaciones: {0}\nNúmero de columnas: {1}".format(num_obs,num_column))
# printea nombre de las columnas y datatype de las mismas
columnas = df.columns.tolist()
print("Nombre de las columnas: {0}".format(columnas))
tipoDatosColumnas = df.dtypes.tolist()
print("Tipo de dato de cada columna: {0}".format(tipoDatosColumnas))
#analisis estadistico
df.describe()

Número de observaciones: 3060
Número de columnas: 5
Nombre de las columnas: ['codigo_iso', 'anio', 'indice', 'ranking', 'pais']
Tipo de dato de cada columna: [dtype('O'), dtype('int64'), dtype('float64'), dtype('float64'), dtype('O')]


Unnamed: 0,anio,indice,ranking
count,3060.0,2664.0,2837.0
mean,2009.941176,205.782316,477.930913
std,5.786024,2695.525264,6474.935347
min,2001.0,0.0,1.0
25%,2005.0,15.295,34.0
50%,2009.0,28.0,70.0
75%,2015.0,41.2275,110.0
max,2019.0,64536.0,121056.0


Notemos que la recopilacion de datos es desde el 2001 al 2019. Ademas, el promedio del indice de libertad de la prensa es de 205 aprox, sin embargo la desviacion estandar es demasiado alta, asi, el promedio no es un buen indicador.

3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [26]:
# respuesta
def resumen_df(df):
    """
    Función para generar un resumen de un DataFrame que incluye
    el número de elementos distintos y vacíos por columna.

    Args:
    df (pd.DataFrame): DataFrame a resumir.

    Returns:
    pd.DataFrame: DataFrame resumen con el nombre de las columnas,
                  cantidad de elementos distintos y cantidad de elementos vacíos.
    """
    # Crear un DataFrame de resultado con los nombres de las columnas
    nombres = df.columns
    result = pd.DataFrame({'nombres': nombres})
    
    # Calcular el número de elementos distintos por columna
    result['elementos_distintos'] = df.nunique().values
    
    # Calcular el número de elementos vacíos (NaN) por columna
    result['elementos_vacios'] = df.isnull().sum().values
    
    return result

In [27]:
# retornar 
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [80]:
# respuesta
# a) Usando un ciclo for
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']
anio=df['anio'].unique()
resultados = []
for i in anio:
       df_filtrado = df.loc[(df['anio'] == i) & (df['codigo_iso'].isin(america))] #dataframe fila coincide con el nombre anio y los paises de america
       df_mayoranking = df_filtrado.sort_values(by='indice',ascending=False)
       df_menoranking = df_filtrado.sort_values(by='indice',ascending=True)
       resultados.append({'codigo_iso': df_mayoranking.iloc[0]['codigo_iso'],'anio': i,'pais': df_mayoranking.iloc[0]['pais'], 'mayor indice': df_mayoranking.iloc[0]['indice']})
       resultados.append({'codigo_iso': df_menoranking.iloc[0]['codigo_iso'],'anio': i,'pais': df_menoranking.iloc[0]['pais'], 'menor indice': df_menoranking.iloc[0]['indice']})

df_resultado=pd.DataFrame(resultados)
df_resultado
       


Unnamed: 0,codigo_iso,anio,pais,mayor indice,menor indice
0,CUB,2001,Cuba,90.3,
1,CAN,2001,Canadá,,0.8
2,CUB,2002,Cuba,97.83,
3,TTO,2002,Trinidad y Tobago,,1.0
4,ARG,2003,Argentina,35826.0,
5,TTO,2003,Trinidad y Tobago,,2.0
6,CUB,2004,Cuba,87.0,
7,TTO,2004,Trinidad y Tobago,,2.0
8,CUB,2005,Cuba,95.0,
9,BOL,2005,Bolivia,,4.5


In [87]:
#b) Usando groupby
df_america = df.loc[df['codigo_iso'].isin(america)].dropna() #se filtra los paises y se omiten las filas con NA
# Agrupar por año para encontrar el índice máximo y mínimo
df_agrupado = df_america.groupby('anio')['indice'].agg(indice_maximo='max', indice_minimo='min').reset_index()

# Hacer un merge con el DataFrame original para obtener el país con el índice máximo
df_max = pd.merge(df_agrupado, df_america, how='left', left_on=['anio', 'indice_maximo'], right_on=['anio', 'indice'])
df_max = df_max[['anio', 'indice_maximo', 'pais']].rename(columns={'pais': 'pais_max'})

# Hacer un merge con el DataFrame original para obtener el país con el índice mínimo
df_min = pd.merge(df_agrupado, df_america, how='left', left_on=['anio', 'indice_minimo'], right_on=['anio', 'indice'])
df_min = df_min[['anio', 'indice_minimo', 'pais']].rename(columns={'pais': 'pais_min'})

# Unir ambos resultados en un solo DataFrame
df_resultado = pd.merge(df_max, df_min, on='anio')

print(df_resultado)

    anio  indice_maximo   pais_max  indice_minimo           pais_min
0   2001          90.30       Cuba           0.80             Canadá
1   2002          97.83       Cuba           1.00  Trinidad y Tobago
2   2003       35826.00  Argentina           2.00  Trinidad y Tobago
3   2004          87.00       Cuba           2.00  Trinidad y Tobago
4   2005          95.00       Cuba           4.50            Bolivia
5   2005          95.00       Cuba           4.50             Canadá
6   2006          96.17       Cuba           4.88             Canadá
7   2007          88.33       Cuba           3.33             Canadá
8   2008          94.00       Cuba           3.70             Canadá
9   2009          78.00       Cuba           6.75     Estados Unidos
10  2012          71.64       Cuba           9.88            Jamaica
11  2013          70.92       Cuba          10.90            Jamaica
12  2014          70.21       Cuba          10.99             Canadá
13  2015          70.23       Cuba

5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

> **Hint**: Utilice la función **pd.pivot_table**.



In [86]:
pivot_df = df.fillna(0).pivot_table(index='pais',columns='anio',values='indice',aggfunc='max')
pivot_df

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
Afghanistán,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0.0,39.46,37.28,36.55
Albania,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0.0,29.92,29.49,29.84
Alemania,1.5,1.33,2.00,4.00,5.50,5.75,4.50,3.50,4.25,10.24,10.23,11.47,14.80,0.0,14.97,14.39,14.60
Algeria,31.0,33.00,43.50,40.33,40.00,40.50,31.33,49.56,47.33,36.54,36.26,36.63,41.69,0.0,42.83,43.13,45.75
Andorra,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0.0,21.03,22.21,24.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Vietnam,81.3,89.17,86.88,73.25,67.25,79.25,86.17,81.67,75.75,71.78,72.36,72.63,74.27,0.0,73.96,75.05,74.93
West Bank y Gaza,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.0,42.90,42.96,44.68
Yemen,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0.0,65.80,62.23,61.66
Zambia,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0.0,36.48,35.36,36.38
