<a href="https://colab.research.google.com/github/fralfaro/MAT281_2024/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°032


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_01.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula (antes del año 2010).
* **libertad_prensa_02.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula (después del año 2010).




In [2]:
import numpy as np
import pandas as pd

# lectura de datos
archivos_anio = [
    'https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_01.csv',
    'https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_02.csv'
 ]
df_codigos = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [3]:
# Paso a)
# Leer los datos
df_01 = pd.read_csv(archivos_anio[0])
df_02 = pd.read_csv(archivos_anio[1])
# Renombra las columnas a minúsculas
df_01.columns = df_01.columns.str.lower()
df_02.columns = df_02.columns.str.lower()
# Concatena los DataFrames
df_anio = pd.concat([df_01, df_02], ignore_index=True)
# Mostrar dataframe
df_anio.head()

# Paso b)
df_codigos = df_codigos.drop_duplicates(subset='codigo_iso')
df_codigos.head()

# Paso c)
df = pd.merge(df_anio, df_codigos, on='codigo_iso')
df.head()

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2001,35.5,59.0,Afghanistán
1,AFG,2002,40.17,78.0,Afghanistán
2,AFG,2003,28.25,49.0,Afghanistán
3,AFG,2004,39.17,62.0,Afghanistán
4,AFG,2005,44.25,67.0,Afghanistán


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [4]:
# Número de observaciones
num_observaciones = df.shape[0]
print("Número de observaciones:", num_observaciones)
# Número de columnas
num_columnas = df.shape[1]
print("Número de columnas:", num_columnas)
# Nombre de las columnas
nombre_columnas= df.columns
print("Nombre de las columnas:", nombre_columnas)
# Tipo de datos de cada columna
tipo_datos = df.dtypes
print("Tipo de datos de cada columna:\n", tipo_datos)
# Descripción del conjunto de datos
descripcion = df.describe()
descripcion

Número de observaciones: 3060
Número de columnas: 5
Nombre de las columnas: Index(['codigo_iso', 'anio', 'indice', 'ranking', 'pais'], dtype='object')
Tipo de datos de cada columna:
 codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object


Unnamed: 0,anio,indice,ranking
count,3060.0,2664.0,2837.0
mean,2009.941176,205.782316,477.930913
std,5.786024,2695.525264,6474.935347
min,2001.0,0.0,1.0
25%,2005.0,15.295,34.0
50%,2009.0,28.0,70.0
75%,2015.0,41.2275,110.0
max,2019.0,64536.0,121056.0


Conclusiones:


3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [5]:
# respuesta
def resumen_df(df):
    """
    Función para generar un resumen de un DataFrame que incluye
    el número de elementos distintos y vacíos por columna.

    Args:
    df (pd.DataFrame): DataFrame a resumir.

    Returns:
    pd.DataFrame: DataFrame resumen con el nombre de las columnas,
                  cantidad de elementos distintos y cantidad de elementos vacíos.
    """
    # Crear un DataFrame de resultado con los nombres de las columnas
    nombres = df.columns
    result = pd.DataFrame({'nombres': nombres})

    # Calcular el número de elementos distintos por columna

    result['elementos_distintos'] = df.nunique().values
    # Calcular el número de elementos vacíos (NaN) por columna
    result['elementos_vacios'] = df.isnull().sum().values

    return result

In [6]:
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [7]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']
#Creamos un nuevo dataframe que contenga solo los datos de america
#así ocuparemos menos tiempo en el proceso
df_america = df[df['codigo_iso'].isin(america)]

#Mayor indice

#en el siguiente data frame se guardaran los datos
df_latinoamerica = pd.DataFrame(
    columns=['anio','codigo_iso','indice','pais']
)
# Este for recorre por los años
for i in range(df_america['anio'].unique()[-1]+1):
  # este df auxiliar almacena solo los datos de un año elegido
  df_aux = df_america.loc[lambda x: x['anio'] == i]
  #acá encontramos el maximo entre los indices
  max_indice = df_aux['indice'].max()
  # Buscamos la fila donde esté el mayor indicie
  df_aux = df_aux[df_aux['indice']==max_indice]
  #concatenamos el df auxiliar con el que estamos guardando los datos
  nuevo=pd.concat([df_latinoamerica,df_aux])
  df_latinoamerica = nuevo
df_latinoamerica


  nuevo=pd.concat([df_latinoamerica,df_aux])


Unnamed: 0,anio,codigo_iso,indice,pais,ranking
663,2001,CUB,90.3,Cuba,99.0
664,2002,CUB,97.83,Cuba,125.0
87,2003,ARG,35826.0,Argentina,35.0
666,2004,CUB,87.0,Cuba,112.0
667,2005,CUB,95.0,Cuba,109.0
668,2006,CUB,96.17,Cuba,139.0
669,2007,CUB,88.33,Cuba,117.0
670,2008,CUB,94.0,Cuba,131.0
671,2009,CUB,78.0,Cuba,129.0
672,2012,CUB,71.64,Cuba,162.0


In [8]:
#Menor indice
#en el siguiente data frame se guardaran los datos
df_latinoamericaMin = pd.DataFrame(
    columns=['anio','codigo_iso','indice','pais']
)
# Este for recorre por los años
for i in range(df_america['anio'].unique()[-1]+1):
  # este df auxiliar almacena solo los datos de un año elegido
  df_aux = df_america.loc[lambda x: x['anio'] == i]
  #acá encontramos el menor entre los indices
  min_indice = df_aux['indice'].min()
  # Buscamos la fila donde esté el menor indicie
  df_aux = df_aux[df_aux['indice']==min_indice]
  #concatenamos el df auxiliar con el que estamos guardando los datos
  nuevo=pd.concat([df_latinoamericaMin,df_aux])
  df_latinoamericaMin = nuevo
df_latinoamericaMin


  nuevo=pd.concat([df_latinoamericaMin,df_aux])


Unnamed: 0,anio,codigo_iso,indice,pais,ranking
459,2001,CAN,0.8,Canadá,2.0
2772,2002,TTO,1.0,Trinidad y Tobago,2.0
2773,2003,TTO,2.0,Trinidad y Tobago,30.0
2774,2004,TTO,2.0,Trinidad y Tobago,31.0
361,2005,BOL,4.5,Bolivia,63.0
463,2005,CAN,4.5,Canadá,63.0
464,2006,CAN,4.88,Canadá,84.0
465,2007,CAN,3.33,Canadá,50.0
466,2008,CAN,3.7,Canadá,62.0
2915,2009,USA,6.75,Estados Unidos,115.0


In [9]:
#Con groupby sacamos los mayores indice de cada año
max_indice = df_america.groupby('anio').indice.max()
#unimos los mayores indices con sus años entre la lista de america y el df anterior
max = pd.merge(df_america, max_indice, on=['anio','indice'])
# Los datos NaN nos dan problemas por lo que la siguiente función los limpia
max= max.dropna()
max.sort_values(by='anio', ascending=True)




Unnamed: 0,codigo_iso,anio,indice,ranking,pais
30,CUB,2001,90.3,99.0,Cuba
31,CUB,2002,97.83,125.0,Cuba
0,ARG,2003,35826.0,35.0,Argentina
32,CUB,2004,87.0,112.0,Cuba
33,CUB,2005,95.0,109.0,Cuba
34,CUB,2006,96.17,139.0,Cuba
35,CUB,2007,88.33,117.0,Cuba
36,CUB,2008,94.0,131.0,Cuba
37,CUB,2009,78.0,129.0,Cuba
38,CUB,2012,71.64,162.0,Cuba


In [10]:
# Minimo con groupby
min_indice = df_america.groupby('anio').indice.min()
min = pd.merge(df_america, min_indice, on=['anio','indice'])
min=min.dropna()
min.sort_values(by='anio', ascending=True)

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
31,CAN,2001,0.8,2.0,Canadá
42,TTO,2002,1.0,2.0,Trinidad y Tobago
43,TTO,2003,2.0,30.0,Trinidad y Tobago
44,TTO,2004,2.0,31.0,Trinidad y Tobago
29,BOL,2005,4.5,63.0,Bolivia
30,CAN,2005,4.5,63.0,Canadá
32,CAN,2006,4.88,84.0,Canadá
33,CAN,2007,3.33,50.0,Canadá
34,CAN,2008,3.7,62.0,Canadá
45,USA,2009,6.75,115.0,Estados Unidos


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

> **Hint**: Utilice la función **pd.pivot_table**.



In [17]:
# FIX ME
df = df.fillna(0)
table = pd.pivot_table(df,
                       values='indice',
                       index=['codigo_iso'],
                       columns=['anio']) #Se usa la función del ejemplo
table

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2016,2017,2018,2019
codigo_iso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
AFG,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,0.0,39.46,37.28,36.55
AGO,30.2,28.00,26.50,18.00,21.50,26.50,29.50,36.50,28.50,37.80,36.50,37.84,39.89,0.0,40.42,38.35,34.96
ALB,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,0.0,29.92,29.49,29.84
AND,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,0.0,21.03,22.21,24.63
ARE,0.0,37.00,50.25,25.75,17.50,20.25,14.50,21.50,23.75,33.49,36.03,36.73,36.73,0.0,39.39,40.86,43.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
WSM,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,33.00,23.84,22.02,22.32,18.80,0.0,16.41,16.69,18.25
YEM,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,0.0,65.80,62.23,61.66
ZAF,7.5,3.33,5.00,6.50,11.25,13.00,8.00,8.50,12.00,24.56,23.19,22.06,21.92,0.0,20.12,20.39,22.19
ZMB,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,0.0,36.48,35.36,36.38
