<a href="https://colab.research.google.com/github/fralfaro/MAT281_2024/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°032


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.


## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_01.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula (antes del año 2010).
* **libertad_prensa_02.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula (después del año 2010).




In [None]:
import numpy as np
import pandas as pd

# lectura de datos
archivos_anio = [
    'https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_01.csv',
    'https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_02.csv'
 ]
df_codigos = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/labs/data/libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [None]:
# Paso a)

# Leer los datos
df_01 = pd.read_csv(archivos_anio[0])
df_02 = pd.read_csv(archivos_anio[1])

# Renombra las columnas a minúsculas
df_01.columns = df_01.columns.str.lower()
df_02.columns = df_02.columns.str.lower()

# Concatena los DataFrames
df_anio = pd.concat([df_01, df_02], ignore_index=True)

# Mostrar dataframe
df_anio.head()

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2001,35.5,59.0
1,AGO,2001,30.2,50.0
2,ALB,2001,,
3,AND,2001,,
4,ARE,2001,,


In [None]:
# Paso b)
df_codigos = df_codigos.drop_duplicates(subset='codigo_iso')
df_codigos.head()

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos


In [None]:
# Paso c)
df = pd.merge(df_anio, df_codigos, on='codigo_iso')
df.head()

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2001,35.5,59.0,Afghanistán
1,AFG,2002,40.17,78.0,Afghanistán
2,AFG,2003,28.25,49.0,Afghanistán
3,AFG,2004,39.17,62.0,Afghanistán
4,AFG,2005,44.25,67.0,Afghanistán


2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [None]:
#Numero de observaciones en el conjunto de datos
num_observaciones = df.shape[0]
print("Número de observaciones:", num_observaciones)

#Numero de columnas en el conjunto de datos
num_columnas = df.shape[1]
print("Número de columnas:", num_columnas)

Número de observaciones: 3060
Número de columnas: 5


In [None]:
#Nombre de todas las columnas
print("Nombre de todas las columnas:")
print(df.columns)

Nombre de todas las columnas:
Index(['codigo_iso', 'anio', 'indice', 'ranking', 'pais'], dtype='object')


In [None]:
#Tipo de datos de cada columna
print("Tipo de datos de cada columna:")
print(df.dtypes)

Tipo de datos de cada columna:
codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object


In [None]:
#Descripción del conjunto de datos
print("Descripción del conjunto de datos:")
print(df.describe())


Descripción del conjunto de datos:
              anio        indice        ranking
count  3060.000000   2664.000000    2837.000000
mean   2009.941176    205.782316     477.930913
std       5.786024   2695.525264    6474.935347
min    2001.000000      0.000000       1.000000
25%    2005.000000     15.295000      34.000000
50%    2009.000000     28.000000      70.000000
75%    2015.000000     41.227500     110.000000
max    2019.000000  64536.000000  121056.000000


**Conclusiones**
El conjunto de datos cubre el periodo de 2001 a 2019. El índice de libertad de prensa varía entre 0 (mayor libertad) y 64,536 (menor libertad), con un promedio de 205, lo que indica una tendencia hacia restricciones moderadas de la prensa. El ranking de libertad de prensa tiene un rango entre 1 y 121,056, con un promedio de 477, lo que refleja una gran variabilidad en las posiciones de los países en términos de libertad de prensa.

3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [None]:
# respuesta
def resumen_df(df):
    """
    Función para generar un resumen de un DataFrame que incluye
    el número de elementos distintos y vacíos por columna.

    Args:
    df (pd.DataFrame): DataFrame a resumir.

    Returns:
    pd.DataFrame: DataFrame resumen con el nombre de las columnas,
                  cantidad de elementos distintos y cantidad de elementos vacíos.
    """
    # Crear un DataFrame de resultado con los nombres de las columnas
    nombres = df.columns
    df_resumen = pd.DataFrame({'nombres': nombres})

    result = pd.DataFrame({'nombres': nombres})

    # Calcular el número de elementos distintos por columna
    result['elementos_distintos'] = 0
    for col in df.columns:
        result.loc[result['nombres'] == col, 'elementos_distintos'] = df[col].nunique()

    # Calcular el número de elementos vacíos (NaN) por columna
    result['elementos_vacios'] = 0
    for col in df.columns:
        result.loc[result['nombres'] == col, 'elementos_vacios'] = df[col].isna().sum()

    return result

In [None]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios
0,codigo_iso,180,0
1,anio,17,0
2,indice,1550,396
3,ranking,193,223
4,pais,179,0


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [None]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america =  pd.DataFrame()

#a)Mediante un ciclo for el pais con mayor y menor indice por año es:

for anio in df['anio'].unique():
    df_anio = df[df['anio'] == anio]
    df_america = df_anio[df_anio['codigo_iso'].isin(america)]

    # Ver posibles valores faltantes en la columna indice
    if df_america['indice'].notna().any():  # Comprueba si existe algun valor faltante
        max_indice = df_america.loc[df_america['indice'].idxmax()]
        min_indice = df_america.loc[df_america['indice'].idxmin()]

        print(f"Año: {anio}")
        print("País con mayor índice:")
        print(max_indice)
        print("País con menor índice:")
        print(min_indice)
        print("\n")
    else:
        print(f"Año: {anio} - No hay datos de índice disponibles para los países de América.")

Año: 2001
País con mayor índice:
codigo_iso     CUB
anio          2001
indice        90.3
ranking       99.0
pais          Cuba
Name: 663, dtype: object
País con menor índice:
codigo_iso       CAN
anio            2001
indice           0.8
ranking          2.0
pais          Canadá
Name: 459, dtype: object


Año: 2002
País con mayor índice:
codigo_iso      CUB
anio           2002
indice        97.83
ranking       125.0
pais           Cuba
Name: 664, dtype: object
País con menor índice:
codigo_iso                  TTO
anio                       2002
indice                      1.0
ranking                     2.0
pais          Trinidad y Tobago
Name: 2772, dtype: object


Año: 2003
País con mayor índice:
codigo_iso          ARG
anio               2003
indice          35826.0
ranking            35.0
pais          Argentina
Name: 87, dtype: object
País con menor índice:
codigo_iso                  TTO
anio                       2003
indice                      2.0
ranking                    

In [None]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america =  pd.DataFrame()

#b)mediante un groupby, el mayor y menor indice por año para cada pais de america es:

df_america = df[df['codigo_iso'].isin(america)]
# Completa con un valor 0 los datos faltantes para un mejor entendimiento
df_america['indice'] = df_america['indice'].fillna(0)
df_america = df_america.groupby(['anio', 'codigo_iso', 'pais'])['indice'].mean().reset_index()

max_indice = df_america.loc[df_america.groupby('anio')['indice'].idxmax()] #calcula el maximo indice
min_indice = df_america.loc[df_america.groupby('anio')['indice'].idxmin()] #calcula el minimo indice

print("País con mayor índice:")
print(max_indice)
print("\n")

print("País con menor índice:")
print(min_indice)
print("\n")

País con mayor índice:
     anio codigo_iso       pais    indice
9    2001        CUB       Cuba     90.30
38   2002        CUB       Cuba     97.83
58   2003        ARG  Argentina  35826.00
96   2004        CUB       Cuba     87.00
125  2005        CUB       Cuba     95.00
154  2006        CUB       Cuba     96.17
183  2007        CUB       Cuba     88.33
212  2008        CUB       Cuba     94.00
241  2009        CUB       Cuba     78.00
270  2012        CUB       Cuba     71.64
299  2013        CUB       Cuba     70.92
328  2014        CUB       Cuba     70.21
357  2015        CUB       Cuba     70.23
377  2016        ARG  Argentina      0.00
415  2017        CUB       Cuba     71.75
444  2018        CUB       Cuba     68.90
473  2019        CUB       Cuba     63.81


País con menor índice:
     anio codigo_iso               pais  indice
1    2001        ATG  Antigua y Barbuda     0.0
30   2002        ATG  Antigua y Barbuda     0.0
59   2003        ATG  Antigua y Barbuda     0.0
88  

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_america['indice'] = df_america['indice'].fillna(0)


5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

> **Hint**: Utilice la función **pd.pivot_table**.



In [None]:
# Para cada pais, el indice maximo que se alcanzo por anio

df_pivot = pd.pivot_table(df, values='indice', index='pais', columns='anio', aggfunc='max', fill_value=0)
df_pivot.head()

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Afghanistán,35.5,40.17,28.25,39.17,44.25,56.5,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
Albania,0.0,6.5,11.5,14.17,18.0,25.5,16.0,21.75,21.5,30.88,29.92,28.77,29.92,29.92,29.49,29.84
Alemania,1.5,1.33,2.0,4.0,5.5,5.75,4.5,3.5,4.25,10.24,10.23,11.47,14.8,14.97,14.39,14.6
Algeria,31.0,33.0,43.5,40.33,40.0,40.5,31.33,49.56,47.33,36.54,36.26,36.63,41.69,42.83,43.13,45.75
Andorra,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,6.82,6.82,19.87,19.87,21.03,22.21,24.63
