<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/labs/lab_032.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°03


Esta semana revisaremos datos del **Índice de Libertad de Prensa** que confecciona cada año la asociación de Reporteros Sin Fronteras.

> **Nota**: el conjunto a utilizar lo encuentra en el siguiente [link](https://drive.google.com/drive/folders/1zxiYb5ji_xa5_5tWxvdjCEGYRY9YvjR7?usp=drive_link).

## Diccionario de datos


|Variable       |Clase               |Descripción |
|:--------------|:-------------------|:-----------|
| codigo_iso | caracter | Código ISO del país |
| pais | caracter | País |
| anio | entero | Año del resultado |
| indice | entero | Puntaje Índice Libertad de Prensa (menor puntaje = mayor libertad de prensa) |
| ranking | entero | Ranking Libertad de Prensa |


## Fuente original y adaptación
Los datos fueron extraídos de [The World Bank](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019). La fuente original es [Reporteros sin Fronteras](https://www.rsf-es.org/).

Por otro lado, estos archivos han sido modificado intencionalmente para ocupar todo lo aprendido en clases. A continuación, una breve descripción de cada uno de los data frames:

* **libertad_prensa_codigo.csv**: contiene la información codigo_iso/pais. Existe un código que tiene dos valores.
* **libertad_prensa_anio.csv**: contiene la información pais/anio/indice/ranking. Los nombres de las columnas estan en mayúscula.




In [1]:
import numpy as np
import pandas as pd

from os import listdir
from os.path import isfile, join

In [84]:
path = "data/"

archivos_anio = [path + f for f in listdir(path) if 'libertad_prensa_codigo' not in f ]
df_codigos = pd.read_csv(path + 'libertad_prensa_codigo.csv')

 El objetivo es tratar de obtener la mayor información posible de este conjunto de datos. Para cumplir este objetivo debe resolver las siguientes problemáticas:

1. Lo primero será juntar toda la información en un _solo archivo_, para ello necesitamos seguir los siguientes pasos:

 * a) Crear el archivo **df_anio**, que contenga la información de **libertad_prensa_anio.csv** para cada año. Luego, normalice el nombre de las columnas a minúscula.
 * b) Encuentre y elimine el dato que esta duplicado en el archivo **df_codigo**.
 * c) Crear el archivo **df** que junte la información del archivo **df_anio** con **df_codigo** por la columna _codigo_iso_.

> **Hint**: Para juntar por _anio_ ocupe la función **pd.concat**. Para juntar información por columna ocupe **pd.merge**.

In [None]:
df_anio = pd.DataFrame()
for i in archivos_anio:
    df_anio = pd.concat([df_anio, i])


lista1 = []
for i in df_anio.columns:
    lista1.append(i.lower())
df_anio.columns = lista1

aux = ""
contador = 1
for i in df_codigos["codigo_iso"]:
    if(aux == i):
        df_codigos.drop(contador, axis=0, inplace=True)
    aux = i
    contador += 1

df = pd.merge([df_codigos, df_anio])



2. Encontrar:
   * ¿Cuál es el número de observaciones en el conjunto de datos?   
   * ¿Cuál es el número de columnas en el conjunto de datos?   
   * Imprime el nombre de todas las columnas  
   * ¿Cuál es el tipo de datos de cada columna?
   * Describir el conjunto de datos (**hint**: .describe())
    

In [None]:
filas = df.count(axis = 0)
columnas = df.count(axis = 1)
for i in df.columns:
    print(i)
for i in df.iloc[0]:
    print(type(i))
df.describe()

3. Desarrolle una función `resumen_df(df)` para encontrar el total de elementos distintos y vacíos por columnas.

In [76]:
# respuesta

def resumen_df(df):
    """
    funcion resumen con elementos distintos y vacios
    por columnas
    """
    nombres = df.columns

    result = pd.DataFrame({'nombres': nombres})
    result['elementos_distintos'] = 0
    result['elementos_vacios'] = 0
    contador = 0
    for i in nombres:
        aux = []
        for j in df[i]:
            if(j not in aux and j != ""):
                aux.append(j)
                result["elementos_distintos"][contador] += 1
            elif(j == ""):
                result["elementos_vacios"][contador] += 1            
        contador += 1
    return result

In [83]:
# retornar
resumen_df(df)

Unnamed: 0,nombres,elementos_distintos,elementos_vacios


4. Para los paises latinoamericano, encuentre por año  el país con mayor y menor `indice`.

 * a) Mediante un ciclo _for_.
 * b) Mediante un  _groupby_.

In [None]:
# respuesta

america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = pd.DataFrame()
for i in america:
    df_america = pd.concat([df_america, df.loc[df["codigo_iso"] == i]])

lista_anio = []
for i in df_america["anio"]:
    if(i not in lista_anio):
        lista_anio.append(i)

for i in lista_anio:
    aux = df_america.loc[df_america["anio"] == i]
    aux_max = 0
    aux_min = 1000
    for j in aux["indice"]:
        if(j > aux_max):
            aux_max = j
        if(j < aux_min):
            aux_min = j
    pais_max = df_america.loc[df_america["indice"] == aux_max]
    pais_min = df_america.loc[df_america["indice"] == aux_min]
    print("max "+ str(i) + ": \n", pais_max)
    print("min "+ str(i) + ": \n", pais_min)


print("menor indice: \n" +str(df_america.groupby(["anio"]).min()))
print("mayor indice: \n" +str(df_america.groupby(["anio"]).max()))

5. Para cada _país_, muestre el _indice_ máximo que alcanzo por _anio_. Para los datos nulos, rellene con el valor **0**.

**Ejemplo**:

<img src="https://drive.google.com/uc?export=view&id=1ob0qch1dsOjDOUuZXnCY0HU_3XPp19gV" width = "700" align="center"/>

> **Hint**: Utilice la función **pd.pivot_table**.



In [None]:
df_max = pd.DataFrame()

df_max = df.pivot_table(index = ["codigo_iso"], columns=["anio"], aggfunc=[np.max])
print(df_max)