<a href="https://colab.research.google.com/github/fralfaro/MAT306/blob/main/docs/labs/lab_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT306 - Laboratorio N°04


**Objetivo**: Aplicar técnicas intermedias y avanzadas de análisis de datos con pandas utilizando un caso real: el Índice de Libertad de Prensa. Este laboratorio incluye operaciones de limpieza, transformación, combinación de datos, y análisis exploratorio usando `merge`, `groupby`, `concat` y otras funciones fundamentales.




**Descripción del Dataset**

El presente conjunto de datos está orientado al análisis del **Índice de Libertad de Prensa**, una métrica internacional que evalúa el nivel de libertad del que gozan periodistas y medios de comunicación en distintos países. Este índice es recopilado anualmente por la organización **Reporteros sin Fronteras**.

La base de datos contempla observaciones por país y año, e incluye tanto el valor del índice como el ranking correspondiente. A menor puntaje en el índice, mayor nivel de libertad de prensa.

**Diccionario de variables**

| Variable     | Clase    | Descripción                                                                          |
| ------------ | -------- | ------------------------------------------------------------------------------------ |
| `codigo_iso` | carácter | Código ISO 3166-1 alfa-3 que representa a cada país.                                 |
| `pais`       | carácter | Nombre oficial del país.                                                             |
| `anio`       | entero   | Año en que se registró la medición del índice.                                       |
| `indice`     | numérico | Valor numérico del Índice de Libertad de Prensa (menor valor indica mayor libertad). |
| `ranking`    | entero   | Posición relativa del país en el ranking mundial de libertad de prensa.              |


**Fuente original y adaptación pedagógica**

* **Fuente original**: [Reporteros sin Fronteras](https://www.rsf-es.org/), recopilado y publicado a través del portal del [Banco Mundial](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019).
* **Adaptación educativa**: Los archivos han sido modificados intencionalmente para incorporar desafíos técnicos que permiten aplicar los contenidos abordados en clases, tales como limpieza de datos, normalización, detección de duplicados, y combinación de fuentes.


**Descripción de los archivos disponibles**

* **`libertad_prensa_codigo.csv`**: Contiene los pares `codigo_iso` y `pais`. Incluye intencionalmente un código ISO con dos nombres distintos de país para efectos de limpieza y validación de datos.

* **`libertad_prensa_01.csv`**: Contiene registros de los años **anteriores a 2010**. Incluye las variables `PAIS`, `ANIO`, `INDICE`, y `RANKING` con nombres de columna en **mayúsculas**.

* **`libertad_prensa_02.csv`**: Contiene registros de los años **desde 2010 en adelante**. Estructura similar al archivo anterior, con nombres de columna también en **mayúsculas**.





In [5]:
import numpy as np
import pandas as pd

# lectura de datos
archivos_anio = [
    'https://raw.githubusercontent.com/fralfaro/MAT306/main/docs/labs/data/libertad_prensa_01.csv',
    'https://raw.githubusercontent.com/fralfaro/MAT306/main/docs/labs/data/libertad_prensa_02.csv'
 ]
df_codigos = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT306/main/docs/labs/data/libertad_prensa_codigo.csv')
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2001,35.50,59.0,Afghanistán
1,AGO,2001,30.20,50.0,Angola
2,ALB,2001,,,Albania
3,AND,2001,,,Andorra
4,ARE,2001,,,Emiratos Árabes Unidos
...,...,...,...,...,...
3055,WSM,2019,18.25,22.0,Samoa
3056,YEM,2019,61.66,168.0,Yemen
3057,ZAF,2019,22.19,31.0,Sudáfrica
3058,ZMB,2019,36.38,119.0,Zambia




### 1. Consolidación y limpieza de datos

A partir de los archivos disponibles, realice los siguientes pasos:

**a)** Cree un DataFrame llamado `df_anio` que consolide la información proveniente de los archivos **`libertad_prensa_01.csv`** y **`libertad_prensa_02.csv`**, correspondientes a distintas ventanas de tiempo. Recuerde que ambos archivos tienen nombres de columnas en mayúscula, por lo que debe normalizarlas a **minúscula** para asegurar consistencia.

**b)** Explore el archivo **`libertad_prensa_codigo.csv`** e identifique el código ISO que aparece asociado a dos nombres de país distintos. Elimine el registro que corresponda a un valor incorrecto o inconsistente, conservando solo el que considere válido.

**c)** Una vez preparados los archivos, cree un nuevo DataFrame llamado `df` que combine `df_anio` con `df_codigos`, utilizando la columna `codigo_iso` como clave. Asegúrese de realizar una unión que conserve únicamente los registros que tengan coincidencia en ambas fuentes.

> **Sugerencia**:
>
> * Para unir los archivos por filas (años), utilice la función `pd.concat([...])`.
> * Para combinar información por columnas (variables), utilice `pd.merge(...)` especificando `on='codigo_iso'`.



In [3]:
# FIXME

#a)
dfs = []
for archivo in archivos_anio:
    temp_df = pd.read_csv(archivo)
    temp_df.columns = temp_df.columns.str.lower()
    dfs.append(temp_df)

df_anio = pd.concat(dfs, ignore_index=True)

#b)
codigos_duplicados = df_codigos[df_codigos.duplicated('codigo_iso', keep=False)]
df_codigos = df_codigos.drop_duplicates('codigo_iso', keep='first')

#c)
df = pd.merge(df_anio, df_codigos, on='codigo_iso', how='inner')
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2001,35.50,59.0,Afghanistán
1,AGO,2001,30.20,50.0,Angola
2,ALB,2001,,,Albania
3,AND,2001,,,Andorra
4,ARE,2001,,,Emiratos Árabes Unidos
...,...,...,...,...,...
3055,WSM,2019,18.25,22.0,Samoa
3056,YEM,2019,61.66,168.0,Yemen
3057,ZAF,2019,22.19,31.0,Sudáfrica
3058,ZMB,2019,36.38,119.0,Zambia




### 2. Exploración inicial del conjunto de datos

Una vez que hayas consolidado el DataFrame final `df`, realiza un análisis exploratorio básico respondiendo las siguientes preguntas:

#### **Estructura del DataFrame**

* ¿Cuántas **filas (observaciones)** contiene el conjunto de datos?
  
  **R:** El Dataframe tiene 3060 filas.
* ¿Cuántas **columnas** tiene el DataFrame?

  **R:** El Dataframe tiene 5 columnas
* ¿Cuáles son los **nombres de las columnas**?

  **R:** En orden de izquierda a derecha son; "codigo_iso", "anio", "indice", "ranking" y "pais".
* ¿Qué **tipo de datos** tiene cada columna?

  **R:** En el mismo orden anterior son tipo string (texto), entero (int), float (decimal), float, string.  
* ¿Hay columnas con un tipo de dato inesperado (por ejemplo, fechas como strings)?

  **R** No, esto lo corroboramos con df.dtypes y recorriendo cada valor.

#### **Resumen estadístico**

* Genera un resumen estadístico del conjunto de datos con `.describe()`.
  ¿Qué observas sobre los valores de `indice` y `ranking`?

  **R:** Entre diversos estadísticos para estas columnas, también notamos que hay valores nulos, pues el apartado "count" nos indica que hay menos datos que la cantidad de filas.
* ¿Qué valores mínimo, máximo y promedio tiene la columna `indice`?

  **R:** Tiene los siguientes valores 0, 64536 y 205.78 respectivamente.
* ¿Qué países presentan los valores extremos en `indice` y `ranking`?

  **R:** Los valores máximos los presenta el país Kosovo y para los mínimos tenemos varios países en distintos años, entre los que se encuentran Finlandia, Islandia, Paises bajos, Noruega. Para ver los demás podemos usar la función df.loc .

#### **Datos faltantes**

* ¿Cuántos valores nulos hay en cada columna?
  
  **R:** En el mismo orden anterior tienen 0, 0, 396, 223 y 0 nulos respectivamente.
* ¿Qué proporción de observaciones tienen valores faltantes?

  **R:** Un 12.97% de las filas tiene valores faltantes
* ¿Hay columnas con más del 30% de datos faltantes?

  **R:** No, esto lo comprobamos haciendo una regla de 3 con la condición df[col].isnull().sum() > 0.3 * len(df).

#### **Unicidad y duplicados**

* ¿Cuántos países distintos (`pais`) hay en el DataFrame?

  **R:** Hay 179 países distintos.
* ¿Cuántos años distintos (`anio`) hay representados?

  **R:** Hay 17 años distintos.
* ¿Existen filas duplicadas (exactamente iguales)? ¿Cuántas?

  **R:** No existen filas duplicadas, esto lo revisamos con df.duplicated()
#### **Validación cruzada de columnas**

* ¿Hay inconsistencias entre el país (`pais`) y su código (`codigo_iso`)?
  (por ejemplo, un mismo código ISO asociado a más de un país)

  **R:** No, para revisar esto primero juntamos las parejas unicas y luego revisamos si se repite algún código ISO con otro país.

> **Sugerencia**: Apoya tu análisis con funciones como `.info()`, `.nunique()`, `.isnull().sum()`, `.duplicated()`, `.value_counts()`, entre otras.



    

In [54]:
# FIXME
# Verificamos que no hay datos inesperados
df.dtypes
tipos = {
    "codigo_iso": "object",
    "anio": "int64",
    "indice": "float64",
    "ranking": "float64",
    "pais": "object"
}
for col, tipo in tipos.items():
    real = str(df[col].dtype)
    if real != tipo:
        print(f"Columna {col}: esperada {tipo}, pero es {real}")

df.describe()
#df.loc[df["indice"] == df["indice"].max()]
#df.loc[df["indice"] == df["indice"].min()]
#df.loc[df["ranking"] == df["ranking"].max()]
#df.loc[df["ranking"] == df["ranking"].min()]

for col, tipo in tipos.items():
  #print(f"La columna {col} tiene {df[col].isnull().sum()} nulos.")
  if df[col].isnull().sum() > 0.3 * len(df):
    print(f"La columna {col} tiene más del 30% de datos faltantes.")
  print(f"La columna {col} tiene {df[col].nunique()} valores distintos.")

porcentaje = 100 * df.isna().any(axis=1).mean()
#print(f"{porcentaje:.2f}% filas con al menos un valor faltante")

df.duplicated().any()

pares_unicos = df[["pais", "codigo_iso"]].drop_duplicates()
duplicados = pares_unicos[pares_unicos.duplicated(subset="codigo_iso")]
print(duplicados)


La columna codigo_iso tiene 180 valores distintos.
La columna anio tiene 17 valores distintos.
La columna indice tiene 1550 valores distintos.
La columna ranking tiene 193 valores distintos.
La columna pais tiene 179 valores distintos.
Empty DataFrame
Columns: [pais, codigo_iso]
Index: []





### 3. Comparación regional: países latinoamericanos

En esta sección se busca identificar cuáles son los países de América Latina que han presentado los valores extremos del **Índice de Libertad de Prensa** en cada año observado.

> Recuerda que un menor puntaje en `indice` implica mayor libertad de prensa.

#### **Tareas:**

**a)** Utilizando un ciclo `for`, recorre cada año del conjunto de datos filtrado por países latinoamericanos, y determina para cada año:

* El país con el menor valor de `indice` (mayor libertad de prensa).
* El país con el mayor valor de `indice` (menor libertad de prensa).

**b)** Resuelve la misma tarea del punto anterior utilizando un enfoque vectorizado con `groupby`, sin usar ciclos explícitos.



#### **Lista de países latinoamericanos considerada:**

```python
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
           'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
           'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
           'USA', 'VEN']
```

> Puedes usar esta lista para filtrar el DataFrame final por la columna `codigo_iso`.



In [79]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america =  pd.DataFrame() # FIX ME

# Sin usar groupby
df_america = df[df["codigo_iso"].isin(america)]
for anio in df_america["anio"].unique():
  df_anio = df_america[df_america["anio"] == anio]
  minimo = df_anio["indice"].min()
  maximo = df_anio["indice"].max()
  minimo_pais = df_anio[df_anio["indice"] == minimo]["pais"].values
  maximo_pais = df_anio[df_anio["indice"] == maximo]["pais"].values
  #print(f"El año {anio}, el país con menor índice fue {minimo_pais} con un valor de {minimo}")
  #print(f"El año {anio}, el país con mayor índice fue {maximo_pais} con un valor de {maximo}")

# Usando groupby
df_america = df[df["codigo_iso"].isin(america)]
df_america.groupby(["anio", "pais"])["indice"].agg(["min", "max"])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max
anio,pais,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,Antigua y Barbuda,,
2001,Argentina,12.00,12.00
2001,Belize,,
2001,Bolivia,14.50,14.50
2001,Brasil,18.80,18.80
...,...,...,...
2019,República Dominicana,27.90,27.90
2019,Surinam,16.38,16.38
2019,Trinidad y Tobago,24.74,24.74
2019,Uruguay,16.06,16.06


### 4. Análisis anual del índice por país

En esta sección se busca analizar la evolución del **índice máximo** de libertad de prensa alcanzado por cada país a lo largo del tiempo.

#### **Tarea principal:**

* Construye una tabla dinámica (`pivot_table`) donde las **filas** correspondan a los países, las **columnas** a los años (`anio`) y los **valores** sean el `indice` máximo alcanzado por cada país en ese año.
* Asegúrate de reemplazar los valores nulos resultantes con `0`.

> **Hint**: Puedes utilizar el parámetro `fill_value=0` en `pd.pivot_table(...)`.



#### **Preguntas adicionales:**

**a)** ¿Qué país tiene el mayor valor de `indice` en toda la tabla resultante? ¿Y cuál tiene el menor (distinto de cero)?

  **R:** El mayor índice lo tiene Kosovo y el menor es Noruega.

**b)** ¿Qué años presentan en promedio los valores de `indice` más altos? ¿Y los más bajos?

> (Pista: usa `.mean(axis=0)` sobre la tabla pivot)

  **R:** El año con promedio más alto es 2013 y los más bajos 2001 y 2002.

**c)** ¿Qué país muestra mayor **variabilidad** (diferencia entre su máximo y mínimo `indice` a lo largo del tiempo)?

> (Pista: aplica `.max(axis=1) - .min(axis=1)`)

  **R:** El país con mayor variabilidad es Kosovo.

**d)** ¿Existen países con índice constante a lo largo de todos los años registrados? ¿Cuáles?

  **R:** No hay países con índice constante.

**e)** ¿Qué países no tienen ningún dato (es decir, quedaron con todos los valores igual a 0)? ¿Podrías explicar por qué?

  **R:** Ningún país, todos tienen valores en al menos 1 año.




In [110]:
# FIX ME
pivot_table = pd.pivot_table(df, values="indice", index="pais", columns="anio", aggfunc="max", fill_value=0)

#pivot_table.max(axis=1).sort_values(ascending=False)
#pivot_table.mean(axis=0).sort_values(ascending=False)

dif = pivot_table.max(axis=1) - pivot_table.min(axis=1)
dif.sort_values(ascending=False)

for pais in pivot_table.index:
  ind = pivot_table.loc[pais]
  if ind.max() == ind.min():
    print(f"El país {pais} tiene índice constante.")

  if (pivot_table.loc[pais] == 0).all():
    print(f"El país {pais} no tiene ningún dato.")


anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Afghanistán,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
Albania,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
Alemania,1.5,1.33,2.00,4.00,5.50,5.75,4.50,3.50,4.25,10.24,10.23,11.47,14.80,14.97,14.39,14.60
Algeria,31.0,33.00,43.50,40.33,40.00,40.50,31.33,49.56,47.33,36.54,36.26,36.63,41.69,42.83,43.13,45.75
Andorra,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Vietnam,81.3,89.17,86.88,73.25,67.25,79.25,86.17,81.67,75.75,71.78,72.36,72.63,74.27,73.96,75.05,74.93
West Bank y Gaza,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,42.90,42.96,44.68
Yemen,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
Zambia,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38
