<a href="https://colab.research.google.com/github/fralfaro/MAT281/blob/main/docs/labs/lab_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N°04


**Objetivo**: Aplicar técnicas intermedias y avanzadas de análisis de datos con pandas utilizando un caso real: el Índice de Libertad de Prensa. Este laboratorio incluye operaciones de limpieza, transformación, combinación de datos, y análisis exploratorio usando `merge`, `groupby`, `concat` y otras funciones fundamentales.




**Descripción del Dataset**

El presente conjunto de datos está orientado al análisis del **Índice de Libertad de Prensa**, una métrica internacional que evalúa el nivel de libertad del que gozan periodistas y medios de comunicación en distintos países. Este índice es recopilado anualmente por la organización **Reporteros sin Fronteras**.

La base de datos contempla observaciones por país y año, e incluye tanto el valor del índice como el ranking correspondiente. A menor puntaje en el índice, mayor nivel de libertad de prensa.

**Diccionario de variables**

| Variable     | Clase    | Descripción                                                                          |
| ------------ | -------- | ------------------------------------------------------------------------------------ |
| `codigo_iso` | carácter | Código ISO 3166-1 alfa-3 que representa a cada país.                                 |
| `pais`       | carácter | Nombre oficial del país.                                                             |
| `anio`       | entero   | Año en que se registró la medición del índice.                                       |
| `indice`     | numérico | Valor numérico del Índice de Libertad de Prensa (menor valor indica mayor libertad). |
| `ranking`    | entero   | Posición relativa del país en el ranking mundial de libertad de prensa.              |


**Fuente original y adaptación pedagógica**

* **Fuente original**: [Reporteros sin Fronteras](https://www.rsf-es.org/), recopilado y publicado a través del portal del [Banco Mundial](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019).
* **Adaptación educativa**: Los archivos han sido modificados intencionalmente para incorporar desafíos técnicos que permiten aplicar los contenidos abordados en clases, tales como limpieza de datos, normalización, detección de duplicados, y combinación de fuentes.


**Descripción de los archivos disponibles**

* **`libertad_prensa_codigo.csv`**: Contiene los pares `codigo_iso` y `pais`. Incluye intencionalmente un código ISO con dos nombres distintos de país para efectos de limpieza y validación de datos.

* **`libertad_prensa_01.csv`**: Contiene registros de los años **anteriores a 2010**. Incluye las variables `PAIS`, `ANIO`, `INDICE`, y `RANKING` con nombres de columna en **mayúsculas**.

* **`libertad_prensa_02.csv`**: Contiene registros de los años **desde 2010 en adelante**. Estructura similar al archivo anterior, con nombres de columna también en **mayúsculas**.





In [None]:
import numpy as np
import pandas as pd

# lectura de datos
archivos_anio = [
    'https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/labs/data/libertad_prensa_01.csv',
    'https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/labs/data/libertad_prensa_02.csv'
 ]
df_codigos = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/labs/data/libertad_prensa_codigo.csv')



### 1. Consolidación y limpieza de datos

A partir de los archivos disponibles, realice los siguientes pasos:

**a)** Cree un DataFrame llamado `df_anio` que consolide la información proveniente de los archivos **`libertad_prensa_01.csv`** y **`libertad_prensa_02.csv`**, correspondientes a distintas ventanas de tiempo. Recuerde que ambos archivos tienen nombres de columnas en mayúscula, por lo que debe normalizarlas a **minúscula** para asegurar consistencia.

**b)** Explore el archivo **`libertad_prensa_codigo.csv`** e identifique el código ISO que aparece asociado a dos nombres de país distintos. Elimine el registro que corresponda a un valor incorrecto o inconsistente, conservando solo el que considere válido.

**c)** Una vez preparados los archivos, cree un nuevo DataFrame llamado `df` que combine `df_anio` con `df_codigos`, utilizando la columna `codigo_iso` como clave. Asegúrese de realizar una unión que conserve únicamente los registros que tengan coincidencia en ambas fuentes.

> **Sugerencia**:
>
> * Para unir los archivos por filas (años), utilice la función `pd.concat([...])`.
> * Para combinar información por columnas (variables), utilice `pd.merge(...)` especificando `on='codigo_iso'`.



In [None]:
# FIXME

df = pd.DataFrame()
# === Consolidación y limpieza de datos ===

# a) Crear df_anio consolidando ambos archivos y normalizar columnas
df_anio = pd.concat(
    [pd.read_csv(archivo) for archivo in archivos_anio],
    ignore_index=True
)
df_anio.columns = df_anio.columns.str.lower()

print("df_anio -> Filas y columnas:", df_anio.shape)
print(df_anio.head(), "\n")

# b) Explorar df_codigos y limpiar códigos duplicados/inconsistentes
print("Duplicados por codigo_iso en df_codigos:")
print(df_codigos[df_codigos.duplicated(subset="codigo_iso", keep=False)], "\n")

# Eliminar duplicados, conservando la primera ocurrencia
df_codigos = df_codigos.drop_duplicates(subset="codigo_iso", keep="first")

print("df_codigos limpio -> Filas y columnas:", df_codigos.shape)
print(df_codigos.head(), "\n")

# c) Crear df combinando df_anio con df_codigos por codigo_iso
df = pd.merge(df_anio, df_codigos, on="codigo_iso", how="inner")

print("df final -> Filas y columnas:", df.shape)
print(df.head())




### 2. Exploración inicial del conjunto de datos

Una vez que hayas consolidado el DataFrame final `df`, realiza un análisis exploratorio básico respondiendo las siguientes preguntas:

#### **Estructura del DataFrame**

* ¿Cuántas **filas (observaciones)** contiene el conjunto de datos?
* ¿Cuántas **columnas** tiene el DataFrame?
* ¿Cuáles son los **nombres de las columnas**?
* ¿Qué **tipo de datos** tiene cada columna?
* ¿Hay columnas con un tipo de dato inesperado (por ejemplo, fechas como strings)?

#### **Resumen estadístico**

* Genera un resumen estadístico del conjunto de datos con `.describe()`.
  ¿Qué observas sobre los valores de `indice` y `ranking`?
* ¿Qué valores mínimo, máximo y promedio tiene la columna `indice`?
* ¿Qué países presentan los valores extremos en `indice` y `ranking`?

#### **Datos faltantes**

* ¿Cuántos valores nulos hay en cada columna?
* ¿Qué proporción de observaciones tienen valores faltantes?
* ¿Hay columnas con más del 30% de datos faltantes?

#### **Unicidad y duplicados**

* ¿Cuántos países distintos (`pais`) hay en el DataFrame?
* ¿Cuántos años distintos (`anio`) hay representados?
* ¿Existen filas duplicadas (exactamente iguales)? ¿Cuántas?

#### **Validación cruzada de columnas**

* ¿Hay inconsistencias entre el país (`pais`) y su código (`codigo_iso`)?
  (por ejemplo, un mismo código ISO asociado a más de un país)

> **Sugerencia**: Apoya tu análisis con funciones como `.info()`, `.nunique()`, `.isnull().sum()`, `.duplicated()`, `.value_counts()`, entre otras.



    

In [None]:
# FIXME
# === Paso 2: Exploración inicial del DataFrame df ===

# Estructura
print("Filas x Columnas:", df.shape)
print("N° de columnas:", df.shape[1])
print("Nombres de columnas:", list(df.columns))
print("\nTipos de datos:\n", df.dtypes, "\n")

# Resumen estadístico (indice, ranking)
desc = df[['indice','ranking']].describe()
print("Resumen .describe() de indice y ranking:\n", desc, "\n")

print("indice -> min, max, media:",
      df['indice'].min(), df['indice'].max(), df['indice'].mean())
print("ranking -> min, max, media:",
      df['ranking'].min(), df['ranking'].max(), df['ranking'].mean(), "\n")

# Países con valores extremos (todos los empates)
imax = df['indice'].max(); imin = df['indice'].min()
rmax = df['ranking'].max(); rmin = df['ranking'].min()

print("País(es) con indice MÁXIMO:\n",
      df.loc[df['indice'].eq(imax), ['pais','codigo_iso','anio','indice']].drop_duplicates(), "\n")
print("País(es) con indice MÍNIMO:\n",
      df.loc[df['indice'].eq(imin), ['pais','codigo_iso','anio','indice']].drop_duplicates(), "\n")
print("País(es) con ranking MÁXIMO (peor puesto):\n",
      df.loc[df['ranking'].eq(rmax), ['pais','codigo_iso','anio','ranking']].drop_duplicates(), "\n")
print("País(es) con ranking MÍNIMO (mejor puesto):\n",
      df.loc[df['ranking'].eq(rmin), ['pais','codigo_iso','anio','ranking']].drop_duplicates(), "\n")

# Datos faltantes
na_counts = df.isna().sum()
na_pct = df.isna().mean()*100
print("Valores nulos por columna:\n", na_counts, "\n")
print("Porcentaje de nulos por columna (%):\n", na_pct.round(2), "\n")
print("Proporción de filas con ≥1 nulo (%):", (df.isna().any(axis=1)).mean()*100, "\n")
cols_30 = na_pct[na_pct > 30].index.tolist()
print("Columnas con >30% de nulos:", cols_30 if cols_30 else "Ninguna", "\n")

# Unicidad y duplicados
print("N° de países distintos (pais):", df['pais'].nunique())
print("N° de años distintos (anio):", df['anio'].nunique())
print("Años presentes:", sorted(df['anio'].dropna().unique().tolist()))
print("Filas duplicadas exactas:", df.duplicated().sum(), "\n")

# Validación cruzada pais <-> codigo_iso
map_code_to_many = (df.groupby('codigo_iso')['pais'].nunique()
                      .reset_index(name='n_paises')
                      .query('n_paises > 1'))
map_pais_to_many = (df.groupby('pais')['codigo_iso'].nunique()
                      .reset_index(name='n_codigos')
                      .query('n_codigos > 1'))

print("codigo_iso asociado a >1 país (inconsistencias):\n",
      map_code_to_many if not map_code_to_many.empty else "Ninguna", "\n")
print("pais asociado a >1 codigo_iso (inconsistencias):\n",
      map_pais_to_many if not map_pais_to_many.empty else "Ninguna")





### 3. Comparación regional: países latinoamericanos

En esta sección se busca identificar cuáles son los países de América Latina que han presentado los valores extremos del **Índice de Libertad de Prensa** en cada año observado.

> Recuerda que un menor puntaje en `indice` implica mayor libertad de prensa.

#### **Tareas:**

**a)** Utilizando un ciclo `for`, recorre cada año del conjunto de datos filtrado por países latinoamericanos, y determina para cada año:

* El país con el menor valor de `indice` (mayor libertad de prensa).
* El país con el mayor valor de `indice` (menor libertad de prensa).

**b)** Resuelve la misma tarea del punto anterior utilizando un enfoque vectorizado con `groupby`, sin usar ciclos explícitos.



#### **Lista de países latinoamericanos considerada:**

```python
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
           'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
           'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
           'USA', 'VEN']
```

> Puedes usar esta lista para filtrar el DataFrame final por la columna `codigo_iso`.



In [None]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america =  pd.DataFrame() # FIX ME
df_america = df[df['codigo_iso'].isin(america)].copy()

print("df_america -> Filas y columnas:", df_america.shape)
print(df_america.head())

### 4. Análisis anual del índice por país

En esta sección se busca analizar la evolución del **índice máximo** de libertad de prensa alcanzado por cada país a lo largo del tiempo.

#### **Tarea principal:**

* Construye una tabla dinámica (`pivot_table`) donde las **filas** correspondan a los países, las **columnas** a los años (`anio`) y los **valores** sean el `indice` máximo alcanzado por cada país en ese año.
* Asegúrate de reemplazar los valores nulos resultantes con `0`.

> **Hint**: Puedes utilizar el parámetro `fill_value=0` en `pd.pivot_table(...)`.



#### **Preguntas adicionales:**

**a)** ¿Qué país tiene el mayor valor de `indice` en toda la tabla resultante? ¿Y cuál tiene el menor (distinto de cero)?
**b)** ¿Qué años presentan en promedio los valores de `indice` más altos? ¿Y los más bajos?

> (Pista: usa `.mean(axis=0)` sobre la tabla pivot)

**c)** ¿Qué país muestra mayor **variabilidad** (diferencia entre su máximo y mínimo `indice` a lo largo del tiempo)?

> (Pista: aplica `.max(axis=1) - .min(axis=1)`)

**d)** ¿Existen países con índice constante a lo largo de todos los años registrados? ¿Cuáles?

**e)** ¿Qué países no tienen ningún dato (es decir, quedaron con todos los valores igual a 0)? ¿Podrías explicar por qué?





In [None]:
# FIX ME
# === 4) Análisis anual del índice por país ===
import numpy as np
import pandas as pd

# 1) Tabla dinámica: índice MÁXIMO por país (filas) y año (columnas)
pivot = pd.pivot_table(
    df, index='pais', columns='anio', values='indice',
    aggfunc='max', fill_value=0
)

print("Tamaño tabla dinámica (países x años):", pivot.shape, "\n")

# a) País con MAYOR y MENOR (≠0) valor de indice en toda la tabla
vmax = pivot.values.max()
vmin_nz = pivot.replace(0, np.nan).min().min()

max_pos = np.argwhere(pivot.values == vmax)
min_pos = np.argwhere(pivot.replace(0, np.nan).values == vmin_nz)

print(f"Mayor valor de indice en la tabla: {vmax}")
for i, j in max_pos:
    print("  ->", pivot.index[i], "| año", pivot.columns[j])

print(f"\nMenor valor de indice (≠0) en la tabla: {vmin_nz}")
for i, j in min_pos:
    print("  ->", pivot.index[i], "| año", pivot.columns[j])

# b) Años con promedio más ALTO y más BAJO (sobre la tabla pivot)
prom_anio = pivot.mean(axis=0)
anio_max = prom_anio[prom_anio.eq(prom_anio.max())]
anio_min = prom_anio[prom_anio.eq(prom_anio.min())]

print("\nPromedio por año (primeros 10):")
print(prom_anio.sort_index().head(10))

print("\nAño(s) con promedio MÁS ALTO:")
for a, v in anio_max.items():
    print(f"  {a}: {v}")

print("\nAño(s) con promedio MÁS BAJO:")
for a, v in anio_min.items():
    print(f"  {a}: {v}")

# c) País con MAYOR VARIABILIDAD (max - min en el tiempo)
variab = pivot.max(axis=1) - pivot.min(axis=1)
vmax_var = variab.max()
paises_varmax = variab[variab.eq(vmax_var)].index.tolist()
print(f"\nMayor variabilidad (max - min): {vmax_var}")
print("País(es) con esa variabilidad:", paises_varmax)

# d) Países con indice CONSTANTE a lo largo de sus años con datos (>0)
piv_pos = pivot.replace(0, np.nan)
const_mask = (piv_pos.nunique(axis=1, dropna=True) == 1) & (piv_pos.notna().sum(axis=1) > 0)
paises_const = piv_pos[const_mask].index.tolist()
print("\nPaís(es) con indice constante (en los años con datos > 0):")
print(paises_const if paises_const else "Ninguno")

# e) Países SIN NINGÚN DATO (toda la fila en 0)
sin_datos = pivot.index[pivot.sum(axis=1) == 0].tolist()
print("\nPaís(es) sin datos (toda la fila = 0):")
print(sin_datos if sin_datos else "Ninguno")
