<a href="https://colab.research.google.com/github/Nolberto-Rivera/MAT306-EntregablesNRivera/blob/main/lab_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<a href="https://colab.research.google.com/github/fralfaro/MAT306/blob/main/docs/labs/lab_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT306 - Laboratorio N°04


**Objetivo**: Aplicar técnicas intermedias y avanzadas de análisis de datos con pandas utilizando un caso real: el Índice de Libertad de Prensa. Este laboratorio incluye operaciones de limpieza, transformación, combinación de datos, y análisis exploratorio usando `merge`, `groupby`, `concat` y otras funciones fundamentales.




**Descripción del Dataset**

El presente conjunto de datos está orientado al análisis del **Índice de Libertad de Prensa**, una métrica internacional que evalúa el nivel de libertad del que gozan periodistas y medios de comunicación en distintos países. Este índice es recopilado anualmente por la organización **Reporteros sin Fronteras**.

La base de datos contempla observaciones por país y año, e incluye tanto el valor del índice como el ranking correspondiente. A menor puntaje en el índice, mayor nivel de libertad de prensa.

**Diccionario de variables**

| Variable     | Clase    | Descripción                                                                          |
| ------------ | -------- | ------------------------------------------------------------------------------------ |
| `codigo_iso` | carácter | Código ISO 3166-1 alfa-3 que representa a cada país.                                 |
| `pais`       | carácter | Nombre oficial del país.                                                             |
| `anio`       | entero   | Año en que se registró la medición del índice.                                       |
| `indice`     | numérico | Valor numérico del Índice de Libertad de Prensa (menor valor indica mayor libertad). |
| `ranking`    | entero   | Posición relativa del país en el ranking mundial de libertad de prensa.              |


**Fuente original y adaptación pedagógica**

* **Fuente original**: [Reporteros sin Fronteras](https://www.rsf-es.org/), recopilado y publicado a través del portal del [Banco Mundial](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019).
* **Adaptación educativa**: Los archivos han sido modificados intencionalmente para incorporar desafíos técnicos que permiten aplicar los contenidos abordados en clases, tales como limpieza de datos, normalización, detección de duplicados, y combinación de fuentes.


**Descripción de los archivos disponibles**

* **`libertad_prensa_codigo.csv`**: Contiene los pares `codigo_iso` y `pais`. Incluye intencionalmente un código ISO con dos nombres distintos de país para efectos de limpieza y validación de datos.

* **`libertad_prensa_01.csv`**: Contiene registros de los años **anteriores a 2010**. Incluye las variables `PAIS`, `ANIO`, `INDICE`, y `RANKING` con nombres de columna en **mayúsculas**.

* **`libertad_prensa_02.csv`**: Contiene registros de los años **desde 2010 en adelante**. Estructura similar al archivo anterior, con nombres de columna también en **mayúsculas**.





In [1]:
import numpy as np
import pandas as pd

# lectura de datos
archivos_anio = [
    'https://raw.githubusercontent.com/fralfaro/MAT306/main/docs/labs/data/libertad_prensa_01.csv',
    'https://raw.githubusercontent.com/fralfaro/MAT306/main/docs/labs/data/libertad_prensa_02.csv'
 ]
df_codigos = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT306/main/docs/labs/data/libertad_prensa_codigo.csv')



### 1. Consolidación y limpieza de datos

A partir de los archivos disponibles, realice los siguientes pasos:

**a)** Cree un DataFrame llamado `df_anio` que consolide la información proveniente de los archivos **`libertad_prensa_01.csv`** y **`libertad_prensa_02.csv`**, correspondientes a distintas ventanas de tiempo. Recuerde que ambos archivos tienen nombres de columnas en mayúscula, por lo que debe normalizarlas a **minúscula** para asegurar consistencia.

**b)** Explore el archivo **`libertad_prensa_codigo.csv`** e identifique el código ISO que aparece asociado a dos nombres de país distintos. Elimine el registro que corresponda a un valor incorrecto o inconsistente, conservando solo el que considere válido.

**c)** Una vez preparados los archivos, cree un nuevo DataFrame llamado `df` que combine `df_anio` con `df_codigos`, utilizando la columna `codigo_iso` como clave. Asegúrese de realizar una unión que conserve únicamente los registros que tengan coincidencia en ambas fuentes.

> **Sugerencia**:
>
> * Para unir los archivos por filas (años), utilice la función `pd.concat([...])`.
> * Para combinar información por columnas (variables), utilice `pd.merge(...)` especificando `on='codigo_iso'`.



**Respuesta PARTE 1**

**a)** Cree un DataFrame llamado `df_anio` que consolide la información proveniente de los archivos **`libertad_prensa_01.csv`** y **`libertad_prensa_02.csv`**, correspondientes a distintas ventanas de tiempo. Recuerde que ambos archivos tienen nombres de columnas en mayúscula, por lo que debe normalizarlas a **minúscula** para asegurar consistencia.
> * Para unir los archivos por filas (años), utilice la función `pd.concat([...])`.

In [2]:
l_p_01 = pd.read_csv(archivos_anio[0], sep=",")
l_p_01.columns = l_p_01.columns.str.lower()
l_p_02 = pd.read_csv(archivos_anio[1], sep=",")
l_p_02.columns = l_p_02.columns.str.lower()

In [3]:
l_p_01.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1620 entries, 0 to 1619
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  1620 non-null   object 
 1   anio        1620 non-null   int64  
 2   indice      1439 non-null   float64
 3   ranking     1439 non-null   float64
dtypes: float64(2), int64(1), object(1)
memory usage: 50.8+ KB


In [4]:
l_p_02.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1440 entries, 0 to 1439
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  1440 non-null   object 
 1   anio        1440 non-null   int64  
 2   indice      1225 non-null   float64
 3   ranking     1398 non-null   float64
dtypes: float64(2), int64(1), object(1)
memory usage: 45.1+ KB


In [5]:
df_anio = pd.concat([l_p_01, l_p_02]).reset_index(drop=True)
df_anio

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2001,35.50,59.0
1,AGO,2001,30.20,50.0
2,ALB,2001,,
3,AND,2001,,
4,ARE,2001,,
...,...,...,...,...
3055,WSM,2019,18.25,22.0
3056,YEM,2019,61.66,168.0
3057,ZAF,2019,22.19,31.0
3058,ZMB,2019,36.38,119.0


In [6]:
df_anio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3060 entries, 0 to 3059
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  3060 non-null   object 
 1   anio        3060 non-null   int64  
 2   indice      2664 non-null   float64
 3   ranking     2837 non-null   float64
dtypes: float64(2), int64(1), object(1)
memory usage: 95.8+ KB


**b)** Explore el archivo **`libertad_prensa_codigo.csv`** e identifique el código ISO que aparece asociado a dos nombres de país distintos. Elimine el registro que corresponda a un valor incorrecto o inconsistente, conservando solo el que considere válido.

In [7]:
df_codigos#.head()

Unnamed: 0,codigo_iso,pais
0,AFG,Afghanistán
1,AGO,Angola
2,ALB,Albania
3,AND,Andorra
4,ARE,Emiratos Árabes Unidos
...,...,...
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia
179,ZWE,Zimbabue


In [8]:
df_codigos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 181 entries, 0 to 180
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   codigo_iso  181 non-null    object
 1   pais        181 non-null    object
dtypes: object(2)
memory usage: 3.0+ KB


In [9]:
df_codigos['codigo_iso'].duplicated().sum()

np.int64(1)

In [10]:
df_codigos.loc[df_codigos['codigo_iso'].duplicated()]

Unnamed: 0,codigo_iso,pais
180,ZWE,malo


In [11]:
df_codigos.loc[df_codigos['codigo_iso']=='ZWE']

Unnamed: 0,codigo_iso,pais
179,ZWE,Zimbabue
180,ZWE,malo


In [12]:
df_codigos.drop(index=180,inplace=True)
df_codigos.tail()

Unnamed: 0,codigo_iso,pais
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia
179,ZWE,Zimbabue


Notemos que la situación inversa se da también.

In [13]:
df_codigos['pais'].duplicated().sum()

np.int64(1)

In [14]:
df_codigos.loc[df_codigos['pais'].duplicated()]

Unnamed: 0,codigo_iso,pais
119,NGA,Nigeria


In [15]:
df_codigos.loc[df_codigos['pais']=='Nigeria']

Unnamed: 0,codigo_iso,pais
118,NER,Nigeria
119,NGA,Nigeria


Dado que la instrucción **sólo** indica eliminar el dato cuyo ISO corresponde a dos nombres, se procede de este modo.

Con todo, el código que resolvería este nuevo problema se detalla en la próxima celda, comentado (bastaría descomentar la primera línea y volver a correr el código para eliminar el nuevo dato indeseado).

In [16]:
#df_codigos.drop(index=118,inplace=True)
# el código ISO de Nigeria es NGA

**c)** Una vez preparados los archivos, cree un nuevo DataFrame llamado `df` que combine `df_anio` con `df_codigos`, utilizando la columna `codigo_iso` como clave. Asegúrese de realizar una unión que conserve únicamente los registros que tengan coincidencia en ambas fuentes.

> * Para combinar información por columnas (variables), utilice `pd.merge(...)` especificando `on='codigo_iso'`.

In [17]:
df = pd.merge(df_anio, df_codigos, on='codigo_iso', how='inner')
df

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
0,AFG,2001,35.50,59.0,Afghanistán
1,AGO,2001,30.20,50.0,Angola
2,ALB,2001,,,Albania
3,AND,2001,,,Andorra
4,ARE,2001,,,Emiratos Árabes Unidos
...,...,...,...,...,...
3055,WSM,2019,18.25,22.0,Samoa
3056,YEM,2019,61.66,168.0,Yemen
3057,ZAF,2019,22.19,31.0,Sudáfrica
3058,ZMB,2019,36.38,119.0,Zambia




### 2. Exploración inicial del conjunto de datos

Una vez que hayas consolidado el DataFrame final `df`, realiza un análisis exploratorio básico respondiendo las siguientes preguntas:

#### **Estructura del DataFrame**

* ¿Cuántas **filas (observaciones)** contiene el conjunto de datos?
* ¿Cuántas **columnas** tiene el DataFrame?
* ¿Cuáles son los **nombres de las columnas**?
* ¿Qué **tipo de datos** tiene cada columna?
* ¿Hay columnas con un tipo de dato inesperado (por ejemplo, fechas como strings)?

#### **Resumen estadístico**

* Genera un resumen estadístico del conjunto de datos con `.describe()`.
  ¿Qué observas sobre los valores de `indice` y `ranking`?
* ¿Qué valores mínimo, máximo y promedio tiene la columna `indice`?
* ¿Qué países presentan los valores extremos en `indice` y `ranking`?

#### **Datos faltantes**

* ¿Cuántos valores nulos hay en cada columna?
* ¿Qué proporción de observaciones tienen valores faltantes?
* ¿Hay columnas con más del 30% de datos faltantes?

#### **Unicidad y duplicados**

* ¿Cuántos países distintos (`pais`) hay en el DataFrame?
* ¿Cuántos años distintos (`anio`) hay representados?
* ¿Existen filas duplicadas (exactamente iguales)? ¿Cuántas?

#### **Validación cruzada de columnas**

* ¿Hay inconsistencias entre el país (`pais`) y su código (`codigo_iso`)?
  (por ejemplo, un mismo código ISO asociado a más de un país)

> **Sugerencia**: Apoya tu análisis con funciones como `.info()`, `.nunique()`, `.isnull().sum()`, `.duplicated()`, `.value_counts()`, entre otras.



    

**Respuesta PARTE 2**

#### **Estructura del DataFrame**

* ¿Cuántas **filas (observaciones)** contiene el conjunto de datos?
* ¿Cuántas **columnas** tiene el DataFrame?
* ¿Cuáles son los **nombres de las columnas**?
* ¿Qué **tipo de datos** tiene cada columna?
* ¿Hay columnas con un tipo de dato inesperado (por ejemplo, fechas como strings)?

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3060 entries, 0 to 3059
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  3060 non-null   object 
 1   anio        3060 non-null   int64  
 2   indice      2664 non-null   float64
 3   ranking     2837 non-null   float64
 4   pais        3060 non-null   object 
dtypes: float64(2), int64(1), object(2)
memory usage: 119.7+ KB


* El conjunto tiene 3060 observaciones.
* `df` tiene 5 columnas.
* Las columnas son: `codigo_iso`, `anio`, `indice`, `ranking` y `pais`, en ese orden.
* `anio` tiene datos del tipo `int64`, y tanto `indice` como `ranking` tienen datos del tipo `float64`, mientras que `codigo_iso` t `pais` (no numéricos) tiene datos tipo `object`.
* Es llamativo que ranking tenga datos tipo float, ya que, toda vez que indica un puesto en un listado, podría ser mejor representado por un entero.

#### **Resumen estadístico**

* Genera un resumen estadístico del conjunto de datos con `.describe()`.
  ¿Qué observas sobre los valores de `indice` y `ranking`?
* ¿Qué valores mínimo, máximo y promedio tiene la columna `indice`?
* ¿Qué países presentan los valores extremos en `indice` y `ranking`?

In [19]:
df.describe()

Unnamed: 0,anio,indice,ranking
count,3060.0,2664.0,2837.0
mean,2009.941176,205.782316,477.930913
std,5.786024,2695.525264,6474.935347
min,2001.0,0.0,1.0
25%,2005.0,15.295,34.0
50%,2009.0,28.0,70.0
75%,2015.0,41.2275,110.0
max,2019.0,64536.0,121056.0


* En ambos el salto desde el 3er cuartil al máximo es muy brusco: tienen outliers en la parte superior de su rango.
* `indice` tiene un mínimo de 0, un máximo de 64536 y un promedio de, aproximadamente, 205.78.
* Abajo se detallan los países que han presentado los valores extremos de `indice` y `ranking` en alguno de los años considerados en las observaciones.

In [20]:
df.loc[df['indice'] == 0]['pais'].unique()

array(['Dinamarca', 'Finlandia', 'Irlanda', 'Noruega', 'Suecia', 'Suiza',
       'Islandia', 'Países Bajos'], dtype=object)

In [21]:
df.loc[df['ranking'] == 1]['pais'].unique()

array(['Finlandia', 'Islandia', 'Países Bajos', 'Noruega', 'Suiza',
       'Dinamarca', 'Irlanda', 'Eslovaquia', 'Luxemburgo', 'Estonia',
       'Austria', 'Nueva Zelanda'], dtype=object)

In [22]:
df.loc[df['indice'] == 64536]['pais'].unique()

array(['Kosovo'], dtype=object)

In [23]:
df.loc[df['ranking'] == 121056]['pais'].unique()

array(['Kosovo'], dtype=object)

#### **Datos faltantes**

* ¿Cuántos valores nulos hay en cada columna?
* ¿Qué proporción de observaciones tienen valores faltantes?
* ¿Hay columnas con más del 30% de datos faltantes?

In [24]:
df.isna().sum()

Unnamed: 0,0
codigo_iso,0
anio,0
indice,396
ranking,223
pais,0


* Sólo `indice` y `ranking` tienen valores nulos, con un total de 396 y 223 tales valores, respectivamente.

In [25]:
df.loc[(df['indice'].isna()) + (df['ranking'].isna())]
# '+' obra como 'or' (1 y 2 son True, 0 es False)

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
2,ALB,2001,,,Albania
3,AND,2001,,,Andorra
4,ARE,2001,,,Emiratos Árabes Unidos
6,ARM,2001,,,Armenia
7,ATG,2001,,,Antigua y Barbuda
...,...,...,...,...,...
2789,KSV,2018,,,Kosovo
2887,ATG,2019,,,Antigua y Barbuda
2894,BFA,2019,24.53,,Burkina Faso
2945,GRD,2019,,,Granada


In [26]:
len(df.loc[(df['indice'].isna()) + (df['ranking'].isna())])

397

In [27]:
len(df.loc[(df['indice'].isna()) + (df['ranking'].isna())]) / df.shape[0]

0.12973856209150328

* Aproximadamente un 12.97% de las observaciones tiene algún dato nulo.

In [28]:
df.isna().sum()/df.shape[0]*100

Unnamed: 0,0
codigo_iso,0.0
anio,0.0
indice,12.941176
ranking,7.287582
pais,0.0


* No, no hay columnas con más de un 30% de datos nulos.

#### **Unicidad y duplicados**

* ¿Cuántos países distintos (`pais`) hay en el DataFrame?
* ¿Cuántos años distintos (`anio`) hay representados?
* ¿Existen filas duplicadas (exactamente iguales)? ¿Cuántas?

In [29]:
df['pais'].nunique()

179

* Existen 179 países distintos en `df`.

In [30]:
df['anio'].nunique()

17

* Hay 17 años representados en `df`.

In [31]:
df.duplicated().sum()

np.int64(0)

* No existen filas duplicadas en `df`.

#### **Validación cruzada de columnas**

* ¿Hay inconsistencias entre el país (`pais`) y su código (`codigo_iso`)?
  (por ejemplo, un mismo código ISO asociado a más de un país)

Como sabemos, sólo un código ISO estaba asociado a más de un país, y tal situación fue resuelta; mientras que, al revés, Nigeria sigue teniendo dos códigos ISO asociados, lo cual se traduce en que las entradas correspondientes se encuentran duplicadas en `df`.

In [32]:
df.loc[df['pais']=='Nigeria'].head()

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
118,NER,2001,18.5,17.0,Nigeria
119,NGA,2001,15.5,14.0,Nigeria
298,NER,2002,15.75,16.0,Nigeria
299,NGA,2002,31.5,55.0,Nigeria
478,NER,2003,18.33,26.0,Nigeria





### 3. Comparación regional: países latinoamericanos

En esta sección se busca identificar cuáles son los países de América Latina que han presentado los valores extremos del **Índice de Libertad de Prensa** en cada año observado.

> Recuerda que un menor puntaje en `indice` implica mayor libertad de prensa.

#### **Tareas:**

**a)** Utilizando un ciclo `for`, recorre cada año del conjunto de datos filtrado por países latinoamericanos, y determina para cada año:

* El país con el menor valor de `indice` (mayor libertad de prensa).
* El país con el mayor valor de `indice` (menor libertad de prensa).

**b)** Resuelve la misma tarea del punto anterior utilizando un enfoque vectorizado con `groupby`, sin usar ciclos explícitos.



#### **Lista de países latinoamericanos considerada:**

```python
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
           'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
           'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
           'USA', 'VEN']
```

> Puedes usar esta lista para filtrar el DataFrame final por la columna `codigo_iso`.



**Respuesta PARTE 3**

**a)** Utilizando un ciclo `for`, recorre cada año del conjunto de datos filtrado por países latinoamericanos, y determina para cada año:

* El país con el menor valor de `indice` (mayor libertad de prensa).
* El país con el mayor valor de `indice` (menor libertad de prensa).

In [35]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df[df['codigo_iso'].isin(america)]
df_america#.head()

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
5,ARG,2001,12.00,8.0,Argentina
7,ATG,2001,,,Antigua y Barbuda
20,BLZ,2001,,,Belize
21,BOL,2001,14.50,13.0,Bolivia
22,BRA,2001,18.80,18.0,Brasil
...,...,...,...,...,...
3029,SUR,2019,16.38,20.0,Surinam
3043,TTO,2019,24.74,39.0,Trinidad y Tobago
3050,URY,2019,16.06,19.0,Uruguay
3051,USA,2019,25.69,48.0,Estados Unidos


In [36]:
df_america.info()

<class 'pandas.core.frame.DataFrame'>
Index: 493 entries, 5 to 3053
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  493 non-null    object 
 1   anio        493 non-null    int64  
 2   indice      407 non-null    float64
 3   ranking     434 non-null    float64
 4   pais        493 non-null    object 
dtypes: float64(2), int64(1), object(2)
memory usage: 23.1+ KB


Nigeria, asociada a dos códigos ISO en `df`, no está en América, así que no afectará el resultado del desarrollo de la Parte 3.

Notemos que `indice` (y, asimismo, `ranking`) tiene valores nulos, que habrá que administrar debidamente.

In [66]:
for anno in df_america['anio'].unique():
  print(f"Para el año {anno}:")
  df_america_anno = df_america.loc[df_america['anio'] == anno]
  if df_america_anno['indice'].isna().sum() == len(df_america_anno):
    print("No hay datos para el índice de libertad de prensa.")
  else:
    df_america_anno = df_america_anno.loc[df_america_anno['indice'].isna() == False].sort_values('indice')
    df_america_anno_best  = df_america_anno.head(1)
    best_pais_anno    =    df_america_anno_best['pais'].values[0]
    best_indice_anno  =  df_america_anno_best['indice'].values[0]
    print(f"* El país americano con menor indice (mayor libertad de prensa) fue {best_pais_anno}, con un indice de fue {best_indice_anno}.")
    df_america_anno_worst = df_america_anno.tail(1)
    worst_pais_anno   =   df_america_anno_worst['pais'].values[0]
    worst_indice_anno = df_america_anno_worst['indice'].values[0]
    print(f"* El país americano con mayor indice (menor libertad de prensa) fue {worst_pais_anno}, con un indice de fue {worst_indice_anno}.")
  print()

Para el año 2001:
* El país americano con menor indice (mayor libertad de prensa) fue Canadá, con un indice de fue 0.8.
* El país americano con mayor indice (menor libertad de prensa) fue Cuba, con un indice de fue 90.3.

Para el año 2002:
* El país americano con menor indice (mayor libertad de prensa) fue Trinidad y Tobago, con un indice de fue 1.0.
* El país americano con mayor indice (menor libertad de prensa) fue Cuba, con un indice de fue 97.83.

Para el año 2003:
* El país americano con menor indice (mayor libertad de prensa) fue Trinidad y Tobago, con un indice de fue 2.0.
* El país americano con mayor indice (menor libertad de prensa) fue Argentina, con un indice de fue 35826.0.

Para el año 2004:
* El país americano con menor indice (mayor libertad de prensa) fue Trinidad y Tobago, con un indice de fue 2.0.
* El país americano con mayor indice (menor libertad de prensa) fue Cuba, con un indice de fue 87.0.

Para el año 2005:
* El país americano con menor indice (mayor libertad

Llama la atención el indice de Argentina en 2003.

**b)** Resuelve la misma tarea del punto anterior utilizando un enfoque vectorizado con `groupby`, sin usar ciclos explícitos.

In [84]:
df_america_not_null = df_america.dropna(subset=['indice'])

index_best  = df_america_not_null.groupby(['anio'])['indice'].idxmin().dropna()
index_worst = df_america_not_null.groupby(['anio'])['indice'].idxmax().dropna()

df_america_best  = df_america.loc[index_best][['anio','indice','pais']].rename(columns = {'indice': 'least_indice', 'pais': 'best_pais'})
df_america_worst = df_america.loc[index_worst][['anio','indice','pais']].rename(columns = {'indice': 'biggest_indice', 'pais': 'worst_pais'})

df_america_extremes = pd.merge(df_america_best, df_america_worst, on = 'anio')[
    ['anio', 'best_pais',	'least_indice', 'worst_pais',	'biggest_indice'] ]
df_america_extremes#.head()


Unnamed: 0,best_pais,least_indice,worst_pais,biggest_indice
0,Canadá,0.8,Cuba,90.3
1,Trinidad y Tobago,1.0,Cuba,97.83
2,Trinidad y Tobago,2.0,Argentina,35826.0
3,Trinidad y Tobago,2.0,Cuba,87.0
4,Bolivia,4.5,Cuba,95.0
5,Canadá,4.88,Cuba,96.17
6,Canadá,3.33,Cuba,88.33
7,Canadá,3.7,Cuba,94.0
8,Estados Unidos,6.75,Cuba,78.0
9,Jamaica,9.88,Cuba,71.64


Por inspección, el resultado es el mismo que en el ítem (b), incluyendo la eliminación del año 2016, sin datos no nulos para `indice`.

### 4. Análisis anual del índice por país

En esta sección se busca analizar la evolución del **índice máximo** de libertad de prensa alcanzado por cada país a lo largo del tiempo.

#### **Tarea principal:**

* Construye una tabla dinámica (`pivot_table`) donde las **filas** correspondan a los países, las **columnas** a los años (`anio`) y los **valores** sean el `indice` máximo alcanzado por cada país en ese año.
* Asegúrate de reemplazar los valores nulos resultantes con `0`.

> **Hint**: Puedes utilizar el parámetro `fill_value=0` en `pd.pivot_table(...)`.



#### **Preguntas adicionales:**

**a)** ¿Qué país tiene el mayor valor de `indice` en toda la tabla resultante? ¿Y cuál tiene el menor (distinto de cero)?
**b)** ¿Qué años presentan en promedio los valores de `indice` más altos? ¿Y los más bajos?

> (Pista: usa `.mean(axis=0)` sobre la tabla pivot)

**c)** ¿Qué país muestra mayor **variabilidad** (diferencia entre su máximo y mínimo `indice` a lo largo del tiempo)?

> (Pista: aplica `.max(axis=1) - .min(axis=1)`)

**d)** ¿Existen países con índice constante a lo largo de todos los años registrados? ¿Cuáles?

**e)** ¿Qué países no tienen ningún dato (es decir, quedaron con todos los valores igual a 0)? ¿Podrías explicar por qué?





In [34]:
# FIX ME