<a href="https://colab.research.google.com/github/nmuraro/entregables/blob/main/docs/labs/lab_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<a href="https://colab.research.google.com/github/fralfaro/MAT281/blob/main/docs/labs/lab_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT281 - Laboratorio N¬∞04


**Objetivo**: Aplicar t√©cnicas intermedias y avanzadas de an√°lisis de datos con pandas utilizando un caso real: el √çndice de Libertad de Prensa. Este laboratorio incluye operaciones de limpieza, transformaci√≥n, combinaci√≥n de datos, y an√°lisis exploratorio usando `merge`, `groupby`, `concat` y otras funciones fundamentales.




**Descripci√≥n del Dataset**

El presente conjunto de datos est√° orientado al an√°lisis del **√çndice de Libertad de Prensa**, una m√©trica internacional que eval√∫a el nivel de libertad del que gozan periodistas y medios de comunicaci√≥n en distintos pa√≠ses. Este √≠ndice es recopilado anualmente por la organizaci√≥n **Reporteros sin Fronteras**.

La base de datos contempla observaciones por pa√≠s y a√±o, e incluye tanto el valor del √≠ndice como el ranking correspondiente. A menor puntaje en el √≠ndice, mayor nivel de libertad de prensa.

**Diccionario de variables**

| Variable     | Clase    | Descripci√≥n                                                                          |
| ------------ | -------- | ------------------------------------------------------------------------------------ |
| `codigo_iso` | car√°cter | C√≥digo ISO 3166-1 alfa-3 que representa a cada pa√≠s.                                 |
| `pais`       | car√°cter | Nombre oficial del pa√≠s.                                                             |
| `anio`       | entero   | A√±o en que se registr√≥ la medici√≥n del √≠ndice.                                       |
| `indice`     | num√©rico | Valor num√©rico del √çndice de Libertad de Prensa (menor valor indica mayor libertad). |
| `ranking`    | entero   | Posici√≥n relativa del pa√≠s en el ranking mundial de libertad de prensa.              |


**Fuente original y adaptaci√≥n pedag√≥gica**

* **Fuente original**: [Reporteros sin Fronteras](https://www.rsf-es.org/), recopilado y publicado a trav√©s del portal del [Banco Mundial](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019).
* **Adaptaci√≥n educativa**: Los archivos han sido modificados intencionalmente para incorporar desaf√≠os t√©cnicos que permiten aplicar los contenidos abordados en clases, tales como limpieza de datos, normalizaci√≥n, detecci√≥n de duplicados, y combinaci√≥n de fuentes.


**Descripci√≥n de los archivos disponibles**

* **`libertad_prensa_codigo.csv`**: Contiene los pares `codigo_iso` y `pais`. Incluye intencionalmente un c√≥digo ISO con dos nombres distintos de pa√≠s para efectos de limpieza y validaci√≥n de datos.

* **`libertad_prensa_01.csv`**: Contiene registros de los a√±os **anteriores a 2010**. Incluye las variables `PAIS`, `ANIO`, `INDICE`, y `RANKING` con nombres de columna en **may√∫sculas**.

* **`libertad_prensa_02.csv`**: Contiene registros de los a√±os **desde 2010 en adelante**. Estructura similar al archivo anterior, con nombres de columna tambi√©n en **may√∫sculas**.





In [None]:
import numpy as np
import pandas as pd

# lectura de datos
archivos_anio = [
    'https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/labs/data/libertad_prensa_01.csv',
    'https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/labs/data/libertad_prensa_02.csv'
 ]
df_codigos = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT281/main/docs/labs/data/libertad_prensa_codigo.csv')



### 1. Consolidaci√≥n y limpieza de datos

A partir de los archivos disponibles, realice los siguientes pasos:

**a)** Cree un DataFrame llamado `df_anio` que consolide la informaci√≥n proveniente de los archivos **`libertad_prensa_01.csv`** y **`libertad_prensa_02.csv`**, correspondientes a distintas ventanas de tiempo. Recuerde que ambos archivos tienen nombres de columnas en may√∫scula, por lo que debe normalizarlas a **min√∫scula** para asegurar consistencia.

**b)** Explore el archivo **`libertad_prensa_codigo.csv`** e identifique el c√≥digo ISO que aparece asociado a dos nombres de pa√≠s distintos. Elimine el registro que corresponda a un valor incorrecto o inconsistente, conservando solo el que considere v√°lido.

**c)** Una vez preparados los archivos, cree un nuevo DataFrame llamado `df` que combine `df_anio` con `df_codigos`, utilizando la columna `codigo_iso` como clave. Aseg√∫rese de realizar una uni√≥n que conserve √∫nicamente los registros que tengan coincidencia en ambas fuentes.

> **Sugerencia**:
>
> * Para unir los archivos por filas (a√±os), utilice la funci√≥n `pd.concat([...])`.
> * Para combinar informaci√≥n por columnas (variables), utilice `pd.merge(...)` especificando `on='codigo_iso'`.



In [None]:
df_anio_list = [
    pd.read_csv(url).rename(columns=str.lower)
    for url in archivos_anio
]
df_anio = pd.concat(df_anio_list, ignore_index=True)
print(df_anio.head())

# Buscar c√≥digos ISO duplicados
duplicados = df_codigos[df_codigos.duplicated('codigo_iso', keep=False)]
print(duplicados)

# Eliminamos el registro no deseado (Burma)
df_codigos = df_codigos[df_codigos['pais'] != 'malo']

duplicados = df_codigos[df_codigos.duplicated('codigo_iso', keep=False)]
print(duplicados)

# Hacer la uni√≥n
df = pd.merge(df_anio, df_codigos, on='codigo_iso', how='inner')

# Mostrar el resultado
print(df.head())

  codigo_iso  anio  indice  ranking
0        AFG  2001    35.5     59.0
1        AGO  2001    30.2     50.0
2        ALB  2001     NaN      NaN
3        AND  2001     NaN      NaN
4        ARE  2001     NaN      NaN
Empty DataFrame
Columns: [codigo_iso, pais]
Index: []
Empty DataFrame
Columns: [codigo_iso, pais]
Index: []
  codigo_iso  anio  indice  ranking                    pais
0        AFG  2001    35.5     59.0             Afghanist√°n
1        AGO  2001    30.2     50.0                  Angola
2        ALB  2001     NaN      NaN                 Albania
3        AND  2001     NaN      NaN                 Andorra
4        ARE  2001     NaN      NaN  Emiratos √Årabes Unidos




### 2. Exploraci√≥n inicial del conjunto de datos

Una vez que hayas consolidado el DataFrame final `df`, realiza un an√°lisis exploratorio b√°sico respondiendo las siguientes preguntas:

#### **Estructura del DataFrame**

* ¬øCu√°ntas **filas (observaciones)** contiene el conjunto de datos?
* ¬øCu√°ntas **columnas** tiene el DataFrame?
* ¬øCu√°les son los **nombres de las columnas**?
* ¬øQu√© **tipo de datos** tiene cada columna?
* ¬øHay columnas con un tipo de dato inesperado (por ejemplo, fechas como strings)?

#### **Resumen estad√≠stico**

* Genera un resumen estad√≠stico del conjunto de datos con `.describe()`.
  ¬øQu√© observas sobre los valores de `indice` y `ranking`?
* ¬øQu√© valores m√≠nimo, m√°ximo y promedio tiene la columna `indice`?
* ¬øQu√© pa√≠ses presentan los valores extremos en `indice` y `ranking`?

#### **Datos faltantes**

* ¬øCu√°ntos valores nulos hay en cada columna?
* ¬øQu√© proporci√≥n de observaciones tienen valores faltantes?
* ¬øHay columnas con m√°s del 30% de datos faltantes?

#### **Unicidad y duplicados**

* ¬øCu√°ntos pa√≠ses distintos (`pais`) hay en el DataFrame?
* ¬øCu√°ntos a√±os distintos (`anio`) hay representados?
* ¬øExisten filas duplicadas (exactamente iguales)? ¬øCu√°ntas?

#### **Validaci√≥n cruzada de columnas**

* ¬øHay inconsistencias entre el pa√≠s (`pais`) y su c√≥digo (`codigo_iso`)?
  (por ejemplo, un mismo c√≥digo ISO asociado a m√°s de un pa√≠s)

> **Sugerencia**: Apoya tu an√°lisis con funciones como `.info()`, `.nunique()`, `.isnull().sum()`, `.duplicated()`, `.value_counts()`, entre otras.



    

In [None]:
#ESTRUCTURA DE DATOS

#¬øCu√°ntas filas (observaciones) contiene el conjunto de datos?
#¬øCu√°ntas columnas tiene el DataFrame?
# N√∫mero de filas y columnas
print("Shape (filas, columnas):", df.shape)

#¬øCu√°les son los nombres de las columnas?
# Nombres de columnas
print("Nombres de columnas:", df.columns.tolist())

#¬øQu√© tipo de datos tiene cada columna?
# Tipos de datos
print("\nTipos de datos por columna:")
print(df.dtypes)
#¬øHay columnas con un tipo de dato inesperado (por ejemplo, fechas como strings)?
# Informaci√≥n general
print("\nResumen con .info():")
df.info()

Shape (filas, columnas): (3060, 5)
Nombres de columnas: ['codigo_iso', 'anio', 'indice', 'ranking', 'pais']

Tipos de datos por columna:
codigo_iso     object
anio            int64
indice        float64
ranking       float64
pais           object
dtype: object

Resumen con .info():
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3060 entries, 0 to 3059
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  3060 non-null   object 
 1   anio        3060 non-null   int64  
 2   indice      2664 non-null   float64
 3   ranking     2837 non-null   float64
 4   pais        3060 non-null   object 
dtypes: float64(2), int64(1), object(2)
memory usage: 119.7+ KB


In [None]:
# RESUMEN ESTADISTICO

#¬øQu√© observas sobre los valores de indice y ranking?
print("\nResumen estad√≠stico:")
print(df.describe())

#¬øQu√© valores m√≠nimo, m√°ximo y promedio tiene la columna indice?
min_indice = df['indice'].min()
max_indice = df['indice'].max()
mean_indice = df['indice'].mean()
print(f"\n√çndice - M√≠nimo: {min_indice}, M√°ximo: {max_indice}, Promedio: {mean_indice:.2f}")
#¬øQu√© pa√≠ses presentan los valores extremos en indice y ranking?

# Pa√≠s con menor √≠ndice
print("\nPaises con menor √≠ndice:")
print(df[df['indice'] == min_indice][['pais', 'codigo_iso', 'anio', 'indice']])

# Pa√≠s con mayor √≠ndice
print("\nPa√≠s con mayor √≠ndice:")
print(df[df['indice'] == max_indice][['pais', 'codigo_iso', 'anio', 'indice']])

# Pa√≠s con ranking 1 (m√°s alto)
print("\nPaises con ranking m√°s alto (ranking == 1):")
print(df[df['ranking'] == 1][['pais', 'codigo_iso', 'anio', 'ranking']])


Resumen estad√≠stico:
              anio        indice        ranking
count  3060.000000   2664.000000    2837.000000
mean   2009.941176    205.782316     477.930913
std       5.786024   2695.525264    6474.935347
min    2001.000000      0.000000       1.000000
25%    2005.000000     15.295000      34.000000
50%    2009.000000     28.000000      70.000000
75%    2015.000000     41.227500     110.000000
max    2019.000000  64536.000000  121056.000000

√çndice - M√≠nimo: 0.0, M√°ximo: 64536.0, Promedio: 205.78

Paises con menor √≠ndice:
              pais codigo_iso  anio  indice
1304     Dinamarca        DNK  2008     0.0
1313     Finlandia        FIN  2008     0.0
1335       Irlanda        IRL  2008     0.0
1382       Noruega        NOR  2008     0.0
1412        Suecia        SWE  2008     0.0
1468         Suiza        CHE  2009     0.0
1493     Finlandia        FIN  2009     0.0
1518      Islandia        ISL  2009     0.0
1561  Pa√≠ses Bajos        NLD  2009     0.0
1562       Norueg

In [None]:

#DATOS FALTANTES

#¬øCu√°ntos valores nulos hay en cada columna?
# Cantidad de valores nulos por columna
print("\nValores nulos por columna:")
print(df.isnull().sum())


#¬øQu√© proporci√≥n de observaciones tienen valores faltantes?
# Proporci√≥n de valores faltantes por columna
print("\nProporci√≥n de valores nulos (%):")
print(df.isnull().mean() * 100)

#¬øHay columnas con m√°s del 30% de datos faltantes?
# Filas con al menos un nulo
total_filas = len(df)
filas_con_nulos = df.isnull().any(axis=1).sum()
proporcion_filas_con_nulos = filas_con_nulos / total_filas * 100
print(f"\nFilas con al menos un valor nulo: {filas_con_nulos} ({proporcion_filas_con_nulos:.2f}%)")

# Columnas con m√°s del 30% de valores nulos
print("\nColumnas con m√°s del 30% de nulos:")
print(df.isnull().mean()[df.isnull().mean() > 0.3])



Valores nulos por columna:
codigo_iso      0
anio            0
indice        396
ranking       223
pais            0
dtype: int64

Proporci√≥n de valores nulos (%):
codigo_iso     0.000000
anio           0.000000
indice        12.941176
ranking        7.287582
pais           0.000000
dtype: float64

Filas con al menos un valor nulo: 397 (12.97%)

Columnas con m√°s del 30% de nulos:
Series([], dtype: float64)


In [None]:
#UNICIDAD Y DUPLICADOS

#¬øCu√°ntos pa√≠ses distintos (pais) hay en el DataFrame?
# Pa√≠ses distintos
print("\nCantidad de pa√≠ses distintos:", df['pais'].nunique())

#¬øCu√°ntos a√±os distintos (anio) hay representados?
# A√±os distintos
print("Cantidad de a√±os distintos:", df['anio'].nunique())

#¬øExisten filas duplicadas (exactamente iguales)? ¬øCu√°ntas?
# Filas duplicadas
duplicados = df.duplicated().sum()
print(f"Cantidad de filas duplicadas: {duplicados}")



Cantidad de pa√≠ses distintos: 179
Cantidad de a√±os distintos: 17
Cantidad de filas duplicadas: 0


In [None]:
#Validaci√≥n cruzada de columnas
#¬øHay inconsistencias entre el pa√≠s (pais) y su c√≥digo (codigo_iso)? (por ejemplo, un mismo c√≥digo ISO asociado a m√°s de un pa√≠s)
#Sugerencia: Apoya tu an√°lisis con funciones como .info(), .nunique(), .isnull().sum(), .duplicated(), .value_counts(), entre otras.
# ¬øUn c√≥digo ISO aparece asociado a m√°s de un nombre de pa√≠s?
duplicidad_codigo_iso = df.groupby('codigo_iso')['pais'].nunique()
duplicados = duplicidad_codigo_iso[duplicidad_codigo_iso > 1]
print("\nC√≥digos ISO asociados a m√°s de un pa√≠s (inconsistencias):")
print(duplicados)



C√≥digos ISO asociados a m√°s de un pa√≠s (inconsistencias):
Series([], Name: pais, dtype: int64)





### 3. Comparaci√≥n regional: pa√≠ses latinoamericanos

En esta secci√≥n se busca identificar cu√°les son los pa√≠ses de Am√©rica Latina que han presentado los valores extremos del **√çndice de Libertad de Prensa** en cada a√±o observado.

> Recuerda que un menor puntaje en `indice` implica mayor libertad de prensa.

#### **Tareas:**

**a)** Utilizando un ciclo `for`, recorre cada a√±o del conjunto de datos filtrado por pa√≠ses latinoamericanos, y determina para cada a√±o:

* El pa√≠s con el menor valor de `indice` (mayor libertad de prensa).
* El pa√≠s con el mayor valor de `indice` (menor libertad de prensa).

**b)** Resuelve la misma tarea del punto anterior utilizando un enfoque vectorizado con `groupby`, sin usar ciclos expl√≠citos.



#### **Lista de pa√≠ses latinoamericanos considerada:**

```python
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
           'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
           'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
           'USA', 'VEN']
```

> Puedes usar esta lista para filtrar el DataFrame final por la columna `codigo_iso`.



In [None]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america =  pd.DataFrame() # FIX ME
df_america = df[df['codigo_iso'].isin(america)].copy()

print(df_america[['anio', 'pais', 'codigo_iso']].head())


    anio               pais codigo_iso
5   2001          Argentina        ARG
7   2001  Antigua y Barbuda        ATG
20  2001             Belize        BLZ
21  2001            Bolivia        BOL
22  2001             Brasil        BRA


In [None]:
#a)
#El pa√≠s con el menor valor de indice (mayor libertad de prensa).
#El pa√≠s con el mayor valor de indice (menor libertad de prensa).
anios = sorted(df_america['anio'].unique())

print("Pa√≠ses con mayor y menor libertad de prensa por a√±o (FOR LOOP):\n")
for anio in anios:
    df_anio = df_america[df_america['anio'] == anio]

    # Omitimos el a√±o si todos los valores son NaN
    if df_anio['indice'].isnull().all():
        continue

    # M√≠nimo √≠ndice (mayor libertad)
    min_ind = df_anio['indice'].min()
    pais_min = df_anio[df_anio['indice'] == min_ind]['pais'].values[0]

    # M√°ximo √≠ndice (menor libertad)
    max_ind = df_anio['indice'].max()
    pais_max = df_anio[df_anio['indice'] == max_ind]['pais'].values[0]

    print(f"A√±o {anio}:")
    print(f"  ‚úÖ Mayor libertad: {pais_min} ({min_ind})")
    print(f"  ‚ùå Menor libertad: {pais_max} ({max_ind})\n")


Pa√≠ses con mayor y menor libertad de prensa por a√±o (FOR LOOP):

A√±o 2001:
  ‚úÖ Mayor libertad: Canad√° (0.8)
  ‚ùå Menor libertad: Cuba (90.3)

A√±o 2002:
  ‚úÖ Mayor libertad: Trinidad y Tobago (1.0)
  ‚ùå Menor libertad: Cuba (97.83)

A√±o 2003:
  ‚úÖ Mayor libertad: Trinidad y Tobago (2.0)
  ‚ùå Menor libertad: Argentina (35826.0)

A√±o 2004:
  ‚úÖ Mayor libertad: Trinidad y Tobago (2.0)
  ‚ùå Menor libertad: Cuba (87.0)

A√±o 2005:
  ‚úÖ Mayor libertad: Bolivia (4.5)
  ‚ùå Menor libertad: Cuba (95.0)

A√±o 2006:
  ‚úÖ Mayor libertad: Canad√° (4.88)
  ‚ùå Menor libertad: Cuba (96.17)

A√±o 2007:
  ‚úÖ Mayor libertad: Canad√° (3.33)
  ‚ùå Menor libertad: Cuba (88.33)

A√±o 2008:
  ‚úÖ Mayor libertad: Canad√° (3.7)
  ‚ùå Menor libertad: Cuba (94.0)

A√±o 2009:
  ‚úÖ Mayor libertad: Estados Unidos (6.75)
  ‚ùå Menor libertad: Cuba (78.0)

A√±o 2012:
  ‚úÖ Mayor libertad: Jamaica (9.88)
  ‚ùå Menor libertad: Cuba (71.64)

A√±o 2013:
  ‚úÖ Mayor libertad: Jamaica (10.9)
  ‚ùå Menor 

In [None]:
#b) Resuelve la misma tarea del punto anterior utilizando un enfoque vectorizado con groupby, sin usar ciclos expl√≠citos.

# Eliminar filas con √≠ndice NaN
df_america_valid = df_america.dropna(subset=['indice'])

# Obtener el √≠ndice m√≠nimo por a√±o
idx_min = df_america_valid.groupby('anio')['indice'].idxmin()
min_por_anio = df_america_valid.loc[idx_min][['anio', 'pais', 'indice']].rename(columns={'pais': 'mayor_libertad', 'indice': 'indice_min'})

# Obtener el √≠ndice m√°ximo por a√±o
idx_max = df_america_valid.groupby('anio')['indice'].idxmax()
max_por_anio = df_america_valid.loc[idx_max][['anio', 'pais', 'indice']].rename(columns={'pais': 'menor_libertad', 'indice': 'indice_max'})

# Combinar ambos resultados
extremos = pd.merge(min_por_anio, max_por_anio, on='anio')

# Mostrar
print("\nPa√≠ses con mayor y menor libertad de prensa por a√±o (VECTORIZADO):")
print(extremos.head())



Pa√≠ses con mayor y menor libertad de prensa por a√±o (VECTORIZADO):
   anio     mayor_libertad  indice_min menor_libertad  indice_max
0  2001             Canad√°         0.8           Cuba       90.30
1  2002  Trinidad y Tobago         1.0           Cuba       97.83
2  2003  Trinidad y Tobago         2.0      Argentina    35826.00
3  2004  Trinidad y Tobago         2.0           Cuba       87.00
4  2005            Bolivia         4.5           Cuba       95.00


### 4. An√°lisis anual del √≠ndice por pa√≠s

En esta secci√≥n se busca analizar la evoluci√≥n del **√≠ndice m√°ximo** de libertad de prensa alcanzado por cada pa√≠s a lo largo del tiempo.

#### **Tarea principal:**

* Construye una tabla din√°mica (`pivot_table`) donde las **filas** correspondan a los pa√≠ses, las **columnas** a los a√±os (`anio`) y los **valores** sean el `indice` m√°ximo alcanzado por cada pa√≠s en ese a√±o.
* Aseg√∫rate de reemplazar los valores nulos resultantes con `0`.

> **Hint**: Puedes utilizar el par√°metro `fill_value=0` en `pd.pivot_table(...)`.



#### **Preguntas adicionales:**

**a)** ¬øQu√© pa√≠s tiene el mayor valor de `indice` en toda la tabla resultante? ¬øY cu√°l tiene el menor (distinto de cero)?
**b)** ¬øQu√© a√±os presentan en promedio los valores de `indice` m√°s altos? ¬øY los m√°s bajos?

> (Pista: usa `.mean(axis=0)` sobre la tabla pivot)

**c)** ¬øQu√© pa√≠s muestra mayor **variabilidad** (diferencia entre su m√°ximo y m√≠nimo `indice` a lo largo del tiempo)?

> (Pista: aplica `.max(axis=1) - .min(axis=1)`)

**d)** ¬øExisten pa√≠ses con √≠ndice constante a lo largo de todos los a√±os registrados? ¬øCu√°les?

**e)** ¬øQu√© pa√≠ses no tienen ning√∫n dato (es decir, quedaron con todos los valores igual a 0)? ¬øPodr√≠as explicar por qu√©?





In [None]:
#Construye una tabla din√°mica (pivot_table) donde las filas correspondan a los pa√≠ses, las columnas a los a√±os (anio) y los valores sean el indice m√°ximo alcanzado por cada pa√≠s en ese a√±o.
#Aseg√∫rate de reemplazar los valores nulos resultantes con 0.
#Hint: Puedes utilizar el par√°metro fill_value=0 en pd.pivot_table(...).

tabla_indice = pd.pivot_table(
    df_america,
    index='pais',
    columns='anio',
    values='indice',
    aggfunc='max',
    fill_value=0
)
print(tabla_indice.head())

anio               2001   2002     2003   2004   2005   2006   2007   2008  \
pais                                                                         
Antigua y Barbuda   0.0   0.00      0.0   0.00   0.00   0.00   0.00   0.00   
Argentina          12.0  15.17  35826.0  13.67  17.30  24.83  14.08  11.33   
Belize              0.0   0.00      0.0   0.00   0.00   0.00   0.00   0.00   
Bolivia            14.5   9.67     20.0   9.67   4.50  21.50  28.20  24.17   
Brasil             18.8  16.75     16.5  14.50  17.17  25.25  18.00  15.88   

anio                2009   2012   2013   2014   2015   2017   2018   2019  
pais                                                                       
Antigua y Barbuda   0.00   0.00  20.81   0.00   0.00   0.00   0.00   0.00  
Argentina          16.35  25.67  25.27  26.11  25.09  25.07  26.05  28.30  
Belize              0.00   0.00  17.05  18.54  20.61  23.43  24.55  27.50  
Bolivia            28.13  32.80  31.04  31.29  31.78  33.88  32.45  35.38

In [None]:
#a) ¬øQu√© pa√≠s tiene el mayor valor de indice en toda la tabla resultante?
#¬øY cu√°l tiene el menor (distinto de cero)?

# M√°ximo valor absoluto y pa√≠s correspondiente
valor_max = tabla_indice.max().max()
pais_max = tabla_indice[tabla_indice.max(axis=1) == valor_max].index[0]

# M√≠nimo valor (excluyendo ceros)
valor_min = tabla_indice.replace(0, np.nan).min().min()
pais_min = tabla_indice[tabla_indice.replace(0, np.nan).min(axis=1) == valor_min].index[0]

print(f"Pa√≠s con mayor √≠ndice: {pais_max} ({valor_max})")
print(f"Pa√≠s con menor √≠ndice distinto de cero: {pais_min} ({valor_min})")

#b) ¬øQu√© a√±os presentan en promedio los valores de indice m√°s altos? ¬øY los m√°s bajos?

promedios_anio = tabla_indice.replace(0, np.nan).mean(axis=0)  # promedio por a√±o, sin contar ceros

anio_mas_alto = promedios_anio.idxmax()
anio_mas_bajo = promedios_anio.idxmin()

print(f"A√±o con mayor promedio de √≠ndice: {anio_mas_alto} ({promedios_anio[anio_mas_alto]:.2f})")
print(f"A√±o con menor promedio de √≠ndice: {anio_mas_bajo} ({promedios_anio[anio_mas_bajo]:.2f})")


Pa√≠s con mayor √≠ndice: Argentina (35826.0)
Pa√≠s con menor √≠ndice distinto de cero: Canad√° (0.8)
A√±o con mayor promedio de √≠ndice: 2003 (1451.94)
A√±o con menor promedio de √≠ndice: 2002 (16.75)


In [None]:
#c) ¬øQu√© pa√≠s muestra mayor variabilidad (diferencia entre su m√°ximo y m√≠nimo indice a lo largo del tiempo)?
tabla_sin_ceros = tabla_indice.replace(0, np.nan)
variabilidad = tabla_sin_ceros.max(axis=1) - tabla_sin_ceros.min(axis=1)

pais_mas_variable = variabilidad.idxmax()
print(f"üìâ Pa√≠s con mayor variabilidad en √≠ndice: {pais_mas_variable} ({variabilidad[pais_mas_variable]:.2f})")


üìâ Pa√≠s con mayor variabilidad en √≠ndice: Argentina (35814.67)


In [None]:
#d) ¬øExisten pa√≠ses con √≠ndice constante a lo largo de todos los a√±os registrados? ¬øCu√°les?
constantes = tabla_sin_ceros.dropna().nunique(axis=1) == 1
paises_constantes = constantes[constantes].index.tolist()

print("üìå Pa√≠ses con √≠ndice constante a lo largo del tiempo:")
print(paises_constantes if paises_constantes else "Ninguno")


üìå Pa√≠ses con √≠ndice constante a lo largo del tiempo:
Ninguno


In [None]:
#e) ¬øQu√© pa√≠ses no tienen ning√∫n dato (es decir, quedaron con todos los valores igual a 0)? ¬øPodr√≠as explicar por qu√©?
sin_datos = tabla_indice.sum(axis=1) == 0
paises_sin_datos = tabla_indice[sin_datos].index.tolist()

print("‚ùå Pa√≠ses sin ning√∫n dato de √≠ndice:")
print(paises_sin_datos if paises_sin_datos else "Ninguno")


‚ùå Pa√≠ses sin ning√∫n dato de √≠ndice:
Ninguno
