<a href="https://colab.research.google.com/github/fralfaro/MAT306/blob/main/docs/labs/lab_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MAT306 - Laboratorio N°04


**Objetivo**: Aplicar técnicas intermedias y avanzadas de análisis de datos con pandas utilizando un caso real: el Índice de Libertad de Prensa. Este laboratorio incluye operaciones de limpieza, transformación, combinación de datos, y análisis exploratorio usando `merge`, `groupby`, `concat` y otras funciones fundamentales.




**Descripción del Dataset**

El presente conjunto de datos está orientado al análisis del **Índice de Libertad de Prensa**, una métrica internacional que evalúa el nivel de libertad del que gozan periodistas y medios de comunicación en distintos países. Este índice es recopilado anualmente por la organización **Reporteros sin Fronteras**.

La base de datos contempla observaciones por país y año, e incluye tanto el valor del índice como el ranking correspondiente. A menor puntaje en el índice, mayor nivel de libertad de prensa.

**Diccionario de variables**

| Variable     | Clase    | Descripción                                                                          |
| ------------ | -------- | ------------------------------------------------------------------------------------ |
| `codigo_iso` | carácter | Código ISO 3166-1 alfa-3 que representa a cada país.                                 |
| `pais`       | carácter | Nombre oficial del país.                                                             |
| `anio`       | entero   | Año en que se registró la medición del índice.                                       |
| `indice`     | numérico | Valor numérico del Índice de Libertad de Prensa (menor valor indica mayor libertad). |
| `ranking`    | entero   | Posición relativa del país en el ranking mundial de libertad de prensa.              |


**Fuente original y adaptación pedagógica**

* **Fuente original**: [Reporteros sin Fronteras](https://www.rsf-es.org/), recopilado y publicado a través del portal del [Banco Mundial](https://tcdata360.worldbank.org/indicators/h3f86901f?country=BRA&indicator=32416&viz=line_chart&years=2001,2019).
* **Adaptación educativa**: Los archivos han sido modificados intencionalmente para incorporar desafíos técnicos que permiten aplicar los contenidos abordados en clases, tales como limpieza de datos, normalización, detección de duplicados, y combinación de fuentes.


**Descripción de los archivos disponibles**

* **`libertad_prensa_codigo.csv`**: Contiene los pares `codigo_iso` y `pais`. Incluye intencionalmente un código ISO con dos nombres distintos de país para efectos de limpieza y validación de datos.

* **`libertad_prensa_01.csv`**: Contiene registros de los años **anteriores a 2010**. Incluye las variables `PAIS`, `ANIO`, `INDICE`, y `RANKING` con nombres de columna en **mayúsculas**.

* **`libertad_prensa_02.csv`**: Contiene registros de los años **desde 2010 en adelante**. Estructura similar al archivo anterior, con nombres de columna también en **mayúsculas**.





In [91]:
import numpy as np
import pandas as pd

# lectura de datos
archivos_anio = [
    'https://raw.githubusercontent.com/fralfaro/MAT306/main/docs/labs/data/libertad_prensa_01.csv',
    'https://raw.githubusercontent.com/fralfaro/MAT306/main/docs/labs/data/libertad_prensa_02.csv'
 ]
df_codigos = pd.read_csv('https://raw.githubusercontent.com/fralfaro/MAT306/main/docs/labs/data/libertad_prensa_codigo.csv')



### 1. Consolidación y limpieza de datos

A partir de los archivos disponibles, realice los siguientes pasos:

**a)** Cree un DataFrame llamado `df_anio` que consolide la información proveniente de los archivos **`libertad_prensa_01.csv`** y **`libertad_prensa_02.csv`**, correspondientes a distintas ventanas de tiempo. Recuerde que ambos archivos tienen nombres de columnas en mayúscula, por lo que debe normalizarlas a **minúscula** para asegurar consistencia.

**b)** Explore el archivo **`libertad_prensa_codigo.csv`** e identifique el código ISO que aparece asociado a dos nombres de país distintos. Elimine el registro que corresponda a un valor incorrecto o inconsistente, conservando solo el que considere válido.

**c)** Una vez preparados los archivos, cree un nuevo DataFrame llamado `df` que combine `df_anio` con `df_codigos`, utilizando la columna `codigo_iso` como clave. Asegúrese de realizar una unión que conserve únicamente los registros que tengan coincidencia en ambas fuentes.

> **Sugerencia**:
>
> * Para unir los archivos por filas (años), utilice la función `pd.concat([...])`.
> * Para combinar información por columnas (variables), utilice `pd.merge(...)` especificando `on='codigo_iso'`.



In [92]:
# 1.a) #Creamos dataframe de los archivos, quitandole los datos nulos y poniendo en minuscula los nombres de las columnas
df_anio0=pd.read_csv(archivos_anio[0],sep=",")
df_anio0.columns=df_anio0.columns.str.lower()


df_anio1=pd.read_csv(archivos_anio[1],sep=",")
df_anio1.columns=df_anio1.columns.str.lower()

df_anio1.head(3)

Unnamed: 0,codigo_iso,anio,indice,ranking
0,AFG,2012,37.36,112.0
1,AGO,2012,37.8,114.0
2,ALB,2012,30.88,87.0


In [93]:
#Comprobamos que tienen las mismas columnas
df_anio1.info()
print("\n")
df_anio0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1440 entries, 0 to 1439
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  1440 non-null   object 
 1   anio        1440 non-null   int64  
 2   indice      1225 non-null   float64
 3   ranking     1398 non-null   float64
dtypes: float64(2), int64(1), object(1)
memory usage: 45.1+ KB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1620 entries, 0 to 1619
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  1620 non-null   object 
 1   anio        1620 non-null   int64  
 2   indice      1439 non-null   float64
 3   ranking     1439 non-null   float64
dtypes: float64(2), int64(1), object(1)
memory usage: 50.8+ KB


In [94]:
#Concatenamos
df_anio=pd.concat([df_anio0,df_anio1])
df_anio.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3060 entries, 0 to 1439
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  3060 non-null   object 
 1   anio        3060 non-null   int64  
 2   indice      2664 non-null   float64
 3   ranking     2837 non-null   float64
dtypes: float64(2), int64(1), object(1)
memory usage: 119.5+ KB


In [95]:
df_anio["codigo_iso"].value_counts()

Unnamed: 0_level_0,count
codigo_iso,Unnamed: 1_level_1
AFG,17
AGO,17
ALB,17
AND,17
ARE,17
...,...
WSM,17
YEM,17
ZAF,17
ZMB,17


In [96]:
df_codigos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 181 entries, 0 to 180
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   codigo_iso  181 non-null    object
 1   pais        181 non-null    object
dtypes: object(2)
memory usage: 3.0+ KB


In [97]:
df_codigos["codigo_iso"].value_counts().head(3)

Unnamed: 0_level_0,count
codigo_iso,Unnamed: 1_level_1
ZWE,2
AFG,1
ALB,1


In [98]:
df_codigos.loc[df_codigos["codigo_iso"]=="ZWE"]

Unnamed: 0,codigo_iso,pais
179,ZWE,Zimbabue
180,ZWE,malo


In [99]:
df_codigos = df_codigos.drop(180, axis=0)

In [100]:
df_codigos.tail()

Unnamed: 0,codigo_iso,pais
175,WSM,Samoa
176,YEM,Yemen
177,ZAF,Sudáfrica
178,ZMB,Zambia
179,ZWE,Zimbabue


In [101]:
df= pd.merge(df_anio, df_codigos, on="codigo_iso", how= 'inner')
df2=df.copy()



### 2. Exploración inicial del conjunto de datos

Una vez que hayas consolidado el DataFrame final `df`, realiza un análisis exploratorio básico respondiendo las siguientes preguntas:

#### **Estructura del DataFrame**

* ¿Cuántas **filas (observaciones)** contiene el conjunto de datos?
* ¿Cuántas **columnas** tiene el DataFrame?
* ¿Cuáles son los **nombres de las columnas**?
* ¿Qué **tipo de datos** tiene cada columna?
* ¿Hay columnas con un tipo de dato inesperado (por ejemplo, fechas como strings)?

#### **Resumen estadístico**

* Genera un resumen estadístico del conjunto de datos con `.describe()`.
  ¿Qué observas sobre los valores de `indice` y `ranking`?
* ¿Qué valores mínimo, máximo y promedio tiene la columna `indice`?
* ¿Qué países presentan los valores extremos en `indice` y `ranking`?

#### **Datos faltantes**

* ¿Cuántos valores nulos hay en cada columna?
* ¿Qué proporción de observaciones tienen valores faltantes?
* ¿Hay columnas con más del 30% de datos faltantes?

#### **Unicidad y duplicados**

* ¿Cuántos países distintos (`pais`) hay en el DataFrame?
* ¿Cuántos años distintos (`anio`) hay representados?
* ¿Existen filas duplicadas (exactamente iguales)? ¿Cuántas?

#### **Validación cruzada de columnas**

* ¿Hay inconsistencias entre el país (`pais`) y su código (`codigo_iso`)?
  (por ejemplo, un mismo código ISO asociado a más de un país)

> **Sugerencia**: Apoya tu análisis con funciones como `.info()`, `.nunique()`, `.isnull().sum()`, `.duplicated()`, `.value_counts()`, entre otras.



    

#### **Estructura del DataFrame**
* El conjunto de datos contiene 3660 filas, de las cuales 2837 son observaciones no nulas para ranking y 2664 son no nulas para el indice
* Hay 5 columnas
* Nombre de las columnas= "Codigo_iso","anio","indice", "ranking" y "pais"
* Indice y Ranking tienen numeros tipo float, anio contiene numeros enteros. Codigo Iso y pais tienen dato tipo "Object", que en este caso son strings
* No, los tipos de datos son razonables


In [102]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3060 entries, 0 to 3059
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  3060 non-null   object 
 1   anio        3060 non-null   int64  
 2   indice      2664 non-null   float64
 3   ranking     2837 non-null   float64
 4   pais        3060 non-null   object 
dtypes: float64(2), int64(1), object(2)
memory usage: 119.7+ KB


#### **Resumen Estadístico**
* Los valores maximos para ambos son demasiado altos, no se condice con el resto de los cuantiles, aumenta de forma exagerada tanto el promedio como la desviación estandar.

* La columna "indice" tienen minimo 0, maximo 64536 y promedio 205.78
* Para "ranking" los valores extremos corresponden a:  Kosovo, Guinea-Bissau e India
* Para "indice" los valores extremos son de: Kosovo, Tonga, Senegal y Argentina.



In [103]:
df.describe()

Unnamed: 0,anio,indice,ranking
count,3060.0,2664.0,2837.0
mean,2009.941176,205.782316,477.930913
std,5.786024,2695.525264,6474.935347
min,2001.0,0.0,1.0
25%,2005.0,15.295,34.0
50%,2009.0,28.0,70.0
75%,2015.0,41.2275,110.0
max,2019.0,64536.0,121056.0


In [104]:
df.sort_values('ranking', ascending = False).head(15)

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
2249,KSV,2015,64527.0,121056.0,Kosovo
2069,KSV,2014,64536.0,120614.0,Kosovo
2429,KSV,2016,,119285.0,Kosovo
2402,GNB,2016,,118793.0,Guinea-Bissau
1709,KSV,2012,37549.0,118470.0,Kosovo
1889,KSV,2013,37757.0,116370.0,Kosovo
1529,KSV,2009,36662.0,107336.0,Kosovo
1169,KSV,2007,18438.0,91179.0,Kosovo
629,KSV,2004,36881.0,90572.0,Kosovo
989,KSV,2006,20674.0,64499.0,Kosovo


In [105]:
df.sort_values('indice', ascending = False).head(15)

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
2069,KSV,2014,64536.0,120614.0,Kosovo
2249,KSV,2015,64527.0,121056.0,Kosovo
1889,KSV,2013,37757.0,116370.0,Kosovo
1709,KSV,2012,37549.0,118470.0,Kosovo
1782,TON,2012,37126.0,51.0,Tonga
1942,SEN,2013,37124.0,51.0,Senegal
629,KSV,2004,36881.0,90572.0,Kosovo
1529,KSV,2009,36662.0,107336.0,Kosovo
365,ARG,2003,35826.0,35.0,Argentina
989,KSV,2006,20674.0,64499.0,Kosovo


#### **Datos Faltantes**
* Hay 396 valores nulos en "indice" y 223 valores nulos en "ranking".
* Hay 397 filas que tienen al menos un valor nulo en "ranking" o "indice", es decir, un 12,97 % de las filas tienen datos faltantes
* El 30% de los datos equivale a 918 filas, no hay columnas con esa cantidad de datos faltantes.

In [106]:
df.isnull().sum()

Unnamed: 0,0
codigo_iso,0
anio,0
indice,396
ranking,223
pais,0


In [107]:
df.isnull().value_counts()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,count
codigo_iso,anio,indice,ranking,pais,Unnamed: 5_level_1
False,False,False,False,False,2663
False,False,True,True,False,222
False,False,True,False,False,174
False,False,False,True,False,1


#### **Unicidad y Duplicados**
* Hay 179 paises distintos.
* Hay 17 años distintos.
* No hay filas duplicadas

In [108]:
df["pais"].nunique()

179

In [109]:
df["anio"].nunique()

17

In [110]:
df.duplicated().value_counts()

Unnamed: 0,count
False,3060


#### **Validación Cruzada de Columnas**
* No hay llaves duplicadas, es decir, cada pais tiene un único codigo

In [111]:
#obtenemos los pares pais-codigo_iso
agrupado=df.groupby("pais")["codigo_iso"].nunique()
agrupado.head()

Unnamed: 0_level_0,codigo_iso
pais,Unnamed: 1_level_1
Afghanistán,1
Albania,1
Alemania,1
Algeria,1
Andorra,1


In [112]:
df.groupby("pais")["codigo_iso"].unique().duplicated().sum()

np.int64(0)

In [113]:
#Notamos que el año 2016 contiene solo datos nulos
df.loc[df['anio']==2016].info()

<class 'pandas.core.frame.DataFrame'>
Index: 180 entries, 2340 to 2519
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo_iso  180 non-null    object 
 1   anio        180 non-null    int64  
 2   indice      0 non-null      float64
 3   ranking     174 non-null    float64
 4   pais        180 non-null    object 
dtypes: float64(2), int64(1), object(2)
memory usage: 8.4+ KB


In [114]:
#Filtramos df para quedarnos con los datos de indices razonables
df = df.loc[lambda x: x['indice']<=200]




### 3. Comparación regional: países latinoamericanos

En esta sección se busca identificar cuáles son los países de América Latina que han presentado los valores extremos del **Índice de Libertad de Prensa** en cada año observado.

> Recuerda que un menor puntaje en `indice` implica mayor libertad de prensa.

#### **Tareas:**

**a)** Utilizando un ciclo `for`, recorre cada año del conjunto de datos filtrado por países latinoamericanos, y determina para cada año:

* El país con el menor valor de `indice` (mayor libertad de prensa).
* El país con el mayor valor de `indice` (menor libertad de prensa).

**b)** Resuelve la misma tarea del punto anterior utilizando un enfoque vectorizado con `groupby`, sin usar ciclos explícitos.



#### **Lista de países latinoamericanos considerada:**

```python
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
           'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
           'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
           'USA', 'VEN']
```

> Puedes usar esta lista para filtrar el DataFrame final por la columna `codigo_iso`.



In [115]:
# respuesta
america = ['ARG', 'ATG', 'BLZ', 'BOL', 'BRA', 'CAN', 'CHL', 'COL', 'CRI',
       'CUB', 'DOM', 'ECU', 'GRD', 'GTM', 'GUY', 'HND', 'HTI', 'JAM',
       'MEX', 'NIC', 'PAN', 'PER', 'PRY', 'SLV', 'SUR', 'TTO', 'URY',
       'USA', 'VEN']

df_america = df.loc[df['codigo_iso'].isin(america)]
df_america.head()

Unnamed: 0,codigo_iso,anio,indice,ranking,pais
5,ARG,2001,12.0,8.0,Argentina
21,BOL,2001,14.5,13.0,Bolivia
22,BRA,2001,18.8,18.0,Brasil
27,CAN,2001,0.8,2.0,Canadá
29,CHL,2001,6.5,81.0,Chile


In [116]:
anios = df_america['anio'].unique()
anios.sort()
print(anios)

for anio in anios:
    df_anio = df_america.loc[df_america['anio'] == anio]
    nulos=df_anio['indice'].isnull().sum()
    df_anio=df_anio.dropna()

    if nulos <=27:
        min=df_anio.sort_values('indice', ascending = True).iloc[0]
        max=df_anio.sort_values('indice', ascending = True).iloc[-1]

        print(f"Año {anio}")
        print(f"Mayor libertad de prensa: {min['pais']}, indice :{min['indice']}, ranking:{min['ranking']} ")
        print(f"Menor libertad de prensa: {max['pais']}, indice :{max['indice']}, ranking:{max['ranking']}\n")
    else:
        print(f"Año {anio} no tiene suficientes datos \n")

[2001 2002 2003 2004 2005 2006 2007 2008 2009 2012 2013 2014 2015 2017
 2018 2019]
Año 2001
Mayor libertad de prensa: Canadá, indice :0.8, ranking:2.0 
Menor libertad de prensa: Cuba, indice :90.3, ranking:99.0

Año 2002
Mayor libertad de prensa: Trinidad y Tobago, indice :1.0, ranking:2.0 
Menor libertad de prensa: Cuba, indice :97.83, ranking:125.0

Año 2003
Mayor libertad de prensa: Trinidad y Tobago, indice :2.0, ranking:30.0 
Menor libertad de prensa: Cuba, indice :106.83, ranking:7.0

Año 2004
Mayor libertad de prensa: Trinidad y Tobago, indice :2.0, ranking:31.0 
Menor libertad de prensa: Cuba, indice :87.0, ranking:112.0

Año 2005
Mayor libertad de prensa: Bolivia, indice :4.5, ranking:63.0 
Menor libertad de prensa: Cuba, indice :95.0, ranking:109.0

Año 2006
Mayor libertad de prensa: Canadá, indice :4.88, ranking:84.0 
Menor libertad de prensa: Cuba, indice :96.17, ranking:139.0

Año 2007
Mayor libertad de prensa: Canadá, indice :3.33, ranking:50.0 
Menor libertad de prensa: 

In [117]:
minimos = df_america.loc[df_america.groupby('anio')['indice'].idxmin()]
maximos = df_america.loc[df_america.groupby('anio')['indice'].idxmax()]


In [118]:
minimos = minimos[['anio', 'pais', 'indice']].rename(columns={'pais': 'pais_min', 'indice': 'indice_min'})
maximos = maximos[['anio', 'pais', 'indice']].rename(columns={'pais': 'pais_max', 'indice': 'indice_max'})


In [119]:

final = pd.merge(minimos, maximos, on='anio')
print(final)


    anio           pais_min  indice_min pais_max  indice_max
0   2001             Canadá        0.80     Cuba       90.30
1   2002  Trinidad y Tobago        1.00     Cuba       97.83
2   2003  Trinidad y Tobago        2.00     Cuba      106.83
3   2004  Trinidad y Tobago        2.00     Cuba       87.00
4   2005            Bolivia        4.50     Cuba       95.00
5   2006             Canadá        4.88     Cuba       96.17
6   2007             Canadá        3.33     Cuba       88.33
7   2008             Canadá        3.70     Cuba       94.00
8   2009     Estados Unidos        6.75     Cuba       78.00
9   2012            Jamaica        9.88     Cuba       71.64
10  2013            Jamaica       10.90     Cuba       70.92
11  2014             Canadá       10.99     Cuba       70.21
12  2015         Costa Rica       11.10     Cuba       70.23
13  2017         Costa Rica       11.93     Cuba       71.75
14  2018            Jamaica       11.33     Cuba       68.90
15  2019            Jama

### 4. Análisis anual del índice por país

En esta sección se busca analizar la evolución del **índice máximo** de libertad de prensa alcanzado por cada país a lo largo del tiempo.

#### **Tarea principal:**

* Construye una tabla dinámica (`pivot_table`) donde las **filas** correspondan a los países, las **columnas** a los años (`anio`) y los **valores** sean el `indice` máximo alcanzado por cada país en ese año.
* Asegúrate de reemplazar los valores nulos resultantes con `0`.

> **Hint**: Puedes utilizar el parámetro `fill_value=0` en `pd.pivot_table(...)`.



#### **Preguntas adicionales:**

**a)** ¿Qué país tiene el mayor valor de `indice` en toda la tabla resultante? ¿Y cuál tiene el menor (distinto de cero)?
**b)** ¿Qué años presentan en promedio los valores de `indice` más altos? ¿Y los más bajos?

> (Pista: usa `.mean(axis=0)` sobre la tabla pivot)

**c)** ¿Qué país muestra mayor **variabilidad** (diferencia entre su máximo y mínimo `indice` a lo largo del tiempo)?

> (Pista: aplica `.max(axis=1) - .min(axis=1)`)

**d)** ¿Existen países con índice constante a lo largo de todos los años registrados? ¿Cuáles?

**e)** ¿Qué países no tienen ningún dato (es decir, quedaron con todos los valores igual a 0)? ¿Podrías explicar por qué?





In [124]:
df2 = df2.loc[lambda x: x['indice']<=200]
pivot = pd.pivot_table(df2, index='pais', columns='anio',  values='indice', aggfunc='max', fill_value=0)
pivot

anio,2001,2002,2003,2004,2005,2006,2007,2008,2009,2012,2013,2014,2015,2017,2018,2019
pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Afghanistán,35.5,40.17,28.25,39.17,44.25,56.50,59.25,54.25,51.67,37.36,37.07,37.44,37.75,39.46,37.28,36.55
Albania,0.0,6.50,11.50,14.17,18.00,25.50,16.00,21.75,21.50,30.88,29.92,28.77,29.92,29.92,29.49,29.84
Alemania,1.5,1.33,2.00,4.00,5.50,5.75,4.50,3.50,4.25,10.24,10.23,11.47,14.80,14.97,14.39,14.60
Algeria,31.0,33.00,43.50,40.33,40.00,40.50,31.33,49.56,47.33,36.54,36.26,36.63,41.69,42.83,43.13,45.75
Andorra,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,6.82,6.82,19.87,19.87,21.03,22.21,24.63
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Vietnam,81.3,89.17,86.88,73.25,67.25,79.25,86.17,81.67,75.75,71.78,72.36,72.63,74.27,73.96,75.05,74.93
West Bank y Gaza,0.0,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,42.90,42.96,44.68
Yemen,34.8,41.83,48.00,46.25,54.00,56.67,59.00,83.38,82.13,69.22,67.26,66.36,67.07,65.80,62.23,61.66
Zambia,26.8,23.25,29.75,23.00,22.50,21.50,15.50,26.75,22.00,27.93,30.89,34.35,35.08,36.48,35.36,36.38


In [125]:
pais_max = pivot.max(axis=1).idxmax()
max = pivot.max().max()

pais_min = pivot.replace(0, pd.NA).min(axis=1).idxmin()
min = pivot.replace(0, pd.NA).min().min()

print("País con mayor índice:", pais_max, max)
print("País con menor índice:", pais_min, min)


País con mayor índice: Eritrea 115.5
País con menor índice: Austria 0.5


In [126]:
prom_anio=pivot.mean(axis=0)

anio_max=prom_anio.idxmax()
max=prom_anio.max()

anio_min=prom_anio.idxmin()
min=prom_anio.min()

print("Año con promedio mayor:", anio_max, max)
print("Año con promedio menor:", anio_min, min)


Año con promedio mayor: 2017 34.85634831460674
Año con promedio menor: 2001 20.14494382022472


In [127]:
var_paises= pivot.max(axis=1)- pivot.min(axis=1)
pais_max = var_paises.idxmax()
max = var_paises.max()

print("País con mayor variabilidad:", pais_max, "(", max, ")")


País con mayor variabilidad: Corea del Norte ( 104.75 )


In [128]:
ind_cte = pivot[(pivot.max(axis=1) == pivot.min(axis=1))]
print("Países con índice constante:", list(ind_cte.index))


Países con índice constante: []


No hay paises con indices constantes a través de los años


In [129]:
pais_ceros = pivot[(pivot == 0).all(axis=1)]
print("Países sin datos:", list(pais_ceros.index))


Países sin datos: []


No hay paises sin datos en todos los años, todos tienen al menos un año con indice calculado