# __Ayudantía 3 - Tidy Data__

In [2]:
import pandas as pd

## __📝 Apuntes Importantes__

__(Extraídos desde el _starter pack_)__

### __1) Lectura de XLSXs__
_(3-Resumen Pandas; Cap 1.3 (B))_

In [None]:
# pip install openpyxl xlrd

Collecting xlrd
  Downloading xlrd-2.0.1-py2.py3-none-any.whl.metadata (3.4 kB)
Downloading xlrd-2.0.1-py2.py3-none-any.whl (96 kB)
Installing collected packages: xlrd
Successfully installed xlrd-2.0.1
Note: you may need to restart the kernel to use updated packages.


In [None]:
# Leer un archivo Excel
df = pd.read_excel('output.xlsx', index_col='Unnamed: 0', sheet_name=0)
df

- Parámetros de utilidad: 
    - ```sep=;``` : Para cambiar el separador (muy útil para algunos csv en español)
    - ```index_col='col1'``` : Indicar si existe una columna indice (por defecto se crea una)
    - ```header=2``` : Indicar la fila donde están los títulos (por defecto es la primera / se puede agregar None para indicar que no tiene)
    - ```usecols=[col1, col2, ...]``` : Especificar columnas de entrada (en caso de excel puede utilizarse según las columnas de excel, por ejemplo 'A:D')
    - ```nrows=1000``` : Especificar cantidad de filas de entrada
    - ```sheet_name='hoja1'``` : Especifica la hoja a leerse (Puede indicarse por nombre, por índice o una lista d ehojas)
    - ```skiprows=2``` : Indica una cantidad de filas para saltar (Si es que no contienen info útil)

### __2) Uniendo DataFrames__
_(3-Resumen Pandas; Cap 4)_

#### __2.1- Concatenación__

La concatenación refiere a la acción de insertar los datos bruzcamente sobre, bajo o al lado de una tabla desde otra.

In [2]:
# data de ejemplo 1
df1 = pd.DataFrame({'Nombre':['Alonso','Esteban','Pablo','Rodrigo'],'Ingreso':[1200,300,1500,600]})
df1

Unnamed: 0,Nombre,Ingreso
0,Alonso,1200
1,Esteban,300
2,Pablo,1500
3,Rodrigo,600


In [3]:
# data de ejemplo 2
df2 = pd.DataFrame({'Nombre':['Alonso','Esteban','Pablo','Rodrigo','Patricio'],'Ciudad':['San Pedro','Concepción','Concepción','Talcahuano','San Pedro']})
df2

Unnamed: 0,Nombre,Ciudad
0,Alonso,San Pedro
1,Esteban,Concepción
2,Pablo,Concepción
3,Rodrigo,Talcahuano
4,Patricio,San Pedro


In [4]:
pd.concat([df1, df2]) # pone uno sobbajore el otro y no agrega datos si la columna no existe

Unnamed: 0,Nombre,Ingreso,Ciudad
0,Alonso,1200.0,
1,Esteban,300.0,
2,Pablo,1500.0,
3,Rodrigo,600.0,
0,Alonso,,San Pedro
1,Esteban,,Concepción
2,Pablo,,Concepción
3,Rodrigo,,Talcahuano
4,Patricio,,San Pedro


In [9]:
pd.concat([df1, df2], axis=1) # Al cambiar el eje, agrega de manera bruzca una tabla al lado de la otra

Unnamed: 0,Nombre,Ingreso,Nombre.1,Ciudad
0,Alonso,1200.0,Alonso,San Pedro
1,Esteban,300.0,Esteban,Concepción
2,Pablo,1500.0,Pablo,Concepción
3,Rodrigo,600.0,Rodrigo,Talcahuano
4,,,Patricio,San Pedro


#### __2.2- Fusión__

El `merge` es una fusión compleja y más intelgente que une las tablas a partir de cierta(s) columna(s) en común y por algún método de unión.

In [7]:
# Unir DataFrames por una columna
df_merged = pd.merge(df1, df2, on='Nombre', how='outer') # tiene parametros: on='columna' y how='inner' | 'outer' | 'left' | 'right' | 'cross'
df_merged # Los une en un mismo dataframe

Unnamed: 0,Nombre,Ingreso,Ciudad
0,Alonso,1200.0,San Pedro
1,Esteban,300.0,Concepción
2,Pablo,1500.0,Concepción
3,Patricio,,San Pedro
4,Rodrigo,600.0,Talcahuano


### __3) Tidy Data__
_(3-Resumen Pandas; Cap 5)_

En este formato, los datos siguen tres principios clave:
1. **Cada variable se almacena en una columna**: Cada atributo o característica de los datos es una columna diferente. Por ejemplo, si estás trabajando con un conjunto de datos sobre ventas, podrías tener columnas como "Producto", "Fecha", "Cantidad", "Precio", etc.
2. **Cada observación está en una fila**: Cada fila representa una única observación o entrada. Por ejemplo, una fila podría representar una transacción o una venta específica de un producto en un día determinado.
3. **Cada tipo de unidad de observación tiene su propio archivo o tabla**: Si tienes múltiples tipos de datos relacionados (como datos de clientes y datos de ventas), cada tipo de entidad se almacena en su propio conjunto de datos. Por ejemplo, podrías tener una tabla para clientes y otra para ventas.

Veamos un ejemplo:

In [8]:
data = {
    'Estudiante': ['Ana', 'Luis', 'María'],
    'Matemáticas_2021': [85, 78, 92],
    'Historia_2021': [88, 74, 85],
    'Ciencias_2021': [90, 80, 88],
    'Matemáticas_2022': [89, 82, 95],
    'Historia_2022': [90, 77, 91],
    'Ciencias_2022': [92, 84, 94],
}

df_no_tidy = pd.DataFrame(data)
df_no_tidy

Unnamed: 0,Estudiante,Matemáticas_2021,Historia_2021,Ciencias_2021,Matemáticas_2022,Historia_2022,Ciencias_2022
0,Ana,85,88,90,89,90,92
1,Luis,78,74,80,82,77,84
2,María,92,85,88,95,91,94


- Estos datos no cumplen con las condiciones de un formato tidy, por lo que para un mejor manejo deberá ser modificada la tabla.

### __5.1- Función Melt__

La función `melt` permite traspasar una tabla de formato desordenado a uno _tidy_ de manera sencilla indicando cuáles son la variable de observación, como se llamará la nueva variable y qué valor se medirá.

In [9]:
# Reordenandolo: MELT
df_tidy = df_no_tidy.melt(id_vars=['Estudiante'], var_name='Asignatura', value_name='nota')
df_tidy

Unnamed: 0,Estudiante,Asignatura,nota
0,Ana,Matemáticas_2021,85
1,Luis,Matemáticas_2021,78
2,María,Matemáticas_2021,92
3,Ana,Historia_2021,88
4,Luis,Historia_2021,74
5,María,Historia_2021,85
6,Ana,Ciencias_2021,90
7,Luis,Ciencias_2021,80
8,María,Ciencias_2021,88
9,Ana,Matemáticas_2022,89


In [10]:
# más bonito 
df_tidy2 = df_tidy.copy()
df_tidy2[['Asignatura', 'Año']] = df_tidy['Asignatura'].str.split('_', expand=True) # parametro expand permite dividirse en columnas
df_tidy2 = df_tidy2[['Estudiante','Año','Asignatura','nota']] # Nuevo órden
df_tidy2 = df_tidy2.rename(columns={'nota': 'Nota'}) # Nuevo nombre
df_tidy2

Unnamed: 0,Estudiante,Año,Asignatura,Nota
0,Ana,2021,Matemáticas,85
1,Luis,2021,Matemáticas,78
2,María,2021,Matemáticas,92
3,Ana,2021,Historia,88
4,Luis,2021,Historia,74
5,María,2021,Historia,85
6,Ana,2021,Ciencias,90
7,Luis,2021,Ciencias,80
8,María,2021,Ciencias,88
9,Ana,2022,Matemáticas,89


### __5.2- Función Pivot__

Función contraria al `melt`.

In [11]:
# Proceso contrario: PIVOT
df_no_tidy = df_tidy.pivot(index='Estudiante',columns=['Asignatura'],values='nota').reset_index()
df_no_tidy

Asignatura,Estudiante,Ciencias_2021,Ciencias_2022,Historia_2021,Historia_2022,Matemáticas_2021,Matemáticas_2022
0,Ana,90,92,88,90,85,89
1,Luis,80,84,74,77,78,82
2,María,88,94,85,91,92,95


## __Workshop 2__:

### Estadísticas reportadas por el Banco Mundial por país
- **PIB Per Cápita**: [https://data.worldbank.org/indicator/NY.GDP.PCAP.CD](https://data.worldbank.org/indicator/NY.GDP.PCAP.CD)
- **Población**: [https://data.worldbank.org/indicator/SP.POP.TOTL](https://data.worldbank.org/indicator/SP.POP.TOTL)
- **Índice de Gini**: [https://data.worldbank.org/indicator/SI.POV.GINI](https://data.worldbank.org/indicator/SI.POV.GINI)

### __Actividades__

##### 1. Descargue los archivos generados por el Banco Mundial en formato Excel. Luego, abra los archivos usando `read_excel()` y especificando que la primera fila corresponda a la que contenga el nombre de las variables. Use el parámetro `header`.

In [3]:
# SOLUCIÓN 1
# Leyendo Rutas
path_route = 'data/ws2/'
file_pib = path_route + 'API_NY.GDP.PCAP.CD_DS2_en_excel_v2_77.xls'
file_gini = path_route + 'API_SI.POV.GINI_DS2_en_excel_v2_167.xls'
file_pop = path_route + 'API_SP.POP.TOTL_DS2_en_excel_v2_164.xls'

# -> Tambien se puede usar glob('data/ws2/*.xls'), pero quería mostrar una alternativa simple

df_pib = pd.read_excel(file_pib,
                       header=3)
df_gini = pd.read_excel(file_gini,
                       header=3)
df_pop = pd.read_excel(file_pop,
                       header=3)

In [4]:
df_pib.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,1965,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
0,Aruba,ABW,GDP per capita (current US$),NY.GDP.PCAP.CD,,,,,,,...,27458.225331,27441.529662,28440.051964,30082.127645,31096.205074,22855.93232,27200.061079,30559.533535,33984.79062,
1,Africa Eastern and Southern,AFE,GDP per capita (current US$),NY.GDP.PCAP.CD,186.132432,186.947182,197.408105,225.447007,209.005786,226.883067,...,1479.564123,1329.777824,1520.171298,1538.924188,1493.780445,1344.080962,1522.590088,1628.024526,1659.51529,
2,Afghanistan,AFG,GDP per capita (current US$),NY.GDP.PCAP.CD,,,,,,,...,565.56973,522.082216,525.469771,491.337221,496.602504,510.787063,356.496214,357.261153,415.707417,
3,Africa Western and Central,AFW,GDP per capita (current US$),NY.GDP.PCAP.CD,121.938353,127.452629,133.825452,139.006714,148.547736,155.563837,...,1845.767804,1616.843198,1560.162999,1703.896392,1783.654365,1664.249176,1747.840549,1777.235012,1568.72431,
4,Angola,AGO,GDP per capita (current US$),NY.GDP.PCAP.CD,,,,,,,...,3213.902611,1807.952941,2437.259712,2538.591391,2189.855714,1449.922867,1925.874661,2929.694455,2308.159767,


In [5]:
df_gini.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,1965,...,2015,2016,2017,2018,2019,2020,2021,2022,2023,2024
0,Aruba,ABW,Gini index,SI.POV.GINI,,,,,,,...,,,,,,,,,,
1,Africa Eastern and Southern,AFE,Gini index,SI.POV.GINI,,,,,,,...,,,,,,,,,,
2,Afghanistan,AFG,Gini index,SI.POV.GINI,,,,,,,...,,,,,,,,,,
3,Africa Western and Central,AFW,Gini index,SI.POV.GINI,,,,,,,...,,,,,,,,,,
4,Angola,AGO,Gini index,SI.POV.GINI,,,,,,,...,,,,51.3,,,,,,


In [6]:
df_pop.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1995,1996,1997,1998,1999,2000,...,2055,2060,2065,2070,2075,2080,2085,2090,2095,2100
0,Aruba,ABW,"Population, total",SP.POP.TOTL,80324.0,83200.0,85451.0,87277.0,89005.0,90853.0,...,,,,,,,,,,
1,Afghanistan,AFG,"Population, total",SP.POP.TOTL,18110657.0,18853437.0,19357126.0,19737765.0,20170844.0,20779953.0,...,,,,,,,,,,
2,Angola,AGO,"Population, total",SP.POP.TOTL,13945206.0,14400719.0,14871570.0,15359601.0,15866869.0,16395473.0,...,,,,,,,,,,
3,Anguilla,AIA,"Population, total",SP.POP.TOTL,,,,,,,...,,,,,,,,,,
4,Albania,ALB,"Population, total",SP.POP.TOTL,3187784.0,3168033.0,3148281.0,3128530.0,3108778.0,3089027.0,...,,,,,,,,,,


##### 2. Convierta a formato *tidy* cada conjunto de datos. Realice esta labor por separado.

In [7]:
# Tu código aquí

###### Solución

In [8]:
# SOLUCIÓN 2
df_pibt = df_pib.melt(id_vars=['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code'], 
            value_name='PIB',
            var_name='Year')
df_ginit = df_gini.melt(id_vars=['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code'], 
            value_name='Gini index',
            var_name='Year')
df_popt = df_pop.melt(id_vars=['Country Name', 'Country Code', 'Indicator Name', 'Indicator Code'], 
            value_name='Population',
            var_name='Year')

In [9]:
df_pibt

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,PIB
0,Aruba,ABW,GDP per capita (current US$),NY.GDP.PCAP.CD,1960,
1,Africa Eastern and Southern,AFE,GDP per capita (current US$),NY.GDP.PCAP.CD,1960,186.132432
2,Afghanistan,AFG,GDP per capita (current US$),NY.GDP.PCAP.CD,1960,
3,Africa Western and Central,AFW,GDP per capita (current US$),NY.GDP.PCAP.CD,1960,121.938353
4,Angola,AGO,GDP per capita (current US$),NY.GDP.PCAP.CD,1960,
...,...,...,...,...,...,...
17285,Kosovo,XKX,GDP per capita (current US$),NY.GDP.PCAP.CD,2024,
17286,"Yemen, Rep.",YEM,GDP per capita (current US$),NY.GDP.PCAP.CD,2024,
17287,South Africa,ZAF,GDP per capita (current US$),NY.GDP.PCAP.CD,2024,
17288,Zambia,ZMB,GDP per capita (current US$),NY.GDP.PCAP.CD,2024,


In [10]:
df_ginit.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,Gini index
0,Aruba,ABW,Gini index,SI.POV.GINI,1960,
1,Africa Eastern and Southern,AFE,Gini index,SI.POV.GINI,1960,
2,Afghanistan,AFG,Gini index,SI.POV.GINI,1960,
3,Africa Western and Central,AFW,Gini index,SI.POV.GINI,1960,
4,Angola,AGO,Gini index,SI.POV.GINI,1960,


In [11]:
df_popt.head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,Population
0,Aruba,ABW,"Population, total",SP.POP.TOTL,1995,80324.0
1,Afghanistan,AFG,"Population, total",SP.POP.TOTL,1995,18110657.0
2,Angola,AGO,"Population, total",SP.POP.TOTL,1995,13945206.0
3,Anguilla,AIA,"Population, total",SP.POP.TOTL,1995,
4,Albania,ALB,"Population, total",SP.POP.TOTL,1995,3187784.0


##### 3. Calcule la media y mediana de población anualmente.

In [12]:
# Tu código aquí

###### Solución

In [13]:
# SOLUCIÓN 3
# Promedio
df_popt.groupby('Year').agg({'Population':'mean'})

Unnamed: 0_level_0,Population
Year,Unnamed: 1_level_1
1995,1.625435e+08
1996,1.649784e+08
1997,1.674075e+08
1998,1.684142e+08
1999,1.707680e+08
...,...
2080,
2085,
2090,
2095,


In [14]:
# SOLUCIÓN 3
# Mediana
df_popt.groupby('Year').agg({'Population':'median'})

Unnamed: 0_level_0,Population
Year,Unnamed: 1_level_1
1995,5836495.0
1996,6013107.0
1997,6122130.0
1998,6185562.0
1999,6362201.0
...,...
2080,
2085,
2090,
2095,


##### 4. ¿Cómo se obtiene el país con mayor población?

In [15]:
# Tu código aquí

###### Solución

In [17]:
# SOLUCIÓN 4
df_popt.sort_values('Population', ascending=False).head()
# Hay agrupaciones de países!

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,Population
6793,World,WLD,"Population, total",SP.POP.TOTL,2019,7674533000.0
6521,World,WLD,"Population, total",SP.POP.TOTL,2018,7594270000.0
6249,World,WLD,"Population, total",SP.POP.TOTL,2017,7510990000.0
5977,World,WLD,"Population, total",SP.POP.TOTL,2016,7426103000.0
5705,World,WLD,"Population, total",SP.POP.TOTL,2015,7340548000.0


In [18]:
# SOLUCIÓN 4
# Encontrando nombres de países
most_population = df_popt.groupby('Country Name').agg({'Population':'sum'}).sort_values(by='Population',ascending=False).head(10)
most_population

Unnamed: 0_level_0,Population
Country Name,Unnamed: 1_level_1
World,167096100000.0
Low & middle income,138813500000.0
Middle income,125326400000.0
Lower middle income,64196210000.0
Upper middle income,61130180000.0
East Asia & Pacific,53901680000.0
East Asia & Pacific (excluding high income),47966660000.0
South Asia,38998300000.0
China,32815540000.0
India,29404630000.0


In [24]:
# SOLUCIÓN 4
# Excluyendo Grupos
excluded = most_population[:8].index.to_list()
print('Se excluyen:', excluded)
# Filtrando df
df_popt_filtrado = df_popt[~df_popt['Country Name'].isin(excluded)]
df_popt_filtrado

Se excluyen: ['World', 'Low & middle income', 'Middle income', 'Lower middle income', 'Upper middle income', 'East Asia & Pacific', 'East Asia & Pacific (excluding high income)', 'South Asia']


Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,Population
0,Aruba,ABW,"Population, total",SP.POP.TOTL,1995,80324.0
1,Afghanistan,AFG,"Population, total",SP.POP.TOTL,1995,18110657.0
2,Angola,AGO,"Population, total",SP.POP.TOTL,1995,13945206.0
3,Anguilla,AIA,"Population, total",SP.POP.TOTL,1995,
4,Albania,ALB,"Population, total",SP.POP.TOTL,1995,3187784.0
...,...,...,...,...,...,...
17947,Kosovo,XKX,"Population, total",SP.POP.TOTL,2100,
17948,"Yemen, Rep.",YEM,"Population, total",SP.POP.TOTL,2100,
17949,South Africa,ZAF,"Population, total",SP.POP.TOTL,2100,
17950,Zambia,ZMB,"Population, total",SP.POP.TOTL,2100,


In [25]:
# SOLUCIÓN 4
# Encontrando mayores
df_mayores_poblaciones = df_popt_filtrado.sort_values(by='Population', ascending=False).head()
df_mayores_poblaciones

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,Population
6568,China,CHN,"Population, total",SP.POP.TOTL,2019,1397295000.0
6296,China,CHN,"Population, total",SP.POP.TOTL,2018,1392730000.0
6024,China,CHN,"Population, total",SP.POP.TOTL,2017,1386395000.0
5752,China,CHN,"Population, total",SP.POP.TOTL,2016,1378665000.0
5480,China,CHN,"Population, total",SP.POP.TOTL,2015,1371220000.0


In [35]:
# SOLUCIÓN 4
# Resultado
mayor_poblacion = df_mayores_poblaciones.iloc[0]
print(f'El país con mayor población es {mayor_poblacion['Country Name']} el año {mayor_poblacion['Year']} con {int(mayor_poblacion['Population']):,} habitantes.')

El país con mayor población es China el año 2019 con 1,397,295,000 habitantes.


##### 5. ¿Cómo se obtiene el país con menor desigualdad?

In [36]:
# Tu código aquí

###### Solución

___Datito:___
_El índice de Gini, también conocido como coeficiente de Gini, es una medida de la desigualdad económica de una sociedad. Es la herramienta más común para medir la desigualdad de ingresos._

_Se expresa como un número entre 0 y 1, donde 0 indica igualdad perfecta y 1 indica desigualdad máxima._

In [37]:
# SOLUCIÓN 5
# Primera observación
df_ginit.sort_values(by='Gini index')
# No se necesita más pasos

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,Gini index
8566,Czechia,CZE,Gini index,SI.POV.GINI,1992,20.7
7257,Finland,FIN,Gini index,SI.POV.GINI,1987,22.2
8321,Finland,FIN,Gini index,SI.POV.GINI,1991,22.9
5809,Sweden,SWE,Gini index,SI.POV.GINI,1981,22.9
9368,Denmark,DNK,Gini index,SI.POV.GINI,1995,23.0
...,...,...,...,...,...,...
17285,Kosovo,XKX,Gini index,SI.POV.GINI,2024,
17286,"Yemen, Rep.",YEM,Gini index,SI.POV.GINI,2024,
17287,South Africa,ZAF,Gini index,SI.POV.GINI,2024,
17288,Zambia,ZMB,Gini index,SI.POV.GINI,2024,


In [38]:
# SOLUCIÓN 5
# Respuesta
menor_desigualdad = df_ginit.sort_values(by='Gini index').iloc[0]
print(f'El país con menor desigualdad es {menor_desigualdad['Country Name']} el año {menor_desigualdad['Year']} con un índice de Gini de {menor_desigualdad['Gini index']}.')

El país con menor desigualdad es Czechia el año 1992 con un índice de Gini de 20.7.


In [39]:
df_ginit[df_ginit['Year'] == '2023'].sort_values(by='Gini index').head()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,Gini index
16864,Indonesia,IDN,Gini index,SI.POV.GINI,2023,36.1
16824,Ecuador,ECU,Gini index,SI.POV.GINI,2023,44.6
16806,Costa Rica,CRI,Gini index,SI.POV.GINI,2023,46.7
16943,Panama,PAN,Gini index,SI.POV.GINI,2023,48.9
16758,Aruba,ABW,Gini index,SI.POV.GINI,2023,


##### 6. Calcule el promedio (media móvil) de PIB Per Cápita por país de los últimos 5 años.

###### Solución

___Datito:___ _La media móvil es un indicador técnico que calcula el promedio de precios de un período determinado._

_Se utiliza para suavizar los datos de precios y analizar tendencias._

_Usos: Determinar la dirección futura del mercado, Identificar tendencias predominantes, Detectar sobrecompra o sobreventa, Operar con rebotes, Incluir en sistemas de trading automáticos o semiautomáticos, etc._ 

_Cálculo:_ 
$[ \text{Media móvil} = \frac{x_t + x_{t-1} + \dots + x_{t-(N-1)}}{N} ]$

Donde:
- $x_t$ es el valor actual en la serie de datos.
- $ N $ es el tamaño de la ventana (cantidad de períodos que se promedian).
- Se suman los últimos $ N $ valores y se dividen entre $ N $ para obtener la media móvil.


In [40]:
# SOLUCIÓN 6
# Este cálculo se automatiza en pandas
df_pibt['MMovil'] = df_pibt.groupby('Country Name')['PIB'].rolling(window=5, min_periods=1).mean().reset_index(level=0, drop=True)
df_pibt[df_pibt['Year']=='2023'][['Country Name','MMovil']] # Sólo para 2023

Unnamed: 0,Country Name,MMovil
16758,Aruba,29139.304526
16759,Africa Eastern and Southern,1529.598262
16760,Afghanistan,427.370870
16761,Africa Western and Central,1708.340683
16762,Angola,2160.701493
...,...,...
17019,Kosovo,5049.683558
17020,"Yemen, Rep.",559.645092
17021,South Africa,6300.733596
17022,Zambia,1223.128440


##### 7. Concatene ambos conjuntos de datos en un único DataFrame. Use `.concat()`.

In [341]:
# Tu código aquí

###### Solución

In [41]:
# SOLUCIÓN 7
# Concatenación simple
df_concat = pd.concat([df_pibt, df_popt, df_ginit])
df_concat

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,PIB,MMovil,Population,Gini index
0,Aruba,ABW,GDP per capita (current US$),NY.GDP.PCAP.CD,1960,,,,
1,Africa Eastern and Southern,AFE,GDP per capita (current US$),NY.GDP.PCAP.CD,1960,186.132432,186.132432,,
2,Afghanistan,AFG,GDP per capita (current US$),NY.GDP.PCAP.CD,1960,,,,
3,Africa Western and Central,AFW,GDP per capita (current US$),NY.GDP.PCAP.CD,1960,121.938353,121.938353,,
4,Angola,AGO,GDP per capita (current US$),NY.GDP.PCAP.CD,1960,,,,
...,...,...,...,...,...,...,...,...,...
17285,Kosovo,XKX,Gini index,SI.POV.GINI,2024,,,,
17286,"Yemen, Rep.",YEM,Gini index,SI.POV.GINI,2024,,,,
17287,South Africa,ZAF,Gini index,SI.POV.GINI,2024,,,,
17288,Zambia,ZMB,Gini index,SI.POV.GINI,2024,,,,


##### 8. Combine ambos conjuntos de datos en un único DataFrame. Use `.merge()`.

In [343]:
# Tu código aquí

###### Solución

In [42]:
# SOLUCIÓN 7
# Concatenación simple
df_merged = pd.merge(df_pibt, df_popt, on=['Country Name', 'Country Code', 'Year'])
df_merged = pd.merge(df_merged, df_ginit, on=['Country Name', 'Country Code', 'Year'])
df_merged.head()

Unnamed: 0,Country Name,Country Code,Indicator Name_x,Indicator Code_x,Year,PIB,MMovil,Indicator Name_y,Indicator Code_y,Population,Indicator Name,Indicator Code,Gini index
0,Aruba,ABW,GDP per capita (current US$),NY.GDP.PCAP.CD,1995,16548.717387,14886.312128,"Population, total",SP.POP.TOTL,80324.0,Gini index,SI.POV.GINI,
1,Afghanistan,AFG,GDP per capita (current US$),NY.GDP.PCAP.CD,1995,,,"Population, total",SP.POP.TOTL,18110657.0,Gini index,SI.POV.GINI,
2,Angola,AGO,GDP per capita (current US$),NY.GDP.PCAP.CD,1995,404.294818,547.924362,"Population, total",SP.POP.TOTL,13945206.0,Gini index,SI.POV.GINI,
3,Albania,ALB,GDP per capita (current US$),NY.GDP.PCAP.CD,1995,750.604449,448.347805,"Population, total",SP.POP.TOTL,3187784.0,Gini index,SI.POV.GINI,
4,Andorra,AND,GDP per capita (current US$),NY.GDP.PCAP.CD,1995,18443.25452,17948.284415,"Population, total",SP.POP.TOTL,63850.0,Gini index,SI.POV.GINI,


##### 9. Luego de realizar los ejercicios anteriores, ¿Cuáles son las ventajas y desventajas de usar `concat` y `merge`?

Tu respuesta aquí:



##### 10. Calcule los países que tuvieron mayor variación en su índice de Gini.

In [345]:
# Tu código aquí

###### Solución

##### 11. A partir del PIB Per Cápita y la Población, obtenga una nueva columna para medir el PIB.

In [395]:
# Tu código aquí

###### Solución

In [43]:
# SOLUCIÓN 11
# Filtro de columnas (solo para mejor visualización)
column_list = [column for column in df_merged.columns 
               if 
               ('Indicator Name' not in column)
                and
               ('Indicator Code' not in column)
               ]
column_list

['Country Name',
 'Country Code',
 'Year',
 'PIB',
 'MMovil',
 'Population',
 'Gini index']

In [44]:
# SOLUCIÓN 11
# Filtro de columnas aplicado
df_merged_clean = df_merged[column_list]
df_merged_clean = df_merged_clean.rename(columns={'PIB':'PIBPC'}) # Mala mia, tenia PIB per capita como PIB, asi que lo renombro
df_merged_clean

Unnamed: 0,Country Name,Country Code,Year,PIBPC,MMovil,Population,Gini index
0,Aruba,ABW,1995,16548.717387,14886.312128,80324.0,
1,Afghanistan,AFG,1995,,,18110657.0,
2,Angola,AGO,1995,404.294818,547.924362,13945206.0,
3,Albania,ALB,1995,750.604449,448.347805,3187784.0,
4,Andorra,AND,1995,18443.254520,17948.284415,63850.0,
...,...,...,...,...,...,...,...
7885,Kosovo,XKX,2024,,5208.105157,,
7886,"Yemen, Rep.",YEM,2024,,543.712323,,
7887,South Africa,ZAF,2024,,6242.489192,,
7888,Zambia,ZMB,2024,,1214.164001,,


In [402]:
# SOLUCIÓN 11
# Cálculo de PIB
df_merged_clean['PIB'] = df_merged_clean['PIBPC'] * df_merged_clean['Population']
df_merged_clean

Unnamed: 0,Country Name,Country Code,Year,PIBPC,MMovil,Population,Gini index,Tasa Crecimiento,PIB
0,Aruba,ABW,1995,16548.717387,14886.312128,80324.0,,,1.329259e+09
1,Afghanistan,AFG,1995,,,18110657.0,,,
2,Angola,AGO,1995,404.294818,547.924362,13945206.0,,,5.637975e+09
3,Albania,ALB,1995,750.604449,448.347805,3187784.0,,,2.392765e+09
4,Andorra,AND,1995,18443.254520,17948.284415,63850.0,,,1.177602e+09
...,...,...,...,...,...,...,...,...,...
7885,Kosovo,XKX,2024,,5208.105157,,,,
7886,"Yemen, Rep.",YEM,2024,,543.712323,,,,
7887,South Africa,ZAF,2024,,6242.489192,,,,
7888,Zambia,ZMB,2024,,1214.164001,,,,


##### 12. Calcule la tasa de crecimiento poblacional anual por país como una nueva columna de datos.

In [403]:
# Tu código aquí

###### Solución

In [404]:
# SOLUCIÓN 12
# Denuevo pandas nos salva la vida
df_merged_clean['Tasa Crecimiento'] = df_merged_clean.groupby(['Country Name','Country Code'])['Population'].pct_change(fill_method=None)
df_merged_clean[df_merged_clean['Country Name'] == 'Chile']

Unnamed: 0,Country Name,Country Code,Year,PIBPC,MMovil,Population,Gini index,Tasa Crecimiento,PIB
37,Chile,CHL,1995,5055.614062,3722.295549,14380866.0,,,72704110000.0
300,Chile,CHL,1996,5333.504387,4234.980497,14587370.0,54.9,0.01436,77801800000.0
563,Chile,CHL,1997,5741.95843,4721.492336,14786220.0,,0.013632,84901860000.0
826,Chile,CHL,1998,5419.824173,5106.458248,14977733.0,55.5,0.012952,81176680000.0
1089,Chile,CHL,1999,4933.555815,5296.891374,15162800.0,,0.012356,74806520000.0
1352,Chile,CHL,2000,5052.992458,5296.367053,15342353.0,52.8,0.011842,77524790000.0
1615,Chile,CHL,2001,4563.595299,5142.385235,15516113.0,,0.011326,70809260000.0
1878,Chile,CHL,2002,4430.847412,4880.163031,15684409.0,,0.010847,69495220000.0
2141,Chile,CHL,2003,4773.401775,4750.878552,15849652.0,51.5,0.010535,75656760000.0
2404,Chile,CHL,2004,6120.591521,4988.285693,16014971.0,,0.01043,98021100000.0


In [405]:
# SOLUCIÓN 12
# Alternativa 2 - A mano
df_merged_clean['Tasa Crecimiento'] = (df_merged_clean['Population'] - df_merged_clean.groupby(['Country Name','Country Code'])['Population'].shift(1))/ df_merged_clean.groupby(['Country Name','Country Code'])['Population'].shift(1)

df_merged_clean[df_merged_clean['Country Name'] == 'Chile']

Unnamed: 0,Country Name,Country Code,Year,PIBPC,MMovil,Population,Gini index,Tasa Crecimiento,PIB
37,Chile,CHL,1995,5055.614062,3722.295549,14380866.0,,,72704110000.0
300,Chile,CHL,1996,5333.504387,4234.980497,14587370.0,54.9,0.01436,77801800000.0
563,Chile,CHL,1997,5741.95843,4721.492336,14786220.0,,0.013632,84901860000.0
826,Chile,CHL,1998,5419.824173,5106.458248,14977733.0,55.5,0.012952,81176680000.0
1089,Chile,CHL,1999,4933.555815,5296.891374,15162800.0,,0.012356,74806520000.0
1352,Chile,CHL,2000,5052.992458,5296.367053,15342353.0,52.8,0.011842,77524790000.0
1615,Chile,CHL,2001,4563.595299,5142.385235,15516113.0,,0.011326,70809260000.0
1878,Chile,CHL,2002,4430.847412,4880.163031,15684409.0,,0.010847,69495220000.0
2141,Chile,CHL,2003,4773.401775,4750.878552,15849652.0,51.5,0.010535,75656760000.0
2404,Chile,CHL,2004,6120.591521,4988.285693,16014971.0,,0.01043,98021100000.0


##### 13. ¿Cuál es la tasa de crecimiento poblacional anual para Chile y Argentina?

In [406]:
# Tu código aquí

###### Solución

In [407]:
# SOUCIÓN 13
# Obtención
df_tasa_chileyarg = df_merged_clean[df_merged_clean['Country Name'].isin(['Chile','Argentina'])][['Country Name','Year','Tasa Crecimiento']].sort_values(by=['Country Name','Year'])
df_tasa_chileyarg

Unnamed: 0,Country Name,Year,Tasa Crecimiento
7,Argentina,1995,
270,Argentina,1996,0.012008
533,Argentina,1997,0.011662
796,Argentina,1998,0.011387
1059,Argentina,1999,0.011196
1322,Argentina,2000,0.011067
1585,Argentina,2001,0.010981
1848,Argentina,2002,0.010894
2111,Argentina,2003,0.010778
2374,Argentina,2004,0.01061


In [408]:
# SOUCIÓN 13
# Creación de Tabla Mejor
df_tasa_chileyarg['Tasa Porcentual'] = df_tasa_chileyarg['Tasa Crecimiento'].dropna().apply(lambda x: f"{x*100:.2f}%")
tabla_crecimiento = df_tasa_chileyarg.pivot(index='Year',columns='Country Name', values='Tasa Porcentual').dropna()
tabla_crecimiento

Country Name,Argentina,Chile
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
1996,1.20%,1.44%
1997,1.17%,1.36%
1998,1.14%,1.30%
1999,1.12%,1.24%
2000,1.11%,1.18%
2001,1.10%,1.13%
2002,1.09%,1.08%
2003,1.08%,1.05%
2004,1.06%,1.04%
2005,1.04%,1.05%


##### 14. Al año 2000, determine cuáles son los 10 países con mayor PIB Per Cápita y los 10 con mayor población. ¿Son los mismos países al 2020?

In [409]:
# Tu código aquí

###### Solución

In [412]:
# SOLUCIÓN 14
# Filtro de año
filtro_año_2000 = df_merged_clean['Year'] == '2000'
filtro_año_2020 = df_merged_clean['Year'] == '2020'
df_2000 = df_merged_clean[filtro_año_2000]
df_2020 = df_merged_clean[filtro_año_2020]

In [413]:
# SOLUCIÓN 14
# 10 con más pop el 2000
wanted_columns = ['Country Name', 'Year', 'PIBPC']
top_10_pibpc_2000 = df_2000.sort_values(by='PIBPC',ascending=False).head(10)[wanted_columns].reset_index(drop=True)
top_10_pibpc_2000

Unnamed: 0,Country Name,Year,PIBPC
0,Monaco,2000,81789.020652
1,Liechtenstein,2000,76087.911114
2,Bermuda,2000,56542.956946
3,Luxembourg,2000,48659.598875
4,Channel Islands,2000,43479.194077
5,Japan,2000,39169.35957
6,Switzerland,2000,38865.02194
7,Norway,2000,38178.236878
8,San Marino,2000,37600.707738
9,United States,2000,36329.97026


In [415]:
# SOLUCIÓN 14
# 10 con más PIBPC el 2020
top_10_pibpc_2020 = df_2020.sort_values(by='PIBPC',ascending=False).head(10)[wanted_columns].reset_index(drop=True)
top_10_pibpc_2020

Unnamed: 0,Country Name,Year,PIBPC
0,Monaco,2020,176891.886538
1,Liechtenstein,2020,164671.093553
2,Luxembourg,2020,116905.370397
3,Bermuda,2020,106973.175732
4,Ireland,2020,87567.114897
5,Switzerland,2020,85897.784334
6,Cayman Islands,2020,82338.798285
7,Isle of Man,2020,79513.533035
8,Norway,2020,68340.018103
9,United States,2020,64411.373178


In [416]:
# SOLUCIÓN 14
# Tabla Comparativa
tabla_top_10_pibpc = pd.DataFrame({'Top 2000': top_10_pibpc_2000['Country Name'], 
                                   'PIBPC 2000': top_10_pibpc_2000['PIBPC'],
                                   'Top 2020': top_10_pibpc_2020['Country Name'], 
                                   'PIBPC 2020': top_10_pibpc_2020['PIBPC']})
tabla_top_10_pibpc

Unnamed: 0,Top 2000,PIBPC 2000,Top 2020,PIBPC 2020
0,Monaco,81789.020652,Monaco,176891.886538
1,Liechtenstein,76087.911114,Liechtenstein,164671.093553
2,Bermuda,56542.956946,Luxembourg,116905.370397
3,Luxembourg,48659.598875,Bermuda,106973.175732
4,Channel Islands,43479.194077,Ireland,87567.114897
5,Japan,39169.35957,Switzerland,85897.784334
6,Switzerland,38865.02194,Cayman Islands,82338.798285
7,Norway,38178.236878,Isle of Man,79513.533035
8,San Marino,37600.707738,Norway,68340.018103
9,United States,36329.97026,United States,64411.373178


In [417]:
# SOLUCIÓN 14
# Ejemplo completo para población

# 10 con más Population el 2000
wanted_columns = ['Country Name', 'Year', 'Population']
top_10_pop_2000 = df_2000[~df_2000['Country Name'].isin(excluded)].sort_values(by='Population',ascending=False).head(10)[wanted_columns].reset_index(drop=True)
top_10_pop_2020 = df_2020[~df_2020['Country Name'].isin(excluded)].sort_values(by='Population',ascending=False).head(10)[wanted_columns].reset_index(drop=True)

# Tabla Comparativa
tabla_top_10_pop = pd.DataFrame({'Top 2000': top_10_pop_2000['Country Name'], 
                                   'Population 2000': top_10_pop_2000['Population'],
                                   'Top 2020': top_10_pop_2020['Country Name'], 
                                   'Population 2020': top_10_pop_2020['Population']})
tabla_top_10_pop

Unnamed: 0,Top 2000,Population 2000,Top 2020,Population 2020
0,China,1262645000.0,Aruba,
1,OECD members,1156314000.0,Afghanistan,
2,High income,1077840000.0,Angola,
3,India,1056576000.0,Albania,
4,Europe & Central Asia,861993400.0,Andorra,
5,Sub-Saharan Africa,665327600.0,Arab World,
6,Sub-Saharan Africa (excluding high income),665246400.0,United Arab Emirates,
7,Least developed countries: UN classification,657215900.0,Argentina,
8,Latin America & Caribbean,520964400.0,Armenia,
9,Latin America & Caribbean (excluding high income),493029000.0,American Samoa,


##### 15. Al año 2020, ¿Cuáles son los países con mayor nivel de desigualdad, y que, al mismo tiempo, tengan una población menor a 40 millones de habitantes?

In [None]:
# Tu código aquí


###### Solución

In [438]:
df_popt[df_popt['Year'] == '2020'].dropna()

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,Year,Population


In [443]:
df_2020 = df_merged_clean[df_merged_clean['Year']=='2019']
df_2020[df_2020['Population']>40*10**6].sort_values(by='Gini index', ascending=False).head()

Unnamed: 0,Country Name,Country Code,Year,PIBPC,MMovil,Population,Gini index,Tasa Crecimiento,PIB
6339,Brazil,BRA,2019,9029.833267,9236.697469,211050000.0,53.5,0.007546,1905746000000.0
6355,Colombia,COL,2019,6472.545449,6395.480671,50339000.0,51.3,0.013904,325821500000.0
6553,Turkiye,TUR,2019,9215.440499,10299.973353,83430000.0,43.8,0.013487,768844200000.0
6319,Argentina,ARG,2019,9955.974787,12524.172884,44901000.0,43.3,0.009136,447033200000.0
6556,Uganda,UGA,2019,822.057058,799.014455,44270000.0,42.7,0.036207,36392470000.0
