<a href="https://colab.research.google.com/github/LinaMariaCastro/curso-ia-para-economia/blob/main/clases/3_Analisis_y_visualizacion_datos/4_Manipulacion_y_Transformacion_de_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#!pip install wbdata

# **Inteligencia Artificial con Aplicaciones en Econom√≠a I**

- üë©‚Äçüè´ **Profesora:** [Lina Mar√≠a Castro](https://www.linkedin.com/in/lina-maria-castro)  
- üìß **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- üéì **Universidad:** Universidad Externado de Colombia - Facultad de Econom√≠a

# ü™Ñ**Manipulaci√≥n y transformaci√≥n de datos**

üëâ Ahora que los datos est√°n limpios, toca organizarlos para analizarlos.

‚úÖ Resultado: un dataset estructurado para responder preguntas econ√≥micas.

**Objetivos de Aprendizaje:**

Al finalizar este notebook, ser√°s capaz de:

1. **Organizar y filtrar datos** para aislar la informaci√≥n m√°s relevante para una pregunta de investigaci√≥n econ√≥mica.

2. **Agregar y resumir datos** para calcular estad√≠sticas descriptivas a nivel de grupo (e.g., por regi√≥n, por nivel de ingreso).

3. **Remodelar y transformar tablas de datos** para pasar de formatos anchos a largos y viceversa, una habilidad crucial para preparar datos para modelos econom√©tricos y visualizaciones.

**Introducci√≥n**

Imagina que eres un economista reci√©n contratado en el Banco Mundial. Tu primer encargo es analizar la relaci√≥n entre el Gasto P√∫blico en Educaci√≥n (% del PIB) y el Crecimiento del PIB per c√°pita para diferentes regiones del mundo durante la √∫ltima d√©cada.

Recibes un enorme archivo csv con miles de filas y columnas, mezclando pa√≠ses, a√±os e indicadores de todo tipo. No puedes simplemente introducir eso en un modelo. Primero, necesitas esculpir y analizar tus datos. Necesitas:

- Ordenar los pa√≠ses para ver los que m√°s y menos invierten.

- Filtrar para quedarte solo con los a√±os y los indicadores relevantes.

- Agrupar por regi√≥n para calcular el gasto promedio y ver si √Åfrica Subsahariana invierte, en promedio, m√°s o menos que Am√©rica Latina.

- Pivotar la tabla para que cada fila sea un pa√≠s y cada columna un a√±o, permiti√©ndote ver la evoluci√≥n de un vistazo.

Estas no son solo "funciones de pandas"; son las herramientas diarias de un economista.

## Importar librer√≠as

In [None]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Mejorar visualizaci√≥n de los dataframes

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

## Cargar el dataset

Como ejemplo, usaremos un **dataset real del Banco Mundial** que contiene indicadores de desarrollo. Esto nos permitir√° realizar un an√°lisis que un economista har√≠a en su d√≠a a d√≠a.

Utilizaremos la API del Banco Mundial para obtener los datos.

In [None]:
import wbdata

In [None]:
# Listar bases de datos disponibles en el Banco Mundial
# Nos interesa World Development Indicators
wbdata.get_sources()

In [None]:
# Listar indicadores disponibles en World Development Indicators
wbdata.get_indicators(source=2)

In [None]:
# Buscar los indicadores de inter√©s en World Development Indicators
wbdata.get_indicators(query="GDP per capita", source=2)

In [None]:
indicadores = {"NY.GDP.PCAP.PP.CD": "PIB per c√°pita (PPA, USD internacionales)",
               "SH.XPD.CHEX.PP.CD": "Gasto en salud per c√°pita (PPA, USD internacionales)",
               "SP.DYN.LE00.IN": "Esperanza de vida (a√±os)",
               "SL.UEM.TOTL.NE.ZS": "Tasa de desempleo (%)"}

# Descargar datos para pa√≠ses de Am√©rica del Sur de 2010 a 2022
df = wbdata.get_dataframe(indicadores, country=["COL", "PER", "BRA", "CHL", "ARG", "BOL", "ECU", "PRY", "URY"], date=("2010", "2022"))
df = df.reset_index()
df = df.rename(columns={'country': 'Pa√≠s', 'date': 'A√±o'})

## Exploraci√≥n inicial del dataset

In [None]:
df

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df["Pa√≠s"].value_counts(dropna=False)

Tenemos una base de datos con informaci√≥n de 9 pa√≠ses de Am√©rica del Sur para 13 a√±os (2010-2022), lo que nos da un total de 117 filas. Se trajo informaci√≥n de 4 indicadores. La informaci√≥n se presenta en una estructura de panel de datos.

## Realizar filtros

En ocasiones, un economista quiere seleccionar subconjuntos de datos para analizar. Por ejemplo, podemos estar interesados en conocer c√≥mo se comportaron los indicadores en los distintos pa√≠ses en el a√±o 2022, por lo que vamos a crear un dataframe solo con la informaci√≥n de 2022.

In [None]:
df_2022 = df[df['A√±o'] == "2022"]
df_2022

In [None]:
# Reiniciamos el √≠ndice
df_2022.reset_index(drop=True, inplace=True)
df_2022

### Filtrar por el √≠ndice

Queremos ver la informaci√≥n correspondiente al √≠ndice 3

In [None]:
df_2022.iloc[3]

### Filtrar por una columna

Queremos ver la informaci√≥n de Colombia

In [None]:
df_2022[df_2022['Pa√≠s']=="Colombia"]

**Ejercico**

Mu√©strame todos los pa√≠ses que sean diferentes a Colombia

**Ejercicio**

¬øQu√© pa√≠ses tienen una tasa de desempleo menor estrictamente a 5%?

### Filtrar por varias columnas

¬øQu√© pa√≠ses tienen una tasa de desempleo mayor o igual a 6% y una esperanza de vida mayor o igual a 75 a√±os?

In [None]:
df_2022[(df_2022['Tasa de desempleo (%)']>=6) & (df_2022['Esperanza de vida (a√±os)']>=75)]

¬øQu√© pa√≠ses tienen un PIB per c√°pita PPA mayor a USD 25.000 o un gasto en salud per c√°pita PPA mayor a USD 1.000?

In [None]:
df_2022[(df_2022['PIB per c√°pita (PPA, USD internacionales)']>25000) | (df_2022['Gasto en salud per c√°pita (PPA, USD internacionales)']>1000)]

### Filtrar por el m√≠nimo o m√°ximo de una columna

¬øCu√°l pa√≠s tiene el PIB per c√°pita m√°s alto?

In [None]:
df_2022[df_2022['PIB per c√°pita (PPA, USD internacionales)'] == df_2022['PIB per c√°pita (PPA, USD internacionales)'].max()]

**Ejercicio**

¬øCu√°l pa√≠s tiene la esperanza de vida m√°s baja?

**Ejercicio**

¬øQu√© pa√≠ses tienen un gasto en salud per c√°pita PPA por encima del promedio?

### Filtrar por una lista de valores

Mu√©strame los datos para Brasil y Ecuador

In [None]:
df_2022[df_2022['Pa√≠s'].isin(['Brazil','Ecuador'])]

### Filtrar los strings que contengan ciertos caracteres

Mu√©strame los pa√≠ses que contengan "P"

In [None]:
df_2022[df_2022['Pa√≠s'].str.contains("P", na=False)]

Mu√©strame los pa√≠ses que contengan "Pe" o "Br" o "Ch"

In [None]:
df_2022[df_2022['Pa√≠s'].str.contains(r'Pe|Br|Ch', na=False)]

**Ejercicio**

Muestra los pa√≠ses que contengan "guay"

### Filtrar por negaci√≥n (todo excepto ...)

Mu√©strame todos los pa√≠ses excepto Brasil

In [None]:
df_2022[~(df_2022['Pa√≠s']=='Brazil')]

**Ejercicio**

Mu√©strame todos los pa√≠ses excepto los que terminan en "guay". Filtra utilizando negaci√≥n.

**Ejercicio**

Muestra los pa√≠ses donde su PIB per c√°pita no sea mayor a USD 25.000 PPA y su tasa de desempleo no sea menor a 5%. Filtra utilizando negaci√≥n.

## Ordenar el dataframe

Para un economista, ordenar es sin√≥nimo de ranking. ¬øQu√© pa√≠s tiene el mayor PIB? ¬øCu√°l tiene la menor tasa de inflaci√≥n? sort_values() nos permite responder a estas preguntas.

### Ordenar seg√∫n el valor de una columna

Vamos a ordenar los pa√≠ses de menor a mayor gasto en salud per c√°pita

In [None]:
df_2022.sort_values(by=['Gasto en salud per c√°pita (PPA, USD internacionales)'], ascending = True)

**Ejercicio**

Ordena los pa√≠ses de mayor a menor PIB per c√°pita PPA

**Ejercicio**

 Encuentra los 5 pa√≠ses con la menor tasa de desempleo en 2022.

### Ordenar seg√∫n el valor de varias columnas

In [None]:
# Datos econ√≥micos sint√©ticos de varios pa√≠ses
datos = {
    'Pa√≠s': ['Colombia', 'Chile', 'M√©xico', 'Argentina', 'Per√∫', 'Panam√°'],
    'Regi√≥n': ['Andina', 'Andina', 'Norteam√©rica', 'Sur', 'Andina', 'Centroam√©rica'],
    'Crecimiento_PIB_%': [1.5, 2.1, 2.5, -1.1, 2.8, 4.1],
    'Tasa_Desempleo_%': [10.5, 8.8, 3.5, 11.2, 7.5, 8.1]
}

# Creamos el DataFrame
df_ejemplo = pd.DataFrame(datos)

df_ejemplo

In [None]:
df_ordenado = df_ejemplo.sort_values(by=['Regi√≥n', 'Crecimiento_PIB_%'], ascending=[True, False])
df_ordenado

## Groupby

Esta es una de las herramientas m√°s utilizadas, ya que permite agrupar por categor√≠as y sacar mediciones para cada grupo como la media, la suma, la desviaci√≥n est√°ndar, el conteo de registros, etc.

Para ello, se emplea la estrategia de Dividir-Aplicar-Combinar.

- **Dividir (Split):** Se separa el DataFrame en grupos basados en una o m√°s variables categ√≥ricas (ejemplo: Pa√≠s, A√±o, etc).

- **Aplicar (Apply):** A cada grupo se le aplica una funci√≥n (ejemplo: mean, sum, std).

- **Combinar (Combine):** Se juntan los resultados en un nuevo DataFrame.

Es como si el FMI quisiera calcular la tasa de inflaci√≥n promedio para cada continente. Primero, divide el dataset global por continente. Luego, aplica la funci√≥n de promedio a la columna de inflaci√≥n para cada grupo. Finalmente, combina los resultados en una tabla resumen.

In [None]:
# Dataframe original
df

¬øCu√°l fue la esperanza de vida promedio de cada pa√≠s entre 2010 y 2022?

In [None]:
df.groupby('Pa√≠s')['Esperanza de vida (a√±os)'].mean().reset_index()

Ordenemos de mayor a menor...

In [None]:
df.groupby('Pa√≠s')['Esperanza de vida (a√±os)'].mean().reset_index().sort_values(by='Esperanza de vida (a√±os)', ascending=False)

¬øCu√°l fue la tasa de desempleo m√°s baja que registr√≥ cada pa√≠s entre 2010 y 2022?

In [None]:
df.groupby('Pa√≠s')['Tasa de desempleo (%)'].min().reset_index()

¬øCu√°nto sum√≥ el gasto en salud per c√°pita de estos pa√≠ses en cada uno de los a√±os de estudio (2010-2022)?

In [None]:
df.groupby('A√±o')['Gasto en salud per c√°pita (PPA, USD internacionales)'].sum().reset_index()

Para cada pa√≠s de Am√©rica del Sur, ¬øcu√°l fue el promedio de PIB per c√°pita PPA y de gasto en salud per c√°pita PPA entre 2010 y 2022?

In [None]:
df.groupby("Pa√≠s")[["PIB per c√°pita (PPA, USD internacionales)","Gasto en salud per c√°pita (PPA, USD internacionales)"]].mean().reset_index()

Para cada pa√≠s de Am√©rica del Sur, ¬øcu√°l fue el promedio de gasto en salud per c√°pita PPA y cu√°l fue la m√°xima esperanza de vida entre 2010 y 2022?

In [None]:
df.groupby("Pa√≠s", as_index=False).agg(
    gasto_promedio_salud = ("Gasto en salud per c√°pita (PPA, USD internacionales)", "mean"),
    max_esperanza_de_vida = ("Esperanza de vida (a√±os)", "max")
)

Para cada pa√≠s de Am√©rica del Sur, calcule el m√≠nimo, el m√°ximo y el promedio del gasto en salud per c√°pita PPA y de la esperanza de vida entre 2010 y 2022

In [None]:
df.groupby("Pa√≠s")[["Gasto en salud per c√°pita (PPA, USD internacionales)","Esperanza de vida (a√±os)"]].agg(["min", "mean", "max"]).reset_index()

**Ejercicio**

Para cada pa√≠s de Am√©rica del Sur, calcule la mediana y la desviaci√≥n est√°ndar del PIB per c√°pita PPA entre 2010 y 2022

## Tablas pivote o din√°micas

Una tabla pivote es una forma avanzada de groupby que nos **permite remodelar el DataFrame**, poniendo una variable categ√≥rica como √≠ndice, otra como columnas y una variable num√©rica como los valores. **Es similar a las tablas din√°micas en Excel.**

Por ejemplo, creemos una tabla para un informe donde las filas son los pa√≠ses, las columnas son los a√±os (2010, 2011, 2012...), y los valores en las celdas son la tasa de desempleo. Esto facilita enormemente la comparaci√≥n de la evoluci√≥n del desempleo entre pa√≠ses.

In [None]:
df_desempleo = df.pivot_table(index='Pa√≠s', columns='A√±o', values='Tasa de desempleo (%)').reset_index()
df_desempleo

Este formato **ancho (wide)** es muy intuitivo. Podemos comparar f√°cilmente el desempleo en 2022 de los diferentes pa√≠ses de Am√©rica del Sur y ver que el de Colombia es el m√°s alto.

Tambi√©n podemos seguir la fila de un pa√≠s para ver su tendencia, como por ejemplo, ver el comportamiento que ha tenido la tasa de desempleo de Colombia entre 2010 y 2022 y ver que durante la pandemia lleg√≥ a un m√°ximo de 16%.


A continuaci√≥n, vamos a crear una tabla que presenta, para cada pa√≠s, la evoluci√≥n 2010-2022 del PIB per c√°pita PPA y de la tasa de desempleo.

In [None]:
df1 = pd.pivot_table(df, index = 'Pa√≠s', columns = 'A√±o',
                     values = ['PIB per c√°pita (PPA, USD internacionales)',
                               'Tasa de desempleo (%)']).reset_index()
df1

En la siguiente tabla, vamos a mostrar, para cada pa√≠s, el valor promedio del PIB per c√°pita PPA y de la tasa de desempleo entre 2010 y 2022.

In [None]:
df2 = pd.pivot_table(df, index = 'Pa√≠s', values = ['PIB per c√°pita (PPA, USD internacionales)',
                                                   'Tasa de desempleo (%)'],
                     aggfunc='mean').reset_index()
df2

A continuaci√≥n se muestra, para cada pa√≠s, el valor promedio y la desviaci√≥n est√°ndar del PIB per c√°pita PPA y el m√°ximo y m√≠nimo de la tasa de desempleo en el per√≠odo 2010-2022.

In [None]:
df3 = pd.pivot_table(df, index = 'Pa√≠s', values = ['PIB per c√°pita (PPA, USD internacionales)',
                                                   'Tasa de desempleo (%)'],
                     aggfunc={'PIB per c√°pita (PPA, USD internacionales)':['mean','std'],
                              'Tasa de desempleo (%)':['min', 'max']}).reset_index()
df3

## Transponer un dataframe

Dado que un dataframe es una matriz, lo podemos transponer.

In [None]:
# Dataframe inicial
df_desempleo

In [None]:
# Dataframe transpuesto
df_desempleo_2 = df_desempleo.set_index('Pa√≠s').transpose().reset_index()
df_desempleo_2

## Reshape del dataframe

Transformando Formatos: de long a wide y de wide a long.


**Formato Largo (Long):** Cada observaci√≥n est√° en su propia fila. (Ej: Tenemos columnas de Pa√≠s, A√±o, Indicador, Valor, por lo que cada fila es una observaci√≥n). Es el formato ideal para almacenar datos.

**Formato Ancho (Wide):** Cada fila representa una unidad de observaci√≥n (como un pa√≠s) y las variables se extienden a lo largo de las columnas (Ej: Country, GDP_2010, GDP_2011, GDP_2012). Es ideal para analizar los datos.

### Pasar de wide a long

In [None]:
# Dataframe original
df_desempleo

In [None]:
# Convertir a formato long
df_largo_desempleo = pd.melt(
    df_desempleo,
    id_vars=['Pa√≠s'], # Columnas que se mantienen fijas
    var_name='A√±o', # Nombre de la nueva columna de variables
    value_name='Desempleo (%)' # Nombre de la nueva columna de valores
)
df_largo_desempleo

El dataframe del Banco Mundial, que tiene forma de panel de datos y es wide, tambi√©n lo podemos convertir a long.

In [None]:
df_largo = pd.melt(
    df,
    id_vars=['Pa√≠s', 'A√±o'], # Columnas que se mantienen fijas
    var_name='Indicador', # Nombre de la nueva columna de variables
    value_name='Valor' # Nombre de la nueva columna de valores
)
df_largo

### Pasar de long a wide

Para pasar de formato long a wide se utilizan las tablas pivote que vimos previamente.

## Ejercicio

Utiliza las tablas pivote para obtener, a partir de *df_largo*, un dataframe en formato wide de la esperanza de vida (en cada fila hay un pa√≠s y en cada columna van los a√±os de 2010 a 2022). Luego transforma el dataframe para que los a√±os queden en las filas y los pa√≠ses en las columnas.