<a href="https://colab.research.google.com/github/LinaMariaCastro/curso-ia-para-economia/blob/main/clases/3_Analisis_y_visualizacion_datos/5_EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Inteligencia Artificial con Aplicaciones en Econom√≠a I**

- üë©‚Äçüè´ **Profesora:** [Lina Mar√≠a Castro](https://www.linkedin.com/in/lina-maria-castro)  
- üìß **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- üéì **Universidad:** Universidad Externado de Colombia - Facultad de Econom√≠a

# üîéüìä**An√°lisis Exploratorio de Datos (Exploratory Data Analysis - EDA)**

üëâ Con datos listos, podemos descubrir patrones.

‚úÖ Resultado: entendemos la historia detr√°s de los datos y generamos hip√≥tesis.

**Objetivos de Aprendizaje:**

Al finalizar este notebook, ser√°s capaz de:

1. **Diagnosticar un conjunto de datos:** Utilizar funciones de Pandas para obtener un resumen estad√≠stico y estructural de los datos, identificando tipos de variables, valores nulos y dimensiones.

2. **Analizar y visualizar distribuciones:** Crear e interpretar gr√°ficos univariados (histogramas, boxplots) para entender la distribuci√≥n, tendencia central y dispersi√≥n de las variables econ√≥micas.

3. **Descubrir relaciones entre variables:** Implementar y analizar gr√°ficos multivariados (scatter plots, heatmaps) para identificar correlaciones, covarianzas y patrones entre m√∫ltiples indicadores econ√≥micos.

**Introducci√≥n**

Imaginemos que la OCDE nos contrata para entender los factores que determinan el desarrollo econ√≥mico de los pa√≠ses. Antes de lanzarnos a construir un complejo modelo econom√©trico con regresiones y series de tiempo, un buen economista har√≠a un "trabajo de campo": viajar√≠a (conceptualmente) a varios pa√≠ses, observar√≠a sus econom√≠as, hablar√≠a con la gente y recolectar√≠a datos preliminares.

El An√°lisis Exploratorio de Datos (EDA) es precisamente eso, es el proceso de usar estad√≠sticas descriptivas y visualizaciones para "dialogar" con nuestros datos.

Queremos que los datos nos cuenten su historia:

- ¬øC√≥mo es un pa√≠s "promedio" en nuestra muestra? (Media, mediana)

- ¬øQu√© tan desigual es el mundo en t√©rminos de ingreso o salud? (Desviaci√≥n est√°ndar, percentiles, boxplots)

- ¬øExisten "clubes de convergencia" o grupos de pa√≠ses con caracter√≠sticas similares? (An√°lisis de categor√≠as, gr√°ficos de densidad)

- ¬øParece haber una relaci√≥n entre la inversi√≥n en educaci√≥n y el crecimiento del PIB? (Gr√°ficos de dispersi√≥n, correlaci√≥n)

Hacer un buen EDA nos permite formular mejores hip√≥tesis, detectar problemas de calidad en los datos (como outliers o valores faltantes) y construir modelos m√°s robustos y significativos. Es el arte de hacer las preguntas correctas a nuestros datos antes de pedirles que nos den respuestas definitivas.

## Importar librer√≠as

In [None]:
# En VS Code, si no has instalado las librer√≠as, ejecutar:
# %pip install matplotlib
# %pip install seaborn
# %pip install plotly

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import warnings
warnings.filterwarnings('ignore')

## Mejorar visualizaci√≥n de los dataframes

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

In [None]:
# Configuraciones para una mejor visualizaci√≥n de los gr√°ficos
sns.set_style("whitegrid")

## Cargar el dataset

Usaremos un dataset de **Gapminder** (https://www.gapminder.org/) que viene precargado en Plotly Express para facilitar el acceso. Contiene datos de PIB per c√°pita PPA a precios constantes, esperanza de vida y poblaci√≥n para varios pa√≠ses a lo largo del tiempo.

**Nota**

Gapminder es una fundaci√≥n educativa independiente y sin fines de lucro. Fue cofundada en Suecia por el legendario m√©dico y estad√≠stico Hans Rosling, junto a su hijo y su nuera.

La misi√≥n de la Fundaci√≥n Gapminder es luchar contra las ideas err√≥neas y preconcebidas sobre el desarrollo global. Rosling sosten√≠a que la mayor√≠a de la gente, incluso personas muy educadas y en posiciones de poder, tienen una visi√≥n del mundo anticuada, dividiendo a los pa√≠ses en "desarrollados" y "en v√≠as de desarrollo", una dicotom√≠a que los datos ya no respaldan.

El m√©todo de Gapminder para combatir esta desinformaci√≥n es el uso magistral de la visualizaci√≥n de datos para contar historias (data storytelling).

In [None]:
df = px.data.gapminder()

## Exploraci√≥n inicial del dataset

In [None]:
df

In [None]:
df.shape

In [None]:
df.info()

**Ejercicio**: Interprete los resultados.

In [None]:
# vamos a renombrar las columnas para un mejor entendimiento
df.rename(columns={'lifeExp':'esperanza_vida',
                   'pop':'poblacion',
                   'gdpPercap':'pib_per_capita',
                   'country':'pais',
                   'continent':'continente',
                   'year':'a√±o'},
          inplace=True)
df

In [None]:
df['a√±o'] = df['a√±o'].astype('str')

In [None]:
df.drop(columns=['iso_alpha', 'iso_num'], inplace=True)

## An√°lisis de variables no num√©ricas

### Variables categ√≥ricas

Para las variables categ√≥ricas, nos interesa saber cu√°ntas categor√≠as √∫nicas existen, cu√°les son y c√≥mo se distribuyen las observaciones entre ellas.

In [None]:
df['continente'].unique()

In [None]:
df['continente'].nunique()

In [None]:
print("Conteo de observaciones por continente:")
print(df['continente'].value_counts())

In [None]:
print("\nPorcentaje de observaciones por continente:")
print(df['continente'].value_counts(normalize=True) * 100)

### An√°lisis de los individuos objeto de estudio

¬øQu√© pa√≠ses se encuentran en la base de datos?

In [None]:
df['pais'].unique()

¬øCu√°ntos pa√≠ses son?

In [None]:
df['pais'].nunique()

In [None]:
df['pais'].value_counts()

### An√°lisis de la dimensi√≥n temporal

¬øQu√© a√±os se encuentran en la base de datos?

In [None]:
df['a√±o'].unique()

¬øCu√°ntos a√±os son?

In [None]:
df['a√±o'].nunique()

In [None]:
df['a√±o'].value_counts()

## Estad√≠sticas Descriptivas (An√°lisis Univariado)

Ahora, vamos a calcular las estad√≠sticas fundamentales para nuestras variables num√©ricas.

In [None]:
print("Estad√≠sticas Descriptivas de las Variables Num√©ricas:")
df.describe()

**Trabajo en parejas**

Realicen y compartan con la clase un an√°lisis de estas estad√≠sticas para esperanza de vida, poblaci√≥n y PIB per c√°pita. Tiempo: 2 minutos.

![asimetria](https://drive.google.com/uc?id=1M4qWRXBzUIVTNFSl5Yw2vfMppr1DQYXe)

Tambi√©n podemos calcular estas y otras medidas de forma individual.

In [None]:
# Conteo de los valores no nulos de la columna
df['pib_per_capita'].count()

In [None]:
# M√≠nimo
df['pib_per_capita'].min()

In [None]:
# M√°ximo
df['pib_per_capita'].max()

In [None]:
# Media
df['pib_per_capita'].mean()

In [None]:
# Desviaci√≥n est√°ndar
df['pib_per_capita'].std()

In [None]:
# Mediana
df['pib_per_capita'].median()

In [None]:
# Percentil 50 (mediana)
df['pib_per_capita'].quantile(0.5)

In [None]:
# Percentil 25 y 75
df['pib_per_capita'].quantile([0.25, 0.75])

In [None]:
# Varios percentiles a la vez
df['pib_per_capita'].quantile([0.1, 0.5, 0.9])

In [None]:
# Si quieres todos los deciles (10%, 20%, ‚Ä¶, 90%)
df['pib_per_capita'].quantile([i/10 for i in range(1, 10)])

In [None]:
# Mostrar los 20 valores m√°s altos
df['pib_per_capita'].nlargest(n=20)

In [None]:
# Mostrar los 5 valores m√°s bajos
df['pib_per_capita'].nsmallest(5)

In [None]:
# Si quieres las filas completas del DataFrame que corresponden a esos 5 valores
df.nsmallest(5, 'pib_per_capita')

In [None]:
# Moda
df['esperanza_vida'].mode()

In [None]:
# Verificaci√≥n
df['esperanza_vida'].value_counts()

## Ejercicio

Calcula las estad√≠sticas descriptivas solo para los pa√≠ses del continente asi√°tico (Asia) en el a√±o 2007. ¬øC√≥mo se compara el PIB per c√°pita medio de Asia en 2007 con la media global de toda la muestra que calculamos antes?

## Visualizaci√≥n de Datos (An√°lisis Gr√°fico)

Ahora vamos a graficar nuestros datos para entender las historias que nos contaron las estad√≠sticas descriptivas.

**Nota**

Para mayor informaci√≥n, consulte la documentaci√≥n de las librer√≠as:

- Matplotlib: https://matplotlib.org/

- Seaborn (enfocado en gr√°ficos estad√≠sticos): https://seaborn.pydata.org/index.html

- Plotly (para gr√°ficos interactivos): https://plotly.com/python/

### Visualizaciones Univariadas (Una variable)

Estos gr√°ficos nos ayudan a entender la distribuci√≥n de una sola variable.

#### Histograma y Gr√°fico de Densidad

¬øC√≥mo se distribuye el PIB?

In [None]:
plt.figure(figsize=(12, 6))
sns.histplot(df['pib_per_capita'], kde=True, bins=50)
plt.title('Distribuci√≥n del PIB per c√°pita global')
plt.xlabel('PIB per C√°pita (USD PPA a precios constantes)')
plt.ylabel('Frecuencia')
plt.show()

**Ejercicio**: Interprete el gr√°fico.

#### Boxplot: Identificando la Dispersi√≥n y los Outliers

El boxplot es una de las herramientas m√°s poderosas para un analista. Resume la distribuci√≥n en 5 n√∫meros (m√≠nimo, Q1, mediana, Q3, m√°ximo) y visualiza los outliers.

In [None]:
plt.figure(figsize=(12, 8))
sns.boxplot(y='continente', x='esperanza_vida', data=df)
plt.title('Boxplot de Esperanza de Vida por Continente')
plt.xlabel('Esperanza de Vida (A√±os)')
plt.ylabel('Continente')
plt.show()

**Ejercicio**: Interprete el gr√°fico.

#### Gr√°fico de Torta

Un gr√°fico de torta (o pie chart) se usa para mostrar la proporci√≥n de cada categor√≠a sobre un total. Es visualmente atractivo, pero como veremos, puede ser m√°s dif√≠cil de interpretar con precisi√≥n que un gr√°fico de barras.

In [None]:
# 1. Preparar los datos: Contar las observaciones por continente
conteo_continentes = df['continente'].value_counts()

# 2. Crear el gr√°fico de torta
plt.figure(figsize=(10, 10))
plt.pie(conteo_continentes,
        labels=conteo_continentes.index,
        autopct='%1.1f%%', # Formato para mostrar porcentajes con un decimal
        startangle=90      # Inicia el primer 'trozo' en la parte superior
        )

plt.title('Proporci√≥n de Observaciones por Continente', fontsize=16)
plt.ylabel('') # Quitamos el label del eje y que matplotlib a√±ade por defecto
plt.show()

**Ejercicio**: Interprete el gr√°fico.

**Nota**

Usa un gr√°fico de torta solo cuando tengas pocas categor√≠as (idealmente, menos de 5) y tu objetivo principal sea destacar la proporci√≥n de una de esas categor√≠as con respecto al total, m√°s que comparar las categor√≠as entre s√≠.

#### Gr√°fico de Barras

In [None]:
# Gr√°fico de Barras
plt.figure(figsize=(10, 6))
sns.countplot(y='continente', data=df, order = df['continente'].value_counts().index)
plt.title('N√∫mero de Observaciones por Continente')
plt.xlabel('Conteo')
plt.ylabel('Continente')
plt.show()

**Ejercicio**: Interprete el gr√°fico.

El gr√°fico de barras es generalmente preferible al de torta, ya que es m√°s f√°cil comparar longitudes que √°reas. 

### Visualizaciones Multivariadas (Dos o m√°s variables)

Aqu√≠ es donde empezamos a buscar relaciones.

#### Gr√°fico de Dispersi√≥n (Scatter Plot)

El scatter plot es la herramienta fundamental para visualizar la relaci√≥n entre dos variables num√©ricas.

In [None]:
# Tomemos solo los datos de 2007 para una foto m√°s clara
df_2007 = df[df['a√±o']=='2007']

plt.figure(figsize=(12, 7))
sns.scatterplot(x='pib_per_capita', y='esperanza_vida', data=df_2007)
plt.title('Esperanza de Vida vs. PIB per C√°pita (2007)')
plt.xlabel('PIB per C√°pita (USD PPA a precios constantes)')
plt.ylabel('Esperanza de Vida (A√±os)')
plt.xscale('log') # Usamos escala logar√≠tmica para el PIB por su gran sesgo
plt.show()

**Ejercicio**: Interprete el gr√°fico.

#### Gr√°fico de Burbujas: A√±adiendo una Tercera Dimensi√≥n

Podemos a√±adir la variable poblacion al tama√±o de los puntos para crear un gr√°fico de burbujas.

In [None]:
plt.figure(figsize=(14, 8))
sns.scatterplot(x='pib_per_capita', y='esperanza_vida', data=df_2007,
                size='poblacion', hue='continente', sizes=(20, 2000), alpha=0.7)
plt.title('Esperanza de Vida, PIB per C√°pita y Poblaci√≥n por Continente (2007)')
plt.xlabel('PIB per C√°pita (USD PPA a precios constantes)')
plt.ylabel('Esperanza de Vida (A√±os)')
plt.xscale('log')
plt.legend(title='Continente y Poblaci√≥n', bbox_to_anchor=(1.05, 1), loc=2)
plt.show()

**Ejercicio**: Interprete el gr√°fico.

#### Gr√°fico de L√≠nea

In [None]:
# Calculemos el PIB per c√°pita promedio por a√±o y continente
pib_por_a√±o_continente = df.groupby(['a√±o', 'continente'])['pib_per_capita'].mean().reset_index()

plt.figure(figsize=(14, 8))
sns.lineplot(x='a√±o', y='pib_per_capita', hue='continente', data=pib_por_a√±o_continente, lw=3)
plt.title('Evoluci√≥n del PIB per C√°pita Promedio por Continente (1952-2007)')
plt.ylabel('PIB per C√°pita Promedio (USD PPA a precios constantes)')
plt.xlabel('A√±o')
plt.legend(title='Continente')
plt.show()

**Ejercicio**: Interprete el gr√°fico.

#### Gr√°fico de Barras Apiladas

Mientras que un gr√°fico de l√≠neas es bueno para comparar las tendencias de cada continente por separado, un gr√°fico de barras apiladas nos permite responder dos preguntas a la vez:

- ¬øC√≥mo ha crecido la poblaci√≥n total de nuestra muestra a lo largo de los a√±os? (Altura total de la barra)

- ¬øC√≥mo ha cambiado la participaci√≥n porcentual de cada continente en esa poblaci√≥n total? (Tama√±o relativo de cada color dentro de la barra)

Para crearlo, primero necesitamos reorganizar (pivotar) nuestros datos para que los a√±os sean el √≠ndice, los continentes sean las columnas y los valores sean la suma de la poblaci√≥n.

In [None]:
# 1. Preparar los datos: Crear una tabla pivote
# Agrupamos por a√±o y continente, sumando la poblaci√≥n.
# Luego, usamos .unstack() para convertir los continentes en columnas.
poblacion_continentes = df.groupby(['a√±o', 'continente'])['poblacion'].sum().unstack()

# 2. Crear el gr√°fico de barras apiladas
ax = poblacion_continentes.plot(kind='bar', stacked=True, figsize=(16, 9),
                                 colormap='viridis')

# 3. Mejorar la legibilidad del gr√°fico
plt.title('Poblaci√≥n por Continente a lo Largo del Tiempo (Gr√°fico Apilado)', fontsize=20)
plt.xlabel('A√±o', fontsize=14)
plt.ylabel('Poblaci√≥n (en miles de millones)', fontsize=14)
plt.xticks(rotation=45)
plt.legend(title='Continente', bbox_to_anchor=(1.02, 1), loc='upper left')

# Formatear el eje Y para que muestre los n√∫meros en miles de millones
# Esto hace que el gr√°fico sea mucho m√°s f√°cil de leer.
formatter = lambda x, pos: f'{x/1e9:.1f}B'
ax.yaxis.set_major_formatter(formatter)

plt.tight_layout()
plt.show()

**Ejercicio**: Interprete el gr√°fico.

## Correlaci√≥n

Los gr√°ficos de dispersi√≥n sugieren relaciones. La correlaci√≥n las cuantifica num√©ricamente.

- Correlaci√≥n > 0: Relaci√≥n positiva (cuando X sube, Y tiende a subir).

- Correlaci√≥n < 0: Relaci√≥n negativa (cuando X sube, Y tiende a bajar).

- Correlaci√≥n ‚âà 0: No hay relaci√≥n lineal.

Un **heatmap** es una forma excelente de visualizar la matriz de correlaci√≥n, usando colores para representar los valores.

In [None]:
# Seleccionamos solo las columnas num√©ricas para la correlaci√≥n
df_numeric = df[['esperanza_vida', 'poblacion', 'pib_per_capita']]
correlation_matrix = df_numeric.corr()
correlation_matrix

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de Correlaci√≥n de Variables Num√©ricas')
plt.show()

**Ejercicio**: Interprete el gr√°fico.

‚ö†Ô∏è Advertencia clave: **¬°Correlaci√≥n no implica causalidad!** El hecho de que dos variables se muevan juntas no significa que una cause la otra. Podr√≠a haber una tercera variable oculta (variable omitida) o la causalidad podr√≠a ir en la direcci√≥n opuesta.

**Ejercicio de discusi√≥n**

Hemos visto una correlaci√≥n de 0.58 entre PIB per c√°pita y esperanza de vida. Pero, ¬øes una prueba de que 'el dinero compra la salud'? Piensen por un minuto en al menos una tercera variable (una variable omitida) que podr√≠a estar causando que tanto el PIB como la esperanza de vida se muevan juntas.

## Gr√°ficos Avanzados con Seaborn

Seaborn ofrece herramientas de alto nivel para explorar relaciones complejas con poco c√≥digo.

### Pairplot: Todas las Relaciones de un Vistazo

El pairplot crea una matriz de gr√°ficos: histogramas en la diagonal (para ver la distribuci√≥n de cada variable) y scatter plots en el resto (para ver la relaci√≥n entre cada par de variables). Es una forma incre√≠blemente eficiente de obtener una visi√≥n general.

In [None]:
# Usamos una muestra de los datos para que el gr√°fico se genere m√°s r√°pido
df_sample = df.sample(500)

sns.pairplot(df_sample, diag_kind='kde')
plt.suptitle('Pairplot de Indicadores (Muestra)', y=1.02)
plt.show()

In [None]:
# Usamos una muestra de los datos para que el gr√°fico se genere m√°s r√°pido
df_sample = df.sample(500)

sns.pairplot(df_sample, hue='continente', diag_kind='kde')
plt.suptitle('Pairplot de Indicadores por Continente (Muestra)', y=1.02)
plt.show()

Este √∫nico comando genera una gran cantidad of informaci√≥n. Podemos ver todas las relaciones bivariadas simult√°neamente, segmentadas por color seg√∫n el continente. R√°pidamente podemos confirmar visualmente las correlaciones que vimos en el heatmap y las distribuciones de los histogramas, pero ahora con una capa adicional de detalle por continente.

### Violinplot

Combina un boxplot con un gr√°fico de densidad. Es √∫til para ver no solo el resumen estad√≠stico sino tambi√©n la forma completa de la distribuci√≥n.

In [None]:
plt.figure(figsize=(12, 7))
sns.violinplot(x='continente', y='esperanza_vida', data=df)
plt.title('Distribuci√≥n de Esperanza de Vida por Continente (Violin Plot)')
plt.show()

### Joint Plot

Muestra un scatter plot de dos variables y a√±ade los histogramas o gr√°ficos de densidad de cada variable en los m√°rgenes.

In [None]:
sns.jointplot(x='pib_per_capita', y='esperanza_vida', data=df_2007, alpha=0.3,marker='o')
plt.suptitle('Joint Plot de PIB per C√°pita y Esperanza de Vida (2007)', y=1.02)
plt.show()