<a href="https://colab.research.google.com/github/LinaMariaCastro/curso-ia-para-economia/blob/main/clases/3_Analisis_y_visualizacion_datos/7_Datos_geograficos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Inteligencia Artificial con Aplicaciones en Econom√≠a I**

- üë©‚Äçüè´ **Profesora:** [Lina Mar√≠a Castro](https://www.linkedin.com/in/lina-maria-castro)  
- üìß **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- üéì **Universidad:** Universidad Externado de Colombia - Facultad de Econom√≠a

# üó∫Ô∏è **An√°lisis de datos geogr√°ficos**


**Objetivos de Aprendizaje**

Al finalizar este notebook, ser√°s capaz de:

1.  **Comprender la estructura de los datos geogr√°ficos vectoriales** (shapefiles) y su relevancia en el an√°lisis econ√≥mico.
2.  **Navegar el Geoportal del DANE** para descargar el Marco Geoestad√≠stico Nacional, la fuente oficial de los mapas de Colombia.
3.  **Cargar, procesar y visualizar datos geoespaciales** en Python utilizando la librer√≠a `geopandas`.
4.  **Enriquecer un mapa** uniendo datos econ√≥micos (como el √çndice de Pobreza Multidimensional) para crear visualizaciones coropl√©ticas y derivar conclusiones econ√≥micas a partir de patrones espaciales.

**Introducci√≥n**

Analizar variables econ√≥micas sin su contexto espacial es como suponer que todos los agentes econ√≥micos operan en un mismo punto, sin vecinos, sin regiones y sin costos de desplazamiento. Hoy vamos a romper ese supuesto. Aprenderemos a incorporar la dimensi√≥n espacial para visualizar c√≥mo fen√≥menos como la pobreza, la riqueza o la actividad econ√≥mica no se distribuyen de manera uniforme, sino que forman **cl√∫steres**, **corredores** y **fronteras** que revelan historias profundas sobre el desarrollo econ√≥mico de un pa√≠s.

## Importar librer√≠as

Lo primero es asegurarnos de tener las herramientas necesarias. La librer√≠a principal para este trabajo es `geopandas`, que extiende la funcionalidad de `pandas` para permitir el manejo de datos geogr√°ficos.

In [None]:
# Si no tienes instaladas las librer√≠as, ejecuta esta celda.
# Geopandas puede tener dependencias complejas; la instalaci√≥n puede tardar unos minutos.
# %pip install geopandas requests
# %pip install requests

In [None]:
import numpy as np
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt
import requests
import zipfile
import io
import os

## Mejorar visualizaci√≥n de los dataframes

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

## Cargar el dataset

Para cualquier an√°lisis geoespacial sobre Colombia, la fuente de datos primordial es el **Departamento Administrativo Nacional de Estad√≠stica (DANE)**. El DANE mantiene el **Marco Geoestad√≠stico Nacional (MGN)**, que es el conjunto de todas las divisiones geogr√°ficas del pa√≠s (departamentos, municipios, etc.).

**Gu√≠a paso a paso para descargar los datos del DANE:**

1.  **Ir al Geoportal del DANE**: Abran un navegador y vayan a [https://geoportal.dane.gov.co/](https://geoportal.dane.gov.co/). Este es el centro de recursos geogr√°ficos de la entidad.

2.  **Buscar el Marco Geoestad√≠stico**: En la p√°gina principal, en el men√∫ de descargas, busquen la secci√≥n del **Marco Geoestad√≠stico Nacional (MGN)**. Suelen actualizarlo cada a√±o.

3.  **Seleccionar la Capa de Inter√©s**: El MGN contiene muchas capas (veredas, sectores, etc.). Para nuestro an√°lisis, nos interesa la capa de **Municipios**. Busquen la opci√≥n que diga algo como `Versi√≥n MGN2024-Nivel Municipio`.

4.  **Descargar el Shapefile**: Los datos geogr√°ficos vectoriales suelen venir en formato **shapefile**. No es un solo archivo, sino un conjunto de archivos (`.shp`, `.shx`, `.dbf`, `.prj`, etc.) que funcionan juntos. Por eso, el DANE siempre los ofrece dentro de un archivo `.zip`.

Para facilitar la clase, el siguiente c√≥digo descargar√° y descomprimir√° los datos del MGN 2024 directamente por nosotros.

In [None]:
# URL oficial del DANE para el shapefile de municipios del MGN 2024
url = 'https://geoportal.dane.gov.co/descargas/mgn_2024/MGN2024_MPIO_POLITICO.zip'
#  Definir carpeta local donde se guardar√° el shapefile despu√©s de descargarlo y extraerlo
directorio_extraccion = "./shapefiles_dane"

In [None]:
print("Descargando y descomprimiendo los datos geogr√°ficos del DANE...")
try:
    # Descarga el archivo ZIP desde la URL del DANE
    r = requests.get(url)
    # Convierte el contenido descargado (r.content) en un objeto tipo archivo en memoria con io.BytesIO().
    # Luego abre ese archivo como un ZIP usando zipfile.ZipFile
    z = zipfile.ZipFile(io.BytesIO(r.content))
    # Descomprime todos los archivos dentro del ZIP en la carpeta indicada
    z.extractall(directorio_extraccion)
    print(f"Archivos extra√≠dos en la carpeta: '{directorio_extraccion}'")
except Exception as e:
    print(f"Ocurri√≥ un error en la descarga: {e}")

In [None]:
# --- Carga robusta del Shapefile ---
# Buscamos el archivo .shp dentro del directorio de extracci√≥n para no depender de un nombre fijo
path_to_shp = None
for file in os.listdir(directorio_extraccion):
    if file.endswith(".shp"):
        path_to_shp = os.path.join(directorio_extraccion, file)
        break

if path_to_shp:
    print(f"Shapefile encontrado: {path_to_shp}")
    # Usar GeoPandas (gpd) para leer el shapefile y cargarlo en un GeoDataFrame
    gdf_colombia = gpd.read_file(path_to_shp)
    print("\nPrimeras 5 filas del GeoDataFrame:")
    display(gdf_colombia.head())
else:
    print("No se encontr√≥ ning√∫n archivo .shp en el directorio. Verifique la descarga.")

**Nota:** Un GeoDataFrame es como un DataFrame de pandas pero con una columna especial geometry que guarda la geometr√≠a de los municipios (pol√≠gonos).

## Inspecci√≥n Inicial del Mapa

Antes de hacer cualquier an√°lisis, es fundamental visualizar los datos geogr√°ficos para asegurarse de que se cargaron correctamente.

In [None]:
# Geopandas tiene un m√©todo .plot() integrado, que facilita una visualizaci√≥n r√°pida.
fig, ax = plt.subplots(figsize=(10, 10))
gdf_colombia.plot(ax=ax, edgecolor='black', linewidth=0.2)

# Ajustes est√©ticos del gr√°fico
ax.set_title('Mapa Pol√≠tico de Municipios de Colombia', fontsize=16)
ax.set_xlabel('Longitud')
ax.set_ylabel('Latitud')
ax.grid(True, linestyle='--', alpha=0.6)
plt.show()

## Enriqueciendo el Mapa con Datos Econ√≥micos

Vamos a agregar el **√çndice de Pobreza Multidimensional (IPM)** por municipio para 2018 (uno de los √∫ltimos datos consolidados a nivel municipal por el DANE). Este √≠ndice va m√°s all√° del ingreso y considera factores como educaci√≥n, salud y condiciones de vivienda.

El paso clave aqu√≠ es un **`merge`**, similar al que hacemos en `pandas`. La √∫nica condici√≥n es tener una **columna llave** en com√∫n entre el GeoDataFrame (mapa) y el DataFrame (datos econ√≥micos). Esta llave ser√° el c√≥digo √∫nico de cada municipio.

In [None]:
df_ipm = pd.read_csv("Base_municipios.txt", sep="|", decimal=",", converters={'Cod. Municipio': str})
df_ipm.head()

In [None]:
df_ipm.info()

In [None]:
gdf_colombia.info()

In [None]:
df_mapa_ipm = gdf_colombia.merge(df_ipm[['Cod. Municipio', '% pobreza municipio']], left_on='mpio_cdpmp', right_on='Cod. Municipio', how='left')
df_mapa_ipm

## Creaci√≥n de un Mapa Coropl√©tico

Ahora que tenemos los datos y las geometr√≠as en un solo lugar, podemos crear un **mapa coropl√©tico**. Este tipo de mapa utiliza una escala de colores para representar la intensidad de una variable en diferentes √°reas, permiti√©ndonos identificar patrones espaciales de un vistazo.

In [None]:
fig, ax = plt.subplots(1, 1, figsize=(15, 15))

df_mapa_ipm.plot(column='% pobreza municipio',           # La columna cuyos valores determinar√°n el color
                    ax=ax,                 # El eje sobre el cual graficar
                    legend=True,           # Mostrar la barra de colores (leyenda)
                    cmap='viridis_r',      # Paleta de colores. '_r' la invierte (amarillo=bajo, morado=alto)
                    missing_kwds={         # C√≥mo mostrar municipios sin datos de IPM
                        'color': 'lightgrey',
                        'label': 'Datos no disponibles',
                    },
                    legend_kwds={          # Opciones para la leyenda
                        'label': "√çndice de Pobreza Multidimensional (IPM) 2018",
                        'orientation': "horizontal"
                    })

ax.set_title('Distribuci√≥n de la Pobreza Multidimensional en Colombia (2018)', fontdict={'fontsize': 20, 'fontweight': 'bold'})
ax.set_axis_off() # Quitamos los ejes de latitud y longitud que no aportan informaci√≥n aqu√≠
plt.show()

**An√°lisis Econ√≥mico-Espacial:** El mapa revela una fuerte 'autocorrelaci√≥n espacial positiva' de la pobreza. Los municipios con alto IPM tienden a estar rodeados de otros municipios con alto IPM. Vemos una clara concentraci√≥n de pobreza en la periferia del pa√≠s (costa Pac√≠fica, Caribe y la Orinoqu√≠a), en contraste con el centro andino. Esta visualizaci√≥n es una poderosa herramienta para el dise√±o de pol√≠ticas p√∫blicas focalizadas.

## Ejercicio

El departamento de Antioquia es conocido por su fuerte econom√≠a pero tambi√©n por sus desigualdades internas. Filtra el GeoDataFrame `df_mapa_ipm` para quedarte √∫nicamente con los municipios de **Antioquia** (c√≥digo de departamento `dpto_ccdgo` es `'05'`) y crea un mapa coropl√©tico del IPM solo para esa regi√≥n. ¬øQu√© patrones observas? ¬øQu√© municipio es el m√°s y menos pobre?