<a href="https://colab.research.google.com/github/LinaMariaCastro/2025-segundo-semestre-ia-economia/blob/main/clases/3_Analisis_y_visualizacion_datos/1_Importacion_Extraccion_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Inteligencia Artificial con Aplicaciones en Economía I**

- 👩‍🏫 **Profesora:** [Lina María Castro](https://www.linkedin.com/in/lina-maria-castro)  
- 📧 **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- 🎓 **Universidad:** Universidad Externado de Colombia - Facultad de Economía

# 🛢️**Métodos de importación y extracción de datos**

En esta clase aprenderás a:

- Importar y extraer datos desde diferentes fuentes:

  - Archivos locales (CSV, Excel, TXT)
  - Archivos en la web (CSV desde URL)
  - APIs

- Explorar el dataset

Este es el primer paso para todo análisis de datos en economía y ciencias sociales.


## Instalaciones necesarias

No es necesario si:
- Instalaste los programas del archivo requirements.txt
- Corriste el notebook "0_instalacion_librerias.ipynb"
- Estás usando Google Colab

In [None]:
# Para poder leer y abrir archivos de Excel
!pip install xlrd openpyxl



In [None]:
# Para trabajar datos tabulares
!pip install pandas



## Importar librerías

In [None]:
import numpy as np
import pandas as pd

## Mejorar visualización de los dataframes

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

## Importar datos desde archivos CSV, Excel, TXT

En Google Colab hay dos opciones:
- Subir el archivo al entorno (se borra cuando se desconecta del entorno de ejecución o se cierra el notebook)
- Importar el archivo desde Google Drive

### Subir el archivo al entorno

In [None]:
# Archivo csv
df_ssc = pd.read_csv('Supersociedades_2023.csv', encoding ='utf-8', dtype=str) #latin-1
df_ssc.head()

Unnamed: 0,RANKING,NIT,RAZON_SOCIAL,CODIGO_DEPARTAMENTO,DEPARTAMENTO,CODIGO_MUNICIPIO,MUNICIPIO,CIIU,DESCRIPCION_CIIU,AÑOS_EMPRESA,ACTIVOS_2023,PASIVOS_2023,PATRIMONIO_2023,INGRESOS_OPERACIONALES_2023,UTILIDAD_2023,ACTIVOS_2022,PASIVOS_2022,PATRIMONIO_2022,INGRESOS_OPERACIONALES_2022,UTILIDAD_2022,DIRECCION,TELEFONO,CELULAR,EMAIL,SUPERVISOR
0,1,899999068,ECOPETROL S.A,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",610,Extracción de petróleo crudo,,198732048000000.0,120339989000000.0,78392059000000.0,129508675000000.0,19062091000000.0,216847696868000.0,125812992019000.0,91034704849000.0,144820641934000.0,33406291190000.0,,,,,SUPERFINANCIERA
1,2,900112515,REFINERIA DE CARTAGENA S.A.,13,BOLÍVAR,13001,CARTAGENA DE INDIAS,1921,Fabricación de productos de la refinación del ...,,37080019697618.0,12339425674582.0,24740594023036.0,32050663229016.0,3491071127880.0,42844949768948.0,16480903602221.0,26364046166727.0,27910347095288.0,2188258717171.0,,,,,SUPERSERVICIOS
2,3,890100577,AEROVIAS DEL CONTINENTE AMERICANO S.A. AVIANCA,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",5111,Transporte aéreo nacional de pasajeros,,18938010690614.0,20044894930057.0,-1106884239443.0,27150513815328.0,224732589350.0,17886971237998.0,19333652424242.0,-1446681186244.0,22520677111772.0,-801213587941.0,,,,,SUPERTRANSPORTE
3,4,830095213,ORGANIZACIÓN TERPEL S.A.,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",4661,"Comercio al por mayor de combustibles sólidos,...",,7357710447000.0,4606665920000.0,2751044527000.0,23048284871000.0,285273513000.0,7481575073000.0,4473299528000.0,3008275545000.0,23603192495000.0,333411532000.0,,,,,SUPERFINANCIERA
4,5,900156264,NUEVA EMPRESA PROMOTORA DE SALUD S.A.,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",8430,Actividades de planes de seguridad social de a...,,6815192849000.0,6671800785000.0,143392064000.0,20279681124000.0,-341816765000.0,5913636590000.0,5428427760000.0,485208830000.0,14777134070000.0,10400284000.0,,,,,SUPERSALUD


In [None]:
df_ssc['ACTIVOS_2023'].dtype

dtype('O')

In [None]:
df_ssc['ACTIVOS_2023'] = df_ssc['ACTIVOS_2023'].astype('float64')
df_ssc.head()

Unnamed: 0,RANKING,NIT,RAZON_SOCIAL,CODIGO_DEPARTAMENTO,DEPARTAMENTO,CODIGO_MUNICIPIO,MUNICIPIO,CIIU,DESCRIPCION_CIIU,AÑOS_EMPRESA,ACTIVOS_2023,PASIVOS_2023,PATRIMONIO_2023,INGRESOS_OPERACIONALES_2023,UTILIDAD_2023,ACTIVOS_2022,PASIVOS_2022,PATRIMONIO_2022,INGRESOS_OPERACIONALES_2022,UTILIDAD_2022,DIRECCION,TELEFONO,CELULAR,EMAIL,SUPERVISOR
0,1,899999068,ECOPETROL S.A,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",610,Extracción de petróleo crudo,,198732048000000.0,120339989000000.0,78392059000000.0,129508675000000.0,19062091000000.0,216847696868000.0,125812992019000.0,91034704849000.0,144820641934000.0,33406291190000.0,,,,,SUPERFINANCIERA
1,2,900112515,REFINERIA DE CARTAGENA S.A.,13,BOLÍVAR,13001,CARTAGENA DE INDIAS,1921,Fabricación de productos de la refinación del ...,,37080019697618.0,12339425674582.0,24740594023036.0,32050663229016.0,3491071127880.0,42844949768948.0,16480903602221.0,26364046166727.0,27910347095288.0,2188258717171.0,,,,,SUPERSERVICIOS
2,3,890100577,AEROVIAS DEL CONTINENTE AMERICANO S.A. AVIANCA,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",5111,Transporte aéreo nacional de pasajeros,,18938010690614.0,20044894930057.0,-1106884239443.0,27150513815328.0,224732589350.0,17886971237998.0,19333652424242.0,-1446681186244.0,22520677111772.0,-801213587941.0,,,,,SUPERTRANSPORTE
3,4,830095213,ORGANIZACIÓN TERPEL S.A.,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",4661,"Comercio al por mayor de combustibles sólidos,...",,7357710447000.0,4606665920000.0,2751044527000.0,23048284871000.0,285273513000.0,7481575073000.0,4473299528000.0,3008275545000.0,23603192495000.0,333411532000.0,,,,,SUPERFINANCIERA
4,5,900156264,NUEVA EMPRESA PROMOTORA DE SALUD S.A.,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",8430,Actividades de planes de seguridad social de a...,,6815192849000.0,6671800785000.0,143392064000.0,20279681124000.0,-341816765000.0,5913636590000.0,5428427760000.0,485208830000.0,14777134070000.0,10400284000.0,,,,,SUPERSALUD


In [None]:
df_ssc['ACTIVOS_2023'].dtype

dtype('float64')

In [None]:
df_ssc['ACTIVOS_2023'] = df_ssc['ACTIVOS_2023'].astype(str)
df_ssc.head()

Unnamed: 0,RANKING,NIT,RAZON_SOCIAL,CODIGO_DEPARTAMENTO,DEPARTAMENTO,CODIGO_MUNICIPIO,MUNICIPIO,CIIU,DESCRIPCION_CIIU,AÑOS_EMPRESA,ACTIVOS_2023,PASIVOS_2023,PATRIMONIO_2023,INGRESOS_OPERACIONALES_2023,UTILIDAD_2023,ACTIVOS_2022,PASIVOS_2022,PATRIMONIO_2022,INGRESOS_OPERACIONALES_2022,UTILIDAD_2022,DIRECCION,TELEFONO,CELULAR,EMAIL,SUPERVISOR
0,1,899999068,ECOPETROL S.A,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",610,Extracción de petróleo crudo,,198732048000000.0,120339989000000.0,78392059000000.0,129508675000000.0,19062091000000.0,216847696868000.0,125812992019000.0,91034704849000.0,144820641934000.0,33406291190000.0,,,,,SUPERFINANCIERA
1,2,900112515,REFINERIA DE CARTAGENA S.A.,13,BOLÍVAR,13001,CARTAGENA DE INDIAS,1921,Fabricación de productos de la refinación del ...,,37080019697618.0,12339425674582.0,24740594023036.0,32050663229016.0,3491071127880.0,42844949768948.0,16480903602221.0,26364046166727.0,27910347095288.0,2188258717171.0,,,,,SUPERSERVICIOS
2,3,890100577,AEROVIAS DEL CONTINENTE AMERICANO S.A. AVIANCA,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",5111,Transporte aéreo nacional de pasajeros,,18938010690614.0,20044894930057.0,-1106884239443.0,27150513815328.0,224732589350.0,17886971237998.0,19333652424242.0,-1446681186244.0,22520677111772.0,-801213587941.0,,,,,SUPERTRANSPORTE
3,4,830095213,ORGANIZACIÓN TERPEL S.A.,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",4661,"Comercio al por mayor de combustibles sólidos,...",,7357710447000.0,4606665920000.0,2751044527000.0,23048284871000.0,285273513000.0,7481575073000.0,4473299528000.0,3008275545000.0,23603192495000.0,333411532000.0,,,,,SUPERFINANCIERA
4,5,900156264,NUEVA EMPRESA PROMOTORA DE SALUD S.A.,11,"BOGOTÁ, D.C.",11001,"BOGOTÁ, D.C.",8430,Actividades de planes de seguridad social de a...,,6815192849000.0,6671800785000.0,143392064000.0,20279681124000.0,-341816765000.0,5913636590000.0,5428427760000.0,485208830000.0,14777134070000.0,10400284000.0,,,,,SUPERSALUD


In [None]:
df_ssc['ACTIVOS_2023'].dtype

dtype('O')

In [None]:
# Archivo txt
df_mun = pd.read_csv('Base_municipios.txt', sep="|", decimal=',', encoding ='utf-8', converters={'Cod. Municipio':str})
df_mun.head()

Unnamed: 0,Cod. Municipio,Departamento,Municipio,Población municipio,Subregión PDET,ZOMAC,Valor agregado municipio,% Act. primarias municipio,% Act. secundarias municipio,% Act. terciarias municipio,% pobl. con educación media municipio,% pobl. con edu. técnica/tecnología municipio,% pobl. con pregrado municipio,% pobl. con posgrado municipio,% pobreza municipio,% informalidad municipio,% mujeres municipio,% jóvenes municipio,% pobl. con discapacidad municipio,% grupos étnicos municipio,% pobl. campesina municipio,% pobl. LGBT municipio
0,5001,Antioquia,Medellín,2572350,,0,66432.28,0.18,20.06,79.76,26.54,10.34,11.83,3.47,12.8,71.0,52.91,24.48,6.27,2.59,1.9,1.74
1,5002,Antioquia,Abejorral,21109,,1,314.2,45.43,6.37,48.19,12.8,2.46,1.73,0.85,40.6,87.5,47.79,20.51,16.05,0.36,,
2,5004,Antioquia,Abriaquí,2804,,1,38.48,37.04,6.45,56.51,21.4,4.96,2.69,1.07,34.8,87.6,45.79,22.04,16.72,2.04,,
3,5021,Antioquia,Alejandría,4874,,1,67.95,18.02,6.89,75.08,14.64,5.57,2.92,0.73,31.9,87.1,50.39,20.11,8.1,0.31,,
4,5030,Antioquia,Amagá,31851,,0,635.93,6.84,46.2,46.96,22.83,5.97,2.95,0.7,22.9,69.5,50.92,23.26,9.02,0.52,,


In [None]:
df_mun2 = pd.read_csv('Base_municipios.txt', sep="|", decimal=',', encoding ='utf-8')
df_mun2.head()

Unnamed: 0,Cod. Municipio,Departamento,Municipio,Población municipio,Subregión PDET,ZOMAC,Valor agregado municipio,% Act. primarias municipio,% Act. secundarias municipio,% Act. terciarias municipio,% pobl. con educación media municipio,% pobl. con edu. técnica/tecnología municipio,% pobl. con pregrado municipio,% pobl. con posgrado municipio,% pobreza municipio,% informalidad municipio,% mujeres municipio,% jóvenes municipio,% pobl. con discapacidad municipio,% grupos étnicos municipio,% pobl. campesina municipio,% pobl. LGBT municipio
0,5001,Antioquia,Medellín,2572350,,0,66432.28,0.18,20.06,79.76,26.54,10.34,11.83,3.47,12.8,71.0,52.91,24.48,6.27,2.59,1.9,1.74
1,5002,Antioquia,Abejorral,21109,,1,314.2,45.43,6.37,48.19,12.8,2.46,1.73,0.85,40.6,87.5,47.79,20.51,16.05,0.36,,
2,5004,Antioquia,Abriaquí,2804,,1,38.48,37.04,6.45,56.51,21.4,4.96,2.69,1.07,34.8,87.6,45.79,22.04,16.72,2.04,,
3,5021,Antioquia,Alejandría,4874,,1,67.95,18.02,6.89,75.08,14.64,5.57,2.92,0.73,31.9,87.1,50.39,20.11,8.1,0.31,,
4,5030,Antioquia,Amagá,31851,,0,635.93,6.84,46.2,46.96,22.83,5.97,2.95,0.7,22.9,69.5,50.92,23.26,9.02,0.52,,


In [None]:
# Archivo Excel
df_divipola_depto = pd.read_excel("2025-01-14 DIVIPOLA.xlsx",
                            sheet_name="Departamentos",
                            skiprows=9)
df_divipola_depto.head()


Unnamed: 0,Código,Nombre
0,5,ANTIOQUIA
1,8,ATLÁNTICO
2,11,"BOGOTÁ, D.C."
3,13,BOLÍVAR
4,15,BOYACÁ


In [None]:
# Archivo Excel
df_divipola_mun = pd.read_excel("2025-01-14 DIVIPOLA.xlsx",
                            sheet_name="Municipios",
                            skiprows=10, dtype=str)
df_divipola_mun.head()

Unnamed: 0,Código,Nombre,Código .1,Nombre.1,Unnamed: 4,Unnamed: 5
0,5,ANTIOQUIA,5001,MEDELLÍN,Municipio,ÁREA METROPOLITANA DEL VALLE DE ABURRÁ
1,5,ANTIOQUIA,5002,ABEJORRAL,Municipio,
2,5,ANTIOQUIA,5004,ABRIAQUÍ,Municipio,
3,5,ANTIOQUIA,5021,ALEJANDRÍA,Municipio,
4,5,ANTIOQUIA,5030,AMAGÁ,Municipio,


In [None]:
# Renombrar las columnas
df_divipola_mun.rename(columns={'Código':'Cod. Depto',
                                'Nombre': 'Departamento',
                                'Código .1':'Cod. Municipio',
                                'Nombre.1': 'Municipio',
                                'Unnamed: 4': 'Tipo',
                                'Unnamed: 5': 'Area Metropolitana'},
                       inplace=True)
df_divipola_mun.head(6)

Unnamed: 0,Código,Departamento,Cod. Municipio,Municipio,Tipo,Area Metropolitana
0,5,ANTIOQUIA,5001,MEDELLÍN,Municipio,ÁREA METROPOLITANA DEL VALLE DE ABURRÁ
1,5,ANTIOQUIA,5002,ABEJORRAL,Municipio,
2,5,ANTIOQUIA,5004,ABRIAQUÍ,Municipio,
3,5,ANTIOQUIA,5021,ALEJANDRÍA,Municipio,
4,5,ANTIOQUIA,5030,AMAGÁ,Municipio,
5,5,ANTIOQUIA,5031,AMALFI,Municipio,


### Importar el archivo desde Google Drive

In [None]:
import os

📌 Librería `os` en Python – Comandos más usados

La librería "os" conecta Python con el sistema operativo para manipular archivos, directorios y configuraciones.  

| Comando | Descripción | Ejemplo |
|---------|-------------|---------|
| `os.getcwd()` | Devuelve el directorio de trabajo actual. | `os.getcwd()` |
| `os.listdir(ruta)` | Lista los archivos y carpetas de una ruta. | `os.listdir(".")` |
| `os.chdir(ruta)` | Cambia el directorio de trabajo. | `os.chdir("C:/Users")` |
| `os.mkdir(nombre)` | Crea una nueva carpeta. | `os.mkdir("datos")` |
| `os.makedirs(ruta)` | Crea carpetas anidadas. | `os.makedirs("carpeta1/carpeta2")` |
| `os.remove(archivo)` | Elimina un archivo. | `os.remove("archivo.txt")` |
| `os.rmdir(carpeta)` | Elimina una carpeta vacía. | `os.rmdir("datos")` |
| `os.rename(src, dst)` | Renombra o mueve un archivo/carpeta. | `os.rename("a.txt","b.txt")` |
| `os.path.exists(ruta)` | Verifica si una ruta existe. | `os.path.exists("datos")` |
| `os.path.join(a, b)` | Une rutas de forma segura. | `os.path.join("carpeta", "archivo.csv")` |


⚠️ **Nota:**  
`os.remove` y `os.rmdir` no envían a la papelera, eliminan de forma permanente.  

In [None]:
from google.colab import drive, files
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
path = '/content/drive/MyDrive/2025_ii_curso_ia_economia/datasets'

In [None]:
# Para establecer el directorio de los archivos
os.chdir(path)

In [None]:
df_mun_drive = pd.read_csv('Base_municipios_drive.txt', sep="|", decimal=',', encoding ='utf-8', converters={'Cod. Municipio':str})
df_mun_drive.head()

Unnamed: 0,Cod. Municipio,Departamento,Municipio,Población municipio,Subregión PDET,ZOMAC,Valor agregado municipio,% Act. primarias municipio,% Act. secundarias municipio,% Act. terciarias municipio,% pobl. con educación media municipio,% pobl. con edu. técnica/tecnología municipio,% pobl. con pregrado municipio,% pobl. con posgrado municipio,% pobreza municipio,% informalidad municipio,% mujeres municipio,% jóvenes municipio,% pobl. con discapacidad municipio,% grupos étnicos municipio,% pobl. campesina municipio,% pobl. LGBT municipio
0,5001,Antioquia,Medellín,2572350,,0,66432.28,0.18,20.06,79.76,26.54,10.34,11.83,3.47,12.8,71.0,52.91,24.48,6.27,2.59,1.9,1.74
1,5002,Antioquia,Abejorral,21109,,1,314.2,45.43,6.37,48.19,12.8,2.46,1.73,0.85,40.6,87.5,47.79,20.51,16.05,0.36,,
2,5004,Antioquia,Abriaquí,2804,,1,38.48,37.04,6.45,56.51,21.4,4.96,2.69,1.07,34.8,87.6,45.79,22.04,16.72,2.04,,
3,5021,Antioquia,Alejandría,4874,,1,67.95,18.02,6.89,75.08,14.64,5.57,2.92,0.73,31.9,87.1,50.39,20.11,8.1,0.31,,
4,5030,Antioquia,Amagá,31851,,0,635.93,6.84,46.2,46.96,22.83,5.97,2.95,0.7,22.9,69.5,50.92,23.26,9.02,0.52,,


## Importar datos desde una URL

In [None]:
# CSV desde URL
url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
df_url = pd.read_csv(url)
df_url.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


## Conectarse a una API

- API significa Application Programming Interface o Interfaz de Programación de Aplicaciones.

- Es un conjunto de reglas y herramientas que permite que dos aplicaciones se comuniquen entre sí.

- Una aplicación expone sus funcionalidades o datos a través de la API.

- Otra aplicación puede usarlos, sin necesidad de saber cómo funciona internamente.

- Una API es como un puente que permite a diferentes programas hablar entre sí y compartir información de manera segura y estandarizada.

### Conexión a datos del Banco Mundial (usando wbdata)

El Banco Mundial tiene una API que expone datos de desarrollo económico y social. En Python podemos usar la librería **wbdata**.

Documentación: https://wbdata.readthedocs.io/en/stable/

También se puede utilizar: **wbgapi**

Documentación: https://pypi.org/project/wbgapi/

In [None]:
!pip install wbdata

Collecting wbdata
  Downloading wbdata-1.0.0-py3-none-any.whl.metadata (2.6 kB)
Collecting appdirs<2.0,>=1.4 (from wbdata)
  Downloading appdirs-1.4.4-py2.py3-none-any.whl.metadata (9.0 kB)
Collecting backoff<3.0.0,>=2.2.1 (from wbdata)
  Downloading backoff-2.2.1-py3-none-any.whl.metadata (14 kB)
Collecting dateparser<2.0.0,>=1.2.0 (from wbdata)
  Downloading dateparser-1.2.2-py3-none-any.whl.metadata (29 kB)
Collecting decorator<6.0.0,>=5.1.1 (from wbdata)
  Downloading decorator-5.2.1-py3-none-any.whl.metadata (3.9 kB)
Collecting shelved-cache<0.4.0,>=0.3.1 (from wbdata)
  Downloading shelved_cache-0.3.1-py3-none-any.whl.metadata (4.7 kB)
Collecting tabulate<0.9.0,>=0.8.5 (from wbdata)
  Downloading tabulate-0.8.10-py3-none-any.whl.metadata (25 kB)
Downloading wbdata-1.0.0-py3-none-any.whl (18 kB)
Downloading appdirs-1.4.4-py2.py3-none-any.whl (9.6 kB)
Downloading backoff-2.2.1-py3-none-any.whl (15 kB)
Downloading dateparser-1.2.2-py3-none-any.whl (315 kB)
[2K   [90m━━━━━━━━━━━━━━

In [None]:
import wbdata
import datetime

Nota: "datetime" permite trabajar con fechas y horas.

- Obtener la fecha y hora actual.
- Crear objetos de fecha (año, mes, día).
- Realizar operaciones con fechas (sumar o restar días, calcular diferencias).
- Dar formato a fechas (por ejemplo, mostrar como "31-08-2025" en lugar de "2025-08-31").

El constructor datetime.datetime() acepta argumentos de fecha y hora en el siguiente orden:

datetime.datetime(year, month, day, hour=0, minute=0, second=0, microsecond=0)

hour: Hora (0-23)

minute: Minuto (0-59)

second: Segundo (0-59)

microsecond: Microsegundo (0-999999)

Si no se especifica la hora, minuto o segundo, Python los establecerá en 0 por defecto.

Vamos a traer el PIB per cápita de Colombia entre 2010 y 2023 directamente desde el Banco Mundial.

In [None]:
# Indicador: PIB per cápita (en USD actuales)
# País: Colombia (COL)
indicador = {"NY.GDP.PCAP.CD": "PIB per cápita"}

# El orden es: año (2010), mes (1), día (1)
fecha_inicio = datetime.datetime(2010, 1, 1)
# El orden es: año (2023), mes (1), día (1)
fecha_fin = datetime.datetime(2023, 1, 1)

# Descargar datos
df = wbdata.get_dataframe(indicador, country="COL", date=(fecha_inicio, fecha_fin))

df

Unnamed: 0_level_0,PIB per cápita
date,Unnamed: 1_level_1
2023,7000.84
2022,6680.45
2021,6222.62
2020,5339.69
2019,6472.55
2018,6816.97
2017,6479.53
2016,5959.84
2015,6248.51
2014,8187.21


### Conexión a datos abiertos de Colombia

https://www.datos.gov.co/

#### Ejemplos

1. MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR, BÁSICA Y MEDIA_POR_DEPARTAMENTO

https://www.datos.gov.co/Educaci-n/MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR-B-SICA/ji8i-4anb/about_data

Ir a Exportar --> API de acceso y copiar el endpoint solamente.

In [None]:
import requests

"requests" es una librería que permite hacer peticiones HTTP (GET, POST, PUT, DELETE) de manera sencilla.

GET → traer datos desde una página o API.

POST → enviar datos a un servidor.

In [None]:
url = "https://www.datos.gov.co/resource/ji8i-4anb.json"

# Solicitud a la API
response = requests.get(url)
data = response.json()

# Convertir a DataFrame
df = pd.DataFrame(data)

df.head()

Unnamed: 0,ano,c_digo_departamento,departamento,poblacion_5_16,tasa_matriculacion_5_16,cobertura_neta,cobertura_neta_transicion,cobertura_neta_primaria,cobertura_neta_secundaria,cobertura_neta_media,cobertura_bruta,cobertura_bruta_transicion,cobertura_bruta_primaria,cobertura_bruta_secundaria,cobertura_bruta_media,tamano_promedio_grupo,sedes_conectadas_a_internet,desercion,desercion_transicion,desercion_primaria,desercion_secundaria,desercion_media,aprobacion,aprobacion_transicion,aprobacion_primaria,aprobacion_secundaria,aprobacion_media,reprobacion,reprobacion_transicion,reprobacion_primaria,reprobacion_secundaria,reprobacion_media,repitencia,repitencia_transicion,repitencia_primaria,repitencia_secundaria,repitencia_media
0,2011,5,Antioquia,1288473,94.01,93.85,70.28,94.12,75.68,44.37,106.81,85.69,117.5,110.81,84.06,27.47,74.48,3.97,3.62,3.65,4.57,3.71,93.98,0.07,94.56,4.57,93.33,2.06,0.07,94.56,2.54,2.96,4.25,0.07,4.56,5.27,1.68
1,2011,8,Atlántico,523935,99.32,99.05,50.59,98.93,80.22,50.17,107.88,84.19,120.41,107.89,87.98,24.42,80.46,2.76,2.6,3.06,2.42,2.61,96.7,0.12,96.49,2.42,96.64,0.54,0.12,96.49,0.67,0.75,1.82,0.12,1.77,2.18,0.88
2,2011,11,"Bogotá, D.C.",1479334,90.7,90.29,68.63,86.99,84.7,55.01,97.78,82.04,97.94,106.48,87.76,26.75,94.21,3.95,10.05,5.3,1.96,2.55,96.05,0.0,94.69,1.96,97.45,0.0,0.0,94.69,0.0,0.0,3.23,0.0,2.3,5.11,2.57
3,2011,13,Bolívar,496676,91.57,91.4,59.74,90.81,67.34,39.17,110.41,98.82,126.45,108.15,80.64,20.8,30.12,3.14,1.85,2.93,3.79,3.13,94.76,0.46,95.48,3.79,93.2,2.1,0.46,95.48,2.75,3.67,4.43,0.46,4.44,5.37,2.28
4,2011,15,Boyacá,300501,86.16,86.11,63.36,82.5,74.65,49.09,104.15,78.87,99.88,119.78,94.76,22.77,25.26,3.07,2.4,2.24,4.03,3.51,94.2,0.17,96.1,4.03,93.23,2.73,0.17,96.1,4.31,3.26,2.62,0.17,1.9,4.19,1.55


2. Casos positivos de COVID-19 en Colombia

In [None]:
url = "https://www.datos.gov.co/resource/gt2j-8ykr.json"

# Solicitud a la API
response = requests.get(url)
data = response.json()

# Convertir a DataFrame
df = pd.DataFrame(data)

df.head()

Unnamed: 0,fecha_reporte_web,id_de_caso,fecha_de_notificaci_n,departamento,departamento_nom,ciudad_municipio,ciudad_municipio_nom,edad,unidad_medida,sexo,fuente_tipo_contagio,ubicacion,estado,recuperado,fecha_inicio_sintomas,fecha_diagnostico,fecha_recuperado,tipo_recuperacion,per_etn_,fecha_muerte,nom_grupo_
0,2020-12-24 00:00:00,1556979,2020-12-22 00:00:00,76,VALLE,76001,CALI,67,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-21 00:00:00,2020-12-23 00:00:00,2021-01-04 00:00:00,Tiempo,6,,
1,2020-12-24 00:00:00,1556980,2020-12-19 00:00:00,76,VALLE,76001,CALI,66,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-07 00:00:00,2020-12-23 00:00:00,2020-12-25 00:00:00,Tiempo,6,,
2,2020-12-24 00:00:00,1556981,2020-12-19 00:00:00,76,VALLE,76001,CALI,68,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-18 00:00:00,2020-12-22 00:00:00,2021-01-01 00:00:00,Tiempo,6,,
3,2020-12-24 00:00:00,1556982,2020-12-22 00:00:00,76,VALLE,76001,CALI,74,1,F,Comunitaria,Fallecido,Fallecido,Fallecido,2020-12-17 00:00:00,2020-12-23 00:00:00,,,6,2020-12-30 00:00:00,
4,2020-12-24 00:00:00,1556983,2020-12-22 00:00:00,76,VALLE,76001,CALI,65,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-21 00:00:00,2020-12-23 00:00:00,2021-01-04 00:00:00,Tiempo,6,,


## Explorar el dataset

In [None]:
df

Unnamed: 0,fecha_reporte_web,id_de_caso,fecha_de_notificaci_n,departamento,departamento_nom,ciudad_municipio,ciudad_municipio_nom,edad,unidad_medida,sexo,fuente_tipo_contagio,ubicacion,estado,recuperado,fecha_inicio_sintomas,fecha_diagnostico,fecha_recuperado,tipo_recuperacion,per_etn_,fecha_muerte,nom_grupo_
0,2020-12-24 00:00:00,1556979,2020-12-22 00:00:00,76,VALLE,76001,CALI,67,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-21 00:00:00,2020-12-23 00:00:00,2021-01-04 00:00:00,Tiempo,6,,
1,2020-12-24 00:00:00,1556980,2020-12-19 00:00:00,76,VALLE,76001,CALI,66,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-07 00:00:00,2020-12-23 00:00:00,2020-12-25 00:00:00,Tiempo,6,,
2,2020-12-24 00:00:00,1556981,2020-12-19 00:00:00,76,VALLE,76001,CALI,68,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-18 00:00:00,2020-12-22 00:00:00,2021-01-01 00:00:00,Tiempo,6,,
3,2020-12-24 00:00:00,1556982,2020-12-22 00:00:00,76,VALLE,76001,CALI,74,1,F,Comunitaria,Fallecido,Fallecido,Fallecido,2020-12-17 00:00:00,2020-12-23 00:00:00,,,6,2020-12-30 00:00:00,
4,2020-12-24 00:00:00,1556983,2020-12-22 00:00:00,76,VALLE,76001,CALI,65,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-21 00:00:00,2020-12-23 00:00:00,2021-01-04 00:00:00,Tiempo,6,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,2020-09-03 00:00:00,640273,2020-08-11 00:00:00,5,ANTIOQUIA,5088,BELLO,37,1,F,Comunitaria,Casa,Leve,Recuperado,2020-08-07 00:00:00,2020-08-22 00:00:00,2020-09-04 00:00:00,Tiempo,6,,
996,2020-09-03 00:00:00,640274,2020-08-13 00:00:00,68,SANTANDER,68081,BARRANCABERMEJA,12,1,F,Comunitaria,Casa,Leve,Recuperado,2020-08-08 00:00:00,2020-08-24 00:00:00,2020-09-04 00:00:00,Tiempo,6,,
997,2020-09-03 00:00:00,640275,2020-08-13 00:00:00,68,SANTANDER,68081,BARRANCABERMEJA,11,1,M,Comunitaria,Casa,Leve,Recuperado,2020-08-08 00:00:00,2020-08-24 00:00:00,2020-09-04 00:00:00,Tiempo,6,,
998,2020-09-03 00:00:00,640276,2020-08-13 00:00:00,68,SANTANDER,68081,BARRANCABERMEJA,6,1,F,Comunitaria,Casa,Leve,Recuperado,2020-08-08 00:00:00,2020-08-24 00:00:00,2020-09-04 00:00:00,Tiempo,6,,


In [None]:
df.head()

Unnamed: 0,fecha_reporte_web,id_de_caso,fecha_de_notificaci_n,departamento,departamento_nom,ciudad_municipio,ciudad_municipio_nom,edad,unidad_medida,sexo,fuente_tipo_contagio,ubicacion,estado,recuperado,fecha_inicio_sintomas,fecha_diagnostico,fecha_recuperado,tipo_recuperacion,per_etn_,fecha_muerte,nom_grupo_
0,2020-12-24 00:00:00,1556979,2020-12-22 00:00:00,76,VALLE,76001,CALI,67,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-21 00:00:00,2020-12-23 00:00:00,2021-01-04 00:00:00,Tiempo,6,,
1,2020-12-24 00:00:00,1556980,2020-12-19 00:00:00,76,VALLE,76001,CALI,66,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-07 00:00:00,2020-12-23 00:00:00,2020-12-25 00:00:00,Tiempo,6,,
2,2020-12-24 00:00:00,1556981,2020-12-19 00:00:00,76,VALLE,76001,CALI,68,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-18 00:00:00,2020-12-22 00:00:00,2021-01-01 00:00:00,Tiempo,6,,
3,2020-12-24 00:00:00,1556982,2020-12-22 00:00:00,76,VALLE,76001,CALI,74,1,F,Comunitaria,Fallecido,Fallecido,Fallecido,2020-12-17 00:00:00,2020-12-23 00:00:00,,,6,2020-12-30 00:00:00,
4,2020-12-24 00:00:00,1556983,2020-12-22 00:00:00,76,VALLE,76001,CALI,65,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-21 00:00:00,2020-12-23 00:00:00,2021-01-04 00:00:00,Tiempo,6,,


In [None]:
df.head(2)

Unnamed: 0,fecha_reporte_web,id_de_caso,fecha_de_notificaci_n,departamento,departamento_nom,ciudad_municipio,ciudad_municipio_nom,edad,unidad_medida,sexo,fuente_tipo_contagio,ubicacion,estado,recuperado,fecha_inicio_sintomas,fecha_diagnostico,fecha_recuperado,tipo_recuperacion,per_etn_,fecha_muerte,nom_grupo_
0,2020-12-24 00:00:00,1556979,2020-12-22 00:00:00,76,VALLE,76001,CALI,67,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-21 00:00:00,2020-12-23 00:00:00,2021-01-04 00:00:00,Tiempo,6,,
1,2020-12-24 00:00:00,1556980,2020-12-19 00:00:00,76,VALLE,76001,CALI,66,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-07 00:00:00,2020-12-23 00:00:00,2020-12-25 00:00:00,Tiempo,6,,


In [None]:
df.head(10)

Unnamed: 0,fecha_reporte_web,id_de_caso,fecha_de_notificaci_n,departamento,departamento_nom,ciudad_municipio,ciudad_municipio_nom,edad,unidad_medida,sexo,fuente_tipo_contagio,ubicacion,estado,recuperado,fecha_inicio_sintomas,fecha_diagnostico,fecha_recuperado,tipo_recuperacion,per_etn_,fecha_muerte,nom_grupo_
0,2020-12-24 00:00:00,1556979,2020-12-22 00:00:00,76,VALLE,76001,CALI,67,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-21 00:00:00,2020-12-23 00:00:00,2021-01-04 00:00:00,Tiempo,6,,
1,2020-12-24 00:00:00,1556980,2020-12-19 00:00:00,76,VALLE,76001,CALI,66,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-07 00:00:00,2020-12-23 00:00:00,2020-12-25 00:00:00,Tiempo,6,,
2,2020-12-24 00:00:00,1556981,2020-12-19 00:00:00,76,VALLE,76001,CALI,68,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-18 00:00:00,2020-12-22 00:00:00,2021-01-01 00:00:00,Tiempo,6,,
3,2020-12-24 00:00:00,1556982,2020-12-22 00:00:00,76,VALLE,76001,CALI,74,1,F,Comunitaria,Fallecido,Fallecido,Fallecido,2020-12-17 00:00:00,2020-12-23 00:00:00,,,6,2020-12-30 00:00:00,
4,2020-12-24 00:00:00,1556983,2020-12-22 00:00:00,76,VALLE,76001,CALI,65,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-21 00:00:00,2020-12-23 00:00:00,2021-01-04 00:00:00,Tiempo,6,,
5,2020-12-24 00:00:00,1556984,2020-12-15 00:00:00,76,VALLE,76001,CALI,66,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-09 00:00:00,2020-12-23 00:00:00,2020-12-25 00:00:00,Tiempo,6,,
6,2020-12-24 00:00:00,1556985,2020-12-21 00:00:00,76,VALLE,76001,CALI,74,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-14 00:00:00,2020-12-22 00:00:00,2020-12-28 00:00:00,Tiempo,6,,
7,2020-12-24 00:00:00,1556986,2020-12-18 00:00:00,76,VALLE,76001,CALI,66,1,F,Comunitaria,Fallecido,Fallecido,Fallecido,2020-12-11 00:00:00,2020-12-22 00:00:00,,,6,2020-12-26 00:00:00,
8,2020-12-24 00:00:00,1556987,2020-12-18 00:00:00,76,VALLE,76001,CALI,64,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-15 00:00:00,2020-12-23 00:00:00,2020-12-30 00:00:00,Tiempo,6,,
9,2020-12-24 00:00:00,1556988,2020-12-17 00:00:00,76,VALLE,76001,CALI,65,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-08 00:00:00,2020-12-22 00:00:00,2020-12-25 00:00:00,Tiempo,6,,


In [None]:
df.tail(2)

Unnamed: 0,fecha_reporte_web,id_de_caso,fecha_de_notificaci_n,departamento,departamento_nom,ciudad_municipio,ciudad_municipio_nom,edad,unidad_medida,sexo,fuente_tipo_contagio,ubicacion,estado,recuperado,fecha_inicio_sintomas,fecha_diagnostico,fecha_recuperado,tipo_recuperacion,per_etn_,fecha_muerte,nom_grupo_
998,2020-09-03 00:00:00,640276,2020-08-13 00:00:00,68,SANTANDER,68081,BARRANCABERMEJA,6,1,F,Comunitaria,Casa,Leve,Recuperado,2020-08-08 00:00:00,2020-08-24 00:00:00,2020-09-04 00:00:00,Tiempo,6,,
999,2020-09-03 00:00:00,640277,2020-08-14 00:00:00,5,ANTIOQUIA,5088,BELLO,31,1,M,Comunitaria,Casa,Leve,Recuperado,2020-08-10 00:00:00,2020-08-25 00:00:00,2020-09-04 00:00:00,Tiempo,6,,


In [None]:
df.sample()

Unnamed: 0,fecha_reporte_web,id_de_caso,fecha_de_notificaci_n,departamento,departamento_nom,ciudad_municipio,ciudad_municipio_nom,edad,unidad_medida,sexo,fuente_tipo_contagio,ubicacion,estado,recuperado,fecha_inicio_sintomas,fecha_diagnostico,fecha_recuperado,tipo_recuperacion,per_etn_,fecha_muerte,nom_grupo_
971,2020-09-03 00:00:00,640249,2020-08-14 00:00:00,68,SANTANDER,68081,BARRANCABERMEJA,71,1,F,Relacionado,Casa,Leve,Recuperado,2020-08-09 00:00:00,2020-08-25 00:00:00,2020-09-04 00:00:00,Tiempo,6,,


In [None]:
df.sample(3)

Unnamed: 0,fecha_reporte_web,id_de_caso,fecha_de_notificaci_n,departamento,departamento_nom,ciudad_municipio,ciudad_municipio_nom,edad,unidad_medida,sexo,fuente_tipo_contagio,ubicacion,estado,recuperado,fecha_inicio_sintomas,fecha_diagnostico,fecha_recuperado,tipo_recuperacion,per_etn_,fecha_muerte,nom_grupo_
316,2020-05-23 00:00:00,20154,2020-05-15 00:00:00,13001,CARTAGENA,13001,CARTAGENA,37,1,M,Relacionado,Casa,Leve,Recuperado,2020-05-15 00:00:00,2020-05-23 00:00:00,2020-06-18 00:00:00,Tiempo,6,,
0,2020-12-24 00:00:00,1556979,2020-12-22 00:00:00,76,VALLE,76001,CALI,67,1,F,Comunitaria,Casa,Leve,Recuperado,2020-12-21 00:00:00,2020-12-23 00:00:00,2021-01-04 00:00:00,Tiempo,6,,
354,2020-07-09 00:00:00,132981,2020-06-28 00:00:00,11,BOGOTA,11001,BOGOTA,40,1,F,Comunitaria,Casa,Leve,Recuperado,2020-06-26 00:00:00,2020-07-09 00:00:00,2020-07-26 00:00:00,Tiempo,6,,


In [None]:
# Para ver todas las filas, pero seleccionar ciertas columnas
# Opción 1
df.loc[:,['departamento_nom','edad','fecha_inicio_sintomas']]

Unnamed: 0,departamento_nom,edad,fecha_inicio_sintomas
0,VALLE,67,2020-12-21 00:00:00
1,VALLE,66,2020-12-07 00:00:00
2,VALLE,68,2020-12-18 00:00:00
3,VALLE,74,2020-12-17 00:00:00
4,VALLE,65,2020-12-21 00:00:00
...,...,...,...
995,ANTIOQUIA,37,2020-08-07 00:00:00
996,SANTANDER,12,2020-08-08 00:00:00
997,SANTANDER,11,2020-08-08 00:00:00
998,SANTANDER,6,2020-08-08 00:00:00


In [None]:
df.loc[500:504,['departamento_nom','edad','fecha_inicio_sintomas']]

Unnamed: 0,departamento_nom,edad,fecha_inicio_sintomas
500,BARRANQUILLA,25,2020-06-27 00:00:00
501,BARRANQUILLA,65,2020-06-27 00:00:00
502,BARRANQUILLA,77,2020-06-26 00:00:00
503,BARRANQUILLA,43,2020-06-26 00:00:00
504,STA MARTA D.E.,39,2020-06-25 00:00:00


In [None]:
# Opción 2: solo seleccionar las columnas que quiero ver
df[['departamento_nom','edad','fecha_inicio_sintomas']]

Unnamed: 0,departamento_nom,edad,fecha_inicio_sintomas
0,VALLE,67,2020-12-21 00:00:00
1,VALLE,66,2020-12-07 00:00:00
2,VALLE,68,2020-12-18 00:00:00
3,VALLE,74,2020-12-17 00:00:00
4,VALLE,65,2020-12-21 00:00:00
...,...,...,...
995,ANTIOQUIA,37,2020-08-07 00:00:00
996,SANTANDER,12,2020-08-08 00:00:00
997,SANTANDER,11,2020-08-08 00:00:00
998,SANTANDER,6,2020-08-08 00:00:00


In [None]:
# Puedo crear un nuevo dataframe con las columnas que necesito solamente
df2 = df[['departamento_nom','edad','fecha_inicio_sintomas']].copy()
df2

Unnamed: 0,departamento_nom,edad,fecha_inicio_sintomas
0,VALLE,67,2020-12-21 00:00:00
1,VALLE,66,2020-12-07 00:00:00
2,VALLE,68,2020-12-18 00:00:00
3,VALLE,74,2020-12-17 00:00:00
4,VALLE,65,2020-12-21 00:00:00
...,...,...,...
995,ANTIOQUIA,37,2020-08-07 00:00:00
996,SANTANDER,12,2020-08-08 00:00:00
997,SANTANDER,11,2020-08-08 00:00:00
998,SANTANDER,6,2020-08-08 00:00:00


In [None]:
# Ver el nombre de todas las columnas
df.columns

Index(['fecha_reporte_web', 'id_de_caso', 'fecha_de_notificaci_n',
       'departamento', 'departamento_nom', 'ciudad_municipio',
       'ciudad_municipio_nom', 'edad', 'unidad_medida', 'sexo',
       'fuente_tipo_contagio', 'ubicacion', 'estado', 'recuperado',
       'fecha_inicio_sintomas', 'fecha_diagnostico', 'fecha_recuperado',
       'tipo_recuperacion', 'per_etn_', 'fecha_muerte', 'nom_grupo_'],
      dtype='object')

In [None]:
df2.columns

Index(['departamento_nom', 'edad', 'fecha_inicio_sintomas'], dtype='object')

In [None]:
# Ver los tipos de datos de cada columna
df2.dtypes

Unnamed: 0,0
departamento_nom,object
edad,object
fecha_inicio_sintomas,object


In [None]:
# Ver la cantidad de filas del df
len(df2)

1000

In [None]:
# Ver la cantidad de filas y columnas del df
df2.shape

(1000, 3)

In [None]:
# Ver la cantidad de filas y columnas, el nombre todas las columnas, el tipo de datos y si tiene nulos
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   departamento_nom       1000 non-null   object
 1   edad                   1000 non-null   object
 2   fecha_inicio_sintomas  985 non-null    object
dtypes: object(3)
memory usage: 23.6+ KB
