# 🛢️**Métodos de importación, extracción y exportación de datos en Python**

Elaborado por: Lina María Castro

Fecha: 4 de septiembre de 2025

En esta clase aprenderás a:

- Importar y extraer datos desde diferentes fuentes:

  - Archivos locales (CSV, Excel, TXT)
  - Archivos en la web (CSV desde URL)
  - APIs

- Explorar el dataset
- Unir varios archivos
- Manejar algunos casos especiales de importación
- Guardar/exportar datos.

Este es el primer paso para todo análisis de datos en economía y ciencias sociales.


## Instalaciones necesarias

No es necesario si:
- Instalaste los programas del archivo requirements.txt
- Corriste el notebook "0_instalacion_librerias.ipynb"
- Estás usando Google Colab

In [None]:
# Para poder leer y abrir archivos de Excel
!pip install xlrd openpyxl

In [None]:
# Para trabajar datos tabulares
!pip install pandas

## Importar librerías

In [None]:
import numpy as np
import pandas as pd

## Mejorar visualización de los dataframes

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

## Importar datos desde archivos locales (CSV, Excel, TXT)

En Google Colab hay dos opciones:
- Subir el archivo al entorno (se borra cuando se desconecta del entorno de ejecución o se cierra el notebook)
- Importar el archivo desde Google Drive

### Subir el archivo al entorno

In [None]:
# Archivo csv
df_ssc = pd.read_csv('Supersociedades_2023.csv', encoding ='utf-8', dtype=str)
df_ssc.head()

In [None]:
df_ssc['ACTIVOS_2023'] = df_ssc['ACTIVOS_2023'].astype('float64')
df_ssc.head()

In [None]:
# Archivo txt
df_mun = pd.read_csv('Base_municipios.txt', sep="|", decimal=',', encoding ='utf-8', converters={'Cod. Municipio':str})
df_mun.head()

In [None]:
# Archivo Excel
df_divipola_depto = pd.read_excel("2025-01-14 DIVIPOLA.xlsx",
                            sheet_name="Departamentos",
                            skiprows=9)
df_divipola_depto.head()


In [None]:
# Archivo Excel
df_divipola_mun = pd.read_excel("2025-01-14 DIVIPOLA.xlsx",
                            sheet_name="Municipios",
                            skiprows=10, dtype=str)
df_divipola_mun.head()

In [None]:
# Renombrar las columnas
df_divipola_mun.rename(columns={'Código':'Cod. Depto',
                                'Nombre': 'Departamento',
                                'Código .1':'Cod. Municipio',
                                'Nombre.1': 'Municipio',
                                'Unnamed: 4': 'Tipo',
                                'Unnamed: 5': 'Area Metropolitana'},
                       inplace=True)
df_divipola_mun.head(6)

### Importar el archivo desde Google Drive

In [None]:
import os

📌 Librería `os` en Python – Comandos más usados

La librería "os" conecta Python con el sistema operativo para manipular archivos, directorios y configuraciones.  

| Comando | Descripción | Ejemplo |
|---------|-------------|---------|
| `os.getcwd()` | Devuelve el directorio de trabajo actual. | `os.getcwd()` |
| `os.listdir(ruta)` | Lista los archivos y carpetas de una ruta. | `os.listdir(".")` |
| `os.chdir(ruta)` | Cambia el directorio de trabajo. | `os.chdir("C:/Users")` |
| `os.mkdir(nombre)` | Crea una nueva carpeta. | `os.mkdir("datos")` |
| `os.makedirs(ruta)` | Crea carpetas anidadas. | `os.makedirs("carpeta1/carpeta2")` |
| `os.remove(archivo)` | Elimina un archivo. | `os.remove("archivo.txt")` |
| `os.rmdir(carpeta)` | Elimina una carpeta vacía. | `os.rmdir("datos")` |
| `os.rename(src, dst)` | Renombra o mueve un archivo/carpeta. | `os.rename("a.txt","b.txt")` |
| `os.path.exists(ruta)` | Verifica si una ruta existe. | `os.path.exists("datos")` |
| `os.path.join(a, b)` | Une rutas de forma segura. | `os.path.join("carpeta", "archivo.csv")` |


⚠️ **Nota:**  
`os.remove` y `os.rmdir` no envían a la papelera, eliminan de forma permanente.  

In [None]:
from google.colab import drive, files
drive.mount('/content/drive')

In [None]:
path = '/content/drive/MyDrive/2025_ii_curso_ia_economia/datasets'

In [None]:
# Para establecer el directorio de los archivos
os.chdir(path)

In [None]:
df_mun_drive = pd.read_csv('Base_municipios_drive.txt', sep="|", decimal=',', encoding ='utf-8', converters={'Cod. Municipio':str})
df_mun_drive.head()

## Importar datos desde una URL

In [None]:
# CSV desde URL
url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
df_url = pd.read_csv(url)
df_url.head()

## Conectarse a una API

- API significa Application Programming Interface o Interfaz de Programación de Aplicaciones.

- Es un conjunto de reglas y herramientas que permite que dos aplicaciones se comuniquen entre sí.

- Una aplicación expone sus funcionalidades o datos a través de la API.

- Otra aplicación puede usarlos, sin necesidad de saber cómo funciona internamente.

- Una API es como un puente que permite a diferentes programas hablar entre sí y compartir información de manera segura y estandarizada.

### Conexión a datos del Banco Mundial (usando wbdata)

El Banco Mundial tiene una API que expone datos de desarrollo económico y social. En Python podemos usar la librería **wbdata**.

Documentación: https://wbdata.readthedocs.io/en/stable/

También se puede utilizar: **wbgapi**

Documentación: https://pypi.org/project/wbgapi/

In [None]:
!pip install wbdata

In [None]:
import wbdata
import datetime

Nota: "datetime" permite trabajar con fechas y horas.

- Obtener la fecha y hora actual.
- Crear objetos de fecha (año, mes, día).
- Realizar operaciones con fechas (sumar o restar días, calcular diferencias).
- Dar formato a fechas (por ejemplo, mostrar como "31-08-2025" en lugar de "2025-08-31").

Vamos a traer el PIB per cápita de Colombia entre 2010 y 2023 directamente desde el Banco Mundial.

In [None]:
# Indicador: PIB per cápita (en USD actuales)
indicador = {"NY.GDP.PCAP.CD": "PIB per cápita"}

# País: Colombia (COL)
fecha_inicio = datetime.datetime(2010, 1, 1)
fecha_fin = datetime.datetime(2023, 1, 1)

# Descargar datos
df = wbdata.get_dataframe(indicador, country="COL", date=(fecha_inicio, fecha_fin))

df

### Conexión a datos abiertos de Colombia

https://www.datos.gov.co/

#### Ejemplos

1. MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR, BÁSICA Y MEDIA_POR_DEPARTAMENTO

https://www.datos.gov.co/Educaci-n/MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR-B-SICA/ji8i-4anb/about_data

Ir a Exportar --> API de acceso y copiar el endpoint solamente.

In [None]:
import requests

"requests" es una librería que permite hacer peticiones HTTP (GET, POST, PUT, DELETE) de manera sencilla.

GET → traer datos desde una página o API.

POST → enviar datos a un servidor.

In [None]:
url = "https://www.datos.gov.co/resource/ji8i-4anb.json"

# Solicitud a la API
response = requests.get(url)
data = response.json()

# Convertir a DataFrame
df = pd.DataFrame(data)

df.head()

2. Casos positivos de COVID-19 en Colombia

In [None]:
url = "https://www.datos.gov.co/resource/gt2j-8ykr.json"

# Solicitud a la API
response = requests.get(url)
data = response.json()

# Convertir a DataFrame
df = pd.DataFrame(data)

df.head()

## Explorar el dataset

In [None]:
df

In [None]:
df.head()

In [None]:
df.head(2)

In [None]:
df.head(10)

In [None]:
df.tail()

In [None]:
df.sample()

In [None]:
df.sample(3)

In [None]:
# Para ver todas las filas, pero seleccionar ciertas columnas
# Opción 1
df.loc[:,['departamento_nom','edad','fecha_inicio_sintomas']]

In [None]:
# Opción 2: solo seleccionar las columnas que quiero ver
df[['departamento_nom','edad','fecha_inicio_sintomas']]

In [None]:
# Puedo crear un nuevo dataframe con las columnas que necesito solamente
df2 = df[['departamento_nom','edad','fecha_inicio_sintomas']].copy()

In [None]:
# Ver el nombre de todas las columnas
df.columns

In [None]:
df2.columns

In [None]:
# Ver los tipos de datos de cada columna
df2.dtypes

In [None]:
# Ver la cantidad de filas del df
len(df2)

In [None]:
# Ver la cantidad de filas y columnas del df
df2.shape

In [None]:
# Ver la cantidad de filas y columnas, el nombre todas las columnas, el tipo de datos y si tiene nulos
df2.info()

## Unión de varios archivos

### Merge (fusionar)

Une dos tablas (DataFrames) usando una o más columnas en común (claves o keys).

A la base de Supersociedades, le vamos a agregar una columna de macrorregiones, según el departamento donde se encuentre ubicada la empresa.

In [None]:
df_ssc.head(3)

In [None]:
df_macro_reg = pd.read_excel('2025-05-05 Macrorregiones.xlsx', dtype=str)
df_macro_reg.head()

In [None]:
df_ssc = pd.merge(df_ssc, df_macro_reg[['Código', 'Macrorregión']], how='left', left_on='CODIGO_DEPARTAMENTO', right_on='Código')
df_ssc.head(3)

Borrar la columna "Código"

In [None]:
df_ssc.drop(columns='Código', inplace=True)
df_ssc.head(3)

### Concatenar


Sirve para apilar DataFrames.

No usa claves, sino que los pega uno debajo de otro (vertical) o uno al lado del otro (horizontal).



In [None]:
df_expo_jul = pd.read_excel('expo_bienes_2024/07_Exportaciones_2024_Julio.xlsx')
df_expo_jul.head(3)

In [None]:
df_expo_ago = pd.read_excel('expo_bienes_2024/08_Exportaciones_2024_Agosto.xlsx')
df_expo_ago.head(3)

In [None]:
df_expo_jul.shape

In [None]:
df_expo_ago.shape

In [None]:
# Para concatenar un dataframe debajo del otro
df_expo_2024 = pd.concat([df_expo_jul, df_expo_ago], axis = 0, ignore_index=True)
df_expo_2024.head(3)

In [None]:
df_expo_2024.tail(3)

In [None]:
df_expo_2024.shape

In [None]:
# Para concatenar un dataframe al lado del otro
df_expo_2024_hor = pd.concat([df_expo_jul, df_expo_ago], axis = 1)
df_expo_2024_hor.head(3)

In [None]:
df_expo_2024_hor.shape

In [None]:
df_expo_2024_hor.tail(3)

## Casos especiales

### Llamar todos los archivos dentro de una carpeta y concatenarlos

In [None]:
import glob

La librería glob se usa para buscar y listar archivos en carpetas que cumplen un patrón en su nombre (comodines como *, ?). Es muy útil cuando tienes muchos archivos CSV, Excel, TXT, etc. en una carpeta y quieres procesarlos en un solo paso.

In [None]:
# Buscar todos los archivos Excel en la carpeta
fn = glob.glob('expo_bienes_2024/*.xlsx')

# Lista para guardar DataFrames temporales
lista_dfs = []

for f in fn:
    try:
        temp = pd.read_excel(f)
        lista_dfs.append(temp)

        # Verificar columnas
        if len(temp.columns) > 72:
            print(f, len(temp.columns))

    except Exception as e:
        print(f"Error leyendo {f}: {e}")

# Concatenar todos los DataFrames en uno solo
df_expo = pd.concat(lista_dfs, ignore_index=True)

### Cargar una base muy pesada (varias gigas) por chunks

In [None]:
df_ssc.shape

In [None]:
df_chunk = pd.read_csv('Supersociedades_2023.csv', encoding ='utf-8', chunksize=1000)
chunk_list = []
for chunk in df_chunk:
    chunk_reducido = chunk[['NIT', 'RAZON_SOCIAL', 'DEPARTAMENTO', 'MUNICIPIO',
                            'CIIU', 'DESCRIPCION_CIIU']]

    # Añadir los datos a la lista de objetos
    chunk_list.append(chunk_reducido)

# Concatenar los datos filtrados en un DataFrame
df_ssc_reducido = pd.concat(chunk_list)
df_ssc_reducido.head()

In [None]:
df_ssc_reducido.shape

## Guardar / exportar datos

In [None]:
# Guardar CSV
df_ssc_reducido.to_csv('Supersociedades_2023_reducido.csv', encoding ='utf-8', index = False)

In [None]:
# Guardar txt
df_ssc_reducido.to_csv('Supersociedades_2023_reducido.txt', sep="|", decimal=',', encoding ='utf-8', index= False)

In [None]:
# Guardar Excel
df_ssc_reducido.to_excel("Supersociedades_2023_reducido.xlsx", index=False)

In [None]:
# Guardar más de un dataframe en Excel
with pd.ExcelWriter('Ejemplo.xlsx') as writer:
    df_ssc_reducido.to_excel(writer, sheet_name='SSC', index=False)
    df_url.to_excel(writer, sheet_name='Iris', index=False)

In [None]:
# Guardar un dataframe en un Excel que ya existe como una hoja adicional (mode='a)
# Si la hoja ya existe, la reemplaza
with pd.ExcelWriter('Ejemplo.xlsx', mode='a', engine='openpyxl', if_sheet_exists='replace') as writer:
    df_expo_2024.to_excel(writer, sheet_name='Expo', index = False)