### Basic Usage

In [1]:
from ingest.catalog import DatasetCatalog
from ingest.loader import RawDatasetLoader
from ingest.fetch.csv import CsvAdapter
from ingest.fetch.sct import SocrataAdapter
from ingest.fetch.tab import TabAdapter
import pandas as pd

catalog = DatasetCatalog()
ds = catalog.get("empresas_10k")
loader = RawDatasetLoader(CsvAdapter(), SocrataAdapter(), TabAdapter())
records = list(loader.load(ds))
print("Filas cargadas:", len(records))
df = pd.DataFrame(records)
df.head()

Filas cargadas: 5000


Unnamed: 0,nit,raz_n_social,supervisor,regi_n,departamento_domicilio,ciudad_domicilio,ciiu,macrosector,ingresos_operacionales,ganancia_p_rdida,total_activos,total_pasivos,total_patrimonio,a_o_de_corte
0,899999068,ECOPETROL S.A,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,610,MINERO,$144.82,$33.41,$216.85,$125.81,$91.03,2022
1,900112515,REFINERIA DE CARTAGENA S.A.S,SUPERSOCIEDADES,Costa Atlántica,BOLIVAR,CARTAGENA-BOLIVAR,1921,MANUFACTURA,$27.86,$2.19,$42.84,$16.48,$26.36,2022
2,830095213,ORGANIZACIÓN TERPEL S.A.,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,4661,COMERCIO,$23.60,$0.33,$7.48,$4.47,$3.01,2022
3,860069804,CARBONES DEL CERREJON LIMITED,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$16.39,$6.05,$10.45,$9.00,$1.45,2022
4,800021308,DRUMMOND LTD,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$15.27,$2.16,$14.27,$6.34,$7.93,2022


### Detailed Usage

In [2]:
# Adapters -> fuente de datos
from ingest.fetch.csv import CsvAdapter
from ingest.fetch.sct import SocrataAdapter

# Loader -> servicio
from ingest.loader import RawDatasetLoader

# Catalog -> catálogo de datasets
from ingest.catalog import DatasetCatalog

In [3]:
# inyectar adaptadores al loader
loader = RawDatasetLoader(
    csv_adapter=CsvAdapter(), # para CSV locales
    sct_adapter=SocrataAdapter(), # para API Socrata
    tab_adapter=TabAdapter() # para API Tab
)

In [4]:
# El catalogo sabe donde está cada dataset y como leerlo
# No necesitan reescribir url ni rutas
catalog = DatasetCatalog()

all_ds = catalog.list_datasets()
print("Total datasets en catálogo:", len(all_ds))
for dataset in all_ds:
    print("-", dataset.name)
    
# ejemplo: dataset base del reto
ds = catalog.get("empresas_10k")
print("Dataset:", ds)   

Total datasets en catálogo: 4
- empresas_10k
- empresas_10k_csv
- ciuu_4ac
- ciuu_4ac_dane
Dataset: Dataset(name='empresas_10k', source=<SourceType.SOCRATA: 'socrata'>, path_or_url='/resource/6cat-2gcs.json', page_size=5000)


In [5]:
# load() devuelve una lista completa de dicts
records = loader.load(ds)
print("Filas cargadas:", len(records)) # solo se trae el default_page_size (5000) registros
df = pd.DataFrame(records)
df.head()

Filas cargadas: 5000


Unnamed: 0,nit,raz_n_social,supervisor,regi_n,departamento_domicilio,ciudad_domicilio,ciiu,macrosector,ingresos_operacionales,ganancia_p_rdida,total_activos,total_pasivos,total_patrimonio,a_o_de_corte
0,899999068,ECOPETROL S.A,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,610,MINERO,$144.82,$33.41,$216.85,$125.81,$91.03,2022
1,900112515,REFINERIA DE CARTAGENA S.A.S,SUPERSOCIEDADES,Costa Atlántica,BOLIVAR,CARTAGENA-BOLIVAR,1921,MANUFACTURA,$27.86,$2.19,$42.84,$16.48,$26.36,2022
2,830095213,ORGANIZACIÓN TERPEL S.A.,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,4661,COMERCIO,$23.60,$0.33,$7.48,$4.47,$3.01,2022
3,860069804,CARBONES DEL CERREJON LIMITED,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$16.39,$6.05,$10.45,$9.00,$1.45,2022
4,800021308,DRUMMOND LTD,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$15.27,$2.16,$14.27,$6.34,$7.93,2022


In [6]:
# stream() itera por páginas, trae todo el dataset
rows = list(loader.stream(ds))
print("Filas cargadas:", len(rows))
df_stream = pd.DataFrame(rows)
df_stream.head()

Filas cargadas: 40000


Unnamed: 0,nit,raz_n_social,supervisor,regi_n,departamento_domicilio,ciudad_domicilio,ciiu,macrosector,ingresos_operacionales,ganancia_p_rdida,total_activos,total_pasivos,total_patrimonio,a_o_de_corte
0,899999068,ECOPETROL S.A,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,610,MINERO,$144.82,$33.41,$216.85,$125.81,$91.03,2022
1,900112515,REFINERIA DE CARTAGENA S.A.S,SUPERSOCIEDADES,Costa Atlántica,BOLIVAR,CARTAGENA-BOLIVAR,1921,MANUFACTURA,$27.86,$2.19,$42.84,$16.48,$26.36,2022
2,830095213,ORGANIZACIÓN TERPEL S.A.,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,4661,COMERCIO,$23.60,$0.33,$7.48,$4.47,$3.01,2022
3,860069804,CARBONES DEL CERREJON LIMITED,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$16.39,$6.05,$10.45,$9.00,$1.45,2022
4,800021308,DRUMMOND LTD,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$15.27,$2.16,$14.27,$6.34,$7.93,2022


In [7]:
# puedes pasar parámetros adicionales a Socrata (Antes de cargar todo en memoria)
params = {"a_o_de_corte": "2022"}
filtered = loader.load(ds, params=params)
pd.DataFrame(filtered).head()

Unnamed: 0,nit,raz_n_social,supervisor,regi_n,departamento_domicilio,ciudad_domicilio,ciiu,macrosector,ingresos_operacionales,ganancia_p_rdida,total_activos,total_pasivos,total_patrimonio,a_o_de_corte
0,899999068,ECOPETROL S.A,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,610,MINERO,$144.82,$33.41,$216.85,$125.81,$91.03,2022
1,900112515,REFINERIA DE CARTAGENA S.A.S,SUPERSOCIEDADES,Costa Atlántica,BOLIVAR,CARTAGENA-BOLIVAR,1921,MANUFACTURA,$27.86,$2.19,$42.84,$16.48,$26.36,2022
2,830095213,ORGANIZACIÓN TERPEL S.A.,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,4661,COMERCIO,$23.60,$0.33,$7.48,$4.47,$3.01,2022
3,860069804,CARBONES DEL CERREJON LIMITED,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$16.39,$6.05,$10.45,$9.00,$1.45,2022
4,800021308,DRUMMOND LTD,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$15.27,$2.16,$14.27,$6.34,$7.93,2022


In [8]:
ds_csv = catalog.get("empresas_10k_csv") # CSV local
df_csv = pd.DataFrame(loader.load(ds_csv))
df_csv.head()

Unnamed: 0,NIT,RAZÓN SOCIAL,SUPERVISOR,REGIÓN,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES,GANANCIA (PÉRDIDA),TOTAL ACTIVOS,TOTAL PASIVOS,TOTAL PATRIMONIO,Año de Corte
0,899999068,ECOPETROL S.A,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,610,MINERO,$144.82,$33.41,$216.85,$125.81,$91.03,2022
1,900112515,REFINERIA DE CARTAGENA S.A.S,SUPERSOCIEDADES,Costa Atlántica,BOLIVAR,CARTAGENA-BOLIVAR,1921,MANUFACTURA,$27.86,$2.19,$42.84,$16.48,$26.36,2022
2,830095213,ORGANIZACIÓN TERPEL S.A.,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,4661,COMERCIO,$23.60,$0.33,$7.48,$4.47,$3.01,2022
3,860069804,CARBONES DEL CERREJON LIMITED,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$16.39,$6.05,$10.45,$9.00,$1.45,2022
4,800021308,DRUMMOND LTD,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,$15.27,$2.16,$14.27,$6.34,$7.93,2022


In [13]:
ds_ciiu = catalog.get("ciuu_4ac")
df_ciiu = pd.DataFrame(loader.load(ds_ciiu))
df_ciiu.head(10)

Unnamed: 0,Sección,División,Grupo,clase,Descripción,col_6,col_7,col_8,col_9,col_10,col_11
0,De acuerdo con las Resoluciones número 2306 de...,,,,,,,,,,
1,CIIU Rev. 4 A.C. (actualización 2022),,,,,,,,,,
2,A,1.0,11.0,111.0,"Cultivo de cereales (excepto arroz), legumbres...",,,,,,
3,A,1.0,11.0,112.0,Cultivo de arroz,,,,,,
4,A,1.0,11.0,113.0,"Cultivo de hortalizas, raíces y tubérculos",,,,,,
5,A,1.0,11.0,114.0,Cultivo de tabaco,,,,,,
6,A,1.0,11.0,115.0,Cultivo de plantas textiles,,,,,,
7,A,1.0,11.0,119.0,Otros cultivos transitorios n.c.p.,,,,,,
8,A,1.0,12.0,121.0,Cultivo de frutas tropicales y subtropicales,,,,,,
9,A,1.0,12.0,122.0,Cultivo de plátano y banano,,,,,,


In [14]:
ds_ciiu = catalog.get("ciuu_4ac_dane")
df_ciiu = pd.DataFrame(loader.load(ds_ciiu))
df_ciiu.head(10)

Unnamed: 0,División,Grupo,Clase,Descripción
0,ESTRUCTURA DETALLADA DE LA CLASIFICACIÓN INDUS...,,,
1,,,,
2,SECCIÓN A,,,"AGRICULTURA, GANADERÍA, CAZA, SILVICULTURA Y P..."
3,01,,,"Agricultura, ganadería, caza y actividades de ..."
4,,11.0,,Cultivos agrícolas transitorios
5,,,111.0,"Cultivo de cereales (excepto arroz), legumbres..."
6,,,112.0,Cultivo de arroz
7,,,113.0,"Cultivo de hortalizas, raíces y tubérculos"
8,,,114.0,Cultivo de tabaco
9,,,115.0,Cultivo de plantas textiles
