# Cuaderno de ingesta de datos

En este bloque traeremos la informacipon desde datos abiertos.

In [0]:
# Celda 1: Leer datos desde las APIs
url_secop = "/Volumes/main/diplomado_datos/manual/df_secop.csv"
url_men = "/Volumes/main/diplomado_datos/manual/df_men.csv"

# Usamos spark.read para ingerir los datos.
# option("header", "true") indica que la primera fila contiene los nombres de las columnas.
# option("inferSchema", "true") le pide a Spark que adivine el tipo de cada columna.
df_secop = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load(url_secop)
df_men = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load(url_men)

# Instead of display(df_secop)
print("Datos del SECOP cargados:")
df_secop.show()

# Instead of display(df_men)
print("Datos del MEN cargados:")
df_men.show()    

In [0]:
# Celda 2: Guardar los DataFrames como tablas Delta
# La función .saveAsTable() guarda los datos y registra la tabla en el Unity Catalog.
# El modo "overwrite" reemplaza la tabla si ya existe, ideal para actualizaciones.
df_secop.write.format("delta").mode("overwrite").saveAsTable("main.diplomado_datos.secop")
df_men.write.format("delta").mode("overwrite").saveAsTable("main.diplomado_datos.men_estadisticas")

print("¡Tablas guardadas exitosamente en el catálogo 'main', esquema 'diplomado_datos'!")

In [0]:

for i in range(10):
  ### 1. Revisar si hay datos en la nube que no esten en mi dataset
  
  ## DF_revisar = DF_total.filter(~DF_total["id"].isin(DF_nube["id"]))
  ## DF_nube = DF_nube.union(DF_revisar)


In [0]:
# Paso 1: Descargar los datos con requests y leerlos en pandas
import requests
import pandas as pd
from io import StringIO
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

url_secop = "https://www.datos.gov.co/resource/rpmr-utcd.csv"
url_men = "https://www.datos.gov.co/resource/nudc-7mev.csv"

# Descargar contenido
response_secop = requests.get(url_secop)
response_men = requests.get(url_men)

# Convertir contenido a pandas usando StringIO
df_secop_pd = pd.read_csv(StringIO(response_secop.text))
df_men_pd = pd.read_csv(StringIO(response_men.text))

# Convertir pandas a Spark
df_secop = spark.createDataFrame(df_secop_pd)
df_men = spark.createDataFrame(df_men_pd)

# Mostrar en Databricks
display(df_secop)
display(df_men)
 

In [0]:
token = dbutils.widgets.get("token_app")
print(token)