In [9]:
import pandas as pd
import numpy as np
import json
import matplotlib.pyplot as plt
from sodapy import Socrata
import datetime

from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
import pyspark.sql.functions as F
from pyspark.sql.functions import col, when, lit, udf
from secop.pipelines.data_engineering.utilities import (
    schema_secop_2,
    schema_secop_int,
    _get_nits_to_extract,
    _remove_tildes,
    _clean_modalidad_contratacion,
    _clean_modalidad_contratacion_2,
    _clean_tipo_contrato,
    _to_int,
)

In [2]:
from secop.pipelines.data_engineering.utilities import _remove_tildes

In [3]:
%load_ext nb_black
%matplotlib inline

In [4]:
secop_2 = catalog.load("secop_2@pandas")

In [5]:
secop_2.columns

In [6]:
COLS_TILDES_LOWER = [
    "entidad",
    "departamento_entidad",
    "ciudad_entidad",
    "ordenentidad",
    "fase",
    "modalidad_de_contratacion",
    "unidad_de_duracion",
    "estado_del_procedimiento",
    "departamento_proveedor",
    "ciudad_proveedor",
    "nombre_del_adjudicador",
    "nombre_del_proveedor",
]
secop_2[COLS_TILDES_LOWER] = (
    secop_2[COLS_TILDES_LOWER].applymap(lambda x: _remove_tildes(x.lower())).values
)
secop_2 = secop_2[
    secop_2["modalidad_de_contratacion"] != "solicitud de informacion a los proveedores"
].copy()
secop_2 = secop_2[secop_2["estado_del_procedimiento"] == "adjudicado"].copy()
secop_2["nit_entidad"] = (
    secop_2["nit_entidad"]
    .astype(int)
    .apply(lambda x: int(np.floor(x / 10)) if x >= 1000000000 else x)
)
secop_2["modalidad_de_contratacion"] = secop_2["modalidad_de_contratacion"].apply(
    _clean_modalidad_contratacion_2
)
for c in [
    "proveedores_invitados",
    "proveedores_con_invitacion",
    "respuestas_al_procedimiento",
    "respuestas_externas",
    "conteo_de_respuestas_a_ofertas",
    "proveedores_unicos_con",
    "duracion",
    "valor_total_adjudicacion",
    "precio_base",
]:
    secop_2[c] = secop_2[c].astype(int)
map_duracion = {"dias": 1, "meses": 30, "años": 365, "nd": 0}
secop_2["duracion_dias"] = secop_2[["duracion", "unidad_de_duracion"]].apply(
    lambda row: row["duracion"] * map_duracion[row["unidad_de_duracion"]], axis=1
)
# TODO Drop columns not used on request
secop_2.drop(
    [
        "duracion",
        "unidad_de_duracion",
        "adjudicado",
        "tipo_de_contrato",
        "subtipo_de_contrato",
        "visualizaciones_del",
        "proveedores_que_manifestaron",
        "estado_del_procedimiento",
        "fase"
    ],
    axis=1,
    inplace=True,
)
secop_2["nit_del_proveedor_adjudicado"] = (
    secop_2["nit_del_proveedor_adjudicado"].apply(_to_int).astype(str)
)
secop_2["precio_base"] = secop_2["precio_base"].apply(lambda x: max(x, 0))
secop_2["valor_total_adjudicacion"] = secop_2.apply(
    lambda row: row["precio_base"]
    if row["valor_total_adjudicacion"] == 0
    else row["valor_total_adjudicacion"],
    axis=1,
)
secop_2 = secop_2[secop_2["valor_total_adjudicacion"] != 0].copy()
secop_2.drop("precio_base", axis=1, inplace=True)
secop_2.dropna(subset="fecha_de_publicacion_del", inplace=True)
secop_2 = secop_2[
    ~secop_2["nombre_del_procedimiento"].apply(
        lambda x: ("convenio interadministrativo" == x.lower()[:29])
        or (" copia" == x.lower()[-6:])
    )
].copy()

In [40]:
secop_2_ini = catalog.load("secop_2@pandas")

In [41]:
secop_2_ini

Unnamed: 0,entidad,departamento_entidad,ciudad_entidad,ordenentidad,id_del_proceso,referencia_del_proceso,nombre_del_procedimiento,descripci_n_del_procedimiento,fase,precio_base,...,nombre_del_proveedor,nit_del_proveedor_adjudicado,tipo_de_contrato,subtipo_de_contrato,fecha_de_publicacion_del,fecha_de_ultima_publicaci,fecha_de_publicacion_fase_3,fecha_de_recepcion_de,fecha_de_apertura_efectiva,nit_entidad
0,Vortal Operations,Quindío,Armenia,Territorial,CO1.REQ.948804,CMA_MFR_2808_2,CMAMFR2808,CMAMFR2808,No Definido,-1,...,No Adjudicado,No Adjudicado,Consultoría,No Especificado,,,,,,000000001
1,Vortal Operations,Quindío,Armenia,Territorial,CO1.REQ.948433,CMA_MFR_2808,CMAMFR2808,CMAMFR2808,No Definido,-1,...,No Adjudicado,No Adjudicado,Consultoría,No Especificado,,,,,,000000001
2,Vortal Operations,Quindío,Armenia,Territorial,CO1.REQ.1992464,SIP_2604,SIP2604,SIP2604,Estimate Phase,-1,...,No Adjudicado,No Adjudicado,ND,No Especificado,2021-04-26,2021-04-26,2021-04-26,2021-04-30,2021-04-26,000000001
3,Vortal Operations,Quindío,Armenia,Territorial,CO1.REQ.1994804,SIP_2604 Copy,SIP2604 Copy,SIP2604,Estimate Phase,-1,...,No Adjudicado,No Adjudicado,ND,No Especificado,2021-04-27,2021-04-27,2021-04-27,2021-04-30,2021-04-27,000000001
4,SECRETARÍA DISTRITAL DE CULTURA RECREACIÓN Y D...,Distrito Capital de Bogotá,Bogotá,Territorial,CO1.REQ.742030,ESDOP 118 de 2019,Apoyar el proceso de acompañamiento metodológi...,Prestar los servicios profesionales para apoya...,No Definido,66374000,...,No Adjudicado,No Adjudicado,Servicios de aprovisionamiento,No Especificado,,,,,,0899999061
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1861368,PERSONERIA MUNICIPAL DE SANTA ROSALIA VICHADA,Vichada,Santa Rosalía,Territorial,CO1.REQ.2829203,03,ADQUISICIÓN DE SEGURO PÓLIZA MULTIRIESGOS QUE ...,ADQUISICIÓN DE SEGURO PÓLIZA MULTIRIESGOS QUE ...,Presentación de oferta,1200000,...,LA PREVISORA SA COMPAÑÍA DE SEGUROS,860002400,Seguros,No Especificado,2022-02-03,2022-02-03,2022-02-03,2022-02-09,2022-02-09,901552719
1861369,PERSONERIA MUNICIPAL DE SANTA ROSALIA VICHADA,Vichada,Santa Rosalía,Territorial,CO1.REQ.2650955,01,PRESTACIÓN DE SERVICIOS PROFESIONALES PARA LA ...,PRESTACIÓN DE SERVICIOS PROFESIONALES PARA LA ...,Presentación de oferta,10000000,...,No Adjudicado,No Adjudicado,Servicios de aprovisionamiento,No Especificado,2022-01-18,2022-01-18,2022-01-18,,,901552719
1861370,PERSONERIA MUNICIPAL DE SANTA ROSALIA VICHADA,Vichada,Santa Rosalía,Territorial,CO1.REQ.2698653,02,PRESTACIÓN DE SERVICIOS DE APOYO A LA GESTIÓN ...,,Presentación de oferta,4400000,...,No Adjudicado,No Adjudicado,Servicios de aprovisionamiento,No Especificado,2022-01-20,2022-01-20,2022-01-20,,,901552719
1861371,ALUMBRADO PUBLICO DE YUMBO SEM SAS,Valle del Cauca,Yumbo,Territorial,CO1.REQ.3104135,CONCURSO DE MERITOS No. 001 DE 2022,REALIZAR LA INTERVENTORIA A LA PRESTACIÓN DEL ...,REALIZAR LA INTERVENTORIA A LA PRESTACIÓN DEL ...,Presentación de observaciones,84884090,...,No Adjudicado,No Adjudicado,Interventoría,No Especificado,2022-07-11,2022-07-11,,2022-07-27,2022-07-27,901554184


In [None]:
secop_2_ini.where()

In [38]:
int("1.324.556,21")

In [36]:
secop_2.columns

In [26]:
secop_2[secop_2["valor_total_adjudicacion"] == 0][
    [
        "precio_base",
        "valor_total_adjudicacion",
        "nombre_del_procedimiento",
        "modalidad_de_contratacion",
    ]
]

Unnamed: 0,precio_base,valor_total_adjudicacion,nombre_del_procedimiento,modalidad_de_contratacion
20,0,0,PROFESIONAL TÉCNICO DEL AMBITO DIVERSIDAD,contratacion directa
44,0,0,Desarrollo de los procesos y acciones necesari...,contratacion directa
62,0,0,ASOCIACIÓN JUVENIL DE ARTE SOCIAL VIDEOS Y ROLLOS,regimen especial
108,0,0,CONVENIO INTERADMINISTRATIVO,contratacion directa
126,0,0,APOYO PROCESAMIENTO Y ORGANIZACIÓN DE INFORMACIÓN,contratacion directa
...,...,...,...,...
1861107,0,0,PRESTACIÓN DE SERVICIO COMO MEDICO GENERAL,contratacion directa
1861108,0,0,Contratación Directa SERVICIOS TÉCNICOS DE AU...,contratacion directa
1861141,0,0,CD 016 MDNCGFMJEDHUDISANCEMEDSAF2018 PSIQUIATRA,contratacion directa
1861171,0,0,Contratación Directa SERVICIOS DE UN ORTOPEDI...,contratacion directa


In [13]:
secop_2["fase"].value_counts() / len(secop_2)

In [16]:
secop_2["nombre_del_proveedor"].value_counts() / len(secop_2) * 100

In [10]:
secop_2["estado_del_procedimiento"].value_counts()

In [26]:
secop_2["nombre_del_proveedor"].value_counts().head(40)

In [24]:
secop_2[secop_2["nombre_del_proveedor"] == "OMAR HENRY CORTES VELASQUEZ"][
    "valor_total_adjudicacion"
].apply(int).sum()

In [27]:
secop_2[secop_2["nombre_del_proveedor"] == "MARIA ARACELI LEIVA PERILLA"][
    "valor_total_adjudicacion"
].apply(int).sum()

In [9]:
secop_2[
    ["estado_del_procedimiento", "nombre_del_proveedor", "valor_total_adjudicacion"]
]

Unnamed: 0,estado_del_procedimiento,nombre_del_proveedor,valor_total_adjudicacion
0,No Definido,No Adjudicado,0
1,No Definido,No Adjudicado,0
2,No Definido,No Adjudicado,0
3,No Definido,No Adjudicado,0
4,Adjudicado,No Adjudicado,0
...,...,...,...
1861368,Adjudicado,LA PREVISORA SA COMPAÑÍA DE SEGUROS,1195901
1861369,Adjudicado,No Adjudicado,0
1861370,Adjudicado,No Adjudicado,0
1861371,Adjudicado,No Adjudicado,0


In [6]:
secop_2["nit_entidad"] = (
    secop_2["nit_entidad"]
    .astype(int)
    .apply(lambda x: int(np.floor(x / 10)) if x >= 1000000000 else x)
)

In [7]:
cols_tildes_lower = [
    "entidad",
    "departamento_entidad",
    "ciudad_entidad",
    "ordenentidad",
    "fase",
    "modalidad_de_contratacion",
    "unidad_de_duracion",
    "estado_del_procedimiento",
    "adjudicado",
    "departamento_proveedor",
    "ciudad_proveedor",
    "nombre_del_adjudicador",
    "nombre_del_proveedor",
    "tipo_de_contrato",
    "subtipo_de_contrato",
]

In [8]:
secop_2[cols_tildes_lower] = (
    secop_2[cols_tildes_lower].applymap(lambda x: _remove_tildes(x.lower())).values
)

In [9]:
secop_2 = secop_2[
    secop_2["modalidad_de_contratacion"] != "solicitud de informacion a los proveedores"
].copy()

In [10]:
def _clean_modalidad_contratacion_2(mod: str):
    """Clean and group modalidad de contratación for SECOP II"""
    if "concurso" in mod:
        return "concurso meritos"
    elif "licitacion" in mod:
        return "licitacion publica"
    elif "cuantia" in mod:
        return "menor cuantia"
    elif "contratacion directa" in mod:
        return "contratacion directa"
    elif "regimen especial" in mod:
        return "regimen especial"
    elif "subasta" in mod:
        return "subasta"
    else:
        return "otro"

In [11]:
secop_2["modalidad_de_contratacion"] = secop_2["modalidad_de_contratacion"].apply(
    _clean_modalidad_contratacion_2
)

In [12]:
for c in [
    "proveedores_invitados",
    "proveedores_con_invitacion",
    "visualizaciones_del",
    "proveedores_que_manifestaron",
    "respuestas_al_procedimiento",
    "respuestas_externas",
    "conteo_de_respuestas_a_ofertas",
    "proveedores_unicos_con",
    "duracion",
    "valor_total_adjudicacion",
]:
    secop_2[c] = secop_2[c].astype(int)

In [13]:
map_duracion = {"dias": 1, "meses": 30, "años": 365, "nd": 0}
secop_2["duracion_dias"] = secop_2[["duracion", "unidad_de_duracion"]].apply(
    lambda row: row["duracion"] * map_duracion[row["unidad_de_duracion"]], axis=1
)

In [14]:
secop_2.drop(
    [
        "duracion",
        "unidad_de_duracion",
        "adjudicado",
        "tipo_de_contrato",
        "subtipo_de_contrato",
    ],
    axis=1,
    inplace=True,
)

In [15]:
secop_2["nit_del_proveedor_adjudicado"] = (
    secop_2["nit_del_proveedor_adjudicado"]
    .replace("No Adjudicado", 0)
    .replace("No Definido", 0)
)

In [17]:
def asdf(int_in):
    try:
        return int(int_in)
    except:
        return "asdfasdf"

In [18]:
secop_2["nit_del_proveedor_adjudicado_pr"] = secop_2[
    "nit_del_proveedor_adjudicado"
].apply(asdf)

In [22]:
asd = secop_2[secop_2["nit_del_proveedor_adjudicado_pr"] == "asdfasdf"][
    ["nit_del_proveedor_adjudicado", "nit_del_proveedor_adjudicado_pr"]
]

In [24]:
len(secop_2)

In [25]:
asd["nit_del_proveedor_adjudicado"].unique()

In [16]:
secop_2["nit_del_proveedor_adjudicado"].astype(int)

In [21]:
int("830039329")

In [5]:
secop_2.cache()

22/08/11 19:40:13 WARN package: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'.


In [None]:
secop_2_df = secop_2.toPandas()

In [16]:
columnList = [item[0] for item in secop_2.dtypes if item[1].startswith("string")]

In [17]:
columnList

In [15]:
secop_2.schema

In [13]:
secop_2.groupBy("entidad").count().show(20)



+--------------------+-----+
|             entidad|count|
+--------------------+-----+
|FONDO FINANCIERO ...| 8215|
|INSTITUTO NACIONA...|11008|
|ALCALDIA MUNICIPA...|10610|
|GOBIERNO DEPARTAM...| 8304|
|FONDO UNICO DE TE...| 6411|
|Gobernación Norte...| 6349|
|INSTITUTO TECNOLO...| 7473|
|GOBERNACION DE NA...| 5221|
|SIC SUPERINTENDEN...| 7988|
|GOBERNACION DEL H...| 4702|
|FONDO ROTATORIO D...|  571|
|DEFENSORÍA DEL PU...| 5243|
|MUNICIPIO DE SINC...| 5795|
|FONDO ROTATORIO D...|  493|
|FONDANE  DIRECCIO...| 3232|
|FONDO ROTATORIO D...| 2441|
|FONDANE  DIR TER ...|  648|
|DIRECCION DE IMPU...| 2651|
|SUPERINTENDENCIA ...| 3665|
|GOBERNACIÓN DEPAR...| 4164|
+--------------------+-----+
only showing top 20 rows



                                                                                

In [7]:
secop_int = secop_int.withColumn("nivel_entidad", F.lower(col("nivel_entidad")))

In [8]:
secop_int.groupBy("nivel_entidad").count().show()



+-------------+------+
|nivel_entidad| count|
+-------------+------+
|  no definido| 24448|
|     nacional| 31294|
|  territorial|711881|
+-------------+------+



                                                                                

In [9]:
secop_int = secop_int.withColumn(
    "estado_del_proceso", udf(remove_tildes)(F.lower(col("estado_del_proceso")))
)

In [10]:
count_process_state = secop_int.groupBy("estado_del_proceso").count().toPandas()
count_process_state.sort_values("count", ascending=False)

                                                                                

Unnamed: 0,estado_del_proceso,count
15,celebrado,387825
0,liquidado,209632
19,convocado,70435
6,en ejecucion,27603
16,terminado anormalmente despues de convocado,16690
18,terminado sin liquidar,13483
1,modificado,13266
20,adjudicado,9772
10,borrador,4373
5,terminado,3691


In [11]:
secop_int = secop_int.withColumn(
    "modalidad_de_contrataci_n",
    udf(remove_tildes)(F.lower(col("modalidad_de_contrataci_n"))),
)

In [12]:
count_process_type = secop_int.groupBy("modalidad_de_contrataci_n").count().toPandas()
count_process_type["prop"] = (
    count_process_type["count"] / count_process_type["count"].sum()
)

                                                                                

https://www.funcionpublica.gov.co/eva/gerentes/Modulo4/tema-2/1-modalidades.html

In [13]:
def clean_modalidad_contratacion(mod: str):
    """Clean and group modalidad de contratacion"""
    if ("concurso de meritos" in mod) or ("concurso_meritos" in mod):
        return "concurso de meritos abiertos"
    elif "regimen especial" in mod:
        return "regimen especial"
    elif ("minima cuantia" in mod) or ("menor cuantia" in mod):
        return "minima cuantia"
    elif "contratacion directa" in mod:
        return "contratacion directa"
    elif "subasta" in mod:
        return "subasta"
    elif ("licitacion publica" in mod) or ("licitacion obra publica" in mod):
        return "licitacion publica"
    else:
        return "Otro"

In [14]:
count_process_type["modalidad_clean"] = count_process_type[
    "modalidad_de_contrataci_n"
].apply(clean_modalidad_contratacion)
count_process_type

Unnamed: 0,modalidad_de_contrataci_n,count,prop,modalidad_clean
0,invitacion ofertas cooperativas o asociaciones...,37,4.8e-05,Otro
1,licitacion publica,10250,0.013353,licitacion publica
2,seleccion abreviada del literal h del numeral ...,118,0.000154,Otro
3,contratacion minima cuantia,157560,0.205257,minima cuantia
4,contratacion directa,50228,0.065433,contratacion directa
5,seleccion abreviada servicios de salud,203,0.000264,Otro
6,contratacion directa (con ofertas),497,0.000647,contratacion directa
7,minima cuantia,1716,0.002235,minima cuantia
8,contratacion directa menor cuantia,3418,0.004453,minima cuantia
9,subasta,8402,0.010945,subasta


In [15]:
secop_int = secop_int.withColumn(
    "modalidad_de_contrataci_n",
    udf(clean_modalidad_contratacion)(col("modalidad_de_contrataci_n")),
)

In [16]:
count_process_type_clean = (
    secop_int.groupBy("modalidad_de_contrataci_n").count().toPandas()
)
count_process_type_clean["prop"] = (
    count_process_type_clean["count"] / count_process_type_clean["count"].sum()
)
count_process_type_clean.sort_values("prop", ascending=False)

                                                                                

Unnamed: 0,modalidad_de_contrataci_n,count,prop
2,contratacion directa,373953,0.487157
4,minima cuantia,189242,0.24653
6,regimen especial,173875,0.226511
1,licitacion publica,12158,0.015839
5,subasta,8695,0.011327
3,concurso de meritos abiertos,7375,0.009608
0,Otro,2325,0.003029


In [17]:
secop_int = secop_int.withColumn(
    "tipo_de_contrato", udf(remove_tildes)(F.lower(col("tipo_de_contrato")))
)

In [18]:
count_process_type_cont = secop_int.groupBy("tipo_de_contrato").count().toPandas()
count_process_type_cont["prop"] = (
    count_process_type_cont["count"] / count_process_type_cont["count"].sum()
)
count_process_type_cont.sort_values("prop", ascending=False)

                                                                                

Unnamed: 0,tipo_de_contrato,count,prop
3,prestacion de servicios,535714,0.697887
0,suministro,97743,0.127332
13,obra,47713,0.062157
2,compraventa,33059,0.043067
11,otro tipo de contrato,25946,0.0338
15,consultoria,9446,0.012306
18,interventoria,6574,0.008564
8,arrendamiento,5891,0.007674
9,otro,1359,0.00177
17,decreelaw092/2017,1357,0.001768


In [22]:
def clean_tipo_contrato(tip: str):
    """Clean and group tipo de contrato"""
    if ("suministro" in tip) or (tip in ["compraventa", "venta muebles"]):
        return "suministro"
    elif ("arrendamiento" in tip) or ("comodato" in tip):
        return "arrendamiento"
    elif tip in [
        "servicios financieros",
        "credito",
        "fiducia",
        "seguros",
        "emprestito",
    ]:
        return "servicios financieros"
    elif tip in ["obra", "consultoria", "prestacion de servicios",'interventoria','concesion']:
        return tip
    else:
        return "Otro"

In [23]:
count_process_type_cont["tipo_de_contrato_clean"] = count_process_type_cont[
    "tipo_de_contrato"
].apply(clean_tipo_contrato)

In [24]:
count_process_type_cont

Unnamed: 0,tipo_de_contrato,count,prop,tipo_de_contrato_clean
0,suministro,97743,0.127332,suministro
1,servicios financieros,3,4e-06,servicios financieros
2,compraventa,33059,0.043067,suministro
3,prestacion de servicios,535714,0.697887,prestacion de servicios
4,concesion,311,0.000405,Otro
5,arrendamiento de inmuebles,140,0.000182,arrendamiento
6,comodato,752,0.00098,arrendamiento
7,no definido,307,0.0004,Otro
8,arrendamiento,5891,0.007674,arrendamiento
9,otro,1359,0.00177,Otro


In [18]:
count_process_type_cont["tipo_de_contrato"].unique()

In [4]:
import pandas as pd
from sodapy import Socrata
from typing import Dict
import datetime
from pyspark.sql import DataFrame as SparkDataFrame
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from secop.pipelines.data_engineering.utilities import (
    COLS_SEC_2,
    schema_secop_int,
    _get_nits_to_extract,
    _remove_tildes,
    _clean_modalidad_contratacion,
    _clean_tipo_contrato,
)
from pyspark.sql.types import StructType
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
import pyspark.sql.functions as F
from pyspark.sql.functions import col, udf

CODE_INTEGRATED = "rpmr-utcd"
CODE_SECOPII = "p6dx-8zbt"

In [2]:
secop_2_log = catalog.load('secop_2_log_in')

In [3]:
num_nits_to_extract = 3

In [6]:
spark = SparkSession.builder.getOrCreate()
sql_ctx = SQLContext(spark.sparkContext)
# Nit to extract. If all nits have been extracted then the oldest extraction is updated
nits_to_extract = _get_nits_to_extract(secop_2_log, num_nits_to_extract)
# Request
client = Socrata("www.datos.gov.co", None)
lim = 4000
offset = lim
print(f"req - {offset-lim} - {datetime.datetime.now()}")
request = client.get(
    CODE_SECOPII,
    limit=lim,
    select=", ".join(COLS_SEC_2),
    where='nit_entidad in ("' + '","'.join(nits_to_extract) + '")',
)
request_df = pd.DataFrame.from_records(request)
results_df = request_df.copy()

req - 0 - 2022-08-11 17:21:38.991392


In [9]:
'678.678.678'.replace('.','')

In [8]:
results_df.iloc[0]

In [None]:

while len(request_df) > 0:
    print(f"req - {offset} - {datetime.datetime.now()}")
    request = client.get(
        CODE_SECOPII,
        limit=lim,
        offset=offset,
        select=", ".join(COLS_SEC_2),
        where='nit_entidad in ("' + '","'.join(nits_to_extract) + '")',
    )
    request_df = pd.DataFrame.from_records(request)
    results_df = pd.concat([results_df, request_df], ignore_index=True)
    offset += lim
# Fix nulls
results_df.fillna("", inplace=True)
try:
    result_spark = sql_ctx.createDataFrame(results_df)
    for n in nits_to_extract:
        secop_2_log[n]["success"] = 1
except IndexError:
    schema = StructType([])
    result_spark = sql_ctx.createDataFrame([], schema)
    for n in nits_to_extract:
        secop_2_log[n]["success"] = 0
for n in nits_to_extract:
    secop_2_log[n]["req"] = 1
for n in nits_to_extract:
    secop_2_log[n]["date"] = str(datetime.datetime.now())

In [1]:
secop_2_log_in = catalog.load('secop_2_log_in')

In [2]:
len(secop_2_log_in.keys())

<a href="https://www.funcionpublica.gov.co/eva/gestornormativo/norma.php?i=304">Ley 80</a>