# Pipeline de generación de clusters usando redflags de Compras
El presente notebook permite descargar datos desde la base de datos de Aquiles, y posteriormente cargados en MySQL desde donde se obtienen los clusters y con los cuales se generarán las predicciones

## ETAPA: Evaluación

In [2]:
import pandas as pd
anio_inf = 2021
anio_sup = 2023
df_keys = pd.read_csv('secret.csv') 

### Redflag: Long decision period
Unreasonable delays in evaluating bids and selecting winner (longer than 90 days)

In [3]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce
import os

user = os.environ['chcprocuser']
passw = os.environ['chcprocpass']
server = os.environ['chcprocserver']
db = os.environ['chcprocdb']

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER='+server+';DATABASE='+db+';UID='+user+';PWD='+passw)

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = f'''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > {anio_inf}
AND YEAR(c.rbdOpeningDate) < {anio_sup}
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública'
AND rbhEnterprise != 6945
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND a.rbhInformation != 1'''

# Descarga de datos de licitaciones con indicador de si los plazos de la decision de licitación es muy larga
sqlPlazoDecLargo = f'''SELECT a.rbhCode,
(CASE 
WHEN (DATEDIFF(DAY, b.rbdTechnicalBidOpening, b.rbdAwardDate)) > 90 
THEN 1 
ELSE 0 END) AS plazoDecisionLargo,
DATEDIFF(DAY, b.rbdTechnicalBidOpening, b.rbdAwardDate) dias
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate b ON a.rbhcode = b.rbdRFBCode 
WHERE YEAR(b.rbdOpeningDate) > {anio_inf}
AND YEAR(b.rbdOpeningDate) < {anio_sup}	
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública'
AND rbhEnterprise != 6945
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND a.rbhInformation != 1'''

licUniverso = pd.read_sql(sqlLic, cnxn)
plazoDecLargo = pd.read_sql(sqlPlazoDecLargo, cnxn)


# Cerramos la conexión
cnxn.close()

# regulariazamos el indicador
plazoDecLargo.loc[plazoDecLargo['dias'].isnull(), 'plazoDecisionLargo'] = np.nan

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/nuevos', echo = False)
plazoDecLargo.to_sql(con=engine, name='plazoDecisionLargo', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(plazoDecLargo)) + " licitaciones, en "+ tFormateado)



Terminado, se procesaron 42060 licitaciones, en 0:00:24.290176


### Redflag: Decision period for submitted bids excessively short
Decision Period for Submitted Bids Excessively Short, Red flag variable triggered if decision period shorter than 8 hours

print(filtroRP['ratioReclamosPago'].quantile(.25))

In [4]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER='+server+';DATABASE='+db+';UID='+user+';PWD='+passw)

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = f'''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > {anio_inf}
AND YEAR(c.rbdOpeningDate) < {anio_sup}
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública'
AND rbhEnterprise != 6945
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND a.rbhInformation != 1'''

# Descarga de datos de licitaciones con indicador de si los plazos de la decision de licitación es muy corto 
sqlPlazoDecCorto = f'''SELECT a.rbhCode,
(CASE 
WHEN (DATEDIFF(HOUR, b.rbdTechnicalBidOpening, b.rbdAwardDate)) <= 10 
THEN 1 
ELSE 0 END) AS plazoDecisionCorto,
DATEDIFF(DAY, b.rbdTechnicalBidOpening, b.rbdAwardDate) dias
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate b ON a.rbhcode = b.rbdRFBCode 
WHERE YEAR(b.rbdOpeningDate) > {anio_inf}
AND YEAR(b.rbdOpeningDate) < {anio_sup}
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública'
AND rbhEnterprise != 6945
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND a.rbhInformation != 1'''

licUniverso = pd.read_sql(sqlLic, cnxn)
plazoDecCorto = pd.read_sql(sqlPlazoDecCorto, cnxn)


# Cerramos la conexión
cnxn.close()

# regulariazamos el indicador
#plazoDecCorto.loc[plazoDecCorto['plazoDecisionCorto'].isnull(), 'plazoDecisionCorto'] = 0
plazoDecCorto.loc[plazoDecCorto['dias'].isnull(), 'plazoDecisionCorto'] = np.nan

# eliminamos los campos que no se utilizarán.
plazoDecCorto = plazoDecCorto.drop(['dias'], axis=1)

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/nuevos', echo = False)
plazoDecCorto.to_sql(con=engine, name='plazoDecisionCorto', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(plazoDecCorto)) + " licitaciones, en "+ tFormateado)



Terminado, se procesaron 42060 licitaciones, en 0:00:20.179186


### Redflag: Supplier has abnormal address or phone number
Supplier has abnormal address or phone number

In [5]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER='+server+';DATABASE='+db+';UID='+user+';PWD='+passw)

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = f'''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > {anio_inf}
AND YEAR(c.rbdOpeningDate) < {anio_sup}
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública'
AND rbhEnterprise != 6945
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND a.rbhInformation != 1'''

# Descarga de datos de licitaciones con indicador de si la dirección o el teléfono del proveedor de la licitación es extraña o inexistente
sqlDirAnormal = f'''SELECT a.rbhCode, 
CASE
WHEN (sum(CASE WHEN c.eadAddress IS NULL THEN 1 WHEN LEN(c.eadAddress) < 5 THEN 1 WHEN c.eadPhone IS NULL THEN 1 WHEN LEN(c.eadPhone) < 7 THEN 1 ELSE 0 END)) > 0 THEN 1 ELSE 0 END AS direccionAnormal,
count(porID) tieneoc
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcPOHeader b ON a.rbhCode = b.porSourceDocumentNumber
LEFT JOIN DCCPPlatform.dbo.gblEnterpriseAddress c ON b.porSellerEnterprise = c.eadEnterprise
LEFT JOIN DCCPProcurement.dbo.prcRFBDate d on a.rbhCode = d.rbdRFBCode
WHERE YEAR(d.rbdOpeningDate) > {anio_inf}
AND YEAR(d.rbdOpeningDate) < {anio_sup}
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública'
AND rbhEnterprise != 6945
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND a.rbhInformation != 1
GROUP BY a.rbhCode'''

licUniverso = pd.read_sql(sqlLic, cnxn)
dirAnormal = pd.read_sql(sqlDirAnormal, cnxn)


# Cerramos la conexión
cnxn.close()

# regulariazamos el indicador
dirAnormal.loc[dirAnormal['tieneoc'] == 0, 'direccionAnormal'] = np.nan

# eliminamos los campos que no se utilizarán.
dirAnormal = dirAnormal.drop(['tieneoc'], axis=1)

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/nuevos', echo = False)
dirAnormal.to_sql(con=engine, name='direccionAnormal', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(dirAnormal)) + " licitaciones, en "+ tFormateado)



Terminado, se procesaron 42060 licitaciones, en 0:00:37.030300


### Redflag: Tiempo entre cierre y adjudicación estimado acotado
La cantidad de días entre el cierre y adjudicación es acotado en función del tipo de licitación.

In [6]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER='+server+';DATABASE='+db+';UID='+user+';PWD='+passw)

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = f'''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > {anio_inf}
AND YEAR(c.rbdOpeningDate) < {anio_sup}
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública'
AND rbhEnterprise != 6945
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND a.rbhInformation != 1'''

# Descarga de datos de tiempo promedio de evaluación de ofertas por tip de licitación 
sqlTiempoPromEvaluacionxTipo = f'''SELECT rbhProcessSubType, AVG(DATEDIFF(DAY, b.rbdTechnicalBidReception, b.rbdAwardDate)) AS PlazoPromedio
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate b ON a.rbhCode = b.rbdRFBCode
WHERE rbhProcessSubType IN (1, 2, 3, 23, 24, 25,  30)
AND YEAR(b.rbdOpeningDate) > {anio_inf}
and YEAR(b.rbdOpeningDate) < {anio_sup}
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhInformation != 1
GROUP BY rbhProcessSubType'''

sqlTiempoEvaluacion = f'''SELECT rbhCode, rbhProcessSubType, DATEDIFF(DAY, b.rbdTechnicalBidReception, b.rbdAwardDate) AS PlazoDecision
FROM DCCPProcurement.dbo.prcRFBHeader a LEFT JOIN DCCPProcurement.dbo.prcRFBDate b
ON a.rbhCode = b.rbdRFBCode
WHERE YEAR(b.rbdOpeningDate) > {anio_inf}
and YEAR(b.rbdOpeningDate) < {anio_sup}
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública'
AND rbhEnterprise != 6945
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND a.rbhInformation != 1'''

licUniverso = pd.read_sql(sqlLic, cnxn)
tiempoPromEvaluacionxTipo = pd.read_sql(sqlTiempoPromEvaluacionxTipo, cnxn)
tiempoEvaluacion = pd.read_sql(sqlTiempoEvaluacion, cnxn)


# Cerramos la conexión
cnxn.close()

# Unimos las consulta 2 y 3 para asociar los plazos promedio con los plazos de cada licitación
indTiempoEvaluacion = tiempoEvaluacion.merge(tiempoPromEvaluacionxTipo, how = 'left', left_on = 'rbhProcessSubType', right_on = 'rbhProcessSubType')

# calculamos cuanto representa porcentualmente el valor respecto del promedio
indTiempoEvaluacion['porcPromedio'] = indTiempoEvaluacion['PlazoDecision'] / indTiempoEvaluacion['PlazoPromedio']

# Calculamos el indicador
indTiempoEvaluacion['plazoDecisionSobrePromedio'] = 0
indTiempoEvaluacion.loc[indTiempoEvaluacion['porcPromedio'] <= 0.5 , 'plazoDecisionSobrePromedio'] = 1
indTiempoEvaluacion.loc[indTiempoEvaluacion['PlazoDecision'].isnull() , 'plazoDecisionSobrePromedio'] = np.nan

# eliminamos los campos que no se utilizarán.
indTEval = indTiempoEvaluacion.drop(['rbhProcessSubType'], axis=1)

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/nuevos', echo = False)
indTEval.to_sql(con=engine, name='plazoDecisionSobrePromedio', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(indTEval)) + " licitaciones, en "+ tFormateado)



Terminado, se procesaron 42060 licitaciones, en 0:00:25.990230


### Redflag: Ofertas similares
Existen ofertas que tienen los mismos precios

In [7]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER='+server+';DATABASE='+db+';UID='+user+';PWD='+passw)

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = f'''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > {anio_inf}
AND YEAR(c.rbdOpeningDate) < {anio_sup}
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública'
AND rbhEnterprise != 6945
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND a.rbhInformation != 1'''

# Descarga de datos de tiempo promedio de evaluación de ofertas por tip de licitación 
sqlOfertasSim = f'''SELECT a.rbhCode, COUNT(b.bidID) AS TotalOfertas, COUNT(DISTINCT c.bitUnitNetPrice) AS PreciosDistintos
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcBIDQuote b ON a.rbhCode = b.bidRFBCode
LEFT JOIN DCCPProcurement.dbo.prcBIDItem c ON b.bidID = c.bitBID
LEFT JOIN DCCPProcurement.dbo.prcRFBDate d ON a.rbhCode = d.rbdRFBCode
WHERE YEAR(d.rbdOpeningDate) > {anio_inf}
and YEAR(d.rbdOpeningDate) < {anio_sup}
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública'
AND rbhEnterprise != 6945
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
and c.bitUnitNetPrice > 1
AND c.bitCurrency IS NOT NULL 
AND b.bidIsAwarded IS NOT NULL
AND a.rbhInformation != 1
AND b.bidDocumentStatus NOT IN (2, 6) --Excluye ofertas Guardadas y Temporales
GROUP BY a.rbhCode'''

licUniverso = pd.read_sql(sqlLic, cnxn)
ofertasSimilares = pd.read_sql(sqlOfertasSim, cnxn)


# Cerramos la conexión
cnxn.close()


# Calculamos el indicador
ofertasSimilares['ofertasSimilares'] = 0
ofertasSimilares.loc[ofertasSimilares['PreciosDistintos'] < ofertasSimilares['TotalOfertas'], 'ofertasSimilares'] = 1

# Eliminamos los campos que no se utilizarán.
ofertasSim = ofertasSimilares.copy()

#cruzamos con el total
ofertasSim = licUniverso.merge(ofertasSim, how = 'left')
#ofertasSim.loc[ofertasSim['ofertasSimilares'].isnull() , 'ofertasSimilares'] = 0

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/nuevos', echo = False)
ofertasSim.to_sql(con=engine, name='ofertasSimilares', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(ofertasSim)) + " licitaciones, en "+ tFormateado)



Terminado, se procesaron 42060 licitaciones, en 0:00:57.750358
