# Pipeline de generación de clusters usando redflags de Compras
El presente notebook permite descargar datos desde la base de datos de Aquiles, y posteriormente cargados en MySQL desde donde se obtienen los clusters y con los cuales se generarán las predicciones

## ETAPA: Evaluación

### Redflag: Long decision period
Unreasonable delays in evaluating bids and selecting winner (longer than 90 days)

In [13]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# Descarga de datos de licitaciones con indicador de si los plazos de la decision de licitación es muy larga
sqlPlazoDecLargo = '''SELECT a.rbhCode,
(CASE 
WHEN (DATEDIFF(DAY, b.rbdTechnicalBidOpening, b.rbdAwardDate)) > 90 
THEN 1 
ELSE 0 END) AS indPlazoDecisionLargo
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate b ON a.rbhcode = b.rbdRFBCode 
WHERE YEAR(b.rbdOpeningDate) >= 2014
and YEAR(b.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

licUniverso = pd.read_sql(sqlLic, cnxn)
plazoDecLargo = pd.read_sql(sqlPlazoDecLargo, cnxn)


# Cerramos la conexión
cnxn.close()

# regulariazamos el indicador
plazoDecLargo.loc[plazoDecLargo['indPlazoDecisionLargo'].isnull(), 'indPlazoDecisionLargo'] = 0

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
plazoDecLargo.to_sql(con=engine, name='plazoDecLargo', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(plazoDecLargo)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1163108 licitaciones, en 0:00:56.653770


### Redflag: Porcentaje precio
Porcentaje que representa el precio como criterio de evaluación de la licitación.

In [18]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# Descarga de datos de licitaciones con indicador de si el precio es una criterio muy elevado
sqlCriterioPrecioAlto = '''SELECT a.rbhCode, 
CASE 
WHEN b.rbaPercentage > 60 then 1
ELSE 0
END as indPorcPrecio
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBAwardCriteria b ON a.rbhCode = b.rbaRFBCode
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c ON a.rbhcode = c.rbdRFBCode 
WHERE YEAR(c.rbdOpeningDate) >= 2014
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND LOWER(b.rbaName) like '%precio%'
AND a.rbhProcessType = 1'''

licUniverso = pd.read_sql(sqlLic, cnxn)
criterioPrecioAlto = pd.read_sql(sqlCriterioPrecioAlto, cnxn)


# Cerramos la conexión
cnxn.close()

#unimos los dataframes
criterioPrecioAlto = licUniverso.merge(criterioPrecioAlto, how='left')

# regulariazamos el indicador
criterioPrecioAlto.loc[criterioPrecioAlto['indPorcPrecio'].isnull(), 'indPorcPrecio'] = 0

#Eliminamos valores duplicados
criterioPrecioAlto.drop_duplicates()
criterioPrecioAlto = criterioPrecioAlto.groupby(['rbhCode'], as_index = False).sum()

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
criterioPrecioAlto.to_sql(con=engine, name='CriterioPrecioAlto', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(criterioPrecioAlto)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1163108 licitaciones, en 0:01:02.827062


### Redflag: Decision period for submitted bids excessively short
Decision Period for Submitted Bids Excessively Short, Red flag variable triggered if decision period shorter than 8 hours

In [19]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# Descarga de datos de licitaciones con indicador de si los plazos de la decision de licitación es muy corto 
sqlPlazoDecCorto = '''SELECT a.rbhCode,
(CASE 
WHEN (DATEDIFF(HOUR, b.rbdTechnicalBidOpening, b.rbdAwardDate)) <= 8 
THEN 1 
ELSE 0 END) AS indPlazoDecisionCorto
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate b ON a.rbhcode = b.rbdRFBCode 
WHERE YEAR(b.rbdOpeningDate) >= 2014
and YEAR(b.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

licUniverso = pd.read_sql(sqlLic, cnxn)
plazoDecCorto = pd.read_sql(sqlPlazoDecCorto, cnxn)


# Cerramos la conexión
cnxn.close()

# regulariazamos el indicador
plazoDecCorto.loc[plazoDecCorto['indPlazoDecisionCorto'].isnull(), 'indPlazoDecisionCorto'] = 0

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
plazoDecCorto.to_sql(con=engine, name='PlazoDecisionCorto', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(plazoDecCorto)) + " licitaciones, en "+ tFormateado)


Terminado, se procesaron 1163108 licitaciones, en 0:00:57.037393


### Redflag: Supplier has abnormal address or phone number
Supplier has abnormal address or phone number

In [20]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# Descarga de datos de licitaciones con indicador de si la dirección o el teléfono del proveedor de la licitación es extraña o inexistente
sqlDirAnormal = '''SELECT a.rbhCode, 
CASE
WHEN (sum(CASE WHEN c.eadAddress IS NULL THEN 1 WHEN LEN(c.eadAddress) < 5 THEN 1 WHEN c.eadPhone IS NULL THEN 1 WHEN LEN(c.eadPhone) < 7 THEN 1 ELSE 0 END)) > 0 THEN 1 ELSE 0 END AS indDirAnormal
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcPOHeader b ON a.rbhCode = b.porSourceDocumentNumber
LEFT JOIN DCCPPlatform.dbo.gblEnterpriseAddress c ON b.porSellerEnterprise = c.eadEnterprise
LEFT JOIN DCCPProcurement.dbo.prcRFBDate d on a.rbhCode = d.rbdRFBCode
WHERE YEAR(d.rbdOpeningDate) > 2013
and YEAR(d.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
GROUP BY a.rbhCode'''

licUniverso = pd.read_sql(sqlLic, cnxn)
dirAnormal = pd.read_sql(sqlDirAnormal, cnxn)


# Cerramos la conexión
cnxn.close()

# regulariazamos el indicador
dirAnormal.loc[dirAnormal['indDirAnormal'].isnull(), 'indDirAnormal'] = 0

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
dirAnormal.to_sql(con=engine, name='DireccionAnormal', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(dirAnormal)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1163108 licitaciones, en 0:01:07.714478


### Redflag: Tiempo entre cierre y adjudicación estimado acotado
La cantidad de días entre el cierre y adjudicación es acotado en función del tipo de licitación.

In [21]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# Descarga de datos de tiempo promedio de evaluación de ofertas por tip de licitación 
sqlTiempoPromEvaluacionxTipo = '''SELECT rbhProcessSubType, AVG(DATEDIFF(DAY, b.rbdTechnicalBidReception, b.rbdAwardDate)) AS PlazoPromedio
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate b ON a.rbhCode = b.rbdRFBCode
WHERE rbhProcessSubType IN (1, 2, 3, 23, 24, 25,  30)
AND YEAR(b.rbdOpeningDate) > 2013
and YEAR(b.rbdOpeningDate) < 2020
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
GROUP BY rbhProcessSubType'''

sqlTiempoEvaluacion = '''SELECT rbhCode, rbhProcessSubType, DATEDIFF(DAY, b.rbdTechnicalBidReception, b.rbdAwardDate) AS PlazoDecision
FROM DCCPProcurement.dbo.prcRFBHeader a LEFT JOIN DCCPProcurement.dbo.prcRFBDate b
ON a.rbhCode = b.rbdRFBCode
WHERE YEAR(b.rbdOpeningDate) > 2013
and YEAR(b.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

licUniverso = pd.read_sql(sqlLic, cnxn)
tiempoPromEvaluacionxTipo = pd.read_sql(sqlTiempoPromEvaluacionxTipo, cnxn)
tiempoEvaluacion = pd.read_sql(sqlTiempoEvaluacion, cnxn)


# Cerramos la conexión
cnxn.close()

# Unimos las consulta 2 y 3 para asociar los plazos promedio con los plazos de cada licitación
indTiempoEvaluacion = tiempoEvaluacion.merge(tiempoPromEvaluacionxTipo, how = 'left', left_on = 'rbhProcessSubType', right_on = 'rbhProcessSubType')

# calculamos cuanto representa porcentualmente el valor respecto del promedio
indTiempoEvaluacion['porcPromedio'] = indTiempoEvaluacion['PlazoDecision'] / indTiempoEvaluacion['PlazoPromedio']

# Calculamos el indicador
indTiempoEvaluacion['indDesvTEval'] = 0
indTiempoEvaluacion.loc[indTiempoEvaluacion['porcPromedio'] < 0.1 , 'indDesvTEval'] = 1

# eliminamos los campos que no se utilizarán.
indTEval = indTiempoEvaluacion.drop(['rbhProcessSubType', 'PlazoDecision', 'PlazoPromedio', 'porcPromedio'], axis=1)

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
indTEval.to_sql(con=engine, name='TiempoEvaluacion', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(indTEval)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1163108 licitaciones, en 0:01:00.630246


### Redflag: Fuera de plazo mínimo de publicación
La licitación no cumple con un estándar mínimo de días de publicación dado el tipo de licitación.

In [22]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# Descarga de datos de tiempo promedio de evaluación de ofertas por tip de licitación 
sqlOfertasSim = '''SELECT a.rbhCode, COUNT(b.bidID) AS TotalOfertas, COUNT(DISTINCT c.bitUnitNetPrice) AS PreciosDistintos
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcBIDQuote b ON a.rbhCode = b.bidRFBCode
LEFT JOIN DCCPProcurement.dbo.prcBIDItem c ON b.bidID = c.bitBID
LEFT JOIN DCCPProcurement.dbo.prcRFBDate d ON a.rbhCode = d.rbdRFBCode
WHERE YEAR(d.rbdOpeningDate) > 2013
and YEAR(d.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND c.bitCurrency IS NOT NULL 
AND b.bidIsAwarded IS NOT NULL 
GROUP BY a.rbhCode'''

licUniverso = pd.read_sql(sqlLic, cnxn)
ofertasSimilares = pd.read_sql(sqlOfertasSim, cnxn)


# Cerramos la conexión
cnxn.close()


# Calculamos el indicador
ofertasSimilares['indOferSIm'] = 0
ofertasSimilares.loc[ofertasSimilares['PreciosDistintos'] < ofertasSimilares['TotalOfertas'], 'indOferSIm'] = 1

# Eliminamos los campos que no se utilizarán.
ofertasSim = ofertasSimilares.drop(['TotalOfertas', 'PreciosDistintos'], axis=1)

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
ofertasSim.to_sql(con=engine, name='OfertasSimilares', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(ofertasSim)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1039488 licitaciones, en 0:03:05.698569
