# Pipeline de generación de clusters usando redflags de Compras
El presente notebook permite descargar datos desde la base de datos de Aquiles, y posteriormente cargados en MySQL desde donde se obtienen los clusters y con los cuales se generarán las predicciones

## ETAPA: Elaboración

### Redflag: Requisito de boleta de garantía irrazonable
El porcentaje solicitado en la garantía sobrepasa los límites razonables. Porcentajes muy altos pueden significar una barrera de entrada, así como un bajísimo porcentaje podría indicar lo contrario, asimismo cuando no hay requisitos, también podría ser riesgoso

In [18]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
AND YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# primero la seriedad de oferta
sqlSO = '''SELECT a.rbhCode,  
CASE b.rgaAmountType 
WHEN '1' THEN b.rgaAmount
WHEN '0' THEN (Case when a.rbhEstimatedAwardAmount=0 then null else b.rgaAmount/a.rbhEstimatedAwardAmount*100 end)
ELSE 0
END as porctSerOfer
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBGuarantee b ON a.rbhCode = b.rgaRFBCode
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
AND YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND b.rgaGuaranteeType = 1
AND b.rgaIsBasis = 1
ORDER by b.rgaAmount '''

# luego la de fiel cumplimiento
sqlFC = '''SELECT a.rbhCode,  
CASE b.rgaAmountType 
WHEN '1' THEN b.rgaAmount
WHEN '0' THEN (Case when a.rbhEstimatedAwardAmount=0 then null else b.rgaAmount/a.rbhEstimatedAwardAmount*100 end)
ELSE 0
END as porctFC
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBGuarantee b ON a.rbhCode = b.rgaRFBCode
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
AND YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND b.rgaGuaranteeType = 2
AND b.rgaIsBasis = 1
ORDER by b.rgaAmount'''

# otras garantías
sqlOtros = '''SELECT a.rbhCode,   
CASE b.rgaAmountType 
WHEN '1' THEN b.rgaAmount
WHEN '0' THEN (Case when a.rbhEstimatedAwardAmount=0 then null else b.rgaAmount/a.rbhEstimatedAwardAmount*100 end)
ELSE 0
END as porctOtros
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBGuarantee b ON a.rbhCode = b.rgaRFBCode
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
AND YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
AND b.rgaGuaranteeType not in (1,2)
AND b.rgaIsBasis = 1
ORDER by b.rgaAmount'''

licUniverso = pd.read_sql(sqlLic,cnxn)
garSO = pd.read_sql(sqlSO,cnxn)
garFC = pd.read_sql(sqlFC,cnxn)
garOtros = pd.read_sql(sqlOtros,cnxn)

# Cerramos la conexión
cnxn.close()

#unimos los dataframes
garantias = licUniverso.merge(garSO, how='left')
garantias = garantias.merge(garFC, how='left')
garantias = garantias.merge(garOtros, how='left')

# Calculamos el redflag y dejamos el dataframe en garantias2
garantias2 = garantias.copy()

# condiciones para definir un redflag, finalmente se definió un límite de 
conditions = [
    (pd.isnull(garantias2['porctSerOfer']) & pd.isnull(garantias2['porctFC']) & pd.isnull(garantias2['porctOtros'])),
    ((garantias2['porctSerOfer']>15) | (garantias2['porctFC']>15) | (garantias2['porctOtros']>15)) & (pd.notna(garantias2['porctSerOfer']) & pd.notna(garantias2['porctFC']) & pd.notna(garantias2['porctOtros'])),
    ((garantias2['porctSerOfer']<0.00001) | (garantias2['porctFC']<0.00001) | (garantias2['porctOtros']<0.00001)) & (pd.notna(garantias2['porctSerOfer']) & pd.notna(garantias2['porctFC']) & pd.notna(garantias2['porctOtros']))]
choices = [1,1,1]

# aplicamos el filtro mediante un select
garantias2['indGarantia'] = np.select(conditions, choices, default=0)

# botamos las columnas innecesarias
garantias2 = garantias2.drop(['porctSerOfer', 'porctFC', 'porctOtros'], axis=1)
garantias2 = garantias2.drop_duplicates()
garantias2 = garantias2.groupby(['rbhCode'], as_index = False).sum()
garantías2 = licUniverso.merge(garantias2, how = 'left')

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
garantias2.to_sql(con=engine, name='garantias', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(garantias2.index)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1163108 licitaciones, en 0:01:04.726833


### Redflag: Posibilidad de renovación de contrato
This red flag indicator is based on information on the renewability of contracts and signals situations as risky when the number of possible renewals may be considered high (3 or more), or result in a contract of a longer term (longer than 4 years). 

In [7]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# query para obtener indicador de si el contrato es renovable
sqlRenova = '''SELECT a.rbhCode, CASE WHEN a.rbhOptionContratoRenovable is null THEN 0 ELSE a.rbhOptionContratoRenovable END as indRenovacion
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

licUniverso = pd.read_sql(sqlLic,cnxn)
renovaCont = pd.read_sql(sqlRenova,cnxn)

# Cerramos la conexión
cnxn.close()

#unimos los dataframes
renCont = licUniverso.merge(renovaCont, how='left')

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
renCont.to_sql(con=engine, name='renovaContrato', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(renCont.index)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1163108 licitaciones, en 0:00:57.099322


### Redflag: Criterios de evaluación incompletos
Criterios de evaluación son muy pocos, se define como pocos 2 o menos

In [20]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# tiempo en días por licitación
sqlCriterios = '''SELECT  a.rbhCode, count(b.rbaID) cantidad
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBAwardCriteria b ON a.rbhCode = b.rbaRFBCode
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
and (b.rbaIsChecked = 1)
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
GROUP BY a.rbhCode, a.rbhExternalCode
ORDER by COUNT(b.rbaID) desc'''

licUniverso = pd.read_sql(sqlLic,cnxn)
qCriterios = pd.read_sql(sqlCriterios,cnxn)

# Cerramos la conexión
cnxn.close()

#unimos los dataframes
qCrite = licUniverso.merge(qCriterios, how='left')

# Calculamos el redflag y dejamos el dataframe en una copia
qCrite2 = qCrite.copy()

# condiciones para definir un redflag,
conditions = [
    (pd.isnull(qCrite2['cantidad'])),
    (qCrite2['cantidad']<=2)]

choices = [1,1]

# aplicamos el filtro mediante un select
qCrite2['indCriterio'] = np.select(conditions, choices, default=0)

# eliminamos las columnas innecesarias
qCrite2 = qCrite2.drop(['cantidad'], axis=1)

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
qCrite2.to_sql(con=engine, name='qCriterio', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(qCrite2)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1163108 licitaciones, en 0:00:59.948161


### Redflag: Los requisitos de experiencia sobrepasan un umbral razonable
Criterios de evaluación son muy pocos, se define como pocos 2 o menosEl criterio experiencia no es garantía de la calidad de un bien o servicio y puede servir como una barrera de entrada para las empresas que buscan expandir sus oportunidades participando del abastecimiento del Estado  

In [21]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# query para obtener indicador de si el contrato es renovable
sqlExp = '''SELECT  a.rbhCode, case WHEN a.rbhCode IN (SELECT  a.rbhCode
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBAwardCriteria b ON a.rbhCode = b.rbaRFBCode
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
and (b.rbaIsChecked = 1)
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
and LOWER(b.rbaName) like '%experiencia%'
and (LOWER(b.rbaComment) LIKE '%20 años%'
or LOWER(b.rbaComment) LIKE '%6 años%'
or LOWER(b.rbaComment) LIKE '%7 años%'
or LOWER(b.rbaComment) LIKE '%8 años%'
or LOWER(b.rbaComment) LIKE '%9 años%'
or LOWER(b.rbaComment) LIKE '%10 años%')) THEN 1 ELSE 0 END as indExperiencia
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

licUniverso = pd.read_sql(sqlLic,cnxn)
experiencia = pd.read_sql(sqlExp,cnxn)

# Cerramos la conexión
cnxn.close()

#unimos los dataframes
expExcesiva = licUniverso.merge(experiencia, how='left')

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
expExcesiva.to_sql(con=engine, name='experienciaExcesiva', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(expExcesiva)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1163108 licitaciones, en 0:01:53.850486


### Redflag: Unjustified constraints hindering foreign competition
Lowering barriers to entry has the double advantage of both improving the efficiency of the bidding process and reducing the likelihood of successful collusion. Barriers to foreign participation in procurement should be eliminated 

In [22]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# query para obtener indicador de si el contrato es renovable
sqlExtranjero = '''SELECT a.rbhCode, MAX( CASE WHEN LOWER(b.rbcTitle) LIKE '%nacionalidad%' THEN 1 ELSE 0 END) AS RequisitoNacionalidad
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBClause b ON a.rbhCode = b.rbcRFBCode
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
GROUP BY a.rbhCode'''

licUniverso = pd.read_sql(sqlLic,cnxn)
extranjero = pd.read_sql(sqlExtranjero,cnxn)

# Cerramos la conexión
cnxn.close()

#unimos los dataframes
noExtranjero = licUniverso.merge(extranjero, how='left')

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
noExtranjero.to_sql(con=engine, name='noExtranjero', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(noExtranjero)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1163108 licitaciones, en 0:01:20.555191


### Redflag: Technical capacity - setting geographical requirements
This red flag indicator is related (but not restricted) to technical capacity, and checks whether the contracting authority unjustifiably limits compliance with ability/capacity requirements by setting so called geographical requirements, e.g. the availability of capacities, equipment or site within a specific physical distance.

In [23]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce

# Inicio del "cronómetro"
tInicio = time.time()

# Apertura la conexión a SQL SERVER
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')

# Envío de las querys y lectura de los resultados

# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# query para obtener indicador geográfico
sqlGeografico = '''SELECT a.rbhCode, MAX(
CASE 
WHEN ((LOWER(b.rbcTitle) LIKE '%ubicacion%' 
OR LOWER(b.rbcTitle) LIKE '%ubicación%'  
OR LOWER(b.rbcTitle) LIKE '%localizacion%' 
OR LOWER(b.rbcTitle) LIKE '%localización%' 
OR LOWER(b.rbcTitle) LIKE '%geografic%' 
OR LOWER(b.rbcTitle) LIKE '%geográfic%')
AND (LOWER (b.rbcTitle) NOT LIKE '%croquis%')) THEN 1
ELSE 0 END) AS RequisitoGeografico
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBClause b ON a.rbhCode = b.rbcRFBCode
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1
GROUP BY a.rbhCode'''

licUniverso = pd.read_sql(sqlLic,cnxn)
geografico = pd.read_sql(sqlGeografico,cnxn)

# Cerramos la conexión
cnxn.close()

#unimos los dataframes
reqGeografico = licUniverso.merge(geografico, how='left')

# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
reqGeografico.to_sql(con=engine, name='reqGeografico', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(reqGeografico)) + " licitaciones, en "+ tFormateado)

Terminado, se procesaron 1163108 licitaciones, en 0:01:11.089659


### Redflag: Procurement with amounts close to threshold
A "pre-threshold procedure" has been announced or a "report on concluded agreement" has been published with amounts close to threshold amounts: UAH 190,000 to 200,000 and UAH 1.49 million to 1.5 million for regular procuring entities, and UAH 990,000 to 1 million and 4.9 million to 5 million for "certain areas of activity."

In [None]:
#Imports necesarios
import pyodbc #odbc para sqlserver
import time #librería necesaria para medir el tiempo de ejecución 
import datetime
import pandas as pd
import numpy as np
from functools import reduce
import mysql.connector
import urllib.request
import json

# Inicio del "cronómetro"
tInicio = time.time()

# Creamos los dataframes vacios para almacenar los valores de UTM y Fechas
dolarDiarioDF = pd.DataFrame(columns=['Fecha', 'Dolar'])
CLFDiarioDF = pd.DataFrame(columns=['Fecha', 'CLF'])
euroDiarioDF = pd.DataFrame(columns=['Fecha', 'Euro'])
utmDF = pd.DataFrame(columns=['Fecha', 'UTM'])

# Generamos el ciclo para recorrer los años y leer desde la API los datos de UTM
for i in range(2014, 2020):
    with urllib.request.urlopen("https://mindicador.cl/api/dolar/"+str(i)) as url:
        dolar = json.loads(url.read().decode())
    
    with urllib.request.urlopen("https://mindicador.cl/api/uf/"+str(i)) as url:
        uf = json.loads(url.read().decode())
    
    with urllib.request.urlopen("https://mindicador.cl/api/euro/"+str(i)) as url:
        euro = json.loads(url.read().decode())
    
    with urllib.request.urlopen("https://mindicador.cl/api/utm/"+str(i)) as url:
        utm = json.loads(url.read().decode())
    
    # Generamos los ciclos en que se añaden los dataframes los valores obtenidos desde la API    
    for x in range(len(dolar['serie'])):
        dolarDiarioDF = dolarDiarioDF.append({'Fecha' : dolar['serie'][x]['fecha'][0:7] , 'Dolar' : dolar['serie'][x]['valor']} , ignore_index=True) 
    
    for x in range(len(uf['serie'])):
        CLFDiarioDF = CLFDiarioDF.append({'Fecha' : uf['serie'][x]['fecha'][0:7] , 'CLF' : uf['serie'][x]['valor']} , ignore_index=True)
    
    for x in range(len(euro['serie'])):
        euroDiarioDF = euroDiarioDF.append({'Fecha' : euro['serie'][x]['fecha'][0:7] , 'Euro' : euro['serie'][x]['valor']} , ignore_index=True)
    
    for x in range(len(utm['serie'])):
        utmDF = utmDF.append({'Fecha' : utm['serie'][x]['fecha'][0:7] , 'UTM' : utm['serie'][x]['valor']} , ignore_index=True)

# Agrupamos por promedio para efectos prácticos
dolarDF = dolarDiarioDF.groupby(['Fecha'])[['Dolar']].mean()
CLFDF = CLFDiarioDF.groupby(['Fecha'])[['CLF']].mean()
euroDF = euroDiarioDF.groupby(['Fecha'])[['Euro']].mean()

# Unimos los dataframes y lo guardamos en uno nuevo
monedas = reduce(lambda x,y: pd.merge(x,y, on='Fecha', how='left'), [dolarDF, CLFDF, euroDF, utmDF])

# Cargamos estos valores en la tabla UTM de MySQL
# Carga de datos en MySQL
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
monedas.to_sql(con=engine, name='Monedas', if_exists='replace', index=False)


# Ahora trabajamos sobre los datos de las licitaciones para ver si el monto estimado está cerca de los umbrales de control (5000 UTM)
# Apertura la conexión a Conexiones
cnxn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=10.34.71.145;DATABASE=DCCPProcurement;UID=JoseMora;PWD=Chilecompra2018')
mycnxn = mysql.connector.connect(host="192.168.2.2", user="server",  passwd="server")

# Envío de las querys y lectura de los resultados
# Listado de licitaciones
sqlLic = '''select a.rbhCode
from DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

# query para obtener indicador de cercanía a umbral de control
sqltempLimites = '''SELECT a.rbhCode, a.rbhEstimatedAmount, a.rbhCurrency, CAST(YEAR(c.rbdOpeningDate) as varchar) + '-' + CASE WHEN MONTH(c.rbdOpeningDate)<10 THEN '0' + cast(MONTH(c.rbdOpeningDate) as varchar) ELSE cast(MONTH(c.rbdOpeningDate) as varchar) END as Fecha , CASE WHEN YEAR(c.rbdOpeningDate) > 2018 THEN 0 ELSE 1 END as pre2019
FROM DCCPProcurement.dbo.prcRFBHeader a
LEFT JOIN DCCPProcurement.dbo.prcRFBDate c on a.rbhCode = c.rbdRFBCode
WHERE YEAR(c.rbdOpeningDate) > 2013
and YEAR(c.rbdOpeningDate) < 2020
AND a.rbhOwnerName != 'Dirección de Compras y Contratación  Pública' 
AND a.rbhProcessSubType in (1, 2, 3, 23, 24, 25,  30) 
AND a.rbhDocumentStatus in (8,9,10, 7, 15, 16)
AND a.rbhProcessType = 1'''

sqlMonedas = '''
SELECT *
FROM redflags.Monedas;
'''

licUniverso = pd.read_sql(sqlLic,cnxn)
tempLimites = pd.read_sql(sqltempLimites,cnxn)
monedasTemp = pd.read_sql(sqlMonedas,mycnxn)


#unimos los dataframes
tempLimites = tempLimites.merge(monedasTemp, how='left')

# Cerramos la conexión
cnxn.close()
mycnxn.close()

#unimos los dataframes
tempLimites = tempLimites.merge(monedasTemp, how='left')

#calculamos los valores en UTM
tempLimites['valorEnUTM'] = 0
tempLimites.loc[tempLimites['rbhCurrency'] == 'UTM', 'valorEnUTM'] = round(tempLimites['rbhEstimatedAmount']).fillna(0).astype(int)
tempLimites.loc[tempLimites['rbhCurrency'] == 'CLP', 'valorEnUTM'] = round(tempLimites['rbhEstimatedAmount'] / tempLimites['UTM']).fillna(0).astype(int)
tempLimites.loc[tempLimites['rbhCurrency'] == 'CLF', 'valorEnUTM'] = round(tempLimites['rbhEstimatedAmount'] * tempLimites['CLF'] / tempLimites['UTM']).fillna(0).astype(int)
tempLimites.loc[tempLimites['rbhCurrency'] == 'USD', 'valorEnUTM'] = round(tempLimites['rbhEstimatedAmount'] * tempLimites['Dolar'] / tempLimites['UTM']).fillna(0).astype(int)
tempLimites.loc[tempLimites['rbhCurrency'] == 'EUR', 'valorEnUTM'] = round(tempLimites['rbhEstimatedAmount'] * tempLimites['Euro'] / tempLimites['UTM']).fillna(0).astype(int)

# Generamos las condiciones para establecer el valor del indicador
conditions = [
    (tempLimites['pre2019'] == 1) & (tempLimites['valorEnUTM'] > 4900) & (tempLimites['valorEnUTM'] < 5001),
    (tempLimites['pre2019'] == 0) & (tempLimites['valorEnUTM'] > 14900) & (tempLimites['valorEnUTM'] < 15001),
    (tempLimites['pre2019'] == 0) & (tempLimites['valorEnUTM'] > 9900) & (tempLimites['valorEnUTM'] < 10001),
    (tempLimites['pre2019'] == 0) & (tempLimites['valorEnUTM'] > 7900) & (tempLimites['valorEnUTM'] < 8001)]
choices = [1, 1, 1, 1]
tempLimites['indvalorEnUTM'] = np.select(conditions, choices, default=0)
    
# botamos las columnas innecesarias y fusión con licitaciones totales
tempLimites = tempLimites.drop(['rbhEstimatedAmount', 'rbhCurrency', 'Fecha', 'pre2019', 'Dolar', 'CLF', 'Euro', 'UTM', 'valorEnUTM'], axis=1)
limites = licUniverso.merge(tempLimites, how='left')

# Cargamos estos valores en la tabla indValorrUTM
# Carga de datos en MySQL
engine = create_engine('mysql+pymysql://server:server@192.168.2.2:3306/redflags', echo = False)
limites.to_sql(con=engine, name='indValorUTM', if_exists='replace', index=False)

# Término del "crónometro" y transformaciones a hora, minutos y segundos
tFinal = time.time()
tSegundosGenerico = tFinal - tInicio
tFormateado = str(datetime.timedelta(seconds=tSegundosGenerico))

# Resultados de la primera extracción
# Resultados de la primera extracción
print("Terminado, se procesaron "+ str(len(limites)) + " licitaciones, en "+ tFormateado)


### Redflag: Fragmentación ponderada
Porcentaje que representa una licitación en cuanto a cantidad de ítems sobre el total de las licitaciones por el mismo producto o servicio que ha realizado el organismo público.

In [1]:
#PENDIENTE