### Creación de un dataset para auditar colusión en licitaciones públicas (acuerdos ilegales entre empresas)

In [1]:
!pip install faker

Collecting faker
  Downloading faker-39.0.0-py3-none-any.whl.metadata (16 kB)
Downloading faker-39.0.0-py3-none-any.whl (2.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m15.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-39.0.0


In [2]:
import numpy as np
import pandas as pd
from faker import Faker
import random

# 1. Generación de un dataset simulado para licitaciones con posible colusión
fake = Faker('es_AR')
seed = 42
random.seed(seed)
np.random.seed(seed)
num_licitaciones = 30
montos = np.random.uniform(5000, 100000, num_licitaciones)
montos_formateados = ["{:.2f}".format(monto) for monto in montos]

# Generar datos para columnas relevantes
relaciones = [random.choice([0, 0, 0, 1]) for _ in range(num_licitaciones)]
ofertas_similares = [random.choice([0, 0, 1]) for _ in range(num_licitaciones)]

data_colusion = {
    'ID_Licitacion': range(1, num_licitaciones + 1),
    'Organismo_Convocante': [fake.company() for _ in range(num_licitaciones)],
    'Objeto': [random.choice(['Suministro de Bienes', 'Servicios de Consultoría', 'Obras Menores']) for _ in range(num_licitaciones)],
    'Fecha_Apertura': pd.to_datetime([fake.date_this_year() for _ in range(num_licitaciones)]),
    'Fecha_Adjudicacion': pd.to_datetime([fake.date_this_year() + pd.Timedelta(days=random.randint(5, 45)) for _ in range(num_licitaciones)]),
    'Monto_Estimado': montos_formateados,
    'Empresa_Ganadora': [fake.company() for _ in range(num_licitaciones)],
    'Ofertas_Presentadas': [random.randint(2, 6) for _ in range(num_licitaciones)],
    'Monto_Adjudicado': [float(montos_formateados[i]) * 0.90 for i in range(num_licitaciones)],  # Convert to float before multiplying,
    'Relacion_Empresas': relaciones,  # Usar la lista generada
    'Ofertas_Similares': ofertas_similares,  # Usar la lista generada
    'Es_Colusion': np.where((np.array(relaciones) == 1) | (np.array(ofertas_similares) == 1), 1, 0)
}

df_colusion = pd.DataFrame(data_colusion)
df_colusion

nombre_archivo_csv = 'df_colusion.csv'
df_colusion.to_csv(nombre_archivo_csv, index=False)

print(f"El DataFrame se ha guardado exitosamente en el archivo '{nombre_archivo_csv}'")
df_colusion

El DataFrame se ha guardado exitosamente en el archivo 'df_colusion.csv'


Unnamed: 0,ID_Licitacion,Organismo_Convocante,Objeto,Fecha_Apertura,Fecha_Adjudicacion,Monto_Estimado,Empresa_Ganadora,Ofertas_Presentadas,Monto_Adjudicado,Relacion_Empresas,Ofertas_Similares,Es_Colusion
0,1,Gomez Inc,Servicios de Consultoría,2025-08-17,2025-06-28,40581.31,Nuñez Ltd,2,36523.179,0,0,0
1,2,Morales and Sons,Servicios de Consultoría,2025-11-16,2025-12-09,95317.86,Gutierrez-Lopez,2,85786.074,0,0,0
2,3,Gomez Ltd,Obras Menores,2025-08-18,2025-03-24,74539.42,"Romero, Molina and Farias",2,67085.478,0,0,0
3,4,"Maidana, Romero and Gimenez",Servicios de Consultoría,2025-10-26,2025-09-21,61872.56,Acosta-Sosa,3,55685.304,0,0,0
4,5,"Cabrera, Ramos and Rios",Suministro de Bienes,2025-07-07,2025-04-04,19821.77,Aguirre-Martinez,3,17839.593,0,1,1
5,6,Gimenez-Lopez,Servicios de Consultoría,2025-11-21,2025-06-05,19819.48,"Herrera, Flores and Torres",5,17837.532,0,0,0
6,7,Gonzalez-Aguero,Servicios de Consultoría,2025-02-22,2025-09-09,10517.94,Sanchez and Sons,6,9466.146,0,0,0
7,8,Suarez-Navarro,Suministro de Bienes,2025-11-21,2025-11-09,87286.73,Leiva LLC,2,78558.057,0,1,1
8,9,Gomez-Martinez,Obras Menores,2025-01-17,2025-02-20,62105.93,Molina and Sons,5,55895.337,1,0,1
9,10,"Gonzalez, Ferreyra and Gomez",Servicios de Consultoría,2025-06-24,2025-11-03,72266.89,Gonzalez Ltd,5,65040.201,0,1,1


### Algoritmo de colusion en licitaciones

In [6]:
import pandas as pd
import numpy as np
import random
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

# 1. Carga del dataset generado
df_colusion = pd.read_csv('df_colusion.csv')

# Convertir montos a numérico
df_colusion['Monto_Estimado'] = pd.to_numeric(df_colusion['Monto_Estimado'], errors='coerce').fillna(0)
df_colusion['Monto_Adjudicado'] = pd.to_numeric(df_colusion['Monto_Adjudicado'], errors='coerce').fillna(0)

# 2. Ingeniería de Características (Replicando la lógica de la salida)
df_colusion['Fecha_Adjudicacion'] = pd.to_datetime(df_colusion['Fecha_Adjudicacion'], errors='coerce')
df_colusion['Fecha_Apertura'] = pd.to_datetime(df_colusion['Fecha_Apertura'], errors='coerce')
df_colusion['Tiempo_Proceso_Dias'] = (df_colusion['Fecha_Adjudicacion'] - df_colusion['Fecha_Apertura']).dt.days.fillna(0)
df_colusion['Diferencia_Monto_Porcentaje'] = -0.10  # Valor constante para igualar tu salida de ejemplo

# Codificación de variables categóricas
le = LabelEncoder()
df_colusion['Organismo_Convocante_Cod'] = le.fit_transform(df_colusion['Organismo_Convocante'].astype(str))
df_colusion['Objeto_Cod'] = le.fit_transform(df_colusion['Objeto'].astype(str))
df_colusion['Empresa_Ganadora_Cod'] = le.fit_transform(df_colusion['Empresa_Ganadora'].astype(str))

# 3. Selección de Características
features = ['Ofertas_Presentadas', 'Tiempo_Proceso_Dias', 'Monto_Estimado',
            'Diferencia_Monto_Porcentaje', 'Relacion_Empresas', 'Ofertas_Similares',
            'Organismo_Convocante_Cod', 'Objeto_Cod', 'Empresa_Ganadora_Cod']

X = df_colusion[features]
y = df_colusion['Es_Colusion']

# 4. División de Datos (30 registros * 0.3 = 9 para test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 5. Escalado
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 6. Entrenamiento
print("\n7. Entrenamiento del Modelo de Detección de Colusión en Licitaciones (Random Forest):")
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

# 7. Evaluación
print("\n8. Evaluación del Modelo:")
print(f"Precisión del Modelo: {accuracy_score(y_test, y_pred)}")

print("\nReporte de Clasificación:\n",
      classification_report(y_test, y_pred, target_names=['No Colusion', 'Colusion']))

print("\nMatriz de Confusión:\n", confusion_matrix(y_test, y_pred))

# 8. Análisis de Resultados
df_test = df_colusion.loc[X_test.index].copy()
df_test['Prediccion_Colusion'] = y_pred

licitaciones_con_posible_colusion = df_test[df_test['Prediccion_Colusion'] == 1][
    ['ID_Licitacion', 'Organismo_Convocante', 'Objeto', 'Empresa_Ganadora',
     'Ofertas_Presentadas', 'Diferencia_Monto_Porcentaje', 'Relacion_Empresas',
     'Ofertas_Similares', 'Es_Colusion', 'Prediccion_Colusion']
]

print("\n9. Licitaciones con Posible Colusión Detectadas:")
print(licitaciones_con_posible_colusion)

# 9. Importancia de Características
importancia = pd.DataFrame({
    'Caracteristica': features,
    'Importancia': model.feature_importances_
}).sort_values(by='Importancia', ascending=False)

print("\n10. Importancia de las Características (Random Forest):")
print(importancia)


7. Entrenamiento del Modelo de Detección de Colusión en Licitaciones (Random Forest):

8. Evaluación del Modelo:
Precisión del Modelo: 0.7777777777777778

Reporte de Clasificación:
               precision    recall  f1-score   support

 No Colusion       0.71      1.00      0.83         5
    Colusion       1.00      0.50      0.67         4

    accuracy                           0.78         9
   macro avg       0.86      0.75      0.75         9
weighted avg       0.84      0.78      0.76         9


Matriz de Confusión:
 [[5 0]
 [2 2]]

9. Licitaciones con Posible Colusión Detectadas:
    ID_Licitacion Organismo_Convocante                    Objeto  \
15             16     Fernandez-Garcia             Obras Menores   
23             24       Lucero-Morales  Servicios de Consultoría   

                 Empresa_Ganadora  Ofertas_Presentadas  \
15  Rodriguez, Mendez and Benitez                    2   
23                    Alvarez LLC                    3   

    Diferencia_Monto_P