In [1]:
!pip install faker

Collecting faker
  Downloading faker-39.0.0-py3-none-any.whl.metadata (16 kB)
Downloading faker-39.0.0-py3-none-any.whl (2.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-39.0.0


###Conjunto de datos para Auditoria de Licitaciones Públicas

In [2]:
import numpy as np
import pandas as pd
from faker import Faker
import random

# 1. Generación de un dataset simulado para licitaciones públicas
fake = Faker('es_AR')
seed = 42
random.seed(seed)
np.random.seed(seed)
num_licitaciones = 30  # Numero de licitaciones o el que se este utilizando
montos = np.random.uniform(5000, 100000, num_licitaciones)
montos_formateados = ["{:.2f}".format(monto) for monto in montos]

# Create a list for the final amounts with potential discount
montos_finales = []
for i in range(num_licitaciones):
    if random.random() < 0.8:  # 80% probability of using the original formatted amount
        montos_finales.append(montos_formateados[i])
    else:  # 20% probability of applying a 10% discount and using the formatted discounted amount
        montos_finales.append("{:.2f}".format(montos[i] * 0.90))  # Apply discount and format

# Generar datos para las columnas 'Participantes' y 'Relacion_Funcionario_Ganador'
participantes = [random.randint(1, 5) for _ in range(num_licitaciones)]
relacion_ganador = [random.choice([0, 0, 0, 1]) for _ in range(num_licitaciones)]

data_licitaciones = {
    'ID_Licitacion': range(1, num_licitaciones + 1),
    'Organismo_Convocante': [fake.company() for _ in range(num_licitaciones)],
    'Objeto': [random.choice(['Construcción de Obra', 'Suministro de Equipamiento', 'Servicios de Consultoría', 'Mantenimiento']) for _ in range(num_licitaciones)],
    'Fecha_Publicacion': pd.to_datetime([fake.date_this_year() for _ in range(num_licitaciones)]),
    'Fecha_Cierre': pd.to_datetime([fake.date_this_year() + pd.Timedelta(days=random.randint(15, 90)) for _ in range(num_licitaciones)]),
    'Monto': montos_formateados,  # Original formatted amounts
    'Empresa_Ganadora': [fake.company() for _ in range(num_licitaciones)],
    'Monto_Adjudicado': [round(float(montos_formateados[i]) * 1.20, 2) for i in range(num_licitaciones)],  # Round to 2 decimals
    'Monto_Estimado': [round(float(montos_formateados[i]) * 0.90, 2) for i in range(num_licitaciones)],  # Round to 2 decimals
    'Proceso_Seleccion': [random.choice(['Licitación Pública', 'Concurso de Precios', 'Contratación Directa']) for _ in range(num_licitaciones)],
    'Participantes': participantes,  # Usar los valores generados
    'Relacion_Funcionario_Ganador': relacion_ganador,  # Usar los valores generados
    'Es_Irregular': np.where((np.array(participantes) >= 4) | (np.array(relacion_ganador) == 1), 1, 0)
}

df_licitaciones = pd.DataFrame(data_licitaciones)
df_licitaciones
nombre_archivo_csv = 'df_licitaciones.csv'
df_licitaciones.to_csv(nombre_archivo_csv, index=False)

print(f"El DataFrame se ha guardado exitosamente en el archivo '{nombre_archivo_csv}'")
df_licitaciones

El DataFrame se ha guardado exitosamente en el archivo 'df_licitaciones.csv'


Unnamed: 0,ID_Licitacion,Organismo_Convocante,Objeto,Fecha_Publicacion,Fecha_Cierre,Monto,Empresa_Ganadora,Monto_Adjudicado,Monto_Estimado,Proceso_Seleccion,Participantes,Relacion_Funcionario_Ganador,Es_Irregular
0,1,Fernandez-Vazquez,Suministro de Equipamiento,2025-09-26,2025-08-24,40581.31,"Peralta, Maldonado and Vega",48697.57,36523.18,Contratación Directa,1,0,0
1,2,Gomez Ltd,Mantenimiento,2025-06-10,2025-06-05,95317.86,"Romero, Rodriguez and Ramirez",114381.43,85786.07,Concurso de Precios,4,0,1
2,3,Garcia Ltd,Construcción de Obra,2025-06-06,2026-03-06,74539.42,"Quiroga, Ramirez and Torres",89447.3,67085.48,Concurso de Precios,5,0,1
3,4,Gomez-Alvarez,Construcción de Obra,2025-09-04,2025-10-26,61872.56,Cordoba-Torres,74247.07,55685.3,Contratación Directa,1,1,1
4,5,Medina and Sons,Construcción de Obra,2025-09-10,2025-03-18,19821.77,Quiroga PLC,23786.12,17839.59,Contratación Directa,4,1,1
5,6,Sosa Ltd,Suministro de Equipamiento,2025-03-05,2025-11-04,19819.48,Gomez-Navarro,23783.38,17837.53,Concurso de Precios,1,0,0
6,7,"Ramirez, Fernandez and Gonzalez",Suministro de Equipamiento,2025-06-21,2025-08-26,10517.94,"Lopez, Barrios and Garcia",12621.53,9466.15,Concurso de Precios,5,0,1
7,8,"Juarez, Acosta and Leiva",Mantenimiento,2025-04-17,2025-01-30,87286.73,Nuñez Ltd,104744.08,78558.06,Contratación Directa,3,0,0
8,9,Martinez Inc,Construcción de Obra,2025-03-11,2025-09-01,62105.93,Martinez-Diaz,74527.12,55895.34,Concurso de Precios,5,0,1
9,10,Aguirre Inc,Mantenimiento,2025-02-02,2025-08-16,72266.89,"Gutierrez, Vargas and Peralta",86720.27,65040.2,Licitación Pública,3,0,0


###Algoritmo de auditoria de licitaciones publicas

In [4]:
import pandas as pd
import numpy as np
import os
import random
import warnings
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

# Suprimir advertencias de división por cero y métricas
warnings.filterwarnings("ignore")

# 1. Carga del dataset generado localmente
nombre_archivo = 'df_licitaciones.csv'

try:
    if os.path.exists(nombre_archivo):
        df_licitaciones = pd.read_csv(nombre_archivo)
    else:
        df_licitaciones = pd.read_csv('df_licitaciones (1).csv')

    # Preprocesamiento de fechas y montos
    df_licitaciones['Fecha_Publicacion'] = pd.to_datetime(df_licitaciones['Fecha_Publicacion'])
    df_licitaciones['Fecha_Cierre'] = pd.to_datetime(df_licitaciones['Fecha_Cierre'])

    for col in ['Monto', 'Monto_Adjudicado', 'Monto_Estimado']:
        df_licitaciones[col] = pd.to_numeric(df_licitaciones[col], errors='coerce')

    print(f"✅ Archivo '{nombre_archivo}' cargado y procesado.")

except Exception as e:
    print(f"❌ Error al cargar el archivo: {e}")
    df_licitaciones = None

if df_licitaciones is not None:
    # 2. Ingeniería de Características
    # a) Duración del Proceso
    df_licitaciones['Duracion_Proceso_Dias'] = (df_licitaciones['Fecha_Cierre'] - df_licitaciones['Fecha_Publicacion']).dt.days

    # b) Diferencias de Monto
    df_licitaciones['Diferencia_Monto_Porcentaje'] = ((df_licitaciones['Monto_Adjudicado'] - df_licitaciones['Monto_Estimado']) / df_licitaciones['Monto_Estimado']).fillna(0)
    df_licitaciones['Diferencia_Monto_Absoluta'] = (df_licitaciones['Monto_Adjudicado'] - df_licitaciones['Monto_Estimado']).fillna(0)

    # c) Codificación de variables categóricas
    columnas_cat = ['Organismo_Convocante', 'Objeto', 'Proceso_Seleccion', 'Empresa_Ganadora']
    for col in columnas_cat:
        le = LabelEncoder()
        df_licitaciones[col + '_Cod'] = le.fit_transform(df_licitaciones[col].astype(str))

    # 3. Preparación de Datos para el Modelo
    features = ['Duracion_Proceso_Dias', 'Monto_Estimado', 'Monto_Adjudicado',
                'Participantes', 'Relacion_Funcionario_Ganador',
                'Diferencia_Monto_Porcentaje', 'Diferencia_Monto_Absoluta',
                'Organismo_Convocante_Cod', 'Objeto_Cod', 'Proceso_Seleccion_Cod',
                'Empresa_Ganadora_Cod']

    X = df_licitaciones[features].fillna(0)
    y = df_licitaciones['Es_Irregular']

    # Dividir datos (usamos stratify para asegurar presencia de ambas clases en el test)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # 7. Entrenamiento del Modelo
    print("\n7. Entrenamiento del Modelo de Prevención de Corrupción en Licitaciones Públicas (Gradient Boosting):")
    model = GradientBoostingClassifier(random_state=42)
    model.fit(X_train_scaled, y_train)
    y_pred = model.predict(X_test_scaled)

    # 8. Evaluación del Modelo
    print("\n8. Evaluación del Modelo:")
    print(f"Precisión del Modelo: {accuracy_score(y_test, y_pred)}")

    # Ajuste dinámico de nombres para evitar ValueError si falta una clase
    clases_reales = np.unique(y_test)
    nombres_base = {0: 'No Irregular', 1: 'Irregular'}
    target_names = [nombres_base[c] for c in clases_reales]

    print("\nReporte de Clasificación:")
    print(classification_report(y_test, y_pred, target_names=target_names, zero_division=0))

    print("\nMatriz de Confusión:")
    print(confusion_matrix(y_test, y_pred))

    # 9. Licitaciones Detectadas como Irregulares
    df_test = df_licitaciones.loc[X_test.index].copy()
    df_test['Prediccion_Irregular'] = y_pred

    # Filtramos las que el modelo marcó como 1
    detectadas = df_test[df_test['Prediccion_Irregular'] == 1][[
        'ID_Licitacion', 'Organismo_Convocante', 'Objeto', 'Monto_Estimado',
        'Monto_Adjudicado', 'Proceso_Seleccion', 'Participantes',
        'Relacion_Funcionario_Ganador', 'Es_Irregular', 'Prediccion_Irregular'
    ]]

    print("\n9. Licitaciones Públicas Detectadas como Irregulares:")
    if not detectadas.empty:
        print(detectadas.to_string(index=False))
    else:
        print("No se detectaron nuevas irregularidades en este conjunto de prueba.")

    # 10. Importancia de las Características
    importancia = pd.DataFrame({'Caracteristica': features, 'Importancia': model.feature_importances_})
    importancia = importancia.sort_values(by='Importancia', ascending=False)
    print("\n10. Importancia de las Características (Gradient Boosting):")
    print(importancia.to_string(index=False))

✅ Archivo 'df_licitaciones.csv' cargado y procesado.

7. Entrenamiento del Modelo de Prevención de Corrupción en Licitaciones Públicas (Gradient Boosting):

8. Evaluación del Modelo:
Precisión del Modelo: 1.0

Reporte de Clasificación:
              precision    recall  f1-score   support

No Irregular       1.00      1.00      1.00         5
   Irregular       1.00      1.00      1.00         4

    accuracy                           1.00         9
   macro avg       1.00      1.00      1.00         9
weighted avg       1.00      1.00      1.00         9


Matriz de Confusión:
[[5 0]
 [0 4]]

9. Licitaciones Públicas Detectadas como Irregulares:
 ID_Licitacion            Organismo_Convocante                     Objeto  Monto_Estimado  Monto_Adjudicado   Proceso_Seleccion  Participantes  Relacion_Funcionario_Ganador  Es_Irregular  Prediccion_Irregular
            22                       Avila Ltd              Mantenimiento        16426.73          21902.30  Licitación Pública         