In [1]:
!pip install faker

Collecting faker
  Downloading faker-39.0.0-py3-none-any.whl.metadata (16 kB)
Downloading faker-39.0.0-py3-none-any.whl (2.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m34.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-39.0.0


In [2]:
import numpy as np
import pandas as pd
from faker import Faker
import random

# 1. Generación de un dataset simulado para compras públicas
fake = Faker('es_AR')
seed = 42
np.random.seed(seed)
random.seed(seed)
num_compras = 30
montos = np.random.uniform(5000, 100000, num_compras) # Corregido num_licitaciones a num_compras
montos_formateados = ["{:.2f}".format(monto) for monto in montos]

# Generar datos para columnas relevantes
relaciones = [random.choice([0, 0, 0, 1]) for _ in range(num_compras)]
pagos_acelerados = [random.choice([0, 0, 1]) for _ in range(num_compras)]

data_compras = {
    'ID_Compra': range(1, num_compras + 1),
    'Organismo_Comprador': [fake.company() for _ in range(num_compras)],
    'Proveedor': [fake.company() for _ in range(num_compras)],
    'Fecha_Compra': pd.to_datetime([fake.date_this_year() for _ in range(num_compras)]),
    'Bien_Servicio': [random.choice(['Computadoras', 'Material de Oficina', 'Vehículos', 'Servicios de Limpieza']) for _ in range(num_compras)],
    'Monto_Total': montos_formateados,
    'Metodo_Pago': [random.choice(['Transferencia Bancaria']) for _ in range(num_compras)],
    'Estado': [random.choice(['Completada', 'Pendiente', 'Cancelada']) for _ in range(num_compras)],
    'Funcionario_Autorizador': [f'Funcionario_{random.randint(1, 10)}' for _ in range(num_compras)],
    'Proceso_Compra': [random.choice(['Licitación Pública', 'Contratación Directa', 'Concurso de Precios']) for _ in range(num_compras)],
    'Relacion_Funcionario_Proveedor': relaciones,  # Usa la lista generada
    'Pago_Acelerado': pagos_acelerados,  # Usa la lista generada
    'Es_Sospechoso': np.where((np.array(relaciones) == 1) & (np.array(pagos_acelerados) == 1), 1, 0)
}

df_compras = pd.DataFrame(data_compras)
df_compras

nombre_archivo_csv = 'df_compras_sobornos.csv'
df_compras.to_csv(nombre_archivo_csv, index=False)

print(f"El DataFrame se ha guardado exitosamente en el archivo '{nombre_archivo_csv}'")
df_compras

El DataFrame se ha guardado exitosamente en el archivo 'df_compras_sobornos.csv'


Unnamed: 0,ID_Compra,Organismo_Comprador,Proveedor,Fecha_Compra,Bien_Servicio,Monto_Total,Metodo_Pago,Estado,Funcionario_Autorizador,Proceso_Compra,Relacion_Funcionario_Proveedor,Pago_Acelerado,Es_Sospechoso
0,1,"Alvarez, Cruz and Ponce",Hernandez Group,2025-04-07,Vehículos,40581.31,Transferencia Bancaria,Pendiente,Funcionario_4,Licitación Pública,0,0,0
1,2,Rojas-Figueroa,Torres-Juarez,2025-10-03,Servicios de Limpieza,95317.86,Transferencia Bancaria,Completada,Funcionario_10,Concurso de Precios,0,0,0
2,3,Correa-Roldan,Rodriguez PLC,2025-02-06,Vehículos,74539.42,Transferencia Bancaria,Cancelada,Funcionario_2,Concurso de Precios,0,0,0
3,4,Valdez-Lopez,Moreno PLC,2025-07-06,Material de Oficina,61872.56,Transferencia Bancaria,Cancelada,Funcionario_2,Licitación Pública,0,0,0
4,5,"Medina, Rios and Rodriguez",Perez and Sons,2025-02-21,Vehículos,19821.77,Transferencia Bancaria,Pendiente,Funcionario_8,Concurso de Precios,0,1,0
5,6,"Herrera, Caceres and Cordoba",Martinez-Gimenez,2025-06-10,Vehículos,19819.48,Transferencia Bancaria,Cancelada,Funcionario_2,Licitación Pública,0,0,0
6,7,Ponce Group,Guzman Group,2025-02-20,Material de Oficina,10517.94,Transferencia Bancaria,Completada,Funcionario_9,Licitación Pública,0,0,0
7,8,"Gonzalez, Garcia and Ramirez",Gonzalez-Lucero,2025-10-17,Vehículos,87286.73,Transferencia Bancaria,Cancelada,Funcionario_3,Licitación Pública,0,1,0
8,9,Sosa Ltd,"Suarez, Diaz and Ferreyra",2025-12-09,Computadoras,62105.93,Transferencia Bancaria,Completada,Funcionario_3,Concurso de Precios,1,0,0
9,10,Gonzalez-Garcia,Arias-Caceres,2025-10-24,Material de Oficina,72266.89,Transferencia Bancaria,Cancelada,Funcionario_8,Concurso de Precios,0,1,0


### Algoritmos en sobornos en compras publicas

In [7]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

# 1. Carga del dataset
df_compras = pd.read_csv('df_compras_sobornos.csv')
df_compras['Monto_Total'] = pd.to_numeric(df_compras['Monto_Total'], errors='coerce').fillna(0)

# 2. Ingeniería de Características
df_compras['Compras_Proveedor'] = df_compras.groupby('Proveedor')['ID_Compra'].transform('count')
df_compras['Compras_Funcionario'] = df_compras.groupby('Funcionario_Autorizador')['ID_Compra'].transform('count')
df_compras['Monto_Alto'] = (df_compras['Monto_Total'] > df_compras['Monto_Total'].quantile(0.90)).astype(int)

# 3. Selección y Codificación
features = ['Monto_Total', 'Compras_Proveedor', 'Compras_Funcionario',
            'Relacion_Funcionario_Proveedor', 'Pago_Acelerado', 'Monto_Alto',
            'Proceso_Compra']

X = df_compras[features].copy()
y = df_compras['Es_Sospechoso']

le_proceso = LabelEncoder()
X['Proceso_Compra_Cod'] = le_proceso.fit_transform(X['Proceso_Compra'])
X = X.drop('Proceso_Compra', axis=1)
feature_names = X.columns.tolist()

# 4. División de Datos con STRATIFY (Mantiene la proporción de clases)
# Esto ayuda a que y_test tenga representantes de ambas clases
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# 5. Escalado
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 6. Entrenamiento
print("\n7. Entrenamiento del Modelo (Random Forest):")
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

# 7. Evaluación (CORREGIDO: labels=[0, 1] y zero_division=0)
print("\n8. Evaluación del Modelo:")
print(f"Precisión del Modelo: {accuracy_score(y_test, y_pred)}")

# El parámetro labels=[0, 1] asegura que aunque falte una clase en el test, el reporte no falle
print("\nReporte de Clasificación:\n",
      classification_report(y_test, y_pred, labels=[0, 1], target_names=['No Sospechoso', 'Sospechoso'], zero_division=0))

print("\nMatriz de Confusión:\n", confusion_matrix(y_test, y_pred, labels=[0, 1]))

# 8. Análisis de Compras Detectadas
df_test = df_compras.loc[X_test.index].copy()
df_test['Prediccion_Sospechoso'] = y_pred
compras_sospechosas_detectadas = df_test[df_test['Prediccion_Sospechoso'] == 1]

print("\n9. Compras Públicas Detectadas como Sospechosas:")
if not compras_sospechosas_detectadas.empty:
    print(compras_sospechosas_detectadas[['ID_Compra', 'Proveedor', 'Monto_Total', 'Es_Sospechoso', 'Prediccion_Sospechoso']])
else:
    print("No se detectaron compras sospechosas en este conjunto de prueba.")

# 9. Importancia de Características
importancia = pd.DataFrame({'Caracteristica': feature_names, 'Importancia': model.feature_importances_}).sort_values(by='Importancia', ascending=False)
print("\n10. Importancia de las Características:\n", importancia)


7. Entrenamiento del Modelo (Random Forest):

8. Evaluación del Modelo:
Precisión del Modelo: 0.8888888888888888

Reporte de Clasificación:
                precision    recall  f1-score   support

No Sospechoso       0.89      1.00      0.94         8
   Sospechoso       0.00      0.00      0.00         1

     accuracy                           0.89         9
    macro avg       0.44      0.50      0.47         9
 weighted avg       0.79      0.89      0.84         9


Matriz de Confusión:
 [[8 0]
 [1 0]]

9. Compras Públicas Detectadas como Sospechosas:
No se detectaron compras sospechosas en este conjunto de prueba.

10. Importancia de las Características:
                    Caracteristica  Importancia
3  Relacion_Funcionario_Proveedor     0.427323
0                     Monto_Total     0.197475
4                  Pago_Acelerado     0.179320
6              Proceso_Compra_Cod     0.150510
2             Compras_Funcionario     0.043788
5                      Monto_Alto     0.001583
1