#### Simulación de Datos: Crea un conjunto de 30 registros de contratos estatales con proveedores, organismos y montos ficticios.

In [2]:
!pip install faker

Collecting faker
  Downloading faker-39.0.0-py3-none-any.whl.metadata (16 kB)
Downloading faker-39.0.0-py3-none-any.whl (2.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m22.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-39.0.0


In [4]:
import numpy as np
import pandas as pd
from faker import Faker
import random

# 1. Generación de un dataset simulado para contrataciones públicas
fake = Faker('es_AR')
seed = 42
np.random.seed(seed)
random.seed(seed)
num_contratos = 30
# Genera montos aleatorios con dos decimales y en el rango especificado
montos = np.random.uniform(1000, 10000, num_contratos)  # Rangos ajustados

# Formatea los montos a dos decimales
montos_formateados = ["{:.2f}".format(monto) for monto in montos]

# Genera Tipo_Contrato y Proceso_Licitacion primero para usar en la lógica de Es_Sospechoso
tipos_contrato = [random.choice(['Obra Pública', 'Suministro', 'Servicios', 'Consultoría']) for _ in range(num_contratos)]
procesos_licitacion = [random.choice(['Pública', 'Privada', 'Directa']) for _ in range(num_contratos)]

data_contratos = {
    'ID_Contrato': range(1, num_contratos + 1),
    'Organismo': [fake.company() for _ in range(num_contratos)],
    'Proveedor': [fake.company() for _ in range(num_contratos)],
    'Fecha_Inicio': pd.to_datetime([fake.date_this_year() for _ in range(num_contratos)]),
    'Fecha_Fin': pd.to_datetime([fake.date_this_year() + pd.Timedelta(days=random.randint(30, 365)) for _ in range(num_contratos)]),
    'Tipo_Contrato': tipos_contrato, #Usamos la lista creada
    'Monto': montos_formateados,
    'Area_Solicitante': [random.choice(['Infraestructura', 'Salud', 'Educación', 'Tecnología']) for _ in range(num_contratos)],
    'Proceso_Licitacion': procesos_licitacion, #Usamos la lista creada
    'Es_Sospechoso': np.where(np.array(np.array(procesos_licitacion) == 'Directa'), 1, 0) # Añadimos nuestra lógica
}

df_contratos = pd.DataFrame(data_contratos)
df_contratos
nombre_archivo_csv = 'df_contratos.csv'
df_contratos.to_csv(nombre_archivo_csv, index=False)

print(f"El DataFrame se ha guardado exitosamente en el archivo '{nombre_archivo_csv}'")
df_contratos

El DataFrame se ha guardado exitosamente en el archivo 'df_contratos.csv'


Unnamed: 0,ID_Contrato,Organismo,Proveedor,Fecha_Inicio,Fecha_Fin,Tipo_Contrato,Monto,Area_Solicitante,Proceso_Licitacion,Es_Sospechoso
0,1,Figueroa-Alvarez,Rodriguez-Gomez,2025-12-03,2025-09-16,Obra Pública,4370.86,Infraestructura,Privada,0
1,2,"Diaz, Romero and Cruz","Vera, Bustos and Quiroga",2025-08-26,2026-08-29,Obra Pública,9556.43,Salud,Pública,0
2,3,Lopez PLC,Gonzalez Group,2025-02-12,2026-11-11,Servicios,7587.95,Educación,Privada,0
3,4,Rivero LLC,"Herrera, Fernandez and Maldonado",2025-12-09,2025-09-03,Suministro,6387.93,Salud,Privada,0
4,5,"Perez, Perez and Gimenez",Moyano-Diaz,2025-04-30,2026-02-23,Suministro,2404.17,Tecnología,Directa,1
5,6,Aguero Ltd,Lopez-Molina,2025-04-02,2025-10-17,Suministro,2403.95,Tecnología,Privada,0
6,7,Pereyra PLC,Lopez-Valdez,2025-10-05,2025-11-06,Obra Pública,1522.75,Tecnología,Pública,0
7,8,"Navarro, Martinez and Vega",Lopez Ltd,2025-06-03,2025-11-04,Obra Pública,8795.59,Salud,Directa,1
8,9,"Alvarez, Quiroga and Acosta",Fernandez Inc,2025-05-14,2026-01-03,Consultoría,6410.04,Educación,Privada,0
9,10,Maldonado-Ramirez,Fernandez PLC,2025-06-24,2026-01-31,Obra Pública,7372.65,Salud,Directa,1


##Algoritmos para el Análisis de Datos en la Administración Pública ** **texto en negrita** texto en negrita 6.1 Detección de Patrones de Corrupción en Contrataciones Públicas

In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
import numpy as np
import random
import warnings

# Suprimir advertencias innecesarias
warnings.filterwarnings("ignore")

# 1. Carga del archivo local
nombre_archivo = 'df_contratos.csv'

try:
    df_contratos = pd.read_csv(nombre_archivo)

    # Preprocesamiento esencial
    df_contratos['Fecha_Inicio'] = pd.to_datetime(df_contratos['Fecha_Inicio'])
    df_contratos['Fecha_Fin'] = pd.to_datetime(df_contratos['Fecha_Fin'])
    df_contratos['Monto'] = pd.to_numeric(df_contratos['Monto'], errors='coerce')

    print(f"✅ Archivo '{nombre_archivo}' cargado con éxito.")

except FileNotFoundError:
    print(f"❌ Error: No se encontró el archivo '{nombre_archivo}'.")
    df_contratos = None

if df_contratos is not None and not df_contratos.empty:
    # 2. Inserción de Casos Sospechosos Simulados
    num_contratos = len(df_contratos)
    df_contratos['Es_Sospechoso'] = 0
    # Forzamos un número mínimo de sospechosos para evitar el error de clase única
    num_sospechosos = max(5, int(num_contratos * 0.2))
    sospechoso_indices = np.random.choice(df_contratos.index, num_sospechosos, replace=False)
    df_contratos.loc[sospechoso_indices, 'Es_Sospechoso'] = 1

    # 3. Ingeniería de Características
    df_contratos['Duracion_Dias'] = (df_contratos['Fecha_Fin'] - df_contratos['Fecha_Inicio']).dt.days

    columnas_cat = ['Organismo', 'Proveedor', 'Tipo_Contrato', 'Area_Solicitante', 'Proceso_Licitacion']
    for col in columnas_cat:
        le = LabelEncoder()
        df_contratos[col + '_Cod'] = le.fit_transform(df_contratos[col].astype(str))

    # Análisis de Monto Alto y Concentración
    umbral_alto = df_contratos['Monto'].quantile(0.90)
    df_contratos['Monto_Alto'] = (df_contratos['Monto'] > umbral_alto).astype(int)

    # 4. Preparación y Entrenamiento
    features = ['Duracion_Dias', 'Organismo_Cod', 'Proveedor_Cod', 'Tipo_Contrato_Cod',
                'Area_Solicitante_Cod', 'Proceso_Licitacion_Cod', 'Monto', 'Monto_Alto']

    X = df_contratos[features].fillna(0)
    y = df_contratos['Es_Sospechoso']

    # Usamos 'stratify=y' para asegurar que haya sospechosos tanto en entrenamiento como en prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    print("\n--- Entrenamiento del Modelo (Detector MSI-DPF) ---")
    model = RandomForestClassifier(random_state=42)
    model.fit(X_train_scaled, y_train)
    y_pred = model.predict(X_test_scaled)

    # 8. Evaluación con ajuste dinámico de nombres de clases
    print("\nEvaluación del Modelo:")
    print(f"Precisión General: {accuracy_score(y_test, y_pred)}")

    # Lógica para evitar el ValueError: Determina nombres según las clases presentes en y_test
    clases_presentes = np.unique(y_test)
    nombres_clases = ['No Sospechoso', 'Sospechoso']
    target_names = [nombres_clases[i] for i in clases_presentes]

    print("\nReporte de Clasificación (Corregido):")
    print(classification_report(y_test, y_pred, target_names=target_names, zero_division=0))

    # 9. Conclusiones Conceptuales (Sin imprimir el dataset completo)
    print("\n--- Análisis de Riesgos Corruptivos ---")

    organismos_riesgo = df_contratos.groupby('Organismo')['Es_Sospechoso'].sum().reset_index(name='Total_Sospechosos')
    organismos_riesgo = organismos_riesgo[organismos_riesgo['Total_Sospechosos'] > 1]

    if not organismos_riesgo.empty:
        print("\nOrganismos con contratos sospechosos detectados:")
        print(organismos_riesgo.sort_values(by='Total_Sospechosos', ascending=False).to_string(index=False))
    else:
        print("\nNo se encontraron organismos con un número significativo de contratos sospechosos en este ejemplo.")

✅ Archivo 'df_contratos.csv' cargado con éxito.

--- Entrenamiento del Modelo (Detector MSI-DPF) ---

Evaluación del Modelo:
Precisión General: 0.7777777777777778

Reporte de Clasificación (Corregido):
               precision    recall  f1-score   support

No Sospechoso       0.78      1.00      0.88         7
   Sospechoso       0.00      0.00      0.00         2

     accuracy                           0.78         9
    macro avg       0.39      0.50      0.44         9
 weighted avg       0.60      0.78      0.68         9


--- Análisis de Riesgos Corruptivos ---

No se encontraron organismos con un número significativo de contratos sospechosos en este ejemplo.
