In [1]:
!pip install faker

Collecting faker
  Downloading faker-39.0.0-py3-none-any.whl.metadata (16 kB)
Downloading faker-39.0.0-py3-none-any.whl (2.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-39.0.0


###"Simulación de Datos de Corrupción Médica"

In [2]:
import random
from faker import Faker
import numpy as np
import pandas as pd

# 1. Generación de un dataset simulado para corrupción en la industria de la salud
fake = Faker('es_AR')
seed = 42
random.seed(seed)
np.random.seed(seed)
num_registros = 30
data_salud = {
    'ID_Registro': range(1, num_registros + 1),
    'Entidad_Prestadora': [fake.company() for _ in range(num_registros)],
    'Tipo_Servicio': [random.choice(['Consulta Médica', 'Cirugía', 'Estudios Diagnósticos', 'Tratamiento']) for _ in range(num_registros)],
    'Fecha_Servicio': pd.to_datetime([fake.date_this_year() for _ in range(num_registros)]),
    'Medico_Tratante': [fake.name() for _ in range(num_registros)],
    'Paciente': [fake.name() for _ in range(num_registros)],
    'Costo_Declarado': np.round(np.random.uniform(500, 5000, num_registros), 2),  # Corregido: genera un array de la longitud correcta
    'Cobertura_ObraSocial': [random.choice(['Sí', 'No', 'Parcial']) for _ in range(num_registros)],
    'Diagnostico': [random.choice(['Consulta Médica', 'Cirugía', 'Estudios Diagnósticos', 'Tratamiento']) for _ in range(num_registros)],
    'Cirugia': [random.choice(['Sí', 'No']) for _ in range(num_registros)],
    'Es_Sospechoso': np.zeros(num_registros, dtype=int)  # Inicialmente no sospechoso
}
# Actualizar Es_Sospechoso
df_salud = pd.DataFrame(data_salud)

# Actualizar Es_Sospechoso
df_salud['Es_Sospechoso'] = np.where(
    ((df_salud['Cobertura_ObraSocial'] == 'No') & (df_salud['Diagnostico'] == 'Cirugía')) | (df_salud['Costo_Declarado'] > 3000),
    1,
    df_salud['Es_Sospechoso']
)

nombre_archivo_csv = 'df_salud.csv'
df_salud.to_csv(nombre_archivo_csv, index=False)

print(f"El DataFrame se ha guardado exitosamente en el archivo '{nombre_archivo_csv}'")
df_salud

El DataFrame se ha guardado exitosamente en el archivo 'df_salud.csv'


Unnamed: 0,ID_Registro,Entidad_Prestadora,Tipo_Servicio,Fecha_Servicio,Medico_Tratante,Paciente,Costo_Declarado,Cobertura_ObraSocial,Diagnostico,Cirugia,Es_Sospechoso
0,1,"Gonzalez, Cordoba and Torres",Consulta Médica,2025-11-27,Santino Delfina Juarez,Tomas Benjamin Joaquín Arias Cardozo,2185.43,No,Estudios Diagnósticos,Sí,0
1,2,"Rodriguez, Bravo and Ponce",Consulta Médica,2025-01-04,Emiliano Tomas Bustos Quiroga,Juan Pablo Ruiz Dominguez,4778.21,Sí,Tratamiento,No,1
2,3,"Medina, Coronel and Villalba",Estudios Diagnósticos,2025-02-19,Lucía Guzman,Thiago Benjamin Genaro Gomez,3793.97,No,Estudios Diagnósticos,Sí,1
3,4,"Lopez, Lucero and Lopez",Cirugía,2025-03-18,Dr(a). Luz Maria Moyano,Agustin Santiago Diaz,3193.96,No,Cirugía,Sí,1
4,5,Torres-Barrios,Cirugía,2025-11-24,Tomàs Sosa,Juan Pablo Simon Medina Ortiz,1202.08,Parcial,Estudios Diagnósticos,No,0
5,6,Gonzalez-Olivera,Cirugía,2025-02-11,Antonella Fernandez Velazquez,Salvador Guillermina Lucero Suarez,1201.98,No,Estudios Diagnósticos,No,0
6,7,Toledo and Sons,Consulta Médica,2025-03-14,Lucas Ezequiel Thiago Benjamin Gonzalez,Gino Lautaro Ezequiel Olivera Caceres,761.38,Sí,Cirugía,No,0
7,8,Dominguez-Gonzalez,Consulta Médica,2025-01-07,Agostina Rodriguez,Victoria Morena Martinez,4397.79,Parcial,Estudios Diagnósticos,No,1
8,9,Sanchez-Escobar,Tratamiento,2025-12-08,Zoe Thiago Ruiz Godoy,Lucas Benjamin Herrera,3205.02,No,Consulta Médica,Sí,1
9,10,Sosa-Romero,Consulta Médica,2025-09-26,Vicente Sanchez,Ana Paula Juan Ignacio Lopez Castillo,3686.33,Parcial,Cirugía,Sí,1


##Algoritmo Predictivo de Sospecha de Corrupción Médica"

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import SMOTE
import numpy as np
import random
import os

# 1. Carga de datos local (Modificado: sin URL)
nombre_archivo = 'df_salud.csv'

if os.path.exists(nombre_archivo):
    df_salud = pd.read_csv(nombre_archivo)
    print(f"✅ Archivo '{nombre_archivo}' cargado exitosamente desde el almacenamiento local.")
else:
    print(f"❌ Error: El archivo '{nombre_archivo}' no existe. Ejecuta primero el código de generación.")
    # Detenemos la ejecución si no hay datos
    raise FileNotFoundError(f"No se encontró {nombre_archivo}")

# --- EL RESTO DEL CÓDIGO PERMANECE IGUAL ---

# Aseguramos que 'ID_Registro' esté presente
if 'ID_Registro' not in df_salud.columns:
    df_salud['ID_Registro'] = range(1, len(df_salud) + 1)

num_registros = len(df_salud)
num_sospechosos = int(num_registros * 0.1)
sospechoso_indices = np.random.choice(df_salud.index, num_sospechosos, replace=False)
df_salud.loc[sospechoso_indices, 'Es_Sospechoso'] = 1

# Modificaciones de casos sospechosos
for idx in sospechoso_indices:
    if random.random() < 0.4:
        df_salud.loc[idx, 'Costo_Declarado'] *= random.uniform(1.5, 3)
        df_salud.loc[idx, 'Tipo_Servicio'] = random.choice(['Cirugía Mayor', 'Tratamiento Especializado'])
    elif random.random() < 0.3:
        df_salud.loc[idx, 'Costo_Declarado'] = random.uniform(200, 1000)
        df_salud.loc[idx, 'Tipo_Servicio'] = 'Consulta Médica'
        df_salud.loc[idx, 'Diagnostico'] = "Sin diagnóstico específico"
    elif random.random() < 0.3:
        if df_salud.loc[idx, 'Cobertura_ObraSocial'] == 'No':
            df_salud.loc[idx, 'Cobertura_ObraSocial'] = 'Sí'
            df_salud.loc[idx, 'Costo_Declarado'] *= random.uniform(1.1, 1.8)
    if random.random() < 0.2:
        df_salud.loc[idx, 'Entidad_Prestadora'] = random.choice(['Clínica Privada X', 'Centro Médico Y', 'Laboratorio Z'])

# Ingeniería de características
umbral_alto_costo = df_salud['Costo_Declarado'].quantile(0.9)
df_salud['Costo_Alto'] = (df_salud['Costo_Declarado'] > umbral_alto_costo).astype(int)
servicios_riesgo = ['Cirugía', 'Tratamiento']
df_salud['Servicio_Riesgo'] = df_salud['Tipo_Servicio'].apply(lambda x: 1 if x in servicios_riesgo else 0)
df_salud['Cobertura_Completa'] = df_salud['Cobertura_ObraSocial'].apply(lambda x: 1 if x == 'Sí' else 0)

le_entidad = LabelEncoder()
df_salud['Entidad_Prestadora_Cod'] = le_entidad.fit_transform(df_salud['Entidad_Prestadora'])
le_tipo_servicio = LabelEncoder()
df_salud['Tipo_Servicio_Cod'] = le_tipo_servicio.fit_transform(df_salud['Tipo_Servicio'])
le_cobertura = LabelEncoder()
df_salud['Cobertura_ObraSocial_Cod'] = le_cobertura.fit_transform(df_salud['Cobertura_ObraSocial'])

features = ['Costo_Declarado', 'Cobertura_ObraSocial_Cod', 'Costo_Alto', 'Servicio_Riesgo', 'Cobertura_Completa', 'Entidad_Prestadora_Cod', 'Tipo_Servicio_Cod']
X = df_salud[features]
y = df_salud['Es_Sospechoso']

# Manejo de valores faltantes
imputer = SimpleImputer(strategy='median')
X = imputer.fit_transform(X)

# Balanceo de datos
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.3, random_state=42)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Ajuste de hiperparámetros y validación cruzada
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}
model = RandomForestClassifier(random_state=42)
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='accuracy')
grid_search.fit(X_train_scaled, y_train)
best_model = grid_search.best_estimator_

scores = cross_val_score(best_model, X_train_scaled, y_train, cv=5)
print(f"Puntuaciones de validación cruzada: {scores}")
print(f"Precisión media de validación cruzada: {np.mean(scores)}")

y_pred = best_model.predict(X_test_scaled)
print("\nEvaluación del Modelo:")
print("Precisión del Modelo:", accuracy_score(y_test, y_pred))
print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred, target_names=['No Sospechoso', 'Sospechoso']))
print("\nMatriz de Confusión:\n", confusion_matrix(y_test, y_pred))

# Modificación clave aquí: Usar solo los índices originales antes de SMOTE
original_indices_test = df_salud.index.intersection(y_test.index)
df_test = df_salud.loc[original_indices_test].copy()
df_test['Prediccion_Sospechoso'] = y_pred[:len(original_indices_test)]

registros_sospechosos = df_test[df_test['Prediccion_Sospechoso'] == 1][['ID_Registro', 'Entidad_Prestadora', 'Tipo_Servicio', 'Costo_Declarado', 'Cobertura_ObraSocial', 'Diagnostico', 'Es_Sospechoso', 'Prediccion_Sospechoso']]
print("\nRegistros Sospechosos:")
print(registros_sospechosos)

if hasattr(best_model, 'feature_importances_'):
    importancia_caracteristicas = pd.DataFrame({'Caracteristica': features, 'Importancia': best_model.feature_importances_})
    print("\nImportancia de Características:")
    print(importancia_caracteristicas.sort_values(by='Importancia', ascending=False))

✅ Archivo 'df_salud.csv' cargado exitosamente desde el almacenamiento local.
Puntuaciones de validación cruzada: [1.  1.  0.5 1.  1. ]
Precisión media de validación cruzada: 0.9

Evaluación del Modelo:
Precisión del Modelo: 0.9

Reporte de Clasificación:
                precision    recall  f1-score   support

No Sospechoso       0.80      1.00      0.89         4
   Sospechoso       1.00      0.83      0.91         6

     accuracy                           0.90        10
    macro avg       0.90      0.92      0.90        10
 weighted avg       0.92      0.90      0.90        10


Matriz de Confusión:
 [[4 0]
 [1 5]]

Registros Sospechosos:
    ID_Registro           Entidad_Prestadora          Tipo_Servicio  \
15           16                Olivera-Lopez        Consulta Médica   
17           18                Sanchez Group                Cirugía   
24           25                  Miranda Ltd  Estudios Diagnósticos   
25           26                   Romero Ltd                Cirug