####** Generador de datos simulados para detectar irregularidades en transacciones de caja**. Su objetivo es crear un archivo CSV con movimientos financieros donde se etiqueta automáticamente un comportamiento sospechoso basándose en el estado de la operación.

In [1]:
!pip install faker

Collecting faker
  Downloading faker-39.0.0-py3-none-any.whl.metadata (16 kB)
Downloading faker-39.0.0-py3-none-any.whl (2.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m16.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-39.0.0


In [3]:
import numpy as np
import pandas as pd
from faker import Faker
import random
seed = 42
np.random.seed(seed)
random.seed(seed)

# 1. Generación de un dataset simulado para fraude interno en caja
fake = Faker('es_AR')

num_transacciones = 30
# Genera montos aleatorios con dos decimales y en el rango especificado
montos = np.random.uniform(1000, 10000, num_transacciones)  # Rangos ajustados

# Formatea los montos a dos decimales
montos_formateados = ["{:.2f}".format(monto) for monto in montos]

# Genera los estados y luego usa np.where para marcar Es_Fraude
estados = [random.choice(['Completado', 'Pendiente', 'Cancelado']) for _ in range(num_transacciones)]

data_caja = {
    'ID_Transaccion': range(1, num_transacciones + 1),
    'ID_Cajero': [random.randint(201, 215) for _ in range(num_transacciones)],
    'Fecha_Hora': pd.to_datetime([fake.date_this_year() for _ in range(num_transacciones)]),
    'Tipo_Transaccion': [random.choice(['Venta', 'Devolución', 'Reintegro', 'Ajuste', 'Fondo Fijo']) for _ in range(num_transacciones)],
    'Monto': montos_formateados,
    'Descripcion': [random.choice(['Venta', 'Devolución', 'Reintegro', 'Ajuste', 'Fondo Fijo']) for _ in range(num_transacciones)],
    'Metodo_Pago': [random.choice(['Efectivo', 'Tarjeta Débito', 'Tarjeta Crédito', 'Cheque', 'transferencia']) for _ in range(num_transacciones)],
    'Estado': estados,  # Usa la lista generada
    'Es_Fraude': np.where(np.array(estados) == 'Pendiente', 1, 0)  # Marca 'Pendiente' como fraude
}
df_caja = pd.DataFrame(data_caja)
df_caja.head()
nombre_archivo_csv = 'df_caja.csv'
df_caja.to_csv(nombre_archivo_csv, index=False)

print(f"El DataFrame se ha guardado exitosamente en el archivo '{nombre_archivo_csv}'")
df_caja

El DataFrame se ha guardado exitosamente en el archivo 'df_caja.csv'


Unnamed: 0,ID_Transaccion,ID_Cajero,Fecha_Hora,Tipo_Transaccion,Monto,Descripcion,Metodo_Pago,Estado,Es_Fraude
0,1,207,2025-11-19,Ajuste,4370.86,Fondo Fijo,transferencia,Cancelado,0
1,2,204,2025-10-31,Fondo Fijo,9556.43,Devolución,Cheque,Completado,0
2,3,208,2025-09-05,Venta,7587.95,Devolución,transferencia,Completado,0
3,4,210,2025-11-04,Ajuste,6387.93,Ajuste,Cheque,Cancelado,0
4,5,205,2025-02-24,Venta,2404.17,Ajuste,Tarjeta Crédito,Pendiente,1
5,6,213,2025-09-09,Fondo Fijo,2403.95,Reintegro,Tarjeta Débito,Completado,0
6,7,214,2025-01-27,Reintegro,1522.75,Fondo Fijo,Tarjeta Débito,Completado,0
7,8,201,2025-08-30,Fondo Fijo,8795.59,Devolución,transferencia,Completado,0
8,9,213,2025-09-16,Reintegro,6410.04,Reintegro,Cheque,Cancelado,0
9,10,213,2025-10-21,Fondo Fijo,7372.65,Venta,Efectivo,Completado,0


### Algoritmo de deteccion de irregularidades de caja

In [4]:
import pandas as pd
from faker import Faker
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
import numpy as np
import random
import warnings
warnings.filterwarnings('ignore')


# 1. Generación de un dataset simulado para fraude interno en caja
fake = Faker('es_AR')

num_transacciones = 150
import pandas as pd
import os

# 1. Nombre del archivo generado en la sesión
nombre_archivo = 'df_caja.csv'

try:
    # Intentar cargar el archivo localmente primero
    if os.path.exists(nombre_archivo):
        df_caja = pd.read_csv(nombre_archivo)
        print(f"✅ Archivo local '{nombre_archivo}' cargado con éxito.")
    else:
        # Si no existe localmente, descargarlo desde el repositorio de GitHub
        print("⚠️ Archivo local no encontrado. Accediendo a la versión de GitHub...")
        url = "https://raw.githubusercontent.com/Viny2030/Libro_Algoritmos_contra_fraude_corrupcion/refs/heads/main/df_caja.csv"
        df_caja = pd.read_csv(url)
        print("✅ Archivo cargado desde URL remota.")

    # 2. Asegurar el formato de las columnas clave
    df_caja['Fecha_Hora'] = pd.to_datetime(df_caja['Fecha_Hora'])
    # Convertimos monto a numérico por si se cargó como texto
    df_caja['Monto'] = pd.to_numeric(df_caja['Monto'], errors='coerce')

except Exception as e:
    print(f"❌ Error al cargar los datos: {e}")

# 3. Mostrar resumen
if 'df_caja' in locals():
    print(f"Total de registros: {len(df_caja)}")
    display(df_caja.head())
df_caja

# 2. Inserción de Fraudes Simulados
num_fraudes = int(num_transacciones * 0.08) # 8% de transacciones fraudulentas
fraude_indices = np.random.choice(df_caja.index, num_fraudes, replace=False)
df_caja.loc[fraude_indices, 'Es_Fraude'] = 1

# Modificaciones para simular fraude (ejemplos)
for idx in fraude_indices:
    if random.random() < 0.4: # 40% de casos: Monto incorrecto o manipulado
        df_caja.loc[idx, 'Monto'] *= random.uniform(1.5, 3) # Inflación o manipulación
        if df_caja.loc[idx, 'Tipo_Transaccion'] == 'Venta':
            df_caja.loc[idx, 'Descripcion'] = f"Venta ficticia de {fake.word()}"
        elif df_caja.loc[idx, 'Tipo_Transaccion'] == 'Devolución':
            df_caja.loc[idx, 'Monto'] *= -1 # Simular devolución fraudulenta con monto erróneo
    elif random.random() < 0.3: # 30% de casos: Transacciones inusuales o no justificadas
        df_caja.loc[idx, 'Tipo_Transaccion'] = 'Ajuste'
        df_caja.loc[idx, 'Monto'] = random.uniform(500, 2000)
        df_caja.loc[idx, 'Descripcion'] = "Ajuste de caja no detallado"
    else: # 30% de casos: Manipulación de método de pago o estado
        if random.random() < 0.5:
            df_caja.loc[idx, 'Metodo_Pago'] = 'Efectivo' # Preferido para fraude
        df_caja.loc[idx, 'Estado'] = 'Pendiente' # Para ocultar o manipular

# 3. Ingeniería de Características
# a) Información temporal
# a) Información temporal
df_caja['Fecha_Hora'] = pd.to_datetime(df_caja['Fecha_Hora']) # Convert 'Fecha_Hora' to datetime
df_caja['Dia_Semana'] = df_caja['Fecha_Hora'].dt.dayofweek # 0: Lunes, 6: Domingo
df_caja['Hora'] = df_caja['Fecha_Hora'].dt.hour
df_caja['Es_Fin_Semana'] = df_caja['Fecha_Hora'].dt.dayofweek.isin([5, 6]).astype(int) # 1 si es sábado o domingo

# b) Codificación de variables categóricas
le_tipo = LabelEncoder()
df_caja['Tipo_Transaccion_Cod'] = le_tipo.fit_transform(df_caja['Tipo_Transaccion'])

le_metodo = LabelEncoder()
df_caja['Metodo_Pago_Cod'] = le_metodo.fit_transform(df_caja['Metodo_Pago'])

le_estado = LabelEncoder()
df_caja['Estado_Cod'] = le_estado.fit_transform(df_caja['Estado'])

# c) Análisis de Descripción (Simplificado - Palabras Clave)
def analizar_descripcion(descripcion):
    if isinstance(descripcion, str):
        if any(keyword in descripcion.lower() for keyword in ['faltante', 'error', 'ajuste', 'no detallado']):
            return 1
    return 0
df_caja['Descripcion_Sospechosa'] = df_caja['Descripcion'].apply(analizar_descripcion)

# d) Frecuencia de Transacciones por Cajero
frecuencia_cajero = df_caja.groupby('ID_Cajero').size().reset_index(name='Frecuencia_Transacciones')
df_caja = pd.merge(df_caja, frecuencia_cajero, on='ID_Cajero', how='left')

# e) Monto Relativo (Ejemplo: Montos muy altos o negativos inusuales)
df_caja['Monto_Absoluto'] = df_caja['Monto'].abs()
# Podríamos definir umbrales para identificar montos extremos

# 4. Selección de Características y Preparación de Datos
features = ['Monto', 'Tipo_Transaccion_Cod', 'Metodo_Pago_Cod', 'Estado_Cod',
            'Dia_Semana', 'Hora', 'Es_Fin_Semana', 'Descripcion_Sospechosa',
            'Frecuencia_Transacciones', 'Monto_Absoluto']
X = df_caja[features]
y = df_caja['Es_Fraude']

# Manejo de valores faltantes (si los hubiera)
X = X.fillna(0)

# 5. División de Datos en Entrenamiento y Prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 6. Escalado de Características (para algunos modelos)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 7. Entrenamiento del Modelo de Clasificación (Random Forest)
print("\n7. Entrenamiento del Modelo de Detección de Fraude en Caja (Random Forest):")
model = RandomForestClassifier(random_state=42)
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

# 8. Evaluación del Modelo
print("\n8. Evaluación del Modelo:")
print("Precisión del Modelo:", accuracy_score(y_test, y_pred))
print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred, target_names=['No Fraude', 'Fraude']))
print("\nMatriz de Confusión:\n", confusion_matrix(y_test, y_pred))

# 9. Análisis de las Transacciones Detectadas como Fraudulentas
df_test = df_caja.loc[X_test.index].copy()
df_test['Prediccion_Fraude'] = y_pred
transacciones_fraudulentas_detectadas = df_test[df_test['Prediccion_Fraude'] == 1][['ID_Cajero', 'Fecha_Hora', 'Tipo_Transaccion', 'Monto', 'Descripcion', 'Metodo_Pago', 'Estado', 'Es_Fraude', 'Prediccion_Fraude']]
print("\n9. Transacciones de Caja Detectadas como Fraudulentas:")
print(transacciones_fraudulentas_detectadas)

# 10. Análisis de Importancia de Características
if hasattr(model, 'feature_importances_'):
    importancia_caracteristicas = pd.DataFrame({'Caracteristica': features, 'Importancia': model.feature_importances_})
    importancia_caracteristicas = importancia_caracteristicas.sort_values(by='Importancia', ascending=False)
    print("\n10. Importancia de las Características (Random Forest):")
    print(importancia_caracteristicas)

✅ Archivo local 'df_caja.csv' cargado con éxito.
Total de registros: 30


Unnamed: 0,ID_Transaccion,ID_Cajero,Fecha_Hora,Tipo_Transaccion,Monto,Descripcion,Metodo_Pago,Estado,Es_Fraude
0,1,207,2025-11-19,Ajuste,4370.86,Fondo Fijo,transferencia,Cancelado,0
1,2,204,2025-10-31,Fondo Fijo,9556.43,Devolución,Cheque,Completado,0
2,3,208,2025-09-05,Venta,7587.95,Devolución,transferencia,Completado,0
3,4,210,2025-11-04,Ajuste,6387.93,Ajuste,Cheque,Cancelado,0
4,5,205,2025-02-24,Venta,2404.17,Ajuste,Tarjeta Crédito,Pendiente,1



7. Entrenamiento del Modelo de Detección de Fraude en Caja (Random Forest):

8. Evaluación del Modelo:
Precisión del Modelo: 0.6666666666666666

Reporte de Clasificación:
               precision    recall  f1-score   support

   No Fraude       0.62      1.00      0.77         5
      Fraude       1.00      0.25      0.40         4

    accuracy                           0.67         9
   macro avg       0.81      0.62      0.58         9
weighted avg       0.79      0.67      0.61         9


Matriz de Confusión:
 [[5 0]
 [3 1]]

9. Transacciones de Caja Detectadas como Fraudulentas:
    ID_Cajero Fecha_Hora Tipo_Transaccion       Monto  \
27        205 2025-04-10           Ajuste  1437.95029   

                    Descripcion      Metodo_Pago     Estado  Es_Fraude  \
27  Ajuste de caja no detallado  Tarjeta Crédito  Cancelado          1   

    Prediccion_Fraude  
27                  1  

10. Importancia de las Características (Random Forest):
             Caracteristica  Importan