In [None]:
# %% [markdown]
# # üö® Detecci√≥n de Anomal√≠as - Transacciones Bancarias
# ---

# %%
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import StandardScaler

# Cargar datos
df = pd.read_csv('data/transacciones_simuladas.csv')
print("‚úÖ Datos cargados para detecci√≥n de anomal√≠as")

# %%
# M√©todo 1: Detecci√≥n por percentiles
def detectar_anomalias_percentiles(df, columna, umbral_superior=0.95):
    """Detecci√≥n simple usando percentiles"""
    limite = df[columna].quantile(umbral_superior)
    anomalias = df[df[columna] > limite]
    return anomalias

# Anomal√≠as en montos
anomalias_monto = detectar_anomalias_percentiles(df, 'monto', 0.95)
print(f"üö® {len(anomalias_monto)} transacciones con montos en el top 5%")

# %%
# Mostrar transacciones sospechosas por monto
print("üî• TRANSACCIONES CON MONTOS ELEVADOS")
print("=" * 50)
sospechosas_monto = anomalias_monto[['nombre_cliente', 'monto', 'tipo_transaccion', 'ciudad']].sort_values('monto', ascending=False)
print(sospechosas_monto.head(10))

# %%
# M√©todo 2: Frecuencia de transacciones por cliente
frecuencia_clientes = df['id_cliente'].value_counts()
clientes_frecuentes = frecuencia_clientes[frecuencia_clientes > frecuencia_clientes.quantile(0.95)]

print(f"üîç {len(clientes_frecuentes)} clientes con alta frecuencia de transacciones")

# %%
# Visualizaci√≥n de montos an√≥malos
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.scatter(range(len(df)), df['monto'], alpha=0.6, label='Transacciones normales')
plt.scatter(anomalias_monto.index, anomalias_monto['monto'], color='red', label='Anomal√≠as')
plt.title('Detecci√≥n Visual de Anomal√≠as en Montos')
plt.xlabel('√çndice de Transacci√≥n')
plt.ylabel('Monto')
plt.legend()

plt.subplot(1, 2, 2)
df['monto'].plot(kind='box')
plt.title('Boxplot - Distribuci√≥n de Montos')

plt.tight_layout()
plt.show()

# %%
# M√©todo 3: Machine Learning - Isolation Forest
def detectar_anomalias_ml(df, columnas_numericas):
    """Detecci√≥n de anomal√≠as usando Isolation Forest"""
    
    # Preparar datos
    X = df[columnas_numericas].fillna(0)
    
    # Escalar caracter√≠sticas
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)
    
    # Entrenar modelo
    iso_forest = IsolationForest(contamination=0.05, random_state=42)
    anomalias = iso_forest.fit_predict(X_scaled)
    
    return anomalias

# Aplicar detecci√≥n ML
if len(df.select_dtypes(include=[np.number]).columns) > 1:
    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    anomalias_ml = detectar_anomalias_ml(df, numeric_cols)
    
    df['anomalia_ml'] = anomalias_ml
    anomalias_ml_df = df[df['anomalia_ml'] == -1]
    
    print(f"ü§ñ ML: {len(anomalias_ml_df)} transacciones identificadas como anomal√≠as")

# %%
# Resumen de detecci√≥n
print("üéØ RESUMEN DE DETECCI√ìN DE ANOMAL√çAS")
print("=" * 50)
print(f"‚Ä¢ Transacciones con montos elevados: {len(anomalias_monto)}")
print(f"‚Ä¢ Clientes con alta frecuencia: {len(clientes_frecuentes)}")

if 'anomalia_ml' in df.columns:
    print(f"‚Ä¢ Anomal√≠as detectadas por ML: {len(anomalias_ml_df)}")
    
    # Mostrar algunas anomal√≠as ML
    print("\nüîç EJEMPLOS DE ANOMAL√çAS DETECTADAS POR ML:")
    print(anomalias_ml_df[['nombre_cliente', 'monto', 'tipo_transaccion', 'ciudad']].head())