# ¿Cómo funciona la detección de fraudes con KMeans?

El fraude suele representar solo una pequeña proporción del total de datos (muy **imbalanced dataset**), pero tiene características distintas al comportamiento normal. KMeans ayuda a:

- Agrupar transacciones similares.
- Detectar grupos con comportamiento inusual.
- Identificar outliers que pueden corresponder a fraudes.
- Segmentar usuarios o transacciones por riesgo.



## Ejemplo Práctico: Detección de fraudes en transacciones financieras

### 1. **Datos disponibles**

Supongamos que tenemos un conjunto de transacciones con las siguientes variables:

| transaccion_id | monto | hora_del_dia | ubicacion | dispositivo_usado | cliente_id | es_fraude |
|----------------|-------|---------------|-----------|--------------------|------------|-----------|
| T001           | 50    | 14            | Madrid    | Tarjeta física     | C1001      | 0         |
| T002           | 3000  | 3             | Moscú     | App móvil          | C1002      | 1         |

> Nota: En este ejemplo, `es_fraude` es solo para validación posterior; **no se usa en KMeans**, ya que es no supervisado.



### 2. **Preparación de datos**

```python
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
import pandas as pd

# Seleccionamos variables numéricas relevantes
X = df[['monto', 'hora_del_dia']]

# Escalamos los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Aplicamos KMeans
kmeans = KMeans(n_clusters=4, random_state=42)
df['cluster'] = kmeans.labels_
```



### 3. **Análisis de clusters**

```python
# Resumen estadístico por cluster
cluster_summary = df.groupby('cluster').agg(
    count=('transaccion_id', 'count'),
    promedio_monto=('monto', 'mean'),
    promedio_hora=('hora_del_dia', 'mean'),
    tasa_fraude=('es_fraude', 'mean')  # Solo si tienes etiquetas reales
)
print(cluster_summary)
```



### 4. **Interpretación de resultados**

Imagina que obtienes esta salida:

| Cluster | Count | Promedio Monto | Promedio Hora | Tasa de fraude |
|--------|-------|------------------|----------------|----------------|
| 0      | 800   | 70 €             | 13 h           | 0.02%          |
| 1      | 150   | 400 €            | 22 h           | 0.67%          |
| 2      | 40    | 2500 €           | 3 h            | 45%            |
| 3      | 10    | 5000 €           | 1 h            | 90%            |

- **Cluster 3**: Muy alto monto, fuera de horas normales → muy probablemente fraude.
- **Cluster 2**: Similar, pero con menos intensidad.
- Estos clusters te ayudan a **priorizar auditorías** o **activar alertas automáticas**.



### 5. **Visualización de clusters (opcional)**

```python
import matplotlib.pyplot as plt

plt.scatter(df['monto'], df['hora_del_dia'], c=df['cluster'], cmap='viridis', s=10)
plt.xlabel("Monto")
plt.ylabel("Hora del día")
plt.title("Clusters de transacciones")
plt.show()
```



## Casos reales donde KMeans ayuda a detectar fraudes

| Sector | Aplicación | Variable clave |
|--------|------------|----------------|
| Banca | Transacciones sospechosas | Monto, ubicación, hora |
| Seguros | Siniestros falsos | Número de reclamaciones, monto, frecuencia |
| E-commerce | Compras fraudulentas | IP, ubicación, dispositivo, historial |
| Telecomunicaciones | Robo de identidad | Cambio brusco en uso de línea, llamadas internacionales |
| Salud | Facturación médica falsa | Cantidad de servicios, montos, médicos involucrados |



## Limitaciones de KMeans para detección de fraudes

- **No es predictivo**: No predice si una nueva transacción es fraude.
- **Sensible a escala**: Es crucial escalar las variables.
- **Número de clusters arbitrario**: Requiere ajuste manual (ej.: usar el método del codo).
- **Puede fallar con alta dimensionalidad**: Mejor usar PCA antes de aplicar KMeans.



## Consejo práctico:

> Usa **KMeans como una herramienta exploratoria** para entender cómo se distribuyen tus transacciones. Luego, puedes usar modelos supervisados (como Random Forest, XGBoost) o técnicas de detección de anomalías (como Isolation Forest, LOF) para construir sistemas más robustos de detección de fraudes.



## Conclusión

✅ **KMeans se puede usar para detectar fraudes**, especialmente para:
- Descubrir patrones ocultos en transacciones.
- Identificar comportamientos anómalos o atípicos.
- Segmentar usuarios o transacciones por nivel de riesgo.

Es una herramienta poderosa dentro de un flujo de trabajo más amplio de detección de fraudes.

