# Detecci√≥n de patrones de fraude en transacciones

Una empresa fintech quiere analizar transacciones bancarias para detectar posibles fraudes.
Cada transacci√≥n tiene:

* Monto

* Ubicaci√≥n

* Hora

* Categor√≠a del gasto

* Descripci√≥n opcional

Tu tarea es usar embeddings vectoriales para detectar transacciones sospechosas, comparando una transacci√≥n nueva con patrones hist√≥ricos.

## Objetivo

1. Convertir transacciones hist√≥ricas en vectores (combinar atributos num√©ricos y textuales).

2. Guardarlas en una base vectorial.

3. Evaluar nuevas transacciones comparando su vector con los hist√≥ricos.

4. Indicar cu√°les son potencialmente sospechosas, bas√°ndose en la similitud con fraudes previos.

In [1]:
#1. Convertir transacciones hist√≥ricas en vectores (combinar atributos num√©ricos y textuales)

# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
import chromadb

# Cargar el dataset de transacciones
df = pd.read_csv('Data/transacciones.csv')
print(df.head(10))
print(f"\nTotal de transacciones: {len(df)}")
print(f"Fraudes detectados: {df['es_fraude'].sum()}")
print(f"Transacciones leg√≠timas: {(df['es_fraude'] == 0).sum()}")

  from .autonotebook import tqdm as notebook_tqdm


   id  monto ubicacion   hora        categoria  \
0   1   5000      Lima  23:45     Electr√≥nicos   
1   2    200      Lima  10:30           Comida   
2   3   4500     Cusco  00:15     Electr√≥nicos   
3   4    150  Arequipa  13:20       Transporte   
4   5   6000      Lima  22:50     Electr√≥nicos   
5   6     50     Cusco  08:15           Comida   
6   7   7000      Lima  23:10     Electr√≥nicos   
7   8    300  Arequipa  09:45       Transporte   
8   9   1200      Lima  20:30  Entretenimiento   
9  10   4800     Cusco  00:05     Electr√≥nicos   

                       descripcion  es_fraude  
0      Compra online internacional          1  
1            Desayuno en cafeter√≠a          0  
2                  Compra nocturna          1  
3                      Taxi urbano          0  
4         Pedido online alto valor          1  
5                       Caf√© y pan          0  
6   Orden de gadgets internacional          1  
7                             Uber          0  
8         

In [2]:
#2. Crear embeddings combinando informaci√≥n num√©rica y textual

# Inicializar el modelo de embeddings para texto
model = SentenceTransformer('all-MiniLM-L6-v2')

# Estrategia: Combinar datos num√©ricos y textuales en un texto descriptivo
# Esto permite capturar patrones como: "compra nocturna + electr√≥nicos + monto alto"
def crear_texto_transaccion(row):
    """Convierte una transacci√≥n en texto descriptivo para embedding"""
    return f"""Transacci√≥n de {row['monto']} soles 
    en {row['ubicacion']} 
    a las {row['hora']} 
    categor√≠a {row['categoria']} 
    {row['descripcion']}"""

# Generar textos descriptivos
df['texto_completo'] = df.apply(crear_texto_transaccion, axis=1)

# Crear embeddings del texto completo
embeddings = model.encode(df['texto_completo'].tolist())
df['embedding'] = embeddings.tolist()

print(f"Embeddings generados: {len(embeddings)} vectores de dimensi√≥n {embeddings.shape[1]}")
print(f"\nEjemplo de texto generado:\n{df['texto_completo'].iloc[0]}")

Embeddings generados: 20 vectores de dimensi√≥n 384

Ejemplo de texto generado:
Transacci√≥n de 5000 soles 
    en Lima 
    a las 23:45 
    categor√≠a Electr√≥nicos 
    Compra online internacional


In [3]:
#3. Almacenar en base de datos vectorial ChromaDB

# Crear cliente y colecci√≥n
client = chromadb.Client()
collection = client.create_collection(
    name="transacciones_fraude",
    metadata={"description": "Transacciones hist√≥ricas para detecci√≥n de fraude"}
)

# Insertar todas las transacciones con sus metadatos
for idx, row in df.iterrows():
    collection.add(
        documents=[row['texto_completo']],
        embeddings=[row['embedding']],
        metadatas=[{
            'id': int(row['id']),
            'monto': float(row['monto']),
            'ubicacion': row['ubicacion'],
            'hora': row['hora'],
            'categoria': row['categoria'],
            'descripcion': row['descripcion'],
            'es_fraude': int(row['es_fraude'])
        }],
        ids=[str(row['id'])]
    )

In [4]:
#4. Evaluar nuevas transacciones y detectar fraudes

def analizar_transaccion(monto, ubicacion, hora, categoria, descripcion, n_similares=5):
    """
    Analiza una nueva transacci√≥n compar√°ndola con el hist√≥rico
    
    Par√°metros:
    - monto: cantidad de la transacci√≥n
    - ubicacion: ciudad/lugar
    - hora: hora de la transacci√≥n (formato HH:MM)
    - categoria: tipo de gasto
    - descripcion: descripci√≥n adicional
    - n_similares: n√∫mero de transacciones similares a buscar
    
    Retorna:
    - nivel_riesgo: "ALTO", "MEDIO", "BAJO"
    - score_fraude: porcentaje de fraudes en transacciones similares
    - transacciones_similares: lista de casos parecidos
    """
    
    # 1. Crear texto descriptivo de la nueva transacci√≥n
    texto_nueva = f"""Transacci√≥n de {monto} soles 
    en {ubicacion} 
    a las {hora} 
    categor√≠a {categoria} 
    {descripcion}"""
    
    # 2. Generar embedding
    embedding_nueva = model.encode([texto_nueva])
    
    # 3. Buscar transacciones similares en el hist√≥rico
    results = collection.query(
        query_embeddings=embedding_nueva.tolist(),
        n_results=n_similares
    )
    
    # 4. Analizar los resultados
    transacciones_similares = []
    fraudes_encontrados = 0
    
    print(f"\n{'='*80}")
    print(f"AN√ÅLISIS DE NUEVA TRANSACCI√ìN")
    print(f"{'='*80}")
    print(f"Monto: ${monto}")
    print(f"Ubicaci√≥n: {ubicacion}")
    print(f"Hora: {hora}")
    print(f"Categor√≠a: {categoria}")
    print(f"Descripci√≥n: {descripcion}")
    print(f"\n{'‚îÄ'*80}")
    print(f"TRANSACCIONES SIMILARES EN EL HIST√ìRICO:")
    print(f"{'‚îÄ'*80}\n")
    
    for i in range(len(results['ids'][0])):
        metadata = results['metadatas'][0][i]
        es_fraude = metadata['es_fraude']
        fraudes_encontrados += es_fraude
        
        transacciones_similares.append({
            'id': metadata['id'],
            'monto': metadata['monto'],
            'ubicacion': metadata['ubicacion'],
            'hora': metadata['hora'],
            'categoria': metadata['categoria'],
            'es_fraude': es_fraude
        })
        
        # Mostrar resultado
        icono = "FRAUDE" if es_fraude else "LEG√çTIMA"
        print(f"{i+1}. {icono}")
        print(f"   ID: {metadata['id']} | Monto: ${metadata['monto']} | {metadata['ubicacion']}")
        print(f"   Hora: {metadata['hora']} | Cat: {metadata['categoria']}")
        print(f"   Desc: {metadata['descripcion']}")
        print()
    
    # 5. Calcular score de riesgo
    score_fraude = (fraudes_encontrados / n_similares) * 100
    
    # 6. Determinar nivel de riesgo
    if score_fraude >= 60:
        nivel_riesgo = "ALTO"
        recomendacion = "BLOQUEAR y revisar manualmente"
    elif score_fraude >= 40:
        nivel_riesgo = "MEDIO"
        recomendacion = "Solicitar verificaci√≥n adicional"
    else:
        nivel_riesgo = "BAJO"
        recomendacion = "Aprobar transacci√≥n"
    
    # 7. Mostrar conclusi√≥n
    print(f"{'='*80}")
    print(f"RESULTADO DEL AN√ÅLISIS")
    print(f"{'='*80}")
    print(f"Nivel de Riesgo: {nivel_riesgo}")
    print(f"Score de Fraude: {score_fraude:.1f}%")
    print(f"Fraudes similares encontrados: {fraudes_encontrados}/{n_similares}")
    print(f"Recomendaci√≥n: {recomendacion}")
    print(f"{'='*80}\n")
    
    return nivel_riesgo, score_fraude, transacciones_similares


# EJEMPLO 1: Transacci√≥n sospechosa (patr√≥n de fraude)
print("=" * 80)
print("CASO 1: Transacci√≥n potencialmente fraudulenta")
print("=" * 80)
analizar_transaccion(
    monto=5500,
    ubicacion="Lima",
    hora="23:30",
    categoria="Electr√≥nicos",
    descripcion="Compra online nocturna de productos caros"
)

# EJEMPLO 2: Transacci√≥n normal
print("\n" + "=" * 80)
print("CASO 2: Transacci√≥n leg√≠tima")
print("=" * 80)
analizar_transaccion(
    monto=180,
    ubicacion="Lima",
    hora="12:00",
    categoria="Comida",
    descripcion="Almuerzo en restaurante"
)

CASO 1: Transacci√≥n potencialmente fraudulenta

AN√ÅLISIS DE NUEVA TRANSACCI√ìN
Monto: $5500
Ubicaci√≥n: Lima
Hora: 23:30
Categor√≠a: Electr√≥nicos
Descripci√≥n: Compra online nocturna de productos caros

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
TRANSACCIONES SIMILARES EN EL HIST√ìRICO:
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

1. FRAUDE
   ID: 12 | Monto: $5500.0 | Arequipa
   Hora: 22:30 | Cat: Electr√≥nicos
   Desc: Pedido grande en tienda online

2. FRAUDE
   ID: 5 | Monto: $6000.0 | Lima
   Hora: 22:50 | Cat: Electr√≥nicos
   Desc: Pedido online alto valor

3. FRAUDE
   ID: 3 | Monto: $4

('BAJO',
 0.0,
 [{'id': 11,
   'monto': 100.0,
   'ubicacion': 'Lima',
   'hora': '11:00',
   'categoria': 'Comida',
   'es_fraude': 0},
  {'id': 2,
   'monto': 200.0,
   'ubicacion': 'Lima',
   'hora': '10:30',
   'categoria': 'Comida',
   'es_fraude': 0},
  {'id': 9,
   'monto': 1200.0,
   'ubicacion': 'Lima',
   'hora': '20:30',
   'categoria': 'Entretenimiento',
   'es_fraude': 0},
  {'id': 16,
   'monto': 250.0,
   'ubicacion': 'Lima',
   'hora': '12:30',
   'categoria': 'Comida',
   'es_fraude': 0},
  {'id': 6,
   'monto': 50.0,
   'ubicacion': 'Cusco',
   'hora': '08:15',
   'categoria': 'Comida',
   'es_fraude': 0}])

## Respuestas a las Preguntas

### 1. Vectorizaci√≥n:

**¬øC√≥mo combinar atributos num√©ricos y textuales en un embedding?**

En este ejercicio usamos una estrategia de **texto enriquecido**: convertimos todos los atributos (num√©ricos y categ√≥ricos) en una descripci√≥n textual coherente. Por ejemplo:
```
"Transacci√≥n de 5000 soles en Lima a las 23:45 categor√≠a Electr√≥nicos Compra online internacional"
```

**Ventajas de esta aproximaci√≥n:**
- ‚úÖ Simple de implementar
- ‚úÖ Captura relaciones sem√°nticas naturales
- ‚úÖ Los modelos de lenguaje entienden contexto num√©rico

**¬øQu√© pasa si solo usamos texto o solo n√∫meros?**
- **Solo texto:** Perdemos informaci√≥n cr√≠tica como el monto (una compra de $5000 vs $50 es muy diferente)
- **Solo n√∫meros:** Perdemos contexto sem√°ntico (no sabr√≠amos que "Electr√≥nicos" y "Gadgets" son similares)

**Alternativas m√°s avanzadas:**
- Embeddings h√≠bridos (concatenar embeddings textuales con features num√©ricos normalizados)
- Modelos multimodales entrenados espec√≠ficamente para datos tabulares

---

### 2. M√©trica de similitud:

**¬øConviene cosine similarity, Euclidean, o una combinaci√≥n?**

En este caso usamos **Cosine Similarity** (por defecto en ChromaDB), y es la mejor opci√≥n porque:

‚úÖ **Cosine Similarity:**
- Mide el √°ngulo entre vectores, no la magnitud
- Ideal para embeddings de texto (lo que nos importa es la direcci√≥n sem√°ntica)
- Robusto ante diferencias de escala
- Rango: -1 a 1 (m√°s f√°cil de interpretar)

‚ùå **Distancia Euclidiana:**
- Sensible a la magnitud de los vectores
- Menos efectiva para embeddings de alta dimensi√≥n
- Puede dar m√°s peso a features irrelevantes

**Recomendaci√≥n:** Para embeddings de texto ‚Üí **Cosine Similarity** siempre.

---

### 3. Interpretaci√≥n:

**¬øC√≥mo decidir si una transacci√≥n es sospechosa bas√°ndose en vecinos m√°s cercanos?**

Implementamos un sistema de **scoring por mayor√≠a votada**:

1. **Buscamos las 5 transacciones m√°s similares** en el hist√≥rico
2. **Contamos cu√°ntas son fraudes**
3. **Calculamos porcentaje:** `(fraudes_encontrados / total) * 100`

**Umbrales de decisi√≥n:**
- üî¥ **‚â•60% fraudes** ‚Üí Riesgo ALTO ‚Üí Bloquear
- üü° **40-59% fraudes** ‚Üí Riesgo MEDIO ‚Üí Verificaci√≥n adicional  
- üü¢ **<40% fraudes** ‚Üí Riesgo BAJO ‚Üí Aprobar

**L√≥gica:** Si transacciones muy similares en el pasado fueron fraudes, esta probablemente tambi√©n lo sea.

**Mejoras posibles:**
- Ponderar por distancia (dar m√°s peso a vecinos m√°s cercanos)
- Usar m√°s vecinos (k=10 o k=20) para mayor robustez
- Aplicar machine learning supervisado con los embeddings como features

---

### 4. Opcional - Filtros y Visualizaci√≥n:

**Filtrar por ubicaci√≥n o categor√≠a antes de comparar:**

Podr√≠amos usar el par√°metro `where` de ChromaDB:
```python
results = collection.query(
    query_embeddings=embedding_nueva.tolist(),
    n_results=5,
    where={"categoria": "Electr√≥nicos"}  # Solo buscar en electr√≥nicos
)
```

**Ventajas:**
- ‚úÖ Comparaciones m√°s relevantes
- ‚úÖ Reduce falsos positivos
- ‚úÖ M√°s r√°pido en bases de datos grandes

**Desventajas:**
- ‚ùå Podr√≠a perder patrones cross-category
- ‚ùå Menos datos para comparar

**Visualizaci√≥n 2D:** Implementada con PCA en las celdas anteriores. Permite ver clusters de fraudes vs transacciones leg√≠timas visualmente.