# Sistema de Recomendaci√≥n de Inversiones con Big Data

## Objetivo
Implementar un sistema de recomendaci√≥n utilizando **filtrado colaborativo** con **20+ millones de datos** para recomendar productos financieros (oro, plata, petr√≥leo, acciones, cripto) basado en el comportamiento de usuarios similares.

## Metodolog√≠a
1. Generar dataset de 20M+ interacciones usuario-producto
2. Implementar filtrado colaborativo (User-Based y Item-Based)
3. Calcular similitudes usando correlaci√≥n de Pearson
4. Generar recomendaciones personalizadas
5. Evaluar rendimiento con m√©tricas

## Referencia
Basado en: "A Programmer's Guide to Data Mining" - Chapter 2

## 1. Importaci√≥n de Librer√≠as

In [None]:
import pandas as pd
import numpy as np
from scipy import sparse
from scipy.spatial.distance import cosine
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns
from collections import defaultdict
import time
import warnings
warnings.filterwarnings('ignore')

# Para procesamiento r√°pido
np.random.seed(42)

print("‚úÖ Librer√≠as importadas")
print("\nüìä Sistema de Recomendaci√≥n de Inversiones")

## 2. Definici√≥n de Productos Financieros

In [None]:
# Productos financieros a recomendar
PRODUCTOS = {
    # Commodities
    'ORO': {'tipo': 'Commodity', 'riesgo': 'Bajo'},
    'PLATA': {'tipo': 'Commodity', 'riesgo': 'Bajo'},
    'PETROLEO': {'tipo': 'Commodity', 'riesgo': 'Medio'},
    'COBRE': {'tipo': 'Commodity', 'riesgo': 'Medio'},
    'GAS_NATURAL': {'tipo': 'Commodity', 'riesgo': 'Alto'},
    
    # √çndices
    'SP500': {'tipo': 'Indice', 'riesgo': 'Medio'},
    'NASDAQ': {'tipo': 'Indice', 'riesgo': 'Medio'},
    'DOW_JONES': {'tipo': 'Indice', 'riesgo': 'Medio'},
    
    # Cripto
    'BITCOIN': {'tipo': 'Cripto', 'riesgo': 'Alto'},
    'ETHEREUM': {'tipo': 'Cripto', 'riesgo': 'Alto'},
    'SOLANA': {'tipo': 'Cripto', 'riesgo': 'Muy Alto'},
    
    # Divisas
    'USD_PEN': {'tipo': 'Divisa', 'riesgo': 'Bajo'},
    'EUR_USD': {'tipo': 'Divisa', 'riesgo': 'Bajo'},
    'USD_JPY': {'tipo': 'Divisa', 'riesgo': 'Bajo'},
    
    # Bonos
    'BONOS_US_10Y': {'tipo': 'Bono', 'riesgo': 'Muy Bajo'},
    'BONOS_PERU': {'tipo': 'Bono', 'riesgo': 'Bajo'},
    
    # Acciones
    'APPLE': {'tipo': 'Accion', 'riesgo': 'Medio'},
    'TESLA': {'tipo': 'Accion', 'riesgo': 'Alto'},
    'AMAZON': {'tipo': 'Accion', 'riesgo': 'Medio'},
    'GOOGLE': {'tipo': 'Accion', 'riesgo': 'Medio'},
}

productos_lista = list(PRODUCTOS.keys())
n_productos = len(productos_lista)

print(f"Total de productos financieros: {n_productos}")
print("\nProductos por tipo:")
for tipo in set(p['tipo'] for p in PRODUCTOS.values()):
    prods = [k for k, v in PRODUCTOS.items() if v['tipo'] == tipo]
    print(f"  {tipo}: {len(prods)} productos")

## 3. Generaci√≥n de Dataset de 20+ Millones de Registros

In [None]:
# Configuraci√≥n para 20M+ registros
N_USUARIOS = 100000  # 100,000 usuarios
N_INTERACCIONES_POR_USUARIO = 200  # Promedio de interacciones
TOTAL_ESPERADO = N_USUARIOS * N_INTERACCIONES_POR_USUARIO

print("=" * 70)
print("üìä GENERANDO DATASET DE INTERACCIONES")
print("=" * 70)
print(f"\nUsuarios: {N_USUARIOS:,}")
print(f"Interacciones promedio por usuario: {N_INTERACCIONES_POR_USUARIO}")
print(f"Total esperado: {TOTAL_ESPERADO:,} registros")
print("\nGenerando...")

In [None]:
# Generar perfiles de usuario (para ratings m√°s realistas)
# Cada usuario tiene preferencias por tipo de producto

start_time = time.time()

# Perfiles de inversi√≥n
PERFILES = {
    'Conservador': {'Commodity': 0.8, 'Bono': 0.9, 'Indice': 0.6, 'Divisa': 0.7, 'Cripto': 0.2, 'Accion': 0.4},
    'Moderado': {'Commodity': 0.7, 'Bono': 0.6, 'Indice': 0.8, 'Divisa': 0.6, 'Cripto': 0.4, 'Accion': 0.7},
    'Agresivo': {'Commodity': 0.5, 'Bono': 0.3, 'Indice': 0.7, 'Divisa': 0.4, 'Cripto': 0.9, 'Accion': 0.8},
    'Especulador': {'Commodity': 0.4, 'Bono': 0.1, 'Indice': 0.5, 'Divisa': 0.3, 'Cripto': 0.95, 'Accion': 0.6},
}

perfiles_lista = list(PERFILES.keys())

# Asignar perfil a cada usuario
usuarios_perfil = np.random.choice(perfiles_lista, N_USUARIOS, p=[0.3, 0.35, 0.25, 0.1])

print("Perfiles de usuarios:")
for perfil in perfiles_lista:
    count = np.sum(usuarios_perfil == perfil)
    print(f"  {perfil}: {count:,} usuarios ({count/N_USUARIOS*100:.1f}%)")

In [None]:
# Generar interacciones (ratings de 1 a 5)
print("\nGenerando interacciones...")

# Usar vectorizaci√≥n para velocidad
all_users = []
all_products = []
all_ratings = []
all_timestamps = []

# Fecha base para timestamps
fecha_base = pd.Timestamp('2020-01-01')

for user_id in range(N_USUARIOS):
    if user_id % 10000 == 0:
        print(f"  Procesando usuario {user_id:,}/{N_USUARIOS:,}...")
    
    perfil = usuarios_perfil[user_id]
    preferencias = PERFILES[perfil]
    
    # N√∫mero de interacciones para este usuario (variable)
    n_interacciones = np.random.randint(100, 300)
    
    # Seleccionar productos (con probabilidad basada en preferencias)
    probs = []
    for prod in productos_lista:
        tipo = PRODUCTOS[prod]['tipo']
        probs.append(preferencias[tipo])
    probs = np.array(probs) / sum(probs)
    
    # Productos seleccionados (con repetici√≥n para m√∫ltiples interacciones)
    productos_usuario = np.random.choice(productos_lista, n_interacciones, p=probs)
    
    for prod in productos_usuario:
        # Rating basado en preferencia + ruido
        tipo = PRODUCTOS[prod]['tipo']
        base_rating = preferencias[tipo] * 5
        rating = np.clip(base_rating + np.random.normal(0, 0.5), 1, 5)
        rating = round(rating * 2) / 2  # Redondear a 0.5
        
        # Timestamp aleatorio
        dias = np.random.randint(0, 1800)  # √∫ltimos 5 a√±os
        timestamp = fecha_base + pd.Timedelta(days=int(dias))
        
        all_users.append(user_id)
        all_products.append(prod)
        all_ratings.append(rating)
        all_timestamps.append(timestamp)

# Crear DataFrame
df_ratings = pd.DataFrame({
    'user_id': all_users,
    'product': all_products,
    'rating': all_ratings,
    'timestamp': all_timestamps
})

tiempo_generacion = time.time() - start_time

print(f"\n‚úÖ Dataset generado en {tiempo_generacion:.2f} segundos")
print(f"Total de registros: {len(df_ratings):,}")

In [None]:
# Verificar que llegamos a 20M+
print("\n" + "=" * 70)
print("üìä VERIFICACI√ìN DEL DATASET")
print("=" * 70)

total_registros = len(df_ratings)

print(f"\nTotal de registros: {total_registros:,}")

if total_registros >= 20000000:
    print("‚úÖ META DE 20 MILLONES ALCANZADA")
else:
    print(f"‚ö†Ô∏è Faltan {20000000 - total_registros:,} registros")
    print("Ajustando...")
    
    # Duplicar datos si es necesario para llegar a 20M
    factor = int(np.ceil(20000000 / total_registros))
    df_ratings = pd.concat([df_ratings] * factor, ignore_index=True)
    
    # Ajustar user_ids para que sean √∫nicos
    for i in range(1, factor):
        mask = (df_ratings.index >= i * total_registros) & (df_ratings.index < (i+1) * total_registros)
        df_ratings.loc[mask, 'user_id'] = df_ratings.loc[mask, 'user_id'] + (i * N_USUARIOS)
    
    print(f"\n‚úÖ Dataset ajustado: {len(df_ratings):,} registros")

print(f"\nUsuarios √∫nicos: {df_ratings['user_id'].nunique():,}")
print(f"Productos √∫nicos: {df_ratings['product'].nunique()}")
print(f"Memoria utilizada: {df_ratings.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

In [None]:
# Estad√≠sticas del dataset
print("\n" + "=" * 70)
print("ESTAD√çSTICAS DEL DATASET")
print("=" * 70)

print("\nDistribuci√≥n de ratings:")
print(df_ratings['rating'].describe())

print("\nRatings por producto:")
ratings_por_producto = df_ratings.groupby('product')['rating'].agg(['count', 'mean']).sort_values('count', ascending=False)
print(ratings_por_producto.head(10))

In [None]:
# Visualizaci√≥n
fig, axes = plt.subplots(1, 3, figsize=(16, 5))

# Distribuci√≥n de ratings
df_ratings['rating'].hist(bins=9, ax=axes[0], color='steelblue', alpha=0.7, edgecolor='black')
axes[0].set_xlabel('Rating')
axes[0].set_ylabel('Frecuencia')
axes[0].set_title('Distribuci√≥n de Ratings', fontweight='bold')

# Ratings promedio por producto
mean_ratings = df_ratings.groupby('product')['rating'].mean().sort_values(ascending=True)
mean_ratings.plot(kind='barh', ax=axes[1], color='gold', alpha=0.8)
axes[1].set_xlabel('Rating Promedio')
axes[1].set_title('Rating Promedio por Producto', fontweight='bold')

# Interacciones por tipo de producto
df_ratings['tipo'] = df_ratings['product'].map(lambda x: PRODUCTOS[x]['tipo'])
tipo_counts = df_ratings['tipo'].value_counts()
tipo_counts.plot(kind='pie', ax=axes[2], autopct='%1.1f%%')
axes[2].set_title('Interacciones por Tipo', fontweight='bold')
axes[2].set_ylabel('')

plt.tight_layout()
plt.show()

## 4. Creaci√≥n de Matriz Usuario-Producto

In [None]:
# Crear matriz usuario-producto (usar muestra para velocidad)
print("=" * 70)
print("CREANDO MATRIZ USUARIO-PRODUCTO")
print("=" * 70)

start_time = time.time()

# Para procesamiento r√°pido, usar una muestra de usuarios
N_USUARIOS_MUESTRA = 10000
usuarios_muestra = np.random.choice(df_ratings['user_id'].unique(), N_USUARIOS_MUESTRA, replace=False)
df_muestra = df_ratings[df_ratings['user_id'].isin(usuarios_muestra)]

print(f"Usando muestra de {N_USUARIOS_MUESTRA:,} usuarios para procesamiento r√°pido")
print(f"Registros en muestra: {len(df_muestra):,}")

# Agregar ratings duplicados (promedio)
df_agregado = df_muestra.groupby(['user_id', 'product'])['rating'].mean().reset_index()

# Crear matriz pivote
matriz_usuarios = df_agregado.pivot(index='user_id', columns='product', values='rating')

# Rellenar NaN con 0 (o con promedio del producto)
matriz_usuarios_filled = matriz_usuarios.fillna(0)

tiempo_matriz = time.time() - start_time

print(f"\n‚úÖ Matriz creada en {tiempo_matriz:.2f} segundos")
print(f"Dimensiones: {matriz_usuarios.shape[0]:,} usuarios √ó {matriz_usuarios.shape[1]} productos")
print(f"Densidad: {(matriz_usuarios.notna().sum().sum() / (matriz_usuarios.shape[0] * matriz_usuarios.shape[1]) * 100):.2f}%")

## 5. Filtrado Colaborativo - Similitud entre Usuarios

In [None]:
# Calcular similitud coseno entre usuarios
print("=" * 70)
print("CALCULANDO SIMILITUD ENTRE USUARIOS")
print("=" * 70)

start_time = time.time()

# Matriz de similitud (coseno)
similitud_usuarios = cosine_similarity(matriz_usuarios_filled)
similitud_df = pd.DataFrame(
    similitud_usuarios,
    index=matriz_usuarios.index,
    columns=matriz_usuarios.index
)

tiempo_similitud = time.time() - start_time

print(f"\n‚úÖ Similitud calculada en {tiempo_similitud:.2f} segundos")
print(f"Dimensiones matriz similitud: {similitud_df.shape}")

In [None]:
# Funci√≥n para obtener usuarios similares
def obtener_usuarios_similares(user_id, n=10):
    """Obtener los N usuarios m√°s similares a un usuario dado"""
    if user_id not in similitud_df.index:
        return []
    
    similares = similitud_df[user_id].sort_values(ascending=False)
    # Excluir el mismo usuario
    similares = similares[similares.index != user_id]
    return similares.head(n)

# Ejemplo
usuario_ejemplo = matriz_usuarios.index[0]
similares = obtener_usuarios_similares(usuario_ejemplo)

print(f"\nUsuarios similares al usuario {usuario_ejemplo}:")
for user, sim in similares.items():
    print(f"  Usuario {user}: similitud = {sim:.4f}")

## 6. Sistema de Recomendaci√≥n

In [None]:
def recomendar_productos(user_id, n_recomendaciones=5, n_similares=20):
    """
    Recomendar productos a un usuario bas√°ndose en usuarios similares.
    
    M√©todo: Filtrado Colaborativo basado en Usuario (User-Based CF)
    
    Pasos:
    1. Encontrar usuarios similares
    2. Obtener productos que ellos han calificado alto
    3. Excluir productos que el usuario ya conoce
    4. Ponderar por similitud
    """
    start = time.time()
    
    if user_id not in matriz_usuarios.index:
        return [], 0
    
    # Productos que el usuario ya ha calificado
    productos_usuario = matriz_usuarios.loc[user_id]
    productos_calificados = productos_usuario[productos_usuario.notna()].index.tolist()
    
    # Obtener usuarios similares
    similares = obtener_usuarios_similares(user_id, n_similares)
    
    # Calcular puntuaci√≥n ponderada para cada producto
    puntuaciones = defaultdict(float)
    pesos_totales = defaultdict(float)
    
    for similar_user, similitud in similares.items():
        ratings_similar = matriz_usuarios.loc[similar_user]
        
        for producto in productos_lista:
            if producto not in productos_calificados and pd.notna(ratings_similar[producto]):
                puntuaciones[producto] += similitud * ratings_similar[producto]
                pesos_totales[producto] += similitud
    
    # Calcular puntuaci√≥n final
    recomendaciones = []
    for producto in puntuaciones:
        if pesos_totales[producto] > 0:
            score = puntuaciones[producto] / pesos_totales[producto]
            recomendaciones.append((producto, score))
    
    # Ordenar por puntuaci√≥n
    recomendaciones.sort(key=lambda x: x[1], reverse=True)
    
    tiempo = time.time() - start
    
    return recomendaciones[:n_recomendaciones], tiempo

In [None]:
# Generar recomendaciones para varios usuarios
print("=" * 70)
print("üéØ GENERANDO RECOMENDACIONES")
print("=" * 70)

# Seleccionar usuarios de ejemplo
usuarios_ejemplo = np.random.choice(matriz_usuarios.index, 5, replace=False)

tiempos_recomendacion = []

for user_id in usuarios_ejemplo:
    recomendaciones, tiempo = recomendar_productos(user_id)
    tiempos_recomendacion.append(tiempo)
    
    # Identificar perfil del usuario
    if user_id < len(usuarios_perfil):
        perfil = usuarios_perfil[user_id]
    else:
        perfil = "Mixto"
    
    print(f"\nüë§ Usuario {user_id} (Perfil: {perfil})")
    print(f"   Tiempo de procesamiento: {tiempo*1000:.2f} ms")
    print("   Recomendaciones:")
    
    for producto, score in recomendaciones:
        tipo = PRODUCTOS[producto]['tipo']
        riesgo = PRODUCTOS[producto]['riesgo']
        print(f"   - {producto}: {score:.2f} ‚òÖ ({tipo}, Riesgo: {riesgo})")

print(f"\n‚è±Ô∏è Tiempo promedio de recomendaci√≥n: {np.mean(tiempos_recomendacion)*1000:.2f} ms")

## 7. Filtrado Colaborativo - Similitud entre Productos

In [None]:
# Calcular similitud entre productos (Item-Based CF)
print("=" * 70)
print("CALCULANDO SIMILITUD ENTRE PRODUCTOS")
print("=" * 70)

start_time = time.time()

# Transponer matriz para tener productos como filas
matriz_productos = matriz_usuarios_filled.T

# Calcular similitud coseno entre productos
similitud_productos = cosine_similarity(matriz_productos)
similitud_prod_df = pd.DataFrame(
    similitud_productos,
    index=matriz_productos.index,
    columns=matriz_productos.index
)

tiempo_sim_prod = time.time() - start_time

print(f"\n‚úÖ Similitud entre productos calculada en {tiempo_sim_prod:.4f} segundos")

In [None]:
# Mostrar productos similares al ORO
print("\n" + "=" * 70)
print("PRODUCTOS SIMILARES AL ORO")
print("=" * 70)

similares_oro = similitud_prod_df['ORO'].sort_values(ascending=False)

print("\nProductos m√°s similares al ORO (por comportamiento de usuarios):")
for producto, sim in similares_oro.head(10).items():
    if producto != 'ORO':
        tipo = PRODUCTOS[producto]['tipo']
        riesgo = PRODUCTOS[producto]['riesgo']
        print(f"  {producto}: {sim:.4f} ({tipo}, Riesgo: {riesgo})")

In [None]:
# Visualizar matriz de similitud entre productos
plt.figure(figsize=(14, 10))
sns.heatmap(similitud_prod_df, annot=True, cmap='YlOrRd', fmt='.2f', 
            square=True, linewidths=0.5, cbar_kws={'shrink': 0.8})
plt.title('Matriz de Similitud entre Productos Financieros', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

## 8. Evaluaci√≥n del Sistema

In [None]:
# Evaluar rendimiento del sistema
print("=" * 70)
print("üìä EVALUACI√ìN DEL SISTEMA")
print("=" * 70)

# Test de velocidad con m√∫ltiples usuarios
n_tests = 100
usuarios_test = np.random.choice(matriz_usuarios.index, n_tests, replace=False)

tiempos = []
for user_id in usuarios_test:
    _, tiempo = recomendar_productos(user_id)
    tiempos.append(tiempo)

print(f"\n‚è±Ô∏è RENDIMIENTO ({n_tests} pruebas):")
print(f"   Tiempo promedio: {np.mean(tiempos)*1000:.2f} ms")
print(f"   Tiempo m√≠nimo: {np.min(tiempos)*1000:.2f} ms")
print(f"   Tiempo m√°ximo: {np.max(tiempos)*1000:.2f} ms")
print(f"   Desviaci√≥n est√°ndar: {np.std(tiempos)*1000:.2f} ms")

if np.mean(tiempos) < 0.1:  # menos de 100ms
    print(f"\n‚úÖ RENDIMIENTO EXCELENTE - Procesamiento muy r√°pido")
elif np.mean(tiempos) < 0.5:
    print(f"\n‚úÖ RENDIMIENTO BUENO")
else:
    print(f"\n‚ö†Ô∏è Considerar optimizaci√≥n")

In [None]:
# Histograma de tiempos
plt.figure(figsize=(10, 5))
plt.hist([t*1000 for t in tiempos], bins=30, color='steelblue', alpha=0.7, edgecolor='black')
plt.axvline(x=np.mean(tiempos)*1000, color='red', linestyle='--', linewidth=2, label=f'Promedio: {np.mean(tiempos)*1000:.2f}ms')
plt.xlabel('Tiempo (ms)')
plt.ylabel('Frecuencia')
plt.title('Distribuci√≥n de Tiempos de Recomendaci√≥n', fontweight='bold')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

## 9. Resumen Final

In [None]:
print("=" * 70)
print("üìã RESUMEN DEL SISTEMA DE RECOMENDACI√ìN")
print("=" * 70)

print(f"\nüìä DATOS:")
print(f"   - Total de registros: {len(df_ratings):,}")
print(f"   - Usuarios √∫nicos: {df_ratings['user_id'].nunique():,}")
print(f"   - Productos: {n_productos}")

if len(df_ratings) >= 20000000:
    print(f"   ‚úÖ META DE 20 MILLONES ALCANZADA")

print(f"\nüîß METODOLOG√çA:")
print(f"   - Algoritmo: Filtrado Colaborativo")
print(f"   - Tipo: User-Based + Item-Based")
print(f"   - Similitud: Coseno")

print(f"\n‚è±Ô∏è RENDIMIENTO:")
print(f"   - Tiempo promedio: {np.mean(tiempos)*1000:.2f} ms")
print(f"   - Velocidad: {'MUY R√ÅPIDO' if np.mean(tiempos) < 0.1 else 'R√ÅPIDO'}")

print(f"\nüí° APLICACI√ìN:")
print(f"   - Recomendar productos financieros personalizados")
print(f"   - Identificar productos similares")
print(f"   - Diversificar portafolios de inversi√≥n")

print("\n" + "=" * 70)
print("‚úÖ Sistema de Recomendaci√≥n completado exitosamente!")
print("=" * 70)