# üéµ Ejercicio Pr√°ctico: Sistema de Recomendaci√≥n Musical con NumPy

## üìã Contexto del Problema

Trabajas como Data Scientist en **SoundWave**, una plataforma de streaming musical similar a Spotify. Tu equipo necesita desarrollar un sistema de recomendaci√≥n b√°sico que analice los patrones de escucha de los usuarios para sugerir nuevas canciones.

El sistema debe procesar datos de reproducci√≥n musical, calcular similitudes entre usuarios, normalizar las puntuaciones de las canciones, y generar recomendaciones personalizadas usando √∫nicamente **NumPy** (sin bibliotecas de machine learning externas).

## üéØ Objetivos de Aprendizaje

Al completar este ejercicio practicar√°s:

- ‚úÖ **Creaci√≥n y manipulaci√≥n de arrays multidimensionales**
- ‚úÖ **Indexaci√≥n avanzada y slicing**
- ‚úÖ **Operaciones vectorizadas y broadcasting**
- ‚úÖ **Funciones de agregaci√≥n y estad√≠sticas**
- ‚úÖ **√Ålgebra lineal b√°sica (productos matriciales, normas)**
- ‚úÖ **Normalizaci√≥n y estandarizaci√≥n de datos**
- ‚úÖ **C√°lculo de similitudes y distancias**
- ‚úÖ **Filtrado y ranking de resultados**

## üìä Datos Iniciales

Comienza ejecutando el siguiente c√≥digo para generar el dataset simulado:

In [None]:
import numpy as np

# Configurar semilla para reproducibilidad
np.random.seed(42)

# Configuraci√≥n del dataset
n_usuarios = 150
n_canciones = 50

# Nombres simulados de canciones (g√©neros musicales)
generos = ['Pop', 'Rock', 'Jazz', 'Electronic', 'Hip-Hop', 'Classical', 'Reggae', 'Folk', 'Blues', 'Country']
nombres_canciones = [f"{genre}_{i+1}" for genre in generos for i in range(5)]

# Matriz de reproducciones: usuarios x canciones
# Valores: n√∫mero de veces que cada usuario reprodujo cada canci√≥n (0-100)
# Aproximadamente 70% de los valores ser√°n 0 (canciones no escuchadas)
reproducciones = np.random.poisson(2, size=(n_usuarios, n_canciones))
reproducciones = np.where(np.random.random((n_usuarios, n_canciones)) > 0.3, 
                         reproducciones, 0)

# Informaci√≥n adicional de las canciones
duraciones = np.random.normal(180, 30, n_canciones)  # Duraci√≥n en segundos
popularidad = np.random.beta(2, 5, n_canciones) * 100  # Popularidad 0-100

# Informaci√≥n de usuarios (edad)
edades_usuarios = np.random.randint(16, 65, n_usuarios)

print(f"üìä Dataset generado:")
print(f"   - {n_usuarios} usuarios")
print(f"   - {n_canciones} canciones")
print(f"   - Forma de matriz de reproducciones: {reproducciones.shape}")
print(f"   - Reproducciones totales: {np.sum(reproducciones):,}")
print(f"   - Sparsity (% de ceros): {(reproducciones == 0).mean()*100:.1f}%")

## üõ†Ô∏è Tareas a Resolver

### **Tarea 1: An√°lisis Exploratorio de Datos** üîç

Implementa las siguientes funciones para entender mejor los datos:

In [None]:
def analizar_dataset(reproducciones, nombres_canciones, edades_usuarios):
    """
    Analiza las caracter√≠sticas principales del dataset.
    
    Debes calcular y mostrar:
    1. Usuario m√°s activo (m√°s reproducciones totales)
    2. Canci√≥n m√°s popular (m√°s reproducciones entre todos los usuarios)
    3. Estad√≠sticas b√°sicas de reproducciones por usuario
    4. Distribuci√≥n de edades de usuarios activos (que tienen >10 reproducciones totales)
    
    Returns:
        dict con las estad√≠sticas calculadas
    """
    # TU C√ìDIGO AQU√ç
    pass

# Ejecutar an√°lisis
estadisticas = analizar_dataset(reproducciones, nombres_canciones, edades_usuarios)

**Pistas:**
- Usa `np.sum()` con diferentes ejes para agregaciones
- `np.argmax()` te ayudar√° a encontrar √≠ndices de valores m√°ximos
- Combina indexaci√≥n booleana para filtrar usuarios activos

### **Tarea 2: Normalizaci√≥n y Preprocesamiento** ‚öñÔ∏è

In [None]:
def normalizar_datos(reproducciones):
    """
    Normaliza la matriz de reproducciones usando tres m√©todos diferentes.
    
    1. Normalizaci√≥n Min-Max por usuario (cada fila entre 0-1)
    2. Normalizaci√≥n Z-score por canci√≥n (cada columna)
    3. Normalizaci√≥n L2 por usuario (norma euclidiana = 1)
    
    Args:
        reproducciones: matriz (usuarios, canciones)
        
    Returns:
        tuple con las tres matrices normalizadas
    """
    # TU C√ìDIGO AQU√ç
    pass

# Aplicar normalizaciones
repr_minmax, repr_zscore, repr_l2 = normalizar_datos(reproducciones)

# Verificar que las normalizaciones son correctas
print("üîç Verificaciones:")
print(f"Min-Max - Rango por usuario: [{np.min(repr_minmax, axis=1).min():.3f}, {np.max(repr_minmax, axis=1).max():.3f}]")
print(f"Z-score - Media por canci√≥n: {np.mean(repr_zscore, axis=0).mean():.6f}")
print(f"L2 - Norma por usuario (primeros 5): {np.linalg.norm(repr_l2[:5], axis=1)}")

**Conceptos clave:**
- Broadcasting para operaciones usuario/canci√≥n
- `np.linalg.norm()` para normalizaci√≥n L2
- Manejo de divisiones por cero

### **Tarea 3: C√°lculo de Similitudes** ü§ù

In [None]:
def calcular_similitudes(matriz_normalizada):
    """
    Calcula la similitud coseno entre todos los pares de usuarios.
    
    Similitud coseno = (A ¬∑ B) / (||A|| * ||B||)
    
    Args:
        matriz_normalizada: matriz (usuarios, canciones) normalizada
        
    Returns:
        matriz de similitudes (usuarios, usuarios)
    """
    # TU C√ìDIGO AQU√ç
    pass

def encontrar_usuarios_similares(similitudes, usuario_id, top_k=5):
    """
    Encuentra los K usuarios m√°s similares a un usuario dado.
    
    Args:
        similitudes: matriz de similitudes
        usuario_id: √≠ndice del usuario objetivo
        top_k: n√∫mero de usuarios similares a retornar
        
    Returns:
        array con √≠ndices de usuarios similares (excluyendo al usuario mismo)
    """
    # TU C√ìDIGO AQU√ç
    pass

# Calcular similitudes
similitudes = calcular_similitudes(repr_l2)

# Encontrar usuarios similares para el usuario 0
usuarios_similares = encontrar_usuarios_similares(similitudes, usuario_id=0, top_k=5)
print(f"üë• Usuarios m√°s similares al usuario 0: {usuarios_similares}")
print(f"üìä Similitudes: {similitudes[0, usuarios_similares]}")

### **Tarea 4: Sistema de Recomendaci√≥n** üéØ

In [None]:
def generar_recomendaciones(reproducciones, similitudes, usuario_id, n_recomendaciones=10):
    """
    Genera recomendaciones de canciones para un usuario espec√≠fico.
    
    Algoritmo:
    1. Encuentra usuarios similares
    2. Para cada canci√≥n no escuchada por el usuario objetivo:
       - Calcula puntuaci√≥n ponderada basada en usuarios similares
    3. Rankea y retorna las top N canciones
    
    Args:
        reproducciones: matriz original de reproducciones
        similitudes: matriz de similitudes entre usuarios
        usuario_id: usuario para quien generar recomendaciones
        n_recomendaciones: n√∫mero de canciones a recomendar
        
    Returns:
        array con √≠ndices de canciones recomendadas (ordenadas por puntuaci√≥n)
    """
    # TU C√ìDIGO AQU√ç
    pass

def evaluar_recomendaciones(reproducciones, recomendaciones_indices, usuario_id, 
                          popularidad, nombres_canciones):
    """
    Eval√∫a la calidad de las recomendaciones generadas.
    
    M√©tricas a calcular:
    1. Diversidad de g√©neros en las recomendaciones
    2. Popularidad promedio de las canciones recomendadas
    3. Coverage: % del cat√°logo que incluyen las recomendaciones
    
    Args:
        reproducciones: matriz original
        recomendaciones_indices: √≠ndices de canciones recomendadas
        usuario_id: usuario objetivo
        popularidad: array con popularidad de cada canci√≥n
        nombres_canciones: lista con nombres de canciones
    """
    # TU C√ìDIGO AQU√ç
    pass

# Generar recomendaciones para el usuario 0
recomendaciones = generar_recomendaciones(reproducciones, similitudes, usuario_id=0)

print(f"üéµ Top 10 recomendaciones para Usuario 0:")
for i, cancion_idx in enumerate(recomendaciones[:10]):
    print(f"   {i+1}. {nombres_canciones[cancion_idx]} (Popularidad: {popularidad[cancion_idx]:.1f})")

# Evaluar calidad
evaluar_recomendaciones(reproducciones, recomendaciones, 0, popularidad, nombres_canciones)

### **Tarea 5: An√°lisis Demogr√°fico** üë•

In [None]:
def analizar_preferencias_por_edad(reproducciones, edades_usuarios, nombres_canciones):
    """
    Analiza las preferencias musicales por grupos de edad.
    
    1. Divide usuarios en 3 grupos de edad: J√≥venes (16-25), Adultos (26-45), Mayores (46+)
    2. Calcula el promedio de reproducciones por canci√≥n para cada grupo
    3. Identifica las canciones favoritas de cada grupo etario
    4. Encuentra canciones que son populares en todos los grupos
    
    Returns:
        dict con an√°lisis por grupo etario
    """
    # TU C√ìDIGO AQU√ç
    pass

# Ejecutar an√°lisis demogr√°fico
analisis_edades = analizar_preferencias_por_edad(reproducciones, edades_usuarios, nombres_canciones)

## üöÄ Desaf√≠os Extra (Nivel Avanzado)

Una vez completadas las tareas b√°sicas, intenta resolver estos desaf√≠os m√°s complejos:

### **Desaf√≠o 1: Matriz de Factorizaci√≥n (Simplified NMF)** üßÆ

In [None]:
def factorizacion_matriz_simplificada(reproducciones, n_factores=10, n_iteraciones=100):
    """
    Implementa una versi√≥n simplificada de Non-Negative Matrix Factorization.
    
    Objetivo: Descomponer la matriz de reproducciones R ‚âà U √ó V
    donde U es (usuarios √ó factores) y V es (factores √ó canciones)
    
    Esto permite:
    - Reducir dimensionalidad
    - Capturar patrones latentes
    - Generar mejores recomendaciones
    
    Algoritmo b√°sico usando gradient descent
    """
    # DESAF√çO: Implementa el algoritmo de factorizaci√≥n
    pass

### **Desaf√≠o 2: Cold Start Problem** ‚ùÑÔ∏è

In [None]:
def recomendar_usuario_nuevo(reproducciones_historicas, perfil_nuevo_usuario, 
                            nombres_canciones, popularidad):
    """
    Maneja el problema de cold start: recomendar a usuarios completamente nuevos.
    
    Estrategias a implementar:
    1. Recomendaciones basadas en popularidad
    2. Recomendaciones basadas en g√©neros preferidos (inferir del perfil)
    3. H√≠brido: combinar ambas estrategias
    
    Args:
        perfil_nuevo_usuario: array con pocas reproducciones del usuario nuevo
    """
    # DESAF√çO: Implementa estrategias para usuarios nuevos
    pass

### **Desaf√≠o 3: Optimizaci√≥n de Rendimiento** ‚ö°

In [None]:
def optimizar_similitudes_sparse(reproducciones, threshold=0.1):
    """
    Optimiza el c√°lculo de similitudes para matrices sparse.
    
    Desaf√≠os:
    1. Evita calcular similitudes para usuarios sin canciones en com√∫n
    2. Usa operaciones vectorizadas eficientes
    3. Implementa early stopping para similitudes muy bajas
    4. Compara tiempo de ejecuci√≥n vs. m√©todo original
    """
    # DESAF√çO: Implementa versi√≥n optimizada
    pass

def benchmark_algoritmos(reproducciones, n_iteraciones=5):
    """
    Compara el rendimiento de diferentes implementaciones.
    """
    # DESAF√çO: Benchmarka diferentes enfoques
    pass

### **Desaf√≠o 4: M√©tricas de Evaluaci√≥n Avanzadas** üìä

In [None]:
def calcular_metricas_recomendacion(reproducciones_test, recomendaciones, usuario_id):
    """
    Calcula m√©tricas avanzadas de sistemas de recomendaci√≥n:
    
    1. Precision@K: % de canciones recomendadas que son relevantes
    2. Recall@K: % de canciones relevantes que fueron recomendadas  
    3. NDCG (Normalized Discounted Cumulative Gain)
    4. Serendipity: qu√© tan "sorprendentes" son las recomendaciones
    
    Requiere dividir datos en train/test
    """
    # DESAF√çO: Implementa m√©tricas de evaluaci√≥n rigurosas
    pass

## ‚úÖ Criterios de Evaluaci√≥n

Tu soluci√≥n ser√° evaluada en base a:

1. **Correctitud funcional** (40%): Los algoritmos producen resultados correctos
2. **Eficiencia de NumPy** (25%): Uso apropiado de vectorizaci√≥n y broadcasting
3. **Calidad del c√≥digo** (20%): C√≥digo limpio, bien comentado y estructurado  
4. **An√°lisis de resultados** (15%): Interpretaci√≥n correcta de los outputs

### **Puntos Bonus:**
- Implementar todos los desaf√≠os extra (+20%)
- Visualizaciones creativas de los resultados (+10%)
- Optimizaciones de rendimiento no triviales (+10%)

## üéØ Entregables

1. **Notebook de Jupyter** con todas las funciones implementadas
2. **An√°lisis de resultados** con interpretaciones de los outputs
3. **Documentaci√≥n** de decisiones de dise√±o tomadas
4. **(Opcional)** Implementaci√≥n de desaf√≠os extra

---

**¬°Buena suerte construyendo tu sistema de recomendaci√≥n musical! üéµ**

*Recuerda: El objetivo es practicar NumPy, no crear el algoritmo m√°s sofisticado. Enf√≥cate en usar las capacidades de NumPy de manera efectiva y elegante.*