In [None]:
# Los tipos de datos fundamentales en Python
edad = 29                      # Entero (int)
tiempo_uso = 15.9              # Flotante (float)
es_premium = True              # Booleano (bool)
nombre_usuario = "Ana García"  # String (str)

# Operadores básicos que usaremos
suma = 2 + 8                  # 10
resta = 25 - 10               # 15
multiplicacion = 5 * 4        # 20
division = 10 / 2             # 5.0 (siempre devuelve float)
division_entera = 5 // 2      # 2 (descarta la parte decimal)
potencia = 2 ** 3             # 8 (2 elevado a 3)
modulo = 10 % 3               # 1 (el resto de la división)

# Operadores de comparación - fundamentales para ML
print(edad > 18)              # True
print(tiempo_uso <= 10)       # False
print(es_premium == True)     # True
print(nombre_usuario != "Bot") # True

In [None]:
# Listas - colecciones ordenadas y modificables
usuarios_activos = ["María", "Carlos", "Ana", "Roberto", "Elena"]
puntuaciones = [95, 87, 92, 78, 96]

# Acceso a elementos
mejor_usuario = usuarios_activos[puntuaciones.index(max(puntuaciones))]
print(f"Usuario con mejor puntuación: {mejor_usuario}")  # Elena

# Tuplas - colecciones inmutables (no se pueden modificar)
coordenadas_oficina = (40.4168, -3.7038)  # Latitud, longitud
print(f"La oficina está en las coordenadas: {coordenadas_oficina}")

# Diccionarios - pares clave-valor
usuario = {
    "id": 1234,
    "nombre": "Laura",
    "premium": True,
    "dispositivos": ["iPhone", "MacBook", "iPad"],
    "géneros_favoritos": {"rock": 0.8, "pop": 0.6, "jazz": 0.2}
}

# Acceder a valores
print(f"Nombre: {usuario['nombre']}")
print(f"¿Es premium? {usuario['premium']}")
print(f"Dispositivo principal: {usuario['dispositivos'][0]}")

In [None]:
import time
import random

# Crear datos
data = [random.random() for _ in range(1000000)]
data_np = np.array(data)

# Con Python puro
start = time.time()
mean_python = sum(data) / len(data)
time_python = time.time() - start

# Con NumPy
start = time.time()
mean_np = np.mean(data_np)
time_np = time.time() - start

print(f"Python: {time_python:.5f} segundos")
print(f"NumPy: {time_np:.5f} segundos")
print(f"NumPy es {time_python/time_np:.1f}x más rápido")

In [None]:
import numpy as np
import time

# Simulemos datos de usuarios
# Formato: [edad, horas_uso, dispositivos, géneros]
usuarios_python = [
    [28, 15, 3, 5],
    [45, 3, 1, 2],
    [22, 20, 2, 7],
    # Imaginen 1 millón de filas más...
]

# Con NumPy, convertimos esto en una matriz eficiente
usuarios_np = np.array(usuarios_python)

# Ahora podemos hacer operaciones vectorizadas
# Calcular el promedio de cada característica
promedios = np.mean(usuarios_np, axis=0)
print(f"Promedios: Edad={promedios[0]:.1f}, Horas={promedios[1]:.1f}, "
      f"Dispositivos={promedios[2]:.1f}, Géneros={promedios[3]:.1f}")

# Encontrar usuarios jóvenes con alto uso
jovenes_alto_uso = usuarios_np[(usuarios_np[:,0] < 30) & (usuarios_np[:,1] > 10)]
print(f"Usuarios jóvenes con alto uso: {len(jovenes_alto_uso)}")

# Compare la velocidad con Python puro vs. NumPy
def demo_velocidad():
    # Crear datos más grandes para la demostración
    datos_grandes = [float(i) for i in range(1000000)]
    datos_np = np.array(datos_grandes)

    # Calcular promedio con Python puro
    inicio = time.time()
    promedio_python = sum(datos_grandes) / len(datos_grandes)
    tiempo_python = time.time() - inicio

    # Calcular promedio con NumPy
    inicio = time.time()
    promedio_np = np.mean(datos_np)
    tiempo_np = time.time() - inicio

    print(f"Python puro: {tiempo_python:.5f} segundos")
    print(f"NumPy: {tiempo_np:.5f} segundos")
    print(f"NumPy es {tiempo_python/tiempo_np:.1f}x más rápido")

demo_velocidad()

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Simulemos un archivo CSV de datos de streaming
data = {
    'usuario_id': range(1, 11),
    'edad': [28, 45, 22, 35, 19, 52, 31, 41, 24, 50],
    'horas_semanales': [15, 3, 20, 8, 25, 5, 12, 6, 18, 7],
    'dispositivos': [3, 1, 2, 2, 4, 1, 3, 1, 3, 2],
    'generos': [5, 2, 7, 3, 8, 1, 4, 2, 6, 2],
    'premium': [True, False, True, False, True, False, True, False, True, False]
}

# Crear un DataFrame - la estructura principal de Pandas
df = pd.DataFrame(data)
print("Vistazo a nuestros datos:")
print(df.head())  # Muestra las primeras 5 filas

# Análisis exploratorio básico
print("\nInformación del dataset:")
print(df.info())  # Información sobre tipos de datos y valores faltantes

print("\nEstadísticas descriptivas:")
print(df.describe())  # Estadísticas básicas de columnas numéricas

# Filtrando datos - fundamental para ML
usuarios_jovenes = df[df['edad'] < 30]
print("\nUsuarios jóvenes:")
print(usuarios_jovenes)

# Agrupación y agregación - descubriendo patrones
agrupado_por_premium = df.groupby('premium').mean()
print("\nCaracterísticas promedio por tipo de usuario:")
print(agrupado_por_premium)

# Visualización simple
plt.figure(figsize=(10, 6))
plt.scatter(df['horas_semanales'], df['generos'], c=df['premium'],
           cmap='coolwarm', alpha=0.7, s=100)
plt.title('Relación entre Uso Semanal y Diversidad de Géneros')
plt.xlabel('Horas Semanales')
plt.ylabel('Géneros Diferentes')
plt.colorbar(label='Premium')
plt.show()

In [None]:
import seaborn as sns

# Asegurar que la columna 'premium' sea numérica
df['premium'] = df['premium'].astype(int)

# Calcular matriz de correlaciones
correlaciones = df.corr()
print("\nCorrelaciones entre variables:")
print(correlaciones['premium'].sort_values(ascending=False))

# Visualización con seaborn
plt.figure(figsize=(10, 8))
sns.heatmap(correlaciones, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title('Mapa de Calor de Correlaciones')
plt.show()


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Cargar datos (en un entorno real, estos vendrían de archivos CSV)
# Simulemos datos de canciones
np.random.seed(42)  # Para reproducibilidad

# Crear dataset de canciones
n_canciones = 100
titulos = [f"Canción {i+1}" for i in range(n_canciones)]
artistas = [f"Artista {np.random.randint(1, 20)}" for _ in range(n_canciones)]

# Características musicales (valores entre 0 y 1)
danceability = np.random.rand(n_canciones)
energy = np.random.rand(n_canciones)
valence = np.random.rand(n_canciones)  # Positividad
acousticness = np.random.rand(n_canciones)
tempo = 0.4 + 0.8 * np.random.rand(n_canciones)  # Normalizado entre 0.4 y 1.2

# Crear DataFrame de canciones
canciones = pd.DataFrame({
    'id': range(n_canciones),
    'name': titulos,
    'artist': artistas,
    'danceability': danceability,
    'energy': energy,
    'valence': valence,
    'tempo': tempo,
    'acousticness': acousticness
})

# Crear perfiles de usuario simulados (canciones favoritas)
n_usuarios = 10
usuarios = pd.DataFrame({
    'id': range(n_usuarios),
    'nombre': [f"Usuario {i+1}" for i in range(n_usuarios)]
})

# Para cada usuario, asignar 5 canciones favoritas
for i in range(1, 6):
    usuarios[f'cancion_{i}'] = [np.random.randint(0, n_canciones) for _ in range(n_usuarios)]

# Exploremos ambos datasets
print("Muestra de canciones:")
print(canciones.head())
print("\nMuestra de usuarios:")
print(usuarios.head())

# Visualizar distribución de características
plt.figure(figsize=(12, 8))
plt.subplot(2, 3, 1)
plt.hist(canciones['danceability'], bins=20)
plt.title('Distribución de Bailabilidad')

plt.subplot(2, 3, 2)
plt.hist(canciones['energy'], bins=20)
plt.title('Distribución de Energía')

plt.subplot(2, 3, 3)
plt.hist(canciones['valence'], bins=20)
plt.title('Distribución de Valencia (positividad)')

plt.subplot(2, 3, 4)
plt.scatter(canciones['danceability'], canciones['energy'], alpha=0.5)
plt.title('Bailabilidad vs Energía')
plt.xlabel('Bailabilidad')
plt.ylabel('Energía')

plt.subplot(2, 3, 5)
plt.scatter(canciones['valence'], canciones['energy'], alpha=0.5)
plt.title('Valencia vs Energía')
plt.xlabel('Valencia')
plt.ylabel('Energía')

plt.tight_layout()
plt.show()

In [None]:
# Paso 1: Preparar matrices de características
# Seleccionamos solo las columnas numéricas relevantes
features_cols = ['danceability', 'energy', 'valence', 'tempo', 'acousticness']
X_canciones = canciones[features_cols].values

# Normalizamos para que cada característica tenga el mismo peso
# Esto es crucial para que una característica no domine sobre otras
X_mean = X_canciones.mean(axis=0)
X_std = X_canciones.std(axis=0)
X_norm = (X_canciones - X_mean) / X_std

# Paso 2: Implementar similitud del coseno
def similitud_coseno(vec1, vec2):
    """
    Calcula la similitud del coseno entre dos vectores.
    Valores cercanos a 1 indican alta similitud, cercanos a 0 baja similitud.
    """
    # Producto punto
    dot_product = np.dot(vec1, vec2)
    # Norma L2 (magnitud) de los vectores
    norm_vec1 = np.linalg.norm(vec1)
    norm_vec2 = np.linalg.norm(vec2)
    # Evitar división por cero
    if norm_vec1 == 0 or norm_vec2 == 0:
        return 0
    return dot_product / (norm_vec1 * norm_vec2)

# Paso 3: Crear perfil de usuario basado en sus canciones favoritas
def crear_perfil_usuario(id_usuario, usuarios_df, canciones_norm):
    """Crea un perfil de usuario promediando las características de sus canciones favoritas"""
    # Obtener índices de canciones favoritas
    cols_favoritas = [col for col in usuarios_df.columns if col.startswith('cancion_')]
    indices_favoritas = usuarios_df.loc[id_usuario, cols_favoritas].values.astype(int)

    # Extraer características de esas canciones
    caracteristicas_favoritas = canciones_norm[indices_favoritas]

    # Crear perfil promediando características
    perfil = caracteristicas_favoritas.mean(axis=0)
    return perfil, indices_favoritas

# Paso 4: Generar recomendaciones para un usuario
def recomendar_canciones(id_usuario, n_recomendaciones=5):
    """Genera n recomendaciones para un usuario basadas en su perfil"""
    # Crear perfil de usuario
    perfil_usuario, canciones_favoritas = crear_perfil_usuario(id_usuario, usuarios, X_norm)

    print(f"\nPerfil del Usuario {id_usuario}:")
    for i, feat in enumerate(features_cols):
        print(f"{feat}: {perfil_usuario[i]:.3f}")

    # Calcular similitud con todas las canciones
    similitudes = [similitud_coseno(perfil_usuario, cancion) for cancion in X_norm]
    canciones['similitud'] = similitudes

    # Excluir canciones que ya son favoritas
    recomendaciones = canciones[~canciones['id'].isin(canciones_favoritas)]

    # Ordenar por similitud y obtener las n mejores
    recomendaciones = recomendaciones.sort_values('similitud', ascending=False).head(n_recomendaciones)

    return recomendaciones, canciones_favoritas

# Demostración: Recomendaciones para el Usuario 0
id_usuario_demo = 0
recomendaciones, favoritas = recomendar_canciones(id_usuario_demo)

print(f"\nCanciones favoritas del Usuario {id_usuario_demo}:")
canciones_fav = canciones[canciones['id'].isin(favoritas)]
print(canciones_fav[['name', 'artist', 'danceability', 'energy']])

print(f"\nRecomendaciones para el Usuario {id_usuario_demo}:")
print(recomendaciones[['name', 'artist', 'similitud', 'danceability', 'energy']])

# Visualización de recomendaciones vs favoritas
plt.figure(figsize=(12, 8))
plt.scatter(canciones['danceability'], canciones['energy'], c='lightgray', alpha=0.3, label='Todas las canciones')
plt.scatter(canciones_fav['danceability'], canciones_fav['energy'], c='blue', s=100, label='Favoritas')
plt.scatter(recomendaciones['danceability'], recomendaciones['energy'], c='red', s=100, label='Recomendadas')
plt.title(f'Recomendaciones para Usuario {id_usuario_demo}')
plt.xlabel('Bailabilidad')
plt.ylabel('Energía')
plt.legend()
plt.show()

In [None]:
# Función para probar con diferentes usuarios y ajustes
def experimentar_recomendaciones():
    # Elegir usuario
    print("\n=== EXPERIMENTO CON RECOMENDACIONES ===")
    id_usuario = int(input("Ingrese ID de usuario (0-9): "))

    # Ajustar pesos de características
    print("\nAjuste de pesos (0-2, donde 1 es neutro):")
    pesos = np.ones(len(features_cols))
    for i, feat in enumerate(features_cols):
        peso = float(input(f"Peso para {feat}: "))
        pesos[i] = peso

    # Crear perfil personalizado
    perfil_usuario, canciones_favoritas = crear_perfil_usuario(id_usuario, usuarios, X_norm)
    perfil_ajustado = perfil_usuario * pesos

    # Calcular similitudes con el perfil ajustado
    similitudes = [similitud_coseno(perfil_ajustado, cancion) for cancion in X_norm]
    canciones['similitud'] = similitudes

    # Generar recomendaciones
    recomendaciones = canciones[~canciones['id'].isin(canciones_favoritas)]
    recomendaciones = recomendaciones.sort_values('similitud', ascending=False).head(5)

    print("\nRecomendaciones personalizadas:")
    print(recomendaciones[['name', 'artist', 'similitud']])

    return recomendaciones, canciones_favoritas

# Ejecutar experimento (comentar en producción y usar inputs reales)
# Para simplificar la ejecución, usaremos valores predefinidos
usuario_test = 2
pesos_test = [1.5, 0.8, 1.2, 0.5, 1.0]  # Dar más peso a bailabilidad y valencia

# Simulación de experimento con valores fijos
def simular_experimento(usuario_id, pesos):
    print(f"\n=== SIMULACIÓN: Usuario {usuario_id} con pesos personalizados ===")
    print(f"Pesos: {features_cols}")
    print(f"       {pesos}")

    # Crear perfil personalizado
    perfil_usuario, canciones_favoritas = crear_perfil_usuario(usuario_id, usuarios, X_norm)
    perfil_ajustado = perfil_usuario * pesos

    # Calcular similitudes con el perfil ajustado
    similitudes = [similitud_coseno(perfil_ajustado, cancion) for cancion in X_norm]
    canciones['similitud'] = similitudes

    # Generar recomendaciones
    recomendaciones = canciones[~canciones['id'].isin(canciones_favoritas)]
    recomendaciones = recomendaciones.sort_values('similitud', ascending=False).head(5)

    print("\nRecomendaciones personalizadas:")
    print(recomendaciones[['name', 'artist', 'similitud']])

    canciones_fav = canciones[canciones['id'].isin(canciones_favoritas)]
    # Visualizar el efecto de los pesos
    plt.figure(figsize=(12, 8))
    plt.scatter(canciones['danceability'], canciones['energy'], c='lightgray', alpha=0.3, label='Todas las canciones')
    plt.scatter(canciones_fav['danceability'], canciones_fav['energy'], c='blue', s=100, label='Favoritas')
    plt.scatter(recomendaciones['danceability'], recomendaciones['energy'], c='red', s=100, label='Recomendadas con pesos')
    plt.title(f'Recomendaciones ajustadas para Usuario {usuario_id}')
    plt.xlabel('Bailabilidad')
    plt.ylabel('Energía')
    plt.legend()
    plt.show()

    return recomendaciones, canciones_favoritas

# Ejecutar simulación
recomendaciones_ajustadas, favoritas_usuario = simular_experimento(usuario_test, pesos_test)