Generador de vectores demográficos

In [28]:
import csv

# Función para cargar tipos de usuario desde el archivo
def load_user_types(filepath):
    types = []
    with open(filepath, 'r', newline='') as file:
        reader = csv.reader(file, delimiter='\t')
        for row in reader:
            types.append({
                'tipo': row[0],
                'edad_min': int(row[1]),
                'edad_max': int(row[2]),
                'sexo': row[3].lower(),  # Asegurarse de que todo está en minúsculas para la comparación
                'profesion': row[4].lower()  # Asegurarse de que todo está en minúsculas para la comparación
            })
    return types

# Profesiones agrupadas
professions = {
    'c': ['artist', 'writer', 'entertainment', 'educator', 'librarian'],
    'b': ['executive', 'administrator', 'salesman', 'marketing', 'lawyer'],
    'm': ['doctor', 'healthcare', 'scientist'],
    't': ['technician', 'programmer', 'engineer'],
    'o': ['student', 'none', 'other', 'homemaker', 'retired']
}

# Función para determinar el tipo de usuario
def determine_user_type(age, sex, profession, types):
    for type_info in types:
        # Verifica edad
        if type_info['edad_min'] <= age <= type_info['edad_max']:
            # Verifica sexo
            
            if type_info['sexo'] == 'x' or type_info['sexo'] == sex:
                # Verifica profesión
                if type_info['profesion'] == 'x' or profession in professions.get(type_info['profesion'], []):
                    return type_info['tipo']
    return 'No type found'

# Cargar tipos de usuario
user_types = load_user_types('data/user_types.txt')

# Leer la información de los usuarios y determinar su tipo
results = []
with open('data/users.txt', 'r', newline='') as file:
    reader = csv.reader(file, delimiter='\t')
    for row in reader:
        user_id = row[0]
        age = int(row[1])
        sex = row[2].lower()  # Asegurarse de que todo está en minúsculas para la comparación
        profession = row[3].lower()  # Asegurarse de que todo está en minúsculas para la comparación
        user_type = determine_user_type(age, sex, profession, user_types)
        results.append([user_id, user_type])

# Escribir los resultados en un nuevo archivo
with open('data/user_types_assigned.txt', 'w', newline='') as file:
    writer = csv.writer(file, delimiter='\t')
    writer.writerows(results)

print("El procesamiento ha finalizado y los resultados están en 'user_types_assigned.txt'")


El procesamiento ha finalizado y los resultados están en 'user_types_assigned.txt'


Generador de vectores basados en contenido y colaborativos

In [6]:
import pandas as pd
import numpy as np

# Cargar datos de u1_base.txt
ratings_data = pd.read_csv("data/u1_base.txt", sep='\t', names=['UserID', 'MovieID', 'Rating'], encoding="utf-8")

# Cargar datos de items.txt y asegurar que las columnas de géneros se lean como enteros
items_data = pd.read_csv("data/items.txt", sep='\t', names=['MovieID'] + [f'Genre_{i}' for i in range(1, 20)] + ['TitleYear'], encoding="latin-1")

# Convertir las columnas de géneros a enteros
genre_columns = [f'Genre_{i}' for i in range(1, 20)]
items_data[genre_columns] = items_data[genre_columns].apply(pd.to_numeric, errors='coerce').fillna(0).astype(int)

# Filtrar las películas que han sido puntuadas con un 3 o más
high_rated_movies = ratings_data[ratings_data['Rating'] >= 3]

# Crear un diccionario para almacenar los vectores de preferencias de cada usuario
user_preferences = {}

# Iterar sobre cada usuario y calcular su vector de preferencias
for user_id in high_rated_movies['UserID'].unique():
    # Obtener las películas puntuadas con 3 o más por el usuario actual
    user_ratings = high_rated_movies[high_rated_movies['UserID'] == user_id]
    
    # Inicializar un vector de preferencias de 19 géneros con ceros
    preference_vector = np.zeros(19)
    
    # Iterar sobre las películas puntuadas por el usuario
    for _, row in user_ratings.iterrows():
        movie_id = row['MovieID']
        rating = row['Rating']
        multiplier = rating - 2  # 3 -> 1, 4 -> 2, 5 -> 3
        
        # Asegurarse de que el ID de la película exista en items_data
        if movie_id in items_data['MovieID'].values:
            movie_genres = items_data[items_data['MovieID'] == movie_id].iloc[0, 1:20].values.astype(int)
            preference_vector += movie_genres * multiplier
    
    # Normalizar el vector de preferencias a valores entre 0 y 100
    max_value = preference_vector.max()
    if max_value > 0:
        preference_vector = (preference_vector / max_value) * 100
    
    # Almacenar el vector de preferencias en el diccionario
    user_preferences[user_id] = preference_vector

# Guardar los vectores de preferencias en VectoresColaborativo.txt
with open('data/VectoresColaborativo.txt', 'w') as f:
    for user_id, preferences in user_preferences.items():
        preferences = np.where(preferences == 0, 1, preferences)  # Cambiar 0 a 1
        preferences_str = '\t'.join(map(str, preferences.astype(int)))  # Convertir a enteros y luego a strings
        f.write(f"{user_id}\t{preferences_str}\n")

# Guardar los vectores de preferencias en VectoresBasadosContenido.txt
with open('data/VectoresBasadosContenido.txt', 'w') as f:
    for user_id, preferences in user_preferences.items():
        # Mantener solo los 6 valores más altos
        top_indices = preferences.argsort()[-6:][::-1]
        top_preferences = np.zeros(19)
        top_preferences[top_indices] = preferences[top_indices]
        
        preferences_str = '\t'.join(map(str, top_preferences.astype(int)))  # Convertir a enteros y luego a strings
        f.write(f"{user_id}\t{preferences_str}\n")

