In [46]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import MinMaxScaler
import unidecode
import os
import warnings

warnings.filterwarnings("ignore")

# Cargar datasets preprocesados (sin depender de features_matrix.parquet)
df_completo = pd.read_parquet(r'..\Datasets\dataset_completo.parquet')
df_actor = pd.read_parquet(r'..\Datasets\actor_dataset.parquet')
df_director = pd.read_parquet(r'..\Datasets\director_dataset.parquet')

# Función para normalizar el título antes de buscarlo en el dataset (incluso si hay diferencias en mayúsculas o acentos)
def limpiar_texto_completo(texto):
    if pd.isnull(texto):
        return None
    try:
        texto = str(texto).lower().strip()
        texto = ' '.join(texto.split())  # Eliminar espacios extra
        texto = unidecode.unidecode(texto)  # Eliminar caracteres especiales
    except Exception as e:
        print(f"Error procesando el texto: {texto}, Error: {e}")
        return None 
    return texto

# Aplicar limpieza de texto en los títulos
df_completo['title_normalizado'] = df_completo['title'].apply(limpiar_texto_completo)

# Imprimir los primeros títulos normalizados para verificar
print(df_completo[['title', 'title_normalizado']].head(10))

# Crear la matriz de características basada en las columnas relevantes
def generar_features_matrix(df):
    # Selecciona las columnas relevantes para la recomendación
    features = df[['vote_average', 'vote_count']]
    
    # Normaliza las columnas seleccionadas
    scaler = MinMaxScaler()
    features_scaled = scaler.fit_transform(features)
    
    return features_scaled

# Generar la matriz de características en memoria
features_matrix = generar_features_matrix(df_completo)

# Función de recomendación basada en la similitud del coseno
def recomendacion(titulo, n_recomendaciones=5):
    try:
        # Limpiar y normalizar el título de la película
        titulo_normalizado = limpiar_texto_completo(titulo)
        
        # Imprimir el título que se está buscando para verificar
        print(f"Buscando el título: {titulo_normalizado}")
        
        # Verificar si el título existe en el dataset
        pelicula_idx = df_completo[df_completo['title_normalizado'].str.contains(titulo_normalizado, case=False, na=False)].index
        
        if pelicula_idx.empty:
            return {"mensaje": f"El título '{titulo}' no se encuentra en el dataset."}
        
        # Obtener el índice de la película en el dataset
        idx = pelicula_idx[0]
        
        # Calcular las similitudes utilizando la matriz de características
        cosine_similarities = cosine_similarity([features_matrix[idx]], features_matrix).flatten()
        
        # Obtener los índices de las películas más similares y evitar repetir la misma película
        similar_indices = cosine_similarities.argsort()[::-1][1:n_recomendaciones + 1]
        
        # Obtener los títulos de las películas recomendadas
        recomendaciones = df_completo['title'].iloc[similar_indices].tolist()
        
        return {"recomendaciones": recomendaciones}
    
    except Exception as e:
        return {"mensaje": f"Error interno en la recomendación: {str(e)}"}

# Usar la función de recomendación
resultado = recomendacion("a girl like her")
print(resultado)

                  title     title_normalizado
0                                            
1                     a                     a
2    a ballerina's tale    a ballerina's tale
3        a beast at bay        a beast at bay
4    a beautiful planet    a beautiful planet
5      a bell for adano      a bell for adano
6   a better way to die   a better way to die
7        a brief season        a brief season
8  a bright shining lie  a bright shining lie
9   a bunch of amateurs   a bunch of amateurs
Buscando el título: a girl like her
{'recomendaciones': ['dreamer inspired by a true story', 'in cold blood', 'daydream nation', 'bucky larson born to be a star', 'return to me']}


In [47]:
'''import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import sklearn
from sklearn.preprocessing import MinMaxScaler
import unidecode
import os
import warnings
warnings.filterwarnings("ignore")'''



In [48]:
''' Cargar datasets preprocesados
df_completo = pd.read_parquet(r'..\Datasets\dataset_completo.parquet')
df_actor = pd.read_parquet(r'..\Datasets\actor_dataset.parquet')
df_director = pd.read_parquet(r'..\Datasets\director_dataset.parquet')'''

" Cargar datasets preprocesados\ndf_completo = pd.read_parquet(r'..\\Datasets\\dataset_completo.parquet')\ndf_actor = pd.read_parquet(r'..\\Datasets\x07ctor_dataset.parquet')\ndf_director = pd.read_parquet(r'..\\Datasets\\director_dataset.parquet')"

In [49]:
'''# Función para normalizar el título antes de buscarlo en el dataset (incluso si hay diferencias en mayúsculas o acentos)
def limpiar_texto_completo(texto):
    if pd.isnull(texto):
        return None
    try:
        texto = str(texto).lower().strip()
        texto = ' '.join(texto.split())  # Eliminar espacios extra
        texto = unidecode.unidecode(texto)  # Eliminar caracteres especiales
    except Exception as e:
        print(f"Error procesando el texto: {texto}, Error: {e}")
        return None 
    return texto

# Aplicar limpieza de texto en nombres de actores y directores
df_actor['actor_name'] = df_actor['actor_name'].apply(limpiar_texto_completo)
df_director['director_name'] = df_director['director_name'].apply(limpiar_texto_completo)

# Crear la matriz de características basada en TF-IDF o características numéricas
# Suponiendo que ya tienes el TF-IDF entrenado
features_matrix = ...  # Esto debe generarse a partir de tu TF-IDF o características numéricas normalizadas'''

'# Función para normalizar el título antes de buscarlo en el dataset (incluso si hay diferencias en mayúsculas o acentos)\ndef limpiar_texto_completo(texto):\n    if pd.isnull(texto):\n        return None\n    try:\n        texto = str(texto).lower().strip()\n        texto = \' \'.join(texto.split())  # Eliminar espacios extra\n        texto = unidecode.unidecode(texto)  # Eliminar caracteres especiales\n    except Exception as e:\n        print(f"Error procesando el texto: {texto}, Error: {e}")\n        return None \n    return texto\n\n# Aplicar limpieza de texto en nombres de actores y directores\ndf_actor[\'actor_name\'] = df_actor[\'actor_name\'].apply(limpiar_texto_completo)\ndf_director[\'director_name\'] = df_director[\'director_name\'].apply(limpiar_texto_completo)\n\n# Crear la matriz de características basada en TF-IDF o características numéricas\n# Suponiendo que ya tienes el TF-IDF entrenado\nfeatures_matrix = ...  # Esto debe generarse a partir de tu TF-IDF o característi

In [50]:
'''# Función de recomendación
def recomendacion(titulo, n_recomendaciones=5):
    try:
        # Limpiar y normalizar el título de la película
        titulo_normalizado = limpiar_texto_completo(titulo)
        
        # Verificar si el título existe en el dataset
        pelicula_idx = df_completo[df_completo['title'].str.contains(titulo_normalizado, case=False, na=False)].index
        
        if pelicula_idx.empty:
            return {"mensaje": f"El título '{titulo}' no se encuentra en el dataset."}
        
        # Obtener el índice de la película en el dataset
        idx = pelicula_idx[0]
        
        # Calcular las similitudes utilizando la matriz de características
        cosine_similarities = cosine_similarity([features_matrix[idx]], features_matrix).flatten()
        
        # Obtener los índices de las películas más similares y evitar repetir la misma película
        similar_indices = cosine_similarities.argsort()[::-1][1:n_recomendaciones + 1]
        
        # Obtener los títulos de las películas recomendadas
        recomendaciones = df_completo['title'].iloc[similar_indices].tolist()
        
        return {"recomendaciones": recomendaciones}
    
    except Exception as e:
        return {"mensaje": f"Error interno en la recomendación: {str(e)}"}'''

'# Función de recomendación\ndef recomendacion(titulo, n_recomendaciones=5):\n    try:\n        # Limpiar y normalizar el título de la película\n        titulo_normalizado = limpiar_texto_completo(titulo)\n        \n        # Verificar si el título existe en el dataset\n        pelicula_idx = df_completo[df_completo[\'title\'].str.contains(titulo_normalizado, case=False, na=False)].index\n        \n        if pelicula_idx.empty:\n            return {"mensaje": f"El título \'{titulo}\' no se encuentra en el dataset."}\n        \n        # Obtener el índice de la película en el dataset\n        idx = pelicula_idx[0]\n        \n        # Calcular las similitudes utilizando la matriz de características\n        cosine_similarities = cosine_similarity([features_matrix[idx]], features_matrix).flatten()\n        \n        # Obtener los índices de las películas más similares y evitar repetir la misma película\n        similar_indices = cosine_similarities.argsort()[::-1][1:n_recomendaciones + 

In [51]:
'''# Ruta relativa para la carpeta Datasets
datasets_dir = os.path.abspath(os.path.join('..', 'Datasets'))

# Verifica si el archivo Parquet existe en la ruta especificada
file_path = os.path.join(datasets_dir, 'features_matrix.parquet')

try:
    if os.path.exists(file_path):
        # Si el archivo existe, cargar la matriz desde el archivo Parquet
        features_df = pd.read_parquet(file_path)
        print(f"Archivo cargado desde: {file_path}")
    else:
        raise FileNotFoundError
except FileNotFoundError:
    # Si el archivo no existe o hay un error, genera y guarda la matriz de características
    print(f"Archivo no encontrado. Generando nueva matriz y guardando en: {file_path}")
    
    # Selecciona las columnas relevantes para la recomendación
    features = df_completo[['vote_average', 'vote_count']]

    # Normaliza las columnas seleccionadas
    scaler = MinMaxScaler()
    features_scaled = scaler.fit_transform(features)

    # Convertir la matriz de características a un DataFrame de pandas
    features_df = pd.DataFrame(features_scaled, columns=['vote_average', 'vote_count'])

    # Asegura que la carpeta Datasets exista antes de guardar
    os.makedirs(datasets_dir, exist_ok=True)

    # Guardar la matriz de características en un archivo Parquet en la ruta relativa
    features_df.to_parquet(file_path)
    print(f"Archivo guardado en: {file_path}")

except Exception as e:
    # Manejo de otros posibles errores
    print(f"Ocurrió un error: {e}")'''

'# Ruta relativa para la carpeta Datasets\ndatasets_dir = os.path.abspath(os.path.join(\'..\', \'Datasets\'))\n\n# Verifica si el archivo Parquet existe en la ruta especificada\nfile_path = os.path.join(datasets_dir, \'features_matrix.parquet\')\n\ntry:\n    if os.path.exists(file_path):\n        # Si el archivo existe, cargar la matriz desde el archivo Parquet\n        features_df = pd.read_parquet(file_path)\n        print(f"Archivo cargado desde: {file_path}")\n    else:\n        raise FileNotFoundError\nexcept FileNotFoundError:\n    # Si el archivo no existe o hay un error, genera y guarda la matriz de características\n    print(f"Archivo no encontrado. Generando nueva matriz y guardando en: {file_path}")\n    \n    # Selecciona las columnas relevantes para la recomendación\n    features = df_completo[[\'vote_average\', \'vote_count\']]\n\n    # Normaliza las columnas seleccionadas\n    scaler = MinMaxScaler()\n    features_scaled = scaler.fit_transform(features)\n\n    # Converti

In [52]:
'''# Guardar el dataset en formato Parquet
df_completo.to_parquet(r'..\Datasets\dataset_completo.parquet')'''

"# Guardar el dataset en formato Parquet\ndf_completo.to_parquet(r'..\\Datasets\\dataset_completo.parquet')"