In [5]:
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F
import pandas as pd


In [2]:
#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

In [3]:
# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

In [4]:
# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

Sentence embeddings:
tensor([[ 6.7657e-02,  6.3496e-02,  4.8713e-02,  7.9305e-02,  3.7448e-02,
          2.6528e-03,  3.9375e-02, -7.0985e-03,  5.9361e-02,  3.1537e-02,
          6.0098e-02, -5.2905e-02,  4.0607e-02, -2.5931e-02,  2.9843e-02,
          1.1269e-03,  7.3515e-02, -5.0382e-02, -1.2239e-01,  2.3703e-02,
          2.9727e-02,  4.2477e-02,  2.5634e-02,  1.9951e-03, -5.6919e-02,
         -2.7160e-02, -3.2904e-02,  6.6025e-02,  1.1901e-01, -4.5879e-02,
         -7.2621e-02, -3.2584e-02,  5.2341e-02,  4.5055e-02,  8.2531e-03,
          3.6702e-02, -1.3942e-02,  6.5392e-02, -2.6427e-02,  2.0639e-04,
         -1.3664e-02, -3.6281e-02, -1.9504e-02, -2.8974e-02,  3.9427e-02,
         -8.8409e-02,  2.6242e-03,  1.3671e-02,  4.8306e-02, -3.1157e-02,
         -1.1733e-01, -5.1169e-02, -8.8529e-02, -2.1896e-02,  1.4299e-02,
          4.4417e-02, -1.3482e-02,  7.4339e-02,  2.6638e-02, -1.9876e-02,
          1.7919e-02, -1.0605e-02, -9.0426e-02,  2.1327e-02,  1.4120e-01,
         -6.4718e

In [15]:
df_sentences = pd.read_csv(r'C:\Users\Agustín\OneDrive\Formación\2. Practicas\Data Scientist & ML Engineer\user_preferences_full_cleaned.csv',sep=';')
df_sentences.head()

Unnamed: 0,userId,PeliculasFavoritas,TitulosPeliculas,SeriesFavoritas,TitulosSeries,GenerosFavoritos,DetallesPeliculas,DetallesSeries,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12
0,3169503e-8011-707f-a637-23e5f9a37d5d,653346;693134;996154,El reino del planeta de los simios;Dune: Parte...,121,Doctor Who,"['Accion', 'Aventura', 'Animacion', 'Comedia',...","[{""Titulo"": ""El reino del planeta de los simio...","[{""Titulo"": ""Doctor Who"", ""Sinopsis"": ""Doctor ...",,,,,
1,"vive entre la luz y la oscuridad, llena de per...",no pueden regresar a casa porque la ley los p...,los mutantes. Dotados de extranos y variados ...,aparecer en su concurso televisivo preferido....,"de lo contrario, su existencia no seria posib...","[{""Titulo"": ""Juego de tronos"", ""Sinopsis"": ""En...",,,,,,,
2,".org/t/p/w500/7uintpyNlSF32hj5Bua85VuAp2R.jpg""...",los mutantes. Dotados de extranos y variados ...,"tambien Peter se transforma, sacando el lado ...",es una especie de pildora inteligente gracias...,Manny y Ellie esperan el nacimiento de su min...,"Sid, el perezoso, se mete en un buen lio al f...",pero durante la noche debe esconderse de ello...,todos los dias envia mensajes por radio con l...,un imponente Capitolio ejerce un control rigu...,"pero para ella, que ya ha visto la muerte de ...",,,
3,"a a su segundo ano a Hogwarts, pero descubre q...","tambien Peter se transforma, sacando el lado ...","en cambio, la autodestruccion es lo unico que...",los mutantes. Dotados de extranos y variados ...,"[{""Titulo"": ""Juego de tronos"", ""Sinopsis"": ""En...",,,,,,,,
4,"o"""": 7.02}, {""""Titulo"""": """"Frozen: El reino de...",un imponente Capitolio ejerce un control rigu...,"pero para ella, que ya ha visto la muerte de ...","nunca se conformaban con lo que tenian."""", """"...","sin embargo, debido a su precaria salud, fue ...",salvar la unidad del grupo y la amistad que l...,"tambien Peter se transforma, sacando el lado ...","[{""Titulo"": ""Juego de tronos"", ""Sinopsis"": ""En...",,,,,


In [17]:
df_sentences = df_sentences[df_sentences['userId'].str.len()==36]
df_sentences.head()

Unnamed: 0,userId,PeliculasFavoritas,TitulosPeliculas,SeriesFavoritas,TitulosSeries,GenerosFavoritos,DetallesPeliculas,DetallesSeries,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12
0,3169503e-8011-707f-a637-23e5f9a37d5d,653346;693134;996154,El reino del planeta de los simios;Dune: Parte...,121,Doctor Who,"['Accion', 'Aventura', 'Animacion', 'Comedia',...","[{""Titulo"": ""El reino del planeta de los simio...","[{""Titulo"": ""Doctor Who"", ""Sinopsis"": ""Doctor ...",,,,,
26,e129f0be-7021-70f6-8c43-24806020bacd,105;862;2062;424694;313369,Regreso al futuro;Toy Story;Ratatouille;Bohemi...,100883;31356;31251;97186;72637,"Yo nunca;Big Time Rush;Victorious;Con amor, Vi...","['Comedia', 'Familia', 'Romance', 'Musica', 'P...","[{""Titulo"": ""Regreso al futuro"", ""Sinopsis"": ""...","[{""Titulo"": ""Yo nunca"", ""Sinopsis"": ""Tras un a...",,,,,
27,c109908e-60d1-7078-8255-cb99805d438a,274870;157336;1265493;27205;286217,Passengers;Interstellar;Hispanoamerica: canto ...,106379;74851;63247,Fallout;Mas alla de Stranger Things;Westworld,"['Ciencia ficcion', 'Suspense', 'Misterio', 'F...","[{""Titulo"": ""Passengers"", ""Sinopsis"": ""Una nav...","[{""Titulo"": ""Fallout"", ""Sinopsis"": ""Basado en ...",,,,,
28,d14910ee-f041-7052-1117-9987d4514d42,155;19995;24428;299536;118340,El caballero oscuro;Avatar;Los Vengadores;Veng...,119051;12637;1434;62688;16286;33761,Miercoles;Rebelde;Padre de familia;Supergirl;Y...,"['Accion', 'Fantasia', 'Familia', 'Comedia', '...","[{""Titulo"": ""El caballero oscuro"", ""Sinopsis"":...","[{""Titulo"": ""Miercoles"", ""Sinopsis"": ""Miercole...",,,,,
29,41a9407e-3091-70bf-390e-efbfd972295d,155;24428;293660;299536;118340,El caballero oscuro;Los Vengadores;Deadpool;Ve...,119051;1412;46331;79242;63926,Miercoles;Arrow;La cupula;Las escalofriantes a...,"['Accion', 'Animacion', 'Comedia', 'Familia', ...","[{""Titulo"": ""El caballero oscuro"", ""Sinopsis"":...","[{""Titulo"": ""Miercoles"", ""Sinopsis"": ""Miercole...",,,,,


In [30]:
new_sentences = df_sentences['DetallesPeliculas'].head(50)
new_sentences


0     [{"Titulo": "El reino del planeta de los simio...
26    [{"Titulo": "Regreso al futuro", "Sinopsis": "...
27    [{"Titulo": "Passengers", "Sinopsis": "Una nav...
28    [{"Titulo": "El caballero oscuro", "Sinopsis":...
29    [{"Titulo": "El caballero oscuro", "Sinopsis":...
30    [{"Titulo": "Origen", "Sinopsis": "Dom Cobb es...
31    [{"Titulo": "Del reves (Inside Out)", "Sinopsi...
32    [{"Titulo": "Titanic", "Sinopsis": "Durante la...
33    [{"Titulo": "Deadpool", "Sinopsis": "Basado en...
34    [{"Titulo": "Avatar", "Sinopsis": "Ano 2154. J...
35    [{"Titulo": "Interstellar", "Sinopsis": "Un gr...
36    [{"Titulo": "Avatar", "Sinopsis": "Ano 2154. J...
37    [{"Titulo": "Avatar", "Sinopsis": "Ano 2154. J...
38    [{"Titulo": "Harry Potter y la piedra filosofa...
39    [{"Titulo": "Harry Potter y la piedra filosofa...
40    [{"Titulo": "Los Vengadores", "Sinopsis": "Cua...
41    [{"Titulo": "Avatar", "Sinopsis": "Ano 2154. J...
42    [{"Titulo": "Los Vengadores", "Sinopsis": 

In [None]:
# Revisar bien esta parte <<<<<<<<<<<<<<<<<<<-------------------------------------
# new_sentences = [
#     diccionario.get('Sinopsis')
#     for lista in new_sentences 
#     for diccionario in lista 
#     if isinstance(diccionario, dict) and 'Sinopsis' in diccionario
# ]
# new_sentences



[]