In [1]:
import numpy as np
import pandas as pd
from sentence_transformers import SentenceTransformer

In [2]:
model = SentenceTransformer("PORTULAN/serafim-900m-portuguese-pt-sentence-encoder")
text_columns = ["special_interest", "diary_entry", "selfdefining_memory", "empty_sheet"]

In [3]:
# Load your dataset
file_path = "../../data/adhd-beliefs-pt/adhd-beliefs-pt-anonymized.pkl"
df = pd.read_pickle(file_path)

In [4]:
processed_df = df[text_columns].fillna("").replace("nan", "")
processed_df["merged_text"] = processed_df.agg(" ".join, axis=1).str.strip()
processed_df = processed_df[processed_df["merged_text"] != ""]
processed_df

Unnamed: 0,special_interest,diary_entry,selfdefining_memory,empty_sheet,merged_text
1,"Adoro cozinhar, porque sinto que é a forma ide...","Hoje foi um dia bastante normal, como ontem fi...","Quando era mais nova, eu tinha uma professora ...",Recentemente tenho pensado muito no impacto qu...,"Adoro cozinhar, porque sinto que é a forma ide..."
3,Gosto de ver séries porque relatam relações sa...,Os eventos que considero mais relevantes serão...,Não tenho,Este questionário foi um pouco extenso. Meu au...,Gosto de ver séries porque relatam relações sa...
6,,Ao longo de 7 anos nunca esperei acabar uma am...,,,Ao longo de 7 anos nunca esperei acabar uma am...
8,Campos de ferias. Temos que criar o campo todo...,"O meu dia? Dormi 3h, somehow consegui acordar ...",,,Campos de ferias. Temos que criar o campo todo...
14,"Taylor Swift, amo o seu liricismo e a maneira ...",,Talvez a minha memória mais formativa tenha si...,Pah... not to be political mas estamos a camin...,"Taylor Swift, amo o seu liricismo e a maneira ..."
...,...,...,...,...,...
314,Gosto de nadar e de estar em contacto com a ág...,,,,Gosto de nadar e de estar em contacto com a ág...
315,Literatura dos séculos XIX e XX. Há imensas hi...,Provavelmente tentar ler e não conseguir. Tent...,Não vou entrar em detalhes por ser um assunto ...,,Literatura dos séculos XIX e XX. Há imensas hi...
322,Pergunta difícil porque os meus interesses esp...,"Hoje não é um dia bom para isso mas:\nAcordei,...",,,Pergunta difícil porque os meus interesses esp...
329,Musica e mecanismos da voz,Cansaço com o dia a dia. Frustração no trabalh...,,,Musica e mecanismos da voz Cansaço com o dia a...


In [5]:
cols = processed_df.columns.to_list()
print("Columns in processed_df:", cols)

Columns in processed_df: ['special_interest', 'diary_entry', 'selfdefining_memory', 'empty_sheet', 'merged_text']


In [6]:
for col in cols:
    processed_df[col] = processed_df[col].astype(str)

In [7]:
processed_df.head()

Unnamed: 0,special_interest,diary_entry,selfdefining_memory,empty_sheet,merged_text
1,"Adoro cozinhar, porque sinto que é a forma ide...","Hoje foi um dia bastante normal, como ontem fi...","Quando era mais nova, eu tinha uma professora ...",Recentemente tenho pensado muito no impacto qu...,"Adoro cozinhar, porque sinto que é a forma ide..."
3,Gosto de ver séries porque relatam relações sa...,Os eventos que considero mais relevantes serão...,Não tenho,Este questionário foi um pouco extenso. Meu au...,Gosto de ver séries porque relatam relações sa...
6,,Ao longo de 7 anos nunca esperei acabar uma am...,,,Ao longo de 7 anos nunca esperei acabar uma am...
8,Campos de ferias. Temos que criar o campo todo...,"O meu dia? Dormi 3h, somehow consegui acordar ...",,,Campos de ferias. Temos que criar o campo todo...
14,"Taylor Swift, amo o seu liricismo e a maneira ...",,Talvez a minha memória mais formativa tenha si...,Pah... not to be political mas estamos a camin...,"Taylor Swift, amo o seu liricismo e a maneira ..."


In [8]:
def get_user_embedding(text):
    if not text or text == "nan" or pd.isna(text):
        return np.zeros((1536,), dtype=np.float32)
    return model.encode(text, normalize_embeddings=True)

In [9]:
for col in cols:
    processed_df[f"{col}_embedding"] = processed_df[col].apply(get_user_embedding)

In [10]:
processed_df.head()

Unnamed: 0,special_interest,diary_entry,selfdefining_memory,empty_sheet,merged_text,special_interest_embedding,diary_entry_embedding,selfdefining_memory_embedding,empty_sheet_embedding,merged_text_embedding
1,"Adoro cozinhar, porque sinto que é a forma ide...","Hoje foi um dia bastante normal, como ontem fi...","Quando era mais nova, eu tinha uma professora ...",Recentemente tenho pensado muito no impacto qu...,"Adoro cozinhar, porque sinto que é a forma ide...","[-0.0066892994, -0.008711162, 0.020823173, -0....","[0.01390781, -0.02137232, 0.0012341079, 0.0150...","[-0.0077606295, -0.025320442, 0.004710649, 0.0...","[0.006371905, -0.025407678, 0.009668698, 0.000...","[-0.0029476678, -0.011171358, 0.018170422, -0...."
3,Gosto de ver séries porque relatam relações sa...,Os eventos que considero mais relevantes serão...,Não tenho,Este questionário foi um pouco extenso. Meu au...,Gosto de ver séries porque relatam relações sa...,"[0.011201557, -0.016555935, 0.05544479, 0.0285...","[-0.003650666, -0.03267713, 0.042604044, 0.004...","[-0.023299124, -0.00144792, 0.0193926, 0.02227...","[-0.01334663, -0.007554374, -0.023176813, 0.01...","[0.02298963, -0.03627958, 0.063108824, 0.02827..."
6,,Ao longo de 7 anos nunca esperei acabar uma am...,,,Ao longo de 7 anos nunca esperei acabar uma am...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.016248545, -0.030110305, 0.050371002, 0.02...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.016248545, -0.030110305, 0.050371002, 0.02..."
8,Campos de ferias. Temos que criar o campo todo...,"O meu dia? Dormi 3h, somehow consegui acordar ...",,,Campos de ferias. Temos que criar o campo todo...,"[-0.010825635, -0.023888972, -0.013832389, -0....","[0.0024285868, -0.015170263, 0.004084615, -0.0...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.010825635, -0.023888972, -0.013832389, -0...."
14,"Taylor Swift, amo o seu liricismo e a maneira ...",,Talvez a minha memória mais formativa tenha si...,Pah... not to be political mas estamos a camin...,"Taylor Swift, amo o seu liricismo e a maneira ...","[-0.029966783, -0.030345816, 0.014844258, 0.01...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.009094046, -0.013644675, 0.016085394, -0.00...","[-0.0014996869, -0.0001300723, 0.016133873, 0....","[-0.018019866, -0.03030211, 0.009025991, 0.007..."


In [11]:
embedding_cols = [col for col in processed_df.columns if col.endswith("_embedding") or col == "merged_text"]
result_df = df.loc[processed_df.index].join(processed_df[embedding_cols], how="left")
result_df.to_pickle("../../data/adhd-beliefs-pt/adhd-beliefs-pt-embeddings-serafim.pkl")
result_df

Unnamed: 0,datetime,sex,adhd_diagnosis,age,education,occupation,dialect,forgetting_objects,forgetting_responsabilities,emotion_management,...,special_interest,diary_entry,selfdefining_memory,empty_sheet,merged_text,special_interest_embedding,diary_entry_embedding,selfdefining_memory_embedding,empty_sheet_embedding,merged_text_embedding
1,2025-03-30T16:29:47+02:00,Feminino,Não tenho,22,Licenciatura,Estudante,Português de Portugal,3,3,4,...,"Adoro cozinhar, porque sinto que é a forma ide...","Hoje foi um dia bastante normal, como ontem fi...","Quando era mais nova, eu tinha uma professora ...",Recentemente tenho pensado muito no impacto qu...,"Adoro cozinhar, porque sinto que é a forma ide...","[-0.0066892994, -0.008711162, 0.020823173, -0....","[0.01390781, -0.02137232, 0.0012341079, 0.0150...","[-0.0077606295, -0.025320442, 0.004710649, 0.0...","[0.006371905, -0.025407678, 0.009668698, 0.000...","[-0.0029476678, -0.011171358, 0.018170422, -0...."
3,2025-03-31T12:08:00+02:00,Feminino,Não tenho,23,Mestrado,Trabalhador-estudante,Português de Portugal,2,1,4,...,Gosto de ver séries porque relatam relações sa...,Os eventos que considero mais relevantes serão...,Não tenho,Este questionário foi um pouco extenso. Meu au...,Gosto de ver séries porque relatam relações sa...,"[0.011201557, -0.016555935, 0.05544479, 0.0285...","[-0.003650666, -0.03267713, 0.042604044, 0.004...","[-0.023299124, -0.00144792, 0.0193926, 0.02227...","[-0.01334663, -0.007554374, -0.023176813, 0.01...","[0.02298963, -0.03627958, 0.063108824, 0.02827..."
6,2025-03-31T12:27:51+02:00,Feminino,Não tenho,20,Ensino secundário,Estudante,Português de Portugal,3,2,4,...,,Ao longo de 7 anos nunca esperei acabar uma am...,,,Ao longo de 7 anos nunca esperei acabar uma am...,"[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.016248545, -0.030110305, 0.050371002, 0.02...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.016248545, -0.030110305, 0.050371002, 0.02..."
8,2025-03-31T12:55:43+02:00,Feminino,Não tenho,19,Licenciatura,Estudante,Português de Portugal,3,2,2,...,Campos de ferias. Temos que criar o campo todo...,"O meu dia? Dormi 3h, somehow consegui acordar ...",,,Campos de ferias. Temos que criar o campo todo...,"[-0.010825635, -0.023888972, -0.013832389, -0....","[0.0024285868, -0.015170263, 0.004084615, -0.0...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.010825635, -0.023888972, -0.013832389, -0...."
14,2025-03-31T13:54:40+02:00,Feminino,Não tenho,25,Mestrado,Trabalhador,Português de Portugal,4,3,4,...,"Taylor Swift, amo o seu liricismo e a maneira ...",,Talvez a minha memória mais formativa tenha si...,Pah... not to be political mas estamos a camin...,"Taylor Swift, amo o seu liricismo e a maneira ...","[-0.029966783, -0.030345816, 0.014844258, 0.01...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.009094046, -0.013644675, 0.016085394, -0.00...","[-0.0014996869, -0.0001300723, 0.016133873, 0....","[-0.018019866, -0.03030211, 0.009025991, 0.007..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
314,2025-06-11T00:05:05+02:00,Feminino,Não tenho,23,Licenciatura,Estudante,Português de Portugal,3,4,5,...,Gosto de nadar e de estar em contacto com a ág...,,,,Gosto de nadar e de estar em contacto com a ág...,"[0.009511909, -0.011546955, -0.028541788, -0.0...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.009511909, -0.011546955, -0.028541788, -0.0..."
315,2025-06-11T00:08:08+02:00,Masculino,"Sim, diagnosticado",20,Ensino secundário,Estudante,Português de Portugal,4,2,4,...,Literatura dos séculos XIX e XX. Há imensas hi...,Provavelmente tentar ler e não conseguir. Tent...,Não vou entrar em detalhes por ser um assunto ...,,Literatura dos séculos XIX e XX. Há imensas hi...,"[-0.014357777, -0.0340508, 0.010366136, -0.006...","[-0.009196789, -0.009434314, 0.014294509, -0.0...","[0.012133739, 0.002462292, 0.01629526, -0.0050...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.012934141, -0.038707536, 0.004544155, -0.0..."
322,2025-06-12T11:12:49+02:00,Feminino,"Sim, diagnosticado",36,Mestrado,Trabalhador,Português de Portugal,4,2,3,...,Pergunta difícil porque os meus interesses esp...,"Hoje não é um dia bom para isso mas:\nAcordei,...",,,Pergunta difícil porque os meus interesses esp...,"[-0.050704453, -0.019423904, -0.0032668812, 0....","[0.0043747574, -0.028621804, 0.015750837, 0.00...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[-0.050704453, -0.019423904, -0.0032668812, 0...."
329,2025-06-13T21:18:34+02:00,Feminino,Não tenho,25,Licenciatura,Trabalhador,Português de Portugal,2,4,3,...,Musica e mecanismos da voz,Cansaço com o dia a dia. Frustração no trabalh...,,,Musica e mecanismos da voz Cansaço com o dia a...,"[-0.013187578, 0.01724072, -0.00807545, -0.019...","[0.008217495, 0.01175207, 0.034731198, 0.02004...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...","[0.003397538, 0.016485054, 0.017667608, -0.000..."
