# Evaluation

In [15]:
import pandas as pd
import os
import re

df = pd.read_parquet("data/processed/colab/v2/raw_test.parquet")

### Example generating batchs samples

In [14]:
def id2text(text, movies):
    for movie_id in re.findall(r"@\d+", text):
        if movies[movies["movieId"] == movie_id[1:]].empty:
            movie_name = "<unk>"
        else:
            movie_name = movies[movies["movieId"] == movie_id[1:]]["movieName"].iloc[0]
        text = text.replace(movie_id, movie_name)
    return text

In [16]:
movies = pd.DataFrame(
    df["movieMentions"]
    .explode()
    .drop_duplicates()
    .dropna()
    .reset_index(drop=True)
    .tolist()
)

In [17]:
df_messages = df.explode("messages_translated")

df_messages["timeOffset"] = df_messages["messages_translated"].apply(
    lambda x: x["timeOffset"]
)
df_messages["text"] = df_messages["messages_translated"].apply(lambda x: x["text"])
df_messages["senderWorkerId"] = df_messages["messages_translated"].apply(
    lambda x: x["senderWorkerId"]
)
df_messages["messageID"] = df_messages["messages_translated"].apply(
    lambda x: x["messageId"]
)
df_messages.drop(
    columns=[
        "messages",
        "messageID",
        "messages_translated",
        "movieMentions",
        "respondentQuestions",
        "initiatorWorkerId",
        "initiatorQuestions",
        "timeOffset",
    ],
    inplace=True,
)

df_messages

Unnamed: 0,conversationId,respondentWorkerId,text,senderWorkerId
0,20001,957,"Olá, estou procurando por um filme como o @111...",956
0,20001,957,Você deveria assistir @151656.,957
0,20001,957,É um grande? Eu nunca vi isso. Eu já vi @192131.,956
0,20001,957,Eu quero dizer @134643,956
0,20001,957,"Sim, @151656 é muito engraçado e @94688 também.",957
...,...,...,...,...
1341,23322,1082,@177387,1082
1341,23322,1082,"Obrigado pelas suas recomendações, tenha um bo...",1084
1341,23322,1082,Foi um prazer compartilhar filmes com você. Te...,1082
1341,23322,1082,Adeus,1082


In [18]:
import re


def has_movie(text):
    return re.findall(r"@\d+", text)


def get_movie(list_movies, movies):
    movies_text = []
    for movie_id in list_movies:
        if movie_id == None:
            movies_text.append("")
        else:
            if movies[movies["movieId"] == movie_id[1:]].empty:
                movie_name = "<unk>"
            else:
                movie_name = movies[movies["movieId"] == movie_id[1:]][
                    "movieName"
                ].iloc[0]
            movies_text.append(movie_name)
    return movies_text

In [19]:
df_test = df_messages.copy()
df_test['has_movie'] = df_messages['text'].apply(lambda x: has_movie(x))
df_test['text'] = df_test['text'].apply(lambda x: id2text(x, movies))


In [20]:
df_test.query('conversationId == 20001')

Unnamed: 0,conversationId,respondentWorkerId,text,senderWorkerId,has_movie
0,20001,957,"Olá, estou procurando por um filme como o Supe...",956,[@111776]
0,20001,957,Você deveria assistir Police Academy (1984).,957,[@151656]
0,20001,957,É um grande? Eu nunca vi isso. Eu já vi Americ...,956,[@192131]
0,20001,957,Eu quero dizer American Pie (1999),956,[@134643]
0,20001,957,"Sim, Police Academy (1984) é muito engraçado ...",957,"[@151656, @94688]"
0,20001,957,Parece que eu preciso dar uma olhada neles.,956,[]
0,20001,957,"Sim, você vai gostar deles.",957,[]
0,20001,957,Eu agradeço seu tempo. Eu precisarei dar uma o...,956,[]
0,20001,957,Sim Lethal Weapon (1987),957,[@101794]
0,20001,957,"Obrigado, eu também vou assistir isso.",956,[]


In [49]:
def get_instructions(df, movies_len=3):
    context_list = []
    instruction = "<|system|>\nVocê é um chatbot para indicação de filmes. Responda de maneira educada sugestões de filmes para os usuários.</s>"

    for conversation_id, group in df.groupby('conversationId'):
        msgs_list = [instruction]
        response = ""
        found = False
        
        for index, row in group.iterrows():
            if not found:
                if len(row['has_movie']) >= movies_len and row['senderWorkerId'] == row['respondentWorkerId']:
                    context = ''.join(msgs_list)
                    response = row['text']
                    context_entry = {
                        "conversationId": conversation_id,
                        "instruction": context if context else None,
                        "expected_response": response,
                        "expected_movies": get_movie(row['has_movie'], movies),
                    }
                    context_list.append(context_entry)
                    found = True

            if row['senderWorkerId'] == row['respondentWorkerId']:
                msgs_list.append('\n<|assistant|>\n' + row['text'] + "</s>")
            else:
                msgs_list.append('\n<|user|>\n' + row['text'] + "</s>")

            msgs_list.append('\n<|assistant|>\n')
            
    return context_list


instructions_eval = get_instructions(df_test)
instructions_dev = get_instructions(df_test, movies_len=4)


In [50]:
BASE_INSTRUCTION = "<|system|>\nVocê é um chatbot para indicação de filmes. Responda de maneira educada sugestões de filmes para os usuários.</s>"

print(f"Total contexts: {len(instructions_eval)}")
print(f"Contexts with no previous messages: {sum(1 for entry in instructions_eval if entry['instruction'] == BASE_INSTRUCTION)}")

instructions_eval = [entry for entry in instructions_eval if entry['instruction'] != BASE_INSTRUCTION]
instructions_dev = [entry for entry in instructions_dev if entry['instruction'] != BASE_INSTRUCTION]

print(f"Total contexts: {len(instructions_eval)}")
print(f"Contexts with no previous messages: {sum(1 for entry in instructions_eval if entry['instruction'] == BASE_INSTRUCTION)}")

Total contexts: 74
Contexts with no previous messages: 0
Total contexts: 74
Contexts with no previous messages: 0


### Save data

In [52]:
pd.DataFrame(instructions_eval).to_parquet("data/processed/colab/v2/test.parquet", index=False)
pd.DataFrame(instructions_dev).to_parquet("data/processed/colab/v2/test_dev.parquet", index=False)