In [1]:
import ollama
import pandas as pd
from rich import print as p
from sklearn.metrics import classification_report

# Results I

In [2]:
datasets = ('facebook', 'twitter')
models = ('llama3', 'mistral', 'gemma2', 'gpt-3.5-turbo-0125')

In [3]:
for data in datasets:
    df = pd.read_csv(f'../data/opinions/{data}_cachaca.csv')
    for model in models:
        y_true, y_pred = df['labels'], df[model]
        p(f'[bold red]{data}: {model}[/bold red]')
        p(classification_report(y_true, y_pred))

# Evaluating manually labeled data

I will evaluate whether the data are opinion messages or not. Example:

The sentence "This is the new Tom Cruise movie" is not an opinion sentence. Whereas, the sentence "This new Tom Cruise movie is amazing!" is an opinion message.

To do this, I will use the knowledge of the LLM to perform this evaluation.

A message that is not an opinion is different from a neutral message. A non-opinion message simply states a fact or provides information without expressing a personal judgment or sentiment. On the other hand, a neutral message may contain subjective elements but does not convey a strong positive or negative sentiment. For instance, "This movie was released in 2023" is a non-opinion message, while "The movie is okay" is a neutral message.

In [4]:
PROMPT_TEMPLATE = """
Avalie a seguinte mensagem para determinar se ela expressa uma opinião. 
Uma mensagem que não é uma opinião é diferente de uma mensagem neutra. 
Uma mensagem que não é uma opinião simplesmente afirma um fato ou fornece 
informação sem expressar um julgamento pessoal ou sentimento. Por outro lado, 
uma mensagem neutra pode conter elementos subjetivos, mas não transmite um 
sentimento fortemente positivo ou negativo. Por exemplo, "Este filme foi 
lançado em 2023" é uma mensagem que não é uma opinião, enquanto "O filme é ok" 
é uma mensagem neutra.

Responda com "sim" ou "não" apenas.

Mensagem: "{text}"
"""

In [5]:
def get_opinion(model, text):
    response = ollama.chat(
        model=model,
        messages=[{
            'role': 'user',
            'content': PROMPT_TEMPLATE.format(text=text)
        }]
    )
    return response['message']['content'].lower().strip()

In [6]:
examples = [
    'Este é o novo filme do Tom Cruise',
    'Esse novo filme do Tom Cruise é incrível!',
]

for e in examples:
    p(f'[bold red]"{e}":[/bold red] {get_opinion("llama3", e)}')

In [7]:
for data in datasets:
    df = pd.read_csv(f'../data/opinions/{data}_cachaca.csv')
    is_opinative = [
        'sim' in get_opinion("llama3", text)
        for text in df['text']
    ]
    p(f'[bold red]Total de mensagens opinativas em {data}:[/bold red] {sum(is_opinative)} / {len(is_opinative)}')
    df['is_opinative'] = is_opinative
    df.to_csv(f'../data/opinions/{data}_cachaca.csv', index=False)

# Results II

Results removing non-opinionated sentences.

In [4]:
datasets = ('facebook', 'twitter')
for data in datasets:
    df = pd.read_csv(f'../data/opinions/{data}_cachaca.csv')
    df = df[df.is_opinative == True]
    for model in models:
        y_true, y_pred = df['labels'], df[model]
        p(f'[bold red]{data}: {model}[/bold red]')
        p(classification_report(y_true, y_pred))