# Aula 3 - Solução dos exercícios

Leandro Carísio Fernandes

<br>

Enunciado do exercício da semana:

- O aluno irá escolher uma tarefa para resolver de maneira zero ou few-shot. Sugestões:

    - Classificação de textos (ex: análise de sentimos (IMDB))

    - Predizer se uma passagem/parágrafo é relevante para uma pergunta/query

    - Se uma resposta predita por um sistema de QA ou sumarizador é semanticamente igual à resposta ground-truth

- É importante ter uma função de avaliação da qualidade das respostas do modelo few-shot. Por exemplo, acurácia.

- É possível criar um pequeno dataset de teste manualmente (ex: com 10 à 100 exemplos) 

- Usar a API do LLAMA fornecida por nós (licença exclusiva para pesquisa).

- Opcionalmente, usar a API do ChatGPT (gpt-3.5-turbo) que é barata: ~1 centavo de Real por 1000 tokens (uma página)

## Da base de dados utilizada - ReLi


Para esse exercício, optei por usar a base de dados [ReLi](https://www.linguateca.pt/Repositorio/ReLi/). Trata-se de uma base contendo 1.600 resenhas em português de livros de 7 autores (Jorge Amado, Stephenie Meyer, George Orwell, Thalita Rebouças, Jerome David Salinger, José Saramago e Sidney Sheldon). Dessa forma, o objetivo é classificar cada resenha em um dos três níveis: Positiva, Negativa ou Netura.

<br>

## Instalação das bibliotecas, configurações inicias, carregamento dos dados da base de dados utilizada


O exercício foi resolvido fazendo chamadas à API da OpenAI. Pressupõe-se que a chave da API da OpenAI está salva na variável de ambiente API_KEY_OPENAI.

As chamadas à API são feitas para classificar as resenhas. Como a API é paga, salvei a classificação retornada em arquivos textos. Assim, não é necessário ficar chamando a API toda vez que o caderno for executado, bastando ler os arquivos salvos. Caso seja necessário regerar a classificação, basta alterar as variáveis _gerar_resultados_zero_shot_ e _gerar_resultados_few_shot_:

In [1]:
gerar_resultados_zero_shot = False
gerar_resultados_few_shot = False

In [2]:
%%time
!pip install openai -q

CPU times: total: 31.2 ms
Wall time: 2.98 s


Carrega as resenhas da base de dados ReLi e coloca em um formato mais adequado pra gente analisar aqui. A variável resultante, _resenhas_, é uma lista de objetos do tipo _{id, livro, resenha, nota}_ (note que o id é só um número sequencial da ordem das resenhas que estamos lendo aqui, ou seja, não é uma id da base original, e sim específica pra esse exercício.

In [3]:
%%time

def carrega_resenhas(nome_arquivo):
    resenhas = []
    
    lendo_resenha = False
    
    livro = None
    resenha = None
    nota = None
    
    with open(nome_arquivo, 'r', encoding='utf-8') as arquivo:
        linhas = arquivo.read().splitlines()
        # Remove a primeira linha, pois sempre é [feature = ...]
        linhas = linhas[1:]
        
        for linha in linhas:
            # Se o arquivo começa com #Livro_, verifica se estava lendo uma resenha
            # Se estiver, é pq agora vai começar uma nova resenha, então salva o que foi lido até agora
            if linha.startswith("#Livro_"):
                if lendo_resenha:
                    resenhas.append({"livro": livro, "resenha": resenha.strip(), "nota": float(nota)})
                    lendo_resenha = False

                livro = linha.split('#Livro_')[1]

            # Se começa com #Corpo, é pq vamos começar a ler as resenhas.
            elif linha.startswith("#Corpo"):
                lendo_resenha = True
                resenha = ''

            # Se começa com #Nota_, a linha continua com a nota atribuída pelo usuário
            elif linha.startswith("#Nota_"):
                nota = linha.split("#Nota_")[1]
                
            # Se não for nenhum desses, verifica se já entrou na leitura de resenha.
            # Se tiver entrado, basta ir lendo todas as linhas e concatenar os textos
            # que formam a resenha (primeira coluna).
            elif lendo_resenha:
                if (linha.strip() == ''):
                    resenha += ' '
                else:
                    resenha += ' ' + linha.split('\t')[0]

        # Quando acabar de ler linha a linha é necessário fechar a última resenha que estava sendo lida
        if lendo_resenha:
            resenhas.append({"livro": livro, "resenha": resenha.strip(), "nota": float(nota)})

    print(f'Resenhas extraídas do arquivo {nome_arquivo}: {len(resenhas)}')
    return resenhas
        
        

resenhas = carrega_resenhas('./base_dados_ReLi/ReLi-Amado.txt')
resenhas.extend(carrega_resenhas('./base_dados_ReLi/ReLi-Meyer.txt'))
resenhas.extend(carrega_resenhas('./base_dados_ReLi/ReLi-Orwell.txt'))
resenhas.extend(carrega_resenhas('./base_dados_ReLi/ReLi-Reboucas.txt'))
resenhas.extend(carrega_resenhas('./base_dados_ReLi/ReLi-Salinger.txt'))
resenhas.extend(carrega_resenhas('./base_dados_ReLi/ReLi-Saramago.txt'))
resenhas.extend(carrega_resenhas('./base_dados_ReLi/ReLi-Sheldon.txt'))

resenhas = [{'id': id_resenha, **resenha} for id_resenha, resenha in enumerate(resenhas) ]

print(f'Total de resenhas lidas: {len(resenhas)}')

with open('todas_resenhas.txt', 'w', encoding='utf-8') as arquivo:
    for resenha in resenhas:
        arquivo.write(f"{resenha['id']}\t{resenha['resenha']}\n")

print('Gerado o arquivo todas_resenhas.txt contendo todas as resenhas únicas')

Resenhas extraídas do arquivo ./base_dados_ReLi/ReLi-Amado.txt: 187
Resenhas extraídas do arquivo ./base_dados_ReLi/ReLi-Meyer.txt: 410
Resenhas extraídas do arquivo ./base_dados_ReLi/ReLi-Orwell.txt: 202
Resenhas extraídas do arquivo ./base_dados_ReLi/ReLi-Reboucas.txt: 160
Resenhas extraídas do arquivo ./base_dados_ReLi/ReLi-Salinger.txt: 140
Resenhas extraídas do arquivo ./base_dados_ReLi/ReLi-Saramago.txt: 271
Resenhas extraídas do arquivo ./base_dados_ReLi/ReLi-Sheldon.txt: 230
Total de resenhas lidas: 1600
Gerado o arquivo todas_resenhas.txt contendo todas as resenhas únicas
CPU times: total: 141 ms
Wall time: 269 ms


## Classificação manual de 100 resenhas selecionadas aleatoriamente


A base de dados ReLi indica, em cada resenha, se há frases com polaridade positiva ou negativa. Entretanto, não informa se a resenha em si é positiva ou negativa, ou seja, se o leitor gostou ou não do livro. Assim, para ter uma forma de comparar resultados, vou separar 100 resenhas selecionadas aleatoriamente e fazer a classificação manual delas. As resenhas para classificar serão salvas no arquivo _resenhas_para_classificacao_manual.txt_ e, após classificadas, serão salvas no arquivo _resenhas_classificadas.txt_.

In [4]:
import random
random.seed(42)

id_resenhas_para_classificacao_manual = random.sample(range(len(resenhas)), 100)
with open('resenhas_para_classificacao_manual.txt', 'w', encoding='utf-8') as arquivo:
    for id_resenha in id_resenhas_para_classificacao_manual:
        resenha = resenhas[id_resenha]
        arquivo.write(f"{resenha['id']}\t{resenha['resenha']}\t\n")

Uma questão aqui é que a classificação é que há uma dose de subjetividade na classificação, ou seja, depedendo da resenha um outro classificador humano poderia escolher uma classificação diferente da minha.

## Zero-shot


A classificação zero-shot de todas as resenhas é feita passando mensagens para a API da OpenAI. Usei apenas duas mensagens, a primeira, com role: system, indicando qual é o papel que a ferramenta está fazendo (content: You are a helpul assistant who checks book reviews) e a segunda, na role user, solicitando que a ferramenta faça a classificação. A mensagem passada tem o seguinte formato:

```
Responda em uma palavra se a resenha é positiva, negativa ou neutra:

Resenha:
###
AQUI VAI O TEXTO DA RESENHA DO LEITOR
###
```

Esse formato de separar o texto por ### é uma [recomendação da própria empresa](https://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-openai-api).


In [5]:
%%time
import pandas as pd
import os
import openai

openai.api_key = os.getenv('API_KEY_OPENAI')

def zero_shot(idx_a_partir_de = 0):
    with open('resultados_zero_shot.txt', 'w', encoding='utf-8') as arquivo:
        for resenha in resenhas[idx_a_partir_de:]:
            # Tem resenhas com texto muito grande que estoura a quantidade de tokens de entrada
            # Vamos truncar para usar as primeiras 2000 palavras de entrada (conta pontuação também)
            texto_resenha = " ".join(resenha['resenha'].split()[:2000]).strip()
            
            msg_com_resenha = f"Responda em uma palavra se a resenha é positiva, negativa ou neutra:\n\n\
            Resenha:\n\
            ###\n\
            {texto_resenha}\n\
            ###"

            response = openai.ChatCompletion.create(model="gpt-3.5-turbo",
                        messages=[
                            {"role": "system", "content": "You are a helpul assistant who checks book reviews"},
                            {"role": "user", "content": msg_com_resenha}
                        ],
                        temperature=0,
                        max_tokens=500)

            classificacao_recebida = response['choices'][0]['message']['content']
            arquivo.write(f"{resenha['id']}\t{classificacao_recebida}\n")
            
            if (resenha['id'] % 100 == 0):
                print(f"Finalizado a id {resenha['id']} - {classificacao_recebida}")
    
if gerar_resultados_zero_shot:
    zero_shot()



CPU times: total: 156 ms
Wall time: 900 ms


Feita a classificação, vamos guardar os resultados em um DataFrame:

In [6]:
df_resultados_zs = pd.read_csv('resultados_zero_shot.txt', sep='\t', names=['id', 'classificacao_gpt'], header=None)
df_resultados_zs.classificacao_gpt = df_resultados_zs.classificacao_gpt.str.replace('.', '', regex=False)
print('Formato do dataframe:')
print(df_resultados_zs.head())

print('\nTotal por classificação:')
print(df_resultados_zs.classificacao_gpt.value_counts())

print('\nPorcentagem por classificação:')
print(df_resultados_zs.classificacao_gpt.value_counts(normalize=True))

Formato do dataframe:
   id classificacao_gpt
0   0            Neutra
1   1          Positiva
2   2          Positiva
3   3          Positiva
4   4          Positiva

Total por classificação:
Positiva    1147
Negativa     261
Neutra       192
Name: classificacao_gpt, dtype: int64

Porcentagem por classificação:
Positiva    0.716875
Negativa    0.163125
Neutra      0.120000
Name: classificacao_gpt, dtype: float64


Note que a quantidade de classificações positivas é muito maior que a dos outros dois tipos.

Vamos carregar a lista de classificações manuais e ver a distribuição das classificações por tipo:

In [7]:
df_class_manual = pd.read_csv('resenhas_classificadas_manualmente.txt', sep='\t', names=['id', 'resenha', 'classificacao_manual'], header=None)
df_class_manual.head()
df_class_manual.classificacao_manual.value_counts()

print('Formato do dataframe:')
print(df_class_manual.head())

print('\nTotal por classificação:')
print(df_class_manual.classificacao_manual.value_counts())

print('\nPorcentagem por classificação:')
print(df_class_manual.classificacao_manual.value_counts(normalize=True))


Formato do dataframe:
     id                                            resenha  \
0  1309  Em os faz refletir sobre vários aspectos , a q...   
1   228                                                NaN   
2    51  Capitães da Areia Em Capitães da Areia - 1937 ...   
3  1518  O livro é envolvente e tal , te prende em o co...   
4   563  Esse livro foi o verdadeiro começo por o meu i...   

  classificacao_manual  
0             Positiva  
1               Neutra  
2             Positiva  
3             Negativa  
4             Positiva  

Total por classificação:
Positiva    68
Neutra      18
Negativa    14
Name: classificacao_manual, dtype: int64

Porcentagem por classificação:
Positiva    0.68
Neutra      0.18
Negativa    0.14
Name: classificacao_manual, dtype: float64


Aqui também as classificações positivas dominam o dataframe. Vamos fazer um merge dos dois dataframes para depois analisarmos as discordâncias nas classificações:

In [8]:
df_compara_gpt_manual_zs = pd.merge(left=df_class_manual, right=df_resultados_zs, how='inner', on=['id'])
df_compara_gpt_manual_zs.head(10)

Unnamed: 0,id,resenha,classificacao_manual,classificacao_gpt
0,1309,"Em os faz refletir sobre vários aspectos , a q...",Positiva,Positiva
1,228,,Neutra,Neutra
2,51,Capitães da Areia Em Capitães da Areia - 1937 ...,Positiva,Positiva
3,1518,"O livro é envolvente e tal , te prende em o co...",Negativa,Neutra
4,563,Esse livro foi o verdadeiro começo por o meu i...,Positiva,Positiva
5,501,Comecei a ler esse livro por que todos diziam ...,Negativa,Negativa
6,457,É difícil explicar o que se sente lendo o livr...,Positiva,Positiva
7,285,"Um livro que comprei a o acaso , comecei a ler...",Positiva,Positiva
8,1508,Uma mulher inocente é enganada e julgada culpa...,Positiva,Positiva
9,209,Se você for olhar só a parte romantica de o li...,Negativa,Negativa


Total de classificações divergentes e matriz de confusão:

In [9]:
print(f"Total de classificações divergentes: {sum(df_compara_gpt_manual_zs.classificacao_manual != df_compara_gpt_manual_zs.classificacao_gpt)}")

df_confusion_zs = pd.crosstab(df_compara_gpt_manual_zs.classificacao_manual, df_compara_gpt_manual_zs.classificacao_gpt)
df_confusion_zs

Total de classificações divergentes: 21


classificacao_gpt,Negativa,Neutra,Positiva
classificacao_manual,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Negativa,12,2,0
Neutra,7,6,5
Positiva,2,5,61


Verifica o texto de todas as resenhas que foram classificadas pelo GPT de forma diferente da classificação manual:

In [10]:
df_classificacoes_erradas_zs = df_compara_gpt_manual_zs[df_compara_gpt_manual_zs.classificacao_manual != df_compara_gpt_manual_zs.classificacao_gpt]

for index, row in df_classificacoes_erradas_zs.iterrows():
    print(f"{row['id']}: Manual: {row['classificacao_manual']} / GPT: {row['classificacao_gpt']}\n{row['resenha']}\n\n")

1518: Manual: Negativa / GPT: Neutra
O livro é envolvente e tal , te prende em o começo , mas de o meio pro final parece meio forçado , o autor meio que começa a inventar histórias demais , não havendo uma ligação coerente entre elas , fica uma impressão de que se está lendo algum tipo de livro seriado , sei lá , com várias histórias diferentes em o mesmo livro .  Não é a melhor obra de o grande Sidney Sheldon , mas recomendo , uma boa leitura pra passar o tempo .


1385: Manual: Positiva / GPT: Negativa
è um bom livro , prende sua atenção , vc começa e não quer parar mais .  Mas achei o final mto triste , não gostei não .  Continuo preferindo Se houver amanhã .


1516: Manual: Positiva / GPT: Negativa
É um livro muito gostoso de se ler , mas é literatura barata .  Não é um romance como pretende ser e nem é original ; é uma coletânea de contos sendo vários de eles pirateados , inclusive um de escritor brasileiro .  Há um episódio de um jogo de xadrez entre uma moça , que nada sabia de 

### Considerações sobre o resultado zero-shot

É interessante ver que houve discordância em apenas 21% das resenhas usadas para validação. Dos 21 casos de discordância, podemos considerar alguns grandes agrupamentos que podem ter sido o motivo da confusão:


1. Algumas resenhas são realmente confusas

        Considere a resenha 1518 (manual: Negativa, GPT: Neutra):
        
        1518: O livro é envolvente e tal , te prende em o começo , mas de o meio pro final parece meio forçado , o autor meio que começa a inventar histórias demais , não havendo uma ligação coerente entre elas , fica uma impressão de que se está lendo algum tipo de livro seriado , sei lá , com várias histórias diferentes em o mesmo livro .  Não é a melhor obra de o grande Sidney Sheldon , mas recomendo , uma boa leitura pra passar o tempo .
        
        Classifiquei manualmente como Negativa pois, apesar de no final o livro ser recomendado, há várias coisas que desqualificam o livro. É possível que outra pessoa classificando esta resenha a considere como Positiva (pelo final da resenha) ou Neutra (pelo excesso de contradições). A classificação automática foi Neutra.
        
        Considere também a resenha 163 (manual: Neutra, GPT: Negativa):
        
        163: Esse livro estou trocando .
        
        Classifiquei a resenha como Neutra, pois entendendo o contexto de reviews em site isso pode significar coisas diferentes (por exemplo, o livro está estragado e vou devolver ou o livro é ruim demais e vou trocar com alguém por outra coisa), sendo o range aí entre Neutra e Negativa. Já o modelo considerou que há apenas o aspecto negativo.
        

2. Algumas resenhas apenas relatam a história. A classificação automática não entende que é um relato da história e também faz a classificação

        Como exemplo, resenha 1130 foi classificada como Positiva pelo GPT, mas trata-se apenas de relato da história:
        
        1130: O autor narra a história de uma cidade onde as pessoas são acometidas por uma cegueira repentina .  As autoridades percebem que a " cegueira branca " é transmissível e colocam as vítimas em quarentena .  A partir de aí , passam a viver em situações extremas e inusitadas , tendo que lidar a cada momento com novas dificuldades apresentadas por a cegueira e , pior , em um lugar onde todos estão cegos .  O tema central de o livro propõe uma reflexão sobre a verdadeira essência de o ser humano , os conflitos internos causados toda vez que temos que optar entre o certo e o errado , a eterna luta entre o médico e o monstro ( Dr. Jekyll e Mr. Hyde ) que existem em cada um de nós .  A questão é : o que o ser humano é capaz de fazer sabendo que não pode ser julgado por seus atos , já que ninguém pode vê - lo ?  "  O que você faz quando ninguém te vê fazendo ?  "


3. Resenhas positivas/negativas sobre outras coisas que não o livro


        Como exemplo, a resenha 1354 fala apenas sobre o filme, mas não emite opinião sobre o livro. Assim, pensando apenas no livro, a classificação manual foi Neutra. Entretanto, a resenha como um todo é positiva, conforme classificado pelo GPT:
        
        1354: nhaaa , cheguei a ver o filme nocinema , e nossa fiquei com mta vontade ler ... por isso vou ler mesmo .  hauhua
        
        
4. Em situações de conflito de ideias, incapacidade de identificar o pensamento predominante


        A resenha 255 foi classificada manualmente como Positiva, mas a classificação automática identificou como Neutra:
        
        255: achei interessante .. mais prefiro o filme !
        
        
<br>

O que podemos perceber é que, **em alguns casos** de erro do classificador automático, a classificação sugerida poderia coincidir com a classificação feita por outro ser humano, ou seja, a classificação dada pelo GPT também é uma classificação possível.


## Few-Shot


Agora vamos fazer a mesma classificação anterior, mas passando alguns exemplos de como o classificador deve se comportar. Para economizar, em vez de fazer a classificação em todos os 1.600 registros, vou executar apenas nos 100 registros já classificados manualmente.

Para o few-shot, submeti a mensagem no seguinte formato:

```
Responda em uma palavra se a resenha é positiva, negativa ou neutra:

Resenha 1: Adorei como ele traz assuntos mais complicados e complexos de forma mais leve e simples, o que ajuda muito na hora do entendimento! Literalmente incrível, li em três dias e não parava de pensar no livro, esperava outro final mas esse ficou de ouro também.
Resposta: Positiva
##
Resenha 2: Eu achei uma história fraca, um tanto sem amarração. Não consegui passar da metade. Sei que muitos gostam desse livro, mas eu achei uma ideia muito boa sem conclusão. Pode ser culpa da tradução. Não curti.
Resposta: Negativa
##
Resenha 3: Em A Biblioteca da Meia-Noite, Nora Seed se vê exatamente na situação pela qual todos gostaríamos de poder passar: voltar no tempo e desfazer algo de que nos arrependemos.
Resposta: Neutra
##
Resenha 4: AQUI VAI O TEXTO DA RESENHA DO LEITOR
Resposta:
```

Os textos positivos e negativos do modelo foram tirados de resenhas do livro "A Biblioteca da Meia-Noite", número 1 na Amazon no momento da consulta. O texto neutro é apenas um trecho da sinopse do livro, ou seja, apenas fala do livro.

Esse formato é uma [recomendação da própria empresa](https://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-openai-api).


In [None]:
%%time
def few_shot(idx_a_partir_de = 0):
    with open('resultados_few_shot.txt', 'w', encoding='utf-8') as arquivo:
        for id_resenha in id_resenhas_para_classificacao_manual[idx_a_partir_de:]:
            # Tem resenhas com texto muito grande que estoura a quantidade de tokens de entrada
            # Vamos truncar para usar as primeiras 2000 palavras de entrada (conta pontuação também)
            texto_resenha = " ".join(resenhas[id_resenha]['resenha'].split()[:2000]).strip()
            
            msg_com_resenha = f"Responda em uma palavra se a resenha é positiva, negativa ou neutra:\n\n\
            Resenha 1: Adorei como ele traz assuntos mais complicados e complexos de forma mais leve e simples, o que ajuda muito na hora do entendimento! Literalmente incrível, li em três dias e não parava de pensar no livro, esperava outro final mas esse ficou de ouro também.\n\
            Resposta: Positiva\n\
            ##\n\
            Resenha 2: Eu achei uma história fraca, um tanto sem amarração. Não consegui passar da metade. Sei que muitos gostam desse livro, mas eu achei uma ideia muito boa sem conclusão. Pode ser culpa da tradução. Não curti.\n\
            Resposta: Negativa\n\
            ##\n\
            Resenha 3: Em A Biblioteca da Meia-Noite, Nora Seed se vê exatamente na situação pela qual todos gostaríamos de poder passar: voltar no tempo e desfazer algo de que nos arrependemos.\n\
            Resposta: Neutra\n\
            ##\n\
            Resenha 4: {texto_resenha}\n\
            Resposta:"

            response = openai.ChatCompletion.create(model="gpt-3.5-turbo",
                        messages=[
                            {"role": "system", "content": "You are a helpul assistant who checks book reviews"},
                            {"role": "user", "content": msg_com_resenha}
                        ],
                        temperature=0,
                        max_tokens=500)

            classificacao_recebida = response['choices'][0]['message']['content']
            arquivo.write(f"{id_resenha}\t{classificacao_recebida}\n")
    
if gerar_resultados_few_shot:
    few_shot()



Vamos seguir o mesmo procedimento feito no zero-shot aqui. Primeiro, guardar os resultados em um DataFrame.

A diferença aqui é que no caso do few shot o modelo não obedeceu a instrução de fornecer o resultado em apenas uma palavra. Algumas vezes ele explicou o resultado. Assim, é necesário fazer uma "conversão":

In [14]:
def normaliza_classificacao(classificacao):
    if classificacao.startswith('Positiva'):
        return 'Positiva'
    elif classificacao.startswith('Negativa'):
        return 'Negativa'
    else: # Essa opção cai nos casos de neutra e no caso de 'Não é possível responder...'
        return 'Neutra'

df_resultados_fs = pd.read_csv('resultados_few_shot.txt', sep='\t', names=['id', 'classificacao_gpt_original'], header=None)
df_resultados_fs['classificacao_gpt'] = df_resultados_fs.classificacao_gpt_original.apply(lambda classificacao: normaliza_classificacao(classificacao))

print('Formato do dataframe:')
print(df_resultados_fs.head())

print('\nTotal por classificação:')
print(df_resultados_fs.classificacao_gpt.value_counts())

print('\nPorcentagem por classificação:')
print(df_resultados_fs.classificacao_gpt.value_counts(normalize=True))

Formato do dataframe:
     id                         classificacao_gpt_original classificacao_gpt
0  1309                                           Positiva          Positiva
1   228  Não é possível responder, pois não há resenha ...            Neutra
2    51                                           Positiva          Positiva
3  1518                                             Neutra            Neutra
4   563                                           Positiva          Positiva

Total por classificação:
Positiva    50
Neutra      28
Negativa    22
Name: classificacao_gpt, dtype: int64

Porcentagem por classificação:
Positiva    0.50
Neutra      0.28
Negativa    0.22
Name: classificacao_gpt, dtype: float64


Vamos relembrar como está distribuída a classificação manual:

In [15]:
print('Formato do dataframe:')
print(df_class_manual.head())

print('\nTotal por classificação:')
print(df_class_manual.classificacao_manual.value_counts())

print('\nPorcentagem por classificação:')
print(df_class_manual.classificacao_manual.value_counts(normalize=True))

Formato do dataframe:
     id                                            resenha  \
0  1309  Em os faz refletir sobre vários aspectos , a q...   
1   228                                                NaN   
2    51  Capitães da Areia Em Capitães da Areia - 1937 ...   
3  1518  O livro é envolvente e tal , te prende em o co...   
4   563  Esse livro foi o verdadeiro começo por o meu i...   

  classificacao_manual  
0             Positiva  
1               Neutra  
2             Positiva  
3             Negativa  
4             Positiva  

Total por classificação:
Positiva    68
Neutra      18
Negativa    14
Name: classificacao_manual, dtype: int64

Porcentagem por classificação:
Positiva    0.68
Neutra      0.18
Negativa    0.14
Name: classificacao_manual, dtype: float64


Nota-se que no caso do few-shot houve uma discordância muito maior do que em relação ao zero-shot. Vamos fazer um merge dos dois dataframes para depois analisarmos as discordâncias nas classificações:

In [16]:
df_compara_gpt_manual_fs = pd.merge(left=df_class_manual, right=df_resultados_fs, how='inner', on=['id'])
df_compara_gpt_manual_fs.head(10)

Unnamed: 0,id,resenha,classificacao_manual,classificacao_gpt_original,classificacao_gpt
0,1309,"Em os faz refletir sobre vários aspectos , a q...",Positiva,Positiva,Positiva
1,228,,Neutra,"Não é possível responder, pois não há resenha ...",Neutra
2,51,Capitães da Areia Em Capitães da Areia - 1937 ...,Positiva,Positiva,Positiva
3,1518,"O livro é envolvente e tal , te prende em o co...",Negativa,Neutra,Neutra
4,563,Esse livro foi o verdadeiro começo por o meu i...,Positiva,Positiva,Positiva
5,501,Comecei a ler esse livro por que todos diziam ...,Negativa,Negativa,Negativa
6,457,É difícil explicar o que se sente lendo o livr...,Positiva,Neutra,Neutra
7,285,"Um livro que comprei a o acaso , comecei a ler...",Positiva,Positiva,Positiva
8,1508,Uma mulher inocente é enganada e julgada culpa...,Positiva,Neutra,Neutra
9,209,Se você for olhar só a parte romantica de o li...,Negativa,Negativa,Negativa


Total de classificações divergentes e matriz de confusão:

In [17]:
print(f"Total de classificações divergentes: {sum(df_compara_gpt_manual_fs.classificacao_manual != df_compara_gpt_manual_fs.classificacao_gpt)}")

df_confusion_fs = pd.crosstab(df_compara_gpt_manual_fs.classificacao_manual, df_compara_gpt_manual_fs.classificacao_gpt)
df_confusion_fs

Total de classificações divergentes: 30


classificacao_gpt,Negativa,Neutra,Positiva
classificacao_manual,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Negativa,11,3,0
Neutra,5,11,2
Positiva,6,14,48


Verifica o texto de todas as resenhas que foram classificadas pelo GPT de forma diferente da classificação manual:

In [18]:
df_classificacoes_erradas_fs = df_compara_gpt_manual_fs[df_compara_gpt_manual_fs.classificacao_manual != df_compara_gpt_manual_fs.classificacao_gpt]

for index, row in df_classificacoes_erradas_fs.iterrows():
    print(f"{row['id']}: Manual: {row['classificacao_manual']} / GPT: {row['classificacao_gpt']}\n{row['resenha']}\n\n")

1518: Manual: Negativa / GPT: Neutra
O livro é envolvente e tal , te prende em o começo , mas de o meio pro final parece meio forçado , o autor meio que começa a inventar histórias demais , não havendo uma ligação coerente entre elas , fica uma impressão de que se está lendo algum tipo de livro seriado , sei lá , com várias histórias diferentes em o mesmo livro .  Não é a melhor obra de o grande Sidney Sheldon , mas recomendo , uma boa leitura pra passar o tempo .


457: Manual: Positiva / GPT: Neutra
É difícil explicar o que se sente lendo o livro é aquele tipo de leitura que você ama ou odeia !  Em o meu caso eu amei , me prendeu , mesmo tendo um ritmo lento e toda aquela coisa de a protagonista ser fraca , eu acho impossível explicar o meu amor por a saga toda !  Eu recomendo a leitura .  você pode amar ou odiar dependo mesmo de o tipo de leitura que você está habituado !


1508: Manual: Positiva / GPT: Neutra
Uma mulher inocente é enganada e julgada culpada , a o sair de a prisão t

### Considerações sobre o resultado few-shot


O principal resultado aqui é que, enquanto no zero-shot tivemos discordância de 21% das 100 resenhas, nesse caso a discordância subiu para 30%, um aumento de 9 pontos percentuais (ou aproximadamente 43%). É uma piora signficativa. É possível que os 3 exemplos de classificação usados para informar ao modelo tenha mais atrapalhado do que ajudado. É necessário fazer uma escolha dos exemplos que são apresentados à rede, e ao fazer isso pode ser que a gente indiretamente direcione a rede para casos específicos, diminuindo seu poder de generalização.


Vamos ver alguns tipos de classificações erradas


1. Algumas resenhas são realmente confusas

        Considere a resenha 1385 (manual: Positiva, GPT: Neutra):
        
        1385: è um bom livro , prende sua atenção , vc começa e não quer parar mais .  Mas achei o final mto triste , não gostei não .  Continuo preferindo Se houver amanhã .
        
        Classifiquei manualmente como Positiva pois, apesar do/a leitor/a ter dito que prefere outro livro, também disse que gostou do livro (embora o final não tenha agradado). A classificação automática foi Neutra.
        
        Considere também a resenha 429 (manual: Neutra, GPT: Negativa):
        
        429: Esperava um pouco mais de o livro , não em o sentido de a história ou sobre o enredo ... refiro - me a o conteúdo sobre os vampiros .. Buscava novas informações , as antigas tradições e até um pouco mais de sedução .  Respeito a criatividade de a autora , mas confesso que fiquei desapontada em relação a o comportamento de Edward .  Recomendo a o público jovem que sonha e idealiza amores perfeitos .... Em o entanto para os fãs de os vampiros sexies e misteriosos de a idade média , recomendo passarem bem longe .
        
        Classifiquei a resenha como Neutra, pois entendi que o/a leitor/a não curtiu muito mas vê algum valor no livro. A classificação automática foi Negativa, o que não deixa de ser também uma interpretação válida da resenha.
        

2. Algumas resenhas apenas relatam a história. A classificação automática não entende que é um relato da história e também faz a classificação

        Assim como no zero-shot, a resenha 1130 foi classificada como Positiva pelo GPT, mas trata-se apenas de relato da história:
        
        1130: O autor narra a história de uma cidade onde as pessoas são acometidas por uma cegueira repentina .  As autoridades percebem que a " cegueira branca " é transmissível e colocam as vítimas em quarentena .  A partir de aí , passam a viver em situações extremas e inusitadas , tendo que lidar a cada momento com novas dificuldades apresentadas por a cegueira e , pior , em um lugar onde todos estão cegos .  O tema central de o livro propõe uma reflexão sobre a verdadeira essência de o ser humano , os conflitos internos causados toda vez que temos que optar entre o certo e o errado , a eterna luta entre o médico e o monstro ( Dr. Jekyll e Mr. Hyde ) que existem em cada um de nós .  A questão é : o que o ser humano é capaz de fazer sabendo que não pode ser julgado por seus atos , já que ninguém pode vê - lo ?  "  O que você faz quando ninguém te vê fazendo ?  "
        

3. Resenhas positivas/negativas sobre outras coisas que não o livro

        É interessante ver o resultado da resenha 466. O GPT classificou-a como Negativa e justificou dizendo que é "devido aos erros de ortografia e gramática". Entretanto, trata-se de resenha claramente Positiva:
        
        466: Oq eu posso dizer ... esse livro é d+ .  É facil de ler e entender , a história é boa de o tipo q eu gosto foge de a nossa xata realidade .  Tem um classico casal apaixonado q vai sofrer pra caramba até q o final seja " E viveram felizes para sempre " .  E a claro o tipico principe , q em esse caso tem um " ar " sombrio q é bem sexy rsrs .  Amei .  Viciei !
        
        
4. Em situações de conflito de ideias, incapacidade de identificar o pensamento predominante


        A resenha 255 foi classificada manualmente como Positiva, mas a classificação automática identificou como Neutra:
        
        255: achei interessante .. mais prefiro o filme !
        
        
<br>

Em relação ao item 2, como nesse caso o modelo desobedeceu e, em alguns casos, informou também o modelo da classificação, é possível ver que ele também busca por esse tipo de análise (de saber só se está falando da história, e não emitindo uma opinião). Por exemplo, para a resenha 1429 ele classifica como _"Neutra (não é uma resenha, mas sim um resumo da trama do livro)"_:

        1429: Tudo começou quando Jamie Mcgregor foi enganado por um Holandês .  Para se vingar de ele , Jamie e Banda planejam um roubo a o campo de diamantes mais vigiado de a áfrica .  Jamie se torna o homem mais rico de o local e casa - se com a filha de o homem que quase o matou .  A filha mais nova de Jamie é sequestrada depois que seu irmão morre e é devolvida logo depois .  Após a morte de o pai e de a mãe , Kate Mcgregor se torna dona de a Kruger-Brent e a transforma em a maior companhia de o mundo usando todos os artifícios possíveis para continuar com a companhia .  A única coisa que Kate não admitia era expor o nome Mcgregor-Blackewell , e é exatamente o que sua neta , Eve , faz .  Eve não concorda com a punição de a avó e começa a armar um plano , juntamente com George Mellis , para matar sua irmão gêmea , Alexandra .


Mesmo fazendo isso, as vezes ele fala claramente que a resenha não emite uma opinião sobre o livro e mesmo assim emite uma classificação. Isso foi feito na resenha 54, cuja classificação manual foi dada como Positiva e, a automática, como _"Negativa (a resenha não fala especificamente sobre o livro "Capitães de Areia", mas sim sobre a história em si e a realidade social que ela retrata)"_:

        54: " Capitães de a Areia " é um drama brasileiro contado pro Jorge Amado e publicado em 1937 .  A história conta com a realidade vida de um grupo de jovens sem famílias que vivem em um armazém abandonado em a praia de Salvador .  Estes moradores de rua , menores de idades enfrentam as preocupações sociais como qualquer marginal .  O grupo que chegava a quase cem integrantes contava com um " líder " , Pedro Bala , que apesar de jovem , comandava e cuidava de as crianças ali existentes , prometendo - lhes sempre um lar .  Sempre em busca de superações , o livro nos traz a verdadeira história narrada em histórias objetivas , que até hoje são a verdadeira realidade .  A narrativa nos surpreende com o decorrer de os fatos , e aparição de novas personagens que deixarão sua marca em a envolvente história .  Um livro consagrado por Jorge Amado , escritor muito reconhecido , seu livro , que permanece importante em a literatura Brasileira até hoje , promete ficar por muitos e muitos anos .  Jennifer Salvione , 1° vermelho .


O que podemos perceber aqui é que houve o mesmo efeito no zero-shot de que, **em alguns casos** de erro do classificador automático, a classificação sugerida poderia coincidir com a classificação feita por outro ser humano, ou seja, a classificação dada pelo GPT também é uma classificação possível.

Entretanto, de forma geral o resultado se mostrou pior do que o zero-shot. Uma justificativa possível para isso é que, ao apresentar exemplos para o modelo, podemos estar induzindo-o para "olhar" para determinados tipos de dados/padrões, fazendo com que ele não generalize muito bem.