# Laborat√≥rio 4
Material desenvolvido por Henrique Margotte e Aurora Pozo para a disciplina de Aprendizado de M√°quina, para o curso de Inform√°tica Biom√©dica da UFPR, semestre 2025/2. C√≥digos baseados em exemplos da biblioteca scikit-learn e nos notebooks Python do livro "Intelig√™ncia Artificial: Uma Abordagem de Aprendizado de M√°quina", 2¬™ edi√ß√£o.

# Exemplo 1: Processamento de Linguagem Natural (PLN)
Nos √∫ltimos laborat√≥rios, tratamos de diversas t√©cnicas de pr√©-processamento de dados e aprendemos a como transformar atributos categ√≥ricos em formato textual para num√©rico, mas, como fazemos se os nossos dados s√£o compostos de textos? Vamos pensar sobre isso observando o exemplo a seguir:

In [26]:
# Preparando o ambiente
import pandas as pd
import numpy as np

# Importando base de dados
df = pd.read_csv('title_reviews.csv')
df = df.tail(100) # usando apenas 100 amostras para exemplo
df.tail(10)

Unnamed: 0,class,review_title
3990,2,"multiple uses, ergonomic...elegant simplicity"
3991,1,Does not work with Dell Studio XPS 9000
3992,2,The BOLD truth
3993,2,Sweet Sleep - Just What I Needed
3994,1,I bought 30...17 are broken...
3995,1,Not as good smelling as I thought.
3996,1,Atomic (?) Clock
3997,1,Obee don't know me
3998,2,Quality Product
3999,2,Neil Diamond; The Ultimate Collection


Os dados acima s√£o uma amostra da base "Amazon Review Polaridy Dataset", disponibilizada por Xiang Zhang (https://drive.google.com/file/d/0Bz8a_Dbh9QhbaW12WVVZS2drcnM/view?usp=drive_link&resourcekey=0-NlNEsGjcAEPJBwDJtuuZ3Q). Ela √© composta de avalia√ß√µes reais de produtos da Amazon, com a classe sendo atribu√≠da como 1: avalia√ß√µes negativas; e 2: avalia√ß√µes positivas. A base ainda possui uma coluna com o t√≠tulo da avalia√ß√£o e outra com o texto completo, mas que foi suprimida para esse exemplo.

Levando isso em conta, ela n√£o √© t√£o diferente das outras bases que utilizamos, possui uma classe definida e atributos que podem ser utilizados para classificar os dados, o que poderia ser ensinado a um modelo de Aprendizado de M√°quina (AM). Mas, como podemos transformar esse texto em informa√ß√£o num√©rica para um modelo aprender?

Esse tipo de problema faz parte da √°rea de Processamento de Linguagem Natural (PNL, ou NLP, do ingl√™s Natural Language Processing). O PNL engloba diversos problemas relacionados com linguagem natural, ou seja, humana, desde textos escritos, at√© falas e l√≠ngua de sinais. No Laborat√≥rio de hoje iremos explorar apenas uma amostra do PNL, mas a √°rea √© muito mais extensa do que podemos tratar aqui, incluindo sistemas de tradu√ß√£o autom√°tica, reconhecimento de fala, os grandes modelos de linguagem (LLMs), entre outros!

## Normalizando os dados
Uma das etapas de pr√©-processamento que podemos aplicar em textos, antes mesmo de transform√°-los para conceitos num√©ricos, √© a normaliza√ß√£o. Note que essa normaliza√ß√£o n√£o √© a mesma que aplicamos nos dados at√© agora, aqui, o objetivo √© deixar o texto um pouco mais compreens√≠vel e simples para podermos extrair informa√ß√µes.

Um dos m√©todos mais simples de fazer isso, √© mantendo todas as letras como min√∫sculas ou mai√∫sculas, assim o modelo poder√° entender que "Exemplo" e "exemplo" s√£o a mesma palavra. Podemos usar os m√©todos do tipo `str` (string) para isso, com a fun√ß√£o `lower` transformando as strings para letras min√∫sculas e a fun√ß√£o `strip` removendo, por padr√£o, espa√ßos em branco extras, tabula√ß√µes e quebras de linhas, que podem ser √∫teis dependendo das t√©cnicas a serem utilizadas.

In [27]:
# normalize the text
df['review_title'] = df['review_title'].str.lower()
df['review_title'] = df['review_title'].str.strip()
df.tail(10)

Unnamed: 0,class,review_title
3990,2,"multiple uses, ergonomic...elegant simplicity"
3991,1,does not work with dell studio xps 9000
3992,2,the bold truth
3993,2,sweet sleep - just what i needed
3994,1,i bought 30...17 are broken...
3995,1,not as good smelling as i thought.
3996,1,atomic (?) clock
3997,1,obee don't know me
3998,2,quality product
3999,2,neil diamond; the ultimate collection


Isso ainda pode gerar conflitos, como por exemplo "rs", que normalemente se refere a risos, e "RS", sigla do Rio Grande do Sul, seriam tratados como a mesma palavra. Mas, mesmo em palavras sem essa diferen√ßa isso pode ocorrer, como na palavra "manga", que pode ser tanto uma fruta quanto uma parte de uma roupa, e existem m√©todos de contornar isso, como os mecanismos de aten√ß√£o utilizados por LLMs, e que n√£o abordaremos aqui.

Ainda h√° outros problemas que poderiam ser tratados nessa etapa, como aproximar palavras equivalentes, como "programador" e "programadora" em contextos em que o g√™nero n√£o √© relevante, ou conjuga√ß√µes de verbos, j√° que "correr", "corri", "correu" e "corremos" podem ter significados bem pr√≥ximos, mas que ser√£o tratados diferentemente a depender das t√©cnicas. A tokeniza√ß√£o √© uma estrat√©gia para contornar esses casos, por exemplo.

Por enquanto, manteremos nossa base de dados do jeito que est√°, apenas aplicando as fun√ß√µes `lower` e `strip`.

## Removendo palavras irrelevantes
Assim como removemos atributos irrelevantes para o problema nos laborat√≥rios anteriores, podemos excluir palavras que n√£o agregam para o problema que estamos tentando resolver. Por exemplo, os conectivos, preposi√ß√µes e artigos ("e", "com", "as", "o", "de", "para", etc.) podem n√£o ser relevantes. Esses tipos de palavras s√£o chamadas de *stopwords*, e algumas bibliotecas j√° incluem dicion√°rios e fun√ß√µes pr√≥prias para remov√™-las do texto. Tamb√©m podem ser removidas palavras manualmente, adicionando-as √† lista de *stopwords*, para casos em que uma palavra seja irrelevante em seu contexto, como a palavra "livro" em uma base de dados de avalia√ß√µes de uma biblioteca.

In [28]:
# remove stop words
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

df['review_title'].apply(lambda x: ' '.join([word for word in x.split() if word not in ENGLISH_STOP_WORDS])).tail(10)

Unnamed: 0,review_title
3990,"multiple uses, ergonomic...elegant simplicity"
3991,does work dell studio xps 9000
3992,bold truth
3993,sweet sleep - just needed
3994,bought 30...17 broken...
3995,good smelling thought.
3996,atomic (?) clock
3997,obee don't know
3998,quality product
3999,neil diamond; ultimate collection


## Vetorizando
At√© agora, falamos apenas de tratar o texto, mas n√£o o transformamos em algo num√©rico para que o modelo possa entender corretamente. Para fazer isso, vamos utilizar t√©cnicas de vetoriza√ß√£o.

Vetoriza√ß√£o √© o processo de converter as palavras em vetores de n√∫meros. Nesse Laborat√≥rio, abordaremos duas t√©cnicas, cada uma com sua fun√ß√£o no scikit-learn:
- `CountVectorizer`: Esse m√©todo cria uma matriz de frequ√™ncia, em que cada coluna representa uma palavra do vocabul√°rio e cada linha o texto da base, com os valores representando a quantidade de vezes que a palavra aparece nesse documento. Com isso, palavras que aparecem mais em um mesmo texto, teriam valores maiores, sendo um comportamento mais percept√≠vel em textos maiores.
- `TfidfVectorizer`: O TF-IDF (*Term Frequency-Inverse Document Frequency*) √© uma t√©cnica semelhante √† anterior. TF √© a frequ√™ncia do termo, calculada pela quantidade de vezes que a palavra aparece no documento, dividida pela quantidade de termos do documento. J√° IDF √© a frequ√™ncia inversa no documento, medida atrav√©s da quantidade de vezes que essa palavra aparece em outros documentos, diminuindo os valores de palavras que sejam muito comuns em todos os textos, como as *stopwords*.

In [29]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['review_title'].tail(10))
print(vectorizer.get_feature_names_out())
print(X.toarray())

['17' '30' '9000' 'are' 'as' 'atomic' 'bold' 'bought' 'broken' 'clock'
 'collection' 'dell' 'diamond' 'does' 'don' 'elegant' 'ergonomic' 'good'
 'just' 'know' 'me' 'multiple' 'needed' 'neil' 'not' 'obee' 'product'
 'quality' 'simplicity' 'sleep' 'smelling' 'studio' 'sweet' 'the'
 'thought' 'truth' 'ultimate' 'uses' 'what' 'with' 'work' 'xps']
[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0
  0 1 0 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0
  0 0 0 1 1 1]
 [0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1
  0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0
  0 0 1 0 0 0]
 [1 1 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0]
 [0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0
  0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 

In [31]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['review_title'].tail(10))
print(vectorizer.get_feature_names_out())
print(X.toarray())

['17' '30' '9000' 'are' 'as' 'atomic' 'bold' 'bought' 'broken' 'clock'
 'collection' 'dell' 'diamond' 'does' 'don' 'elegant' 'ergonomic' 'good'
 'just' 'know' 'me' 'multiple' 'needed' 'neil' 'not' 'obee' 'product'
 'quality' 'simplicity' 'sleep' 'smelling' 'studio' 'sweet' 'the'
 'thought' 'truth' 'ultimate' 'uses' 'what' 'with' 'work' 'xps']
[[0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.4472136  0.4472136  0.
  0.         0.         0.         0.4472136  0.         0.
  0.         0.         0.         0.         0.4472136  0.
  0.         0.         0.         0.         0.         0.
  0.         0.4472136  0.         0.         0.         0.        ]
 [0.         0.         0.359846   0.         0.         0.
  0.         0.         0.         0.         0.         0.359846
  0.         0.359846   0.         0.         0.         0.
  0.         0.         0.         0.   

Nas matrizes acima, conseguimos ver a convers√£o dos textos para valores num√©ricos. H√° outros meios de se fazer isso, como os *embeddings*, por exemplo, mas nos manteremos nessas t√©cnicas para a atividade de hoje.

Caso queira conhecer mais sobre PLN, o livro "Processamento de Linguagem Natural: Conceitos, T√©cnicas e Aplica√ß√µes em Portugu√™s", dispon√≠vel gratuitamente em https://brasileiraspln.com/livro-pln/, apresenta diversos conceitos de PNL de forma aprofundada e em portugu√™s!

# Exemplo 2: O algoritmo Naive Bayes
Agora que sabemos um pouco mais sobre como transformar texto em valores num√©ricos compreens√≠veis para um modelo de AM, vamos voltar para os modelos! O Naive Bayes √© um algoritmo simples, baseado em probabilidades, que considera a interdepend√™ncia entre os atributos. Ele pode ser utilizado para classifica√ß√£o de texto, levando em conta que cada palavra impacta na probabilidade daquele texto pertencer √†quela classe.

Como exemplo, aplicaremos o algoritmo atrav√©s do classificador `MultinomialNB` do scikit-learn, que implementa o Naive Bayes para o formato de entrada que extra√≠mos do texto. H√° outros classificadores para valores categ√≥ricos, booleanos, entre outros.

Nosso objetivo ser√° identificar se o t√≠tulo da avalia√ß√£o se refere a uma avalia√ß√£o positiva ou negativa, somente atrav√©s das palavras utilizadas. Esse tipo de classifica√ß√£o faz parte de um problema chamado de An√°lise de Sentimento, sendo apenas uma das abordagens utilizadas para tal.

In [33]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['review_title'])
X_train, X_test, y_train, y_test = train_test_split(X,df['class'],random_state=42)

model = MultinomialNB()
model.fit(X_train,y_train)

y_pred = model.predict(X_test)
print(metrics.accuracy_score(y_test, y_pred))
print(metrics.classification_report(y_test,y_pred))

0.52
              precision    recall  f1-score   support

           1       0.25      0.25      0.25         8
           2       0.65      0.65      0.65        17

    accuracy                           0.52        25
   macro avg       0.45      0.45      0.45        25
weighted avg       0.52      0.52      0.52        25



E nosso modelo teve 52% de acur√°cia, o que seria quase o mesmo de prever aleatoriamente!

Mas, por qu√™ isso? Em primeiro lugar, esse foi apenas um caso de exemplo, utilizando 100 avalia√ß√µes, o que pode n√£o ser suficiente para treinar o modelo. Mas, compreender exatamente o comportamento do modelo n√£o √© t√£o simples, j√° que temos muitas dimens√µes (cada palavra na base de dados √© uma dimens√£o), o que dificulta usarmos gr√°ficos para apresentar os dados. Algumas t√©cnicas de IA Explic√°vel (XAI), como o SHAP, poderiam auxiliar a compreender as decis√µes do modelo. Isso n√£o ser√° aborado hoje, mas soube que haver√° uma palestra na SACI (Semana Acad√™mica de Computa√ß√£o e Inform√°tica) sobre isso üëÄ!

Por enquanto, vamos nos concentrar no que j√° conhecemos! Temos como melhorar esse resultado? Podemos tentar!

Ou melhor... *voc√™* pode!

# Exerc√≠cio!
SUA VEZ!

Vamos tentar melhorar nosso Naive Bayes e ver como as t√©cnicas de PLN que aprendemos se comportam com ele!

Suas tarefas s√£o as seguintes:
- Importe a base completa de `title_reviews.csv` fornecida (No Exemplo 1, utilizamos apenas 100 linhas, das 2000 presentes)
- Implemente o algoritmo Naive Bayes para a base completa, variando as seguintes etapas:
  - A t√©cnica de vetoriza√ß√£o utilizada entre as duas apresentadas
  - A remo√ß√£o ou n√£o de *stopwords*
- Compare os resultados obtidos e defina qual configura√ß√£o performou melhor

In [None]:
# Seu c√≥digo aqui!

# DESAFIO! (Opcional)
Apenas o t√≠tulo das avalia√ß√µes pode n√£o ser suficiente para a classifica√ß√£o destas. Tente replicar o exerc√≠cio utilizando a base `text_reviews.csv`, que possui o texto completo das avalia√ß√µes. Avalie tamb√©m quais as diferen√ßas entre as bases de dados, se a vetoriza√ß√£o se comporta de maneira semelhante ou n√£o, etc!