# <font color='darkgreen'>PROCESSAMENTO DE LINGUAGEM NATURAL(PLN)</font>
## <font color='darkgreen'>ANÁLISE DE SENTIMENTO EM AVALIAÇÕES DE USUÁRIOS</font>
## <font color='darkgreen'>Machine Learning: GaussianNB - MultinomialNB - BernoulliNB - Deploy do Modelo</font>

Este projeto envolve o uso de aprendizado supervisionado e processamento de linguagem natural, com o objetivo de construir um modelo de Machine Learning que seja capaz de classificar se uma avaliação de usuário tem conotação positiva, negativa ou neutra, a fim de ajustar as campanhas de Marketing. O conjunto de dados contém frases financeiras com rótulos de sentimento.

Fonte de dados: https://www.kaggle.com/datasets/sbhatti/financial-sentiment-analysis

## Instalar e Carregar Pacotes

In [1]:
# Imports

# Manipulação de dados
import numpy as np
import pandas as pd

# Processamento de texto
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

# Machine Learning
import sklearn
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.metrics import accuracy_score

# Salvar em Disco
import pickle

In [2]:
# Gravar versões de pacotes
!pip install -q -U watermark

In [3]:
# Versões dos pacotes
%reload_ext watermark
%watermark --iversions

re     : 2.2.1
sklearn: 1.3.0
nltk   : 3.8.1
numpy  : 1.24.3
pandas : 2.0.3



In [4]:
# Carregar dataset
df = pd.read_csv('dataset.csv')

In [5]:
# Shape
df.shape

(5842, 2)

In [6]:
# Amostra dos dados
df.head()

Unnamed: 0,review,sentiment
0,The GeoSolutions technology will leverage Bene...,positive
1,"$ESI on lows, down $1.50 to $2.50 BK a real po...",negative
2,"For the last quarter of 2010 , Componenta 's n...",positive
3,According to the Finnish-Russian Chamber of Co...,neutral
4,The Swedish buyout firm has sold its remaining...,neutral


In [7]:
# Info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5842 entries, 0 to 5841
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   review     5842 non-null   object
 1   sentiment  5842 non-null   object
dtypes: object(2)
memory usage: 91.4+ KB


In [8]:
# Contar registros por classe
df.sentiment.value_counts()

sentiment
neutral     3130
positive    1852
negative     860
Name: count, dtype: int64

## Limpeza dos Dados

In [9]:
# Ajustamos os labels para representação numérica
df.sentiment.replace('positive', 1, inplace = True)
df.sentiment.replace('negative', 0, inplace = True)
df.sentiment.replace('neutral', 2, inplace = True)

In [10]:
# Amostra dos dados
df.head()

Unnamed: 0,review,sentiment
0,The GeoSolutions technology will leverage Bene...,1
1,"$ESI on lows, down $1.50 to $2.50 BK a real po...",0
2,"For the last quarter of 2010 , Componenta 's n...",1
3,According to the Finnish-Russian Chamber of Co...,2
4,The Swedish buyout firm has sold its remaining...,2


In [11]:
# Uma avaliação completa de usuário
df.review[0]

"The GeoSolutions technology will leverage Benefon 's GPS solutions by providing Location Based Search Technology , a Communities Platform , location relevant multimedia content and a new and powerful commercial model ."

In [12]:
# Outras avaliações
df.review.head()

0    The GeoSolutions technology will leverage Bene...
1    $ESI on lows, down $1.50 to $2.50 BK a real po...
2    For the last quarter of 2010 , Componenta 's n...
3    According to the Finnish-Russian Chamber of Co...
4    The Swedish buyout firm has sold its remaining...
Name: review, dtype: object

In [13]:
# Função de limpeza geral de dados
def limpa_dados(texto):
    cleaned = re.compile(r'<.*?>') 
    return re.sub(cleaned, '', texto)

Dentro da função, a expressão regular r'<.*?>' é compilada. Esta expressão regular corresponde a qualquer coisa que esteja entre os caracteres < e >, incluindo os próprios caracteres de abertura e fechamento de tags. O ponto (.) corresponde a qualquer caractere (exceto quebras de linha), e o asterisco (*) indica que o caractere anterior (neste caso, o ponto) pode ocorrer zero ou mais vezes. O ponto de interrogação (?) torna a correspondência "preguiçosa", o que significa que ela corresponderá ao menor número possível de caracteres.

A função re.sub() é usada para substituir todas as ocorrências da expressão regular compilada (ou seja, as tags HTML) por uma string vazia (''). Isso efetivamente remove todas as tags HTML do texto. O texto limpo, sem as tags HTML, é retornado pela função.

In [14]:
# Testar a função
texto_com_tags = "<p>Testando a limpeza <b>com</b> tags HTML.</p>"
texto_limpo = limpa_dados(texto_com_tags)
print(texto_limpo)  

Testando a limpeza com tags HTML.


In [15]:
# Aplicar a função ao dataset
df.review = df.review.apply(limpa_dados)

In [16]:
df.review.head()

0    The GeoSolutions technology will leverage Bene...
1    $ESI on lows, down $1.50 to $2.50 BK a real po...
2    For the last quarter of 2010 , Componenta 's n...
3    According to the Finnish-Russian Chamber of Co...
4    The Swedish buyout firm has sold its remaining...
Name: review, dtype: object

In [17]:
# Função para limpeza de caracteres especiais
def limpa_caracter_especial(texto):
    rem = ''
    for i in texto:
        if i.isalnum():
            rem = rem + i
        else:
            rem = rem + ' '
            
    return rem

A função percorre cada caractere da string texto, mantendo letras e números e substituindo caracteres especiais por espaços. O resultado é uma nova string onde apenas caracteres alfanuméricos e espaços são preservados.

In [18]:
# Testar a função
texto_com_caracteres_especiais = "Bom dia! Como você está?"
texto_limpo = limpa_caracter_especial(texto_com_caracteres_especiais)
print(texto_limpo)

Bom dia  Como você está 


In [19]:
# Aplica a função
df.review = df.review.apply(limpa_caracter_especial)

In [20]:
df.review[1]

' ESI on lows  down  1 50 to  2 50 BK a real possibility'

In [21]:
# Função para converter o texto em minúsculo
def converte_minusculo(texto):
    return texto.lower()

Converter todo o texto para minúsculo ajuda a padronizar os dados, tornando-os mais consistentes. Isso é especialmente útil quando se lida com texto proveniente de diferentes fontes ou formatos.

In [22]:
# Testar a função
frase = "CONVERTE DE MAIÚSCULA PARA MINÚSCULA"
frase_saida = converte_minusculo(frase)
print(frase_saida)

converte de maiúscula para minúscula


In [23]:
# Aplica a função
df.review = df.review .apply(converte_minusculo)

In [24]:
df.review[0]

'the geosolutions technology will leverage benefon  s gps solutions by providing location based search technology   a communities platform   location relevant multimedia content and a new and powerful commercial model  '

In [25]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Alexandre\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Alexandre\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [26]:
# Função para remover stopwords
def remove_stopwords(texto):
    stop_words = set(stopwords.words('english'))
    words = word_tokenize(str(texto))
    return [w for w in words if w not in stop_words]

A função acima utiliza a biblioteca NLTK (Natural Language Toolkit) para obter um conjunto de stopwords para o idioma inglês com stopwords.words('english'). Essas stopwords incluem palavras comuns como "the", "is", "in", etc., que geralmente não contribuem para o significado principal do texto em análises de PLN.

O texto é convertido em uma lista de palavras (ou "tokens") usando a função word_tokenize da NLTK. A função word_tokenize divide o texto em palavras com base em espaços e pontuação.

A list comprehension [w for w in words if w not in stop_words] é usada para criar uma nova lista de palavras que contém apenas aquelas palavras que não estão presentes no conjunto de stopwords. Ou seja, todas as palavras que são consideradas irrelevantes são removidas do texto.

In [27]:
# Testando a função
frase =  "He knows what he is talking about, for he is a wise man."
frase_limpa = remove_stopwords(frase)
print(frase_saida)

converte de maiúscula para minúscula


In [28]:
%%time
df.review = df.review.apply(remove_stopwords)

CPU times: total: 2.22 s
Wall time: 2.3 s


In [29]:
df.review[0]

['geosolutions',
 'technology',
 'leverage',
 'benefon',
 'gps',
 'solutions',
 'providing',
 'location',
 'based',
 'search',
 'technology',
 'communities',
 'platform',
 'location',
 'relevant',
 'multimedia',
 'content',
 'new',
 'powerful',
 'commercial',
 'model']

In [30]:
# Função para o stemmer
def stemmer(texto):
    objeto_stemmer = SnowballStemmer('english')
    return " ".join([objeto_stemmer.stem(w) for w in texto])

O stemming é uma técnica de Processamento de Linguagem Natural (PLN) usada para reduzir palavras às suas formas básicas ou raízes. O objetivo do stemming é simplificar palavras derivadas ou flexionadas para sua forma base, facilitando a análise de texto e a comparação de palavras.

O stemming envolve a aplicação de algoritmos que cortam prefixos ou sufixos das palavras. Por exemplo, palavras como "correndo", "correu" e "corredor" podem ser reduzidas à raiz "corr".

A função stemmer aplica o algoritmo Snowball Stemmer ao texto em inglês, reduzindo cada palavra à sua raiz. Ela faz o seguinte:

Cria um objeto SnowballStemmer para o inglês.
Divide o texto em palavras (se necessário).
Aplica o stemming a cada palavra.
Junta as palavras stemmed em uma string final e retorna essa string.

In [31]:
# Testar a função
texto = "He is running and meditating!"
texto_resultante = stemmer(texto.split())
print(texto_resultante)  

he is run and meditating!


In [32]:
%%time
df.review = df.review.apply(stemmer)

CPU times: total: 1 s
Wall time: 1.15 s


In [33]:
df.review[0]

'geosolut technolog leverag benefon gps solut provid locat base search technolog communiti platform locat relev multimedia content new power commerci model'

## Pré-Processamento dos Dados

In [34]:
# Aumentar o valor de max_colwidth para evitar truncagem
pd.set_option('display.max_colwidth', 120)  

In [35]:
# Carregar o dataset original
dados_originais = pd.read_csv('dataset.csv')

In [36]:
# Amostra dos dados 
dados_originais.head(10)

Unnamed: 0,review,sentiment
0,"The GeoSolutions technology will leverage Benefon 's GPS solutions by providing Location Based Search Technology , a...",positive
1,"$ESI on lows, down $1.50 to $2.50 BK a real possibility",negative
2,"For the last quarter of 2010 , Componenta 's net sales doubled to EUR131m from EUR76m for the same period a year ear...",positive
3,"According to the Finnish-Russian Chamber of Commerce , all the major construction companies of Finland are operating...",neutral
4,"The Swedish buyout firm has sold its remaining 22.4 percent stake , almost eighteen months after taking the company ...",neutral
5,$SPY wouldn't be surprised to see a green close,positive
6,Shell's $70 Billion BG Deal Meets Shareholder Skepticism,negative
7,"SSH COMMUNICATIONS SECURITY CORP STOCK EXCHANGE RELEASE OCTOBER 14 , 2008 AT 2:45 PM The Company updates its full ye...",negative
8,Kone 's net sales rose by some 14 % year-on-year in the first nine months of 2008 .,positive
9,"The Stockmann department store will have a total floor space of over 8,000 square metres and Stockmann 's investment...",neutral


In [37]:
# Amostra dos dados limpos
df.head(10)

Unnamed: 0,review,sentiment
0,geosolut technolog leverag benefon gps solut provid locat base search technolog communiti platform locat relev multi...,1
1,esi low 1 50 2 50 bk real possibl,0
2,last quarter 2010 componenta net sale doubl eur131m eur76m period year earlier move zero pre tax profit pre tax loss...,1
3,accord finnish russian chamber commerc major construct compani finland oper russia,2
4,swedish buyout firm sold remain 22 4 percent stake almost eighteen month take compani public finland,2
5,spi surpris see green close,1
6,shell 70 billion bg deal meet sharehold skeptic,0
7,ssh communic secur corp stock exchang releas octob 14 2008 2 45 pm compani updat full year outlook estim result rema...,0
8,kone net sale rose 14 year year first nine month 2008,1
9,stockmann depart store total floor space 8 000 squar metr stockmann invest project price tag eur 12 million,2


In [38]:
# Deletar o dataframe para liberar memória
del dados_originais

In [39]:
# Extrai o texto da avaliação (entrada)
x = np.array(df.iloc[:,0].values)

In [40]:
# Extrai o sentimento (saída)
y = np.array(df.sentiment.values)

In [41]:
# Divisão dos dados em treino e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x,y, test_size = 0.2, random_state = 0)

In [42]:
type(x_treino)

numpy.ndarray

In [43]:
# Cria um vetorizador
# Converte os dados de texto em representação numérica
vetorizador_dsa = CountVectorizer(max_features = 1000)

In [44]:
# Fit e transform do vetorizador com dados de treino
x_treino_final = vetorizador_dsa.fit_transform(x_treino).toarray()

In [45]:
# Apenas transorm nos dados de teste
x_teste_final = vetorizador_dsa.transform(x_teste).toarray()

In [46]:
print("x_treino_final:", x_treino_final.shape)
print("y_treino:", y_treino.shape)

x_treino_final: (4673, 1000)
y_treino: (4673,)


In [47]:
print(x_treino_final)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [48]:
print("x_teste_final:", x_teste_final.shape)
print("y_teste:", y_teste.shape)

x_teste_final: (1169, 1000)
y_teste: (1169,)


## Criação de Modelos de Machine Learning

### Modelo Probabilístico 1 - GaussianNB
O Gaussian Naive Bayes é uma variação do algoritmo Naive Bayes, que é um classificador probabilístico baseado no teorema de Bayes com a suposição de independência condicional entre as características. O "Gaussian" na nomenclatura refere-se à suposição específica feita sobre a distribuição das características.

Aplicação
Previsão: O modelo calcula a probabilidade de cada classe dada as características observadas e escolhe a classe com a maior probabilidade.
Uso: É particularmente útil para problemas de classificação onde as características podem ser modeladas razoavelmente bem com distribuições gaussianas.

Vantagens
Simplicidade: É simples de implementar e interpretar.

Eficiência: Geralmente requer menos recursos computacionais e é mais rápido do que modelos mais complexos.

Limitações
Suposição de Normalidade: A suposição de que as características seguem uma distribuição normal pode não se adequar bem a todos os conjuntos de dados.

Independência Condicional: A suposição de que as características são independentes pode ser uma limitação em muitos casos práticos.

In [49]:
# Cria o modelo
modelo_01 = GaussianNB()

In [50]:
# Treina o modelo
modelo_01.fit(x_treino_final, y_treino)

### Modelo Probabilístico 2 - MultinomialNB
O Multinomial Naive Bayes é uma variação do algoritmo Naive Bayes que é especialmente adequada para problemas de classificação de texto e outras tarefas onde as características são contagens ou frequências. Ele é chamado de "multinomial" porque assume que as características seguem uma distribuição multinomial.

Aplicação

Classificação de Texto: É amplamente usado em tarefas de processamento de linguagem natural, como filtragem de spam e análise de sentimentos, onde as características são palavras e suas frequências.

Vantagens
Eficiente: É relativamente simples e eficiente para grandes conjuntos de dados, especialmente quando as características são contagens.

Bom Desempenho: Funciona bem em muitos problemas de classificação de texto e outros problemas de contagem.
Limitações

Independência Condicional: A suposição de independência das características pode ser uma limitação, especialmente quando as características estão correlacionadas.

Desempenho em Dados Escassos: Pode ter desempenho ruim em dados onde as contagens são muito pequenas ou onde há muitos recursos raros.

In [51]:
# Cria o modelo
modelo_02 = MultinomialNB(alpha = 1.0, fit_prior = True)

In [52]:
# Treina o modelo
modelo_02.fit(x_treino_final, y_treino)

### Modelo Probabilístico 3 - BernoulliNB

O Bernoulli Naive Bayes é uma variação do algoritmo Naive Bayes que é projetada para lidar com características binárias (ou seja, características que têm apenas dois valores possíveis, como 0 e 1, ou verdadeiro e falso). É especialmente útil em contextos onde você está interessado em verificar a presença ou ausência de uma característica em vez de suas contagens ou frequências.

Aplicação

Classificação de Texto: É frequentemente usado em problemas de classificação de texto onde as características são binárias, como a presença ou ausência de palavras em documentos.

Outros Problemas: Pode ser usado em qualquer problema de classificação onde as características são representadas como variáveis binárias.

Vantagens

Simplicidade: É relativamente simples e fácil de implementar.

Eficiência: É eficiente em termos de memória e cálculo, especialmente quando lidando com grandes conjuntos de dados onde cada característica é binária.

Limitações

Suposição de Independência: A suposição de que as características são independentes pode ser uma limitação em muitos cenários do mundo real.

Características Binárias: É menos adequado para problemas onde as características são contínuas ou têm mais de dois valores possíveis.

In [53]:
# Cria o modelo
modelo_03 = BernoulliNB(alpha = 1.0, fit_prior = True)

In [54]:
# Treina o modelo
modelo_03.fit(x_treino_final, y_treino)

## Avaliar os Modelos

In [55]:
# Previsões com dados de teste
ypred_01 = modelo_01.predict(x_teste_final)

In [56]:
# Previsões com dados de teste
ypred_02 = modelo_02.predict(x_teste_final)

In [57]:
# Previsões com dados de teste
ypred_03 = modelo_03.predict(x_teste_final)

In [58]:
print("Acurácia do Modelo GaussianNB = ", accuracy_score(y_teste, ypred_01) * 100)
print("Acurácia do Modelo MultinomialNB = ", accuracy_score(y_teste, ypred_02) * 100)
print("Acurácia do Modelo BernoulliNB = ", accuracy_score(y_teste, ypred_03) * 100)

Acurácia do Modelo GaussianNB =  40.376390076988876
Acurácia do Modelo MultinomialNB =  67.23695466210437
Acurácia do Modelo BernoulliNB =  68.00684345594526


A acurácia é uma métrica global ideal para comparar versões do modelo do mesmo algoritmo. Para modelos de algoritmos diferentes a métrica AUC (Area Under The Curve) é a ideal.

In [59]:
# Salva o melhor modelo em disco
with open('modelo_03.pkl', 'wb') as arquivo:
    pickle.dump(modelo_03, arquivo)

## Deploy e Uso do Modelo

In [60]:
# Carregar o modelo do disco
with open('modelo_03.pkl', 'rb') as arquivo:
    modelo_final = pickle.load(arquivo)

In [61]:
# Texto de uma avaliação positiva de usuário
texto_aval = """$SPY may potentially close in the green, but it remains uncertain."""

In [62]:
# Fluxo de transformação dos dados
tarefa1 = limpa_dados(texto_aval)
tarefa2 = limpa_caracter_especial(tarefa1)
tarefa3 = converte_minusculo(tarefa2)
tarefa4 = remove_stopwords(tarefa3)
tarefa5 = stemmer(tarefa4)

In [63]:
print(tarefa5)

spi may potenti close green remain uncertain


In [64]:
type(tarefa5)

str

In [65]:
# Convertendo a string para um array Numpym pois foi assim que o modelo foi treinado.
tarefa5_array = np.array(tarefa5)

In [66]:
type(tarefa5_array)

numpy.ndarray

In [67]:
# Aplicamos o vetorizador com mais uma conversão para array NumPy a fim de ajustar o shape de 0-d para 1-d
aval_final = vetorizador_dsa.transform(np.array([tarefa5_array])).toarray()

In [68]:
type(aval_final)

numpy.ndarray

In [69]:
# Previsão com o modelo
previsao = modelo_final.predict(aval_final.reshape(1,1000))

In [70]:
print(previsao)

[1]


In [71]:
# Estrutura condicional para verificar o valor de previsao
if previsao == 1:
    print("O Texto Indica Sentimento Positivo!")
else:
    print("O Texto Indica Sentimento Negativo!")

O Texto Indica Sentimento Positivo!
