## Vamos criar um analisador de sentimentos.

 Um modelo de ML capaz de analisar um determinado texto e classificá-lo de acordo com o sentimento, ouseja, se a pessoa gostou ou não. Para o projeto utilizaremos um dataset do [kaggle](https://www.kaggle.com/datasets/luisfredgs/imdb-ptbr?resource=download)
 O dataset tem vários comentários de usuários do site IMDB, para avaliação de filme. Os sentimentos dados são ou negativo ou positivo. (Ou seja, o modelo será de classificação e supervisionado)
 

# O que é PLN ou NLP:
Em português Processamente de linguagem natural, ou em inglês Natural Language Processing é uma vertente da inteligência artificial (IA) tem como intenção de melhorar a comunicação entre humanos e computadores. Funciona como um 'tradutor'.

Pela linguagem natural não ser uma fonte estruturada como, por exemplo, tabelas e planilhas e possuir coisas como ironia e sarcasmo há grandes desafios para criação de modelo generalizado o suficiente que seja aplicado de forma satisfatória para todas as linguas. 

Principais uso de NLP:
- tradutores online;
- analise de sentimento;
- corretores ortográficos;
- chatbots;
- barra de pesquisa;
entre outros.

#### Etapas:
- Coletar dados;
- limpar;
- estruturar;
- analisar;
- treinar e testar modelos que satisfaçam o problema.

### Importando as bibliotecas:

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

In [11]:
from sklearn.linear_model import LogisticRegression

In [2]:
resenha = pd.read_csv('dados/imdb-reviews-pt-br.csv')
resenha.head()

Unnamed: 0,id,text_en,text_pt,sentiment
0,1,Once again Mr. Costner has dragged out a movie...,"Mais uma vez, o Sr. Costner arrumou um filme p...",neg
1,2,This is an example of why the majority of acti...,Este é um exemplo do motivo pelo qual a maiori...,neg
2,3,"First of all I hate those moronic rappers, who...","Primeiro de tudo eu odeio esses raps imbecis, ...",neg
3,4,Not even the Beatles could write songs everyon...,Nem mesmo os Beatles puderam escrever músicas ...,neg
4,5,Brass pictures movies is not a fitting word fo...,Filmes de fotos de latão não é uma palavra apr...,neg


In [6]:
resenha.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49459 entries, 0 to 49458
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   id         49459 non-null  int64 
 1   text_en    49459 non-null  object
 2   text_pt    49459 non-null  object
 3   sentiment  49459 non-null  object
dtypes: int64(1), object(3)
memory usage: 1.5+ MB


In [8]:
treino, teste, classe_treino, classe_teste = train_test_split(resenha.text_pt,
                                                             resenha.sentiment,
                                                             random_state = 42)

In [10]:
treino.shape, teste.shape, classe_treino.shape, classe_teste.shape

((37094,), (12365,), (37094,), (12365,))

#### Dando uma olhada:

In [14]:
treino.head()

1348     Embora o filme tenha sido apenas assim, o clos...
27466    Este é provavelmente um dos piores filmes que ...
29998    De vez em quando, um filme irá varrer ao seu r...
48186    Este é um conto completamente diabólico de quã...
26473    Lenta, chata, extremamente repetitiva. Não adm...
Name: text_pt, dtype: object

In [15]:
classe_treino.head()

1348     neg
27466    neg
29998    neg
48186    pos
26473    neg
Name: sentiment, dtype: object

In [16]:
teste.head()

12532    Isso era incomum: um filme moderno que era ult...
35445    Alguns dos meus velhos amigos sugeriram que eu...
20279    Que prazer. Isto é realmente uma paródia. Some...
2969     Há cerca de dez minutos a meio da Strangeland,...
45161    Otelo, a clássica história de Shakespearen sob...
Name: text_pt, dtype: object

In [17]:
classe_teste.head()

12532    pos
35445    neg
20279    pos
2969     neg
45161    pos
Name: sentiment, dtype: object

### Fazendo a classificação com o Sklearn

In [20]:
# regressao_logistica = LogisticRegression()
# regressao_logistica.fit(treino, classe_treino)
# acuracia = regressao_logistica.score(teste,classe_teste)
# print(acuracia)

# Dá erro pois o modelo não interpreta dados textuais (ValueError: could not convert string to float:)

#### Dando uma olhada em um exemplo de mensagem com sentimento negativo e positivo:

In [21]:
print("Negativa \n")
print(resenha.text_pt[189])  #vimos que os negativos estavam no começo

Negativa 

Este é sem dúvida o pior filme que eu já vi. E acredite em mim, eu vi muitos filmes. A reviravolta inacreditável que o filme faz - passando de um extremamente mau filme "Formas de vida alienígenas habitam a terra", com um filme que tenta espalhar um arquicristiano "O dia do julgamento está próximo, buscar Jesus ou queimar por toda a eternidade em as dívidas ardentes do inferno "mensagem - deixou-me atordoado depois de ter sido atormentado por 85 minutos. Até mesmo os cristãos religiosos devem se envergonhar ou ficar furiosos ao ver suas crenças postadas dessa maneira. Eu não sabia o que fazer comigo quando assisti a atuação horrível que poderia ter sido realizada por crianças de 7 anos de idade. Simplesmente repugnante. Eu não sou cristão nem muito religioso. Mas se eu estivesse, não teria mais medo do Inferno. Rich Christiano mostrou ser algo muito pior.


In [22]:
print("Positiva \n")
print(resenha.text_pt[49002])

Positiva 

Crescendo em Nova York no final dos anos 80 e início dos anos 90, posso dizer pessoalmente que este é um dos documentários mais importantes feitos para cobrir esse lugar neste período de tempo. Não Madonna não veio com a idéia de Voguing, mas é de onde ela tirou! Em vez de combater a violência uns dos outros ou em brigas de gato, o voguing permitia que as pessoas "lutassem" dentro dos confins de tudo, menos que tocassem umas às outras, o que justificaria uma desqualificação automática. Vendo este tipo de extraordinariamente talentosas / bem orquestradas "jogadas" nos clubes foi nada menos do que espetacular e todos os grandes nomes de antigamente estão aqui ... Pepper La Beija, Paris Duprée, Xtragavaganza, etc. ..tudo comemorado nos gostos de peças de época como a música de Malcom McLarens "Deep in Vogue" ... não importava quem você era, ou de onde você era porque quando você passava por aquelas portas nesse "reino mágico" de De certa forma, você se tornou parte de algo maio

Conhecendo um pouco dos textos dá pra prestar atenção em palavras que poderiam ser indicativos de sentimentos e comuns nos textos usados. 
Como exemplo no do primeiro a palavra pior  e na segunda a palavra brilhante.

In [23]:
print(resenha.sentiment.value_counts())

neg    24765
pos    24694
Name: sentiment, dtype: int64


Os valores estão bem balanceados então não terá problema de viés para a classificação.

### Alterando os valores da coluna sentiment por valores binários:

- neg = 0
- pos = 1


In [24]:
classificacao = resenha['sentiment'].replace(['neg','pos'],[0,1])

In [26]:
resenha['classificacao'] = classificacao

In [28]:
resenha.head()

Unnamed: 0,id,text_en,text_pt,sentiment,classificacao
0,1,Once again Mr. Costner has dragged out a movie...,"Mais uma vez, o Sr. Costner arrumou um filme p...",neg,0
1,2,This is an example of why the majority of acti...,Este é um exemplo do motivo pelo qual a maiori...,neg,0
2,3,"First of all I hate those moronic rappers, who...","Primeiro de tudo eu odeio esses raps imbecis, ...",neg,0
3,4,Not even the Beatles could write songs everyon...,Nem mesmo os Beatles puderam escrever músicas ...,neg,0
4,5,Brass pictures movies is not a fitting word fo...,Filmes de fotos de latão não é uma palavra apr...,neg,0


In [29]:
resenha.tail()

Unnamed: 0,id,text_en,text_pt,sentiment,classificacao
49454,49456,"Seeing as the vote average was pretty low, and...","Como a média de votos era muito baixa, e o fat...",pos,1
49455,49457,"The plot had some wretched, unbelievable twist...",O enredo teve algumas reviravoltas infelizes e...,pos,1
49456,49458,I am amazed at how this movieand most others h...,Estou espantado com a forma como este filme e ...,pos,1
49457,49459,A Christmas Together actually came before my t...,A Christmas Together realmente veio antes do m...,pos,1
49458,49460,Working-class romantic drama from director Mar...,O drama romântico da classe trabalhadora do di...,pos,1


### Sacola de Palavras ou Bag of words:
Passo onde permite contar todas as palavras em um pedaço de texto. Baseia-se na criação de uma matriz de ocorrência de palavras para a sentença, não leva em conta a estrutura (gramática) nem a ordem das palavras. As frequências ou ocorrências de palavras são usadas para comparação de diferentes documentos e avalia suas similariedades para aplicação

Criamos um vocabulário. Seria basicamente separar todas as palavras de um comentário e agrupar as palavras repetidas. 

A matriz criada, no entanto, não é muito eficiente pois ocupa muito espaço na memória para armazená-la.


#### Referências:

- Curso: [Alura - Linguagem Natural parte 1: NLP com análise de sentimento](https://cursos.alura.com.br/course/introducao-a-nlp-com-analise-de-sentimento)
- [Um guia para NPL - Processamento de Linguagem Natural](https://ilumeo.com.br/todos-posts/2020/06/12/um-guia-para-pnl-processamento-de-linguagem-natural)
- [Sentiment Analysis: Concept, Analysis and Applications](https://towardsdatascience.com/sentiment-analysis-concept-analysis-and-applications-6c94d6f58c17)
- [A friendly guide to NLP: Bag-of-Words with Python example](https://www.analyticsvidhya.com/blog/2021/08/a-friendly-guide-to-nlp-bag-of-words-with-python-example/)