In [48]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import nltk
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.model_selection import cross_val_predict

## Lendo os dados que foram obtidos por script python através de scrapping

In [56]:
df = pd.read_csv('./data/others/querobolsa.csv')

# Aqui é um exemplo pequeno de como funciona o nosso DataFrame (Tabela)

## Unammed: 0 é a coluna que atribui um id automatico e auto incremental para cada linha
## author: representa o nome de quem escreveu a avaliação no site
## text: uma concatenação do texto de pros e contras
## rating: Classificação de impressão positiva ou negativa do usuário em relação a universidade, baseada na nota da plataforma.

### Se a nota na plataforma for maior que 3, então é Positivo. Se for menor ou igual a 2, então Negativo. Se estiver entre esses valores, então a nota é Neutro.

In [57]:
df.head()

Unnamed: 0.1,Unnamed: 0,author,text,rating
0,0,Miqueias Melo,"Começando pela estrutura que é muito positiva,...",Positivo
1,1,Rubem Santos,A faculdade tem muitos pontos positivos sim. A...,Positivo
2,2,Sthefanny Andrade,"A estrutura do prédio é boa, o local é seguro ...",Positivo
3,3,Gleidson Barbosa,"Salas espaçosas, no geral. algumas um pouco me...",Positivo
4,4,Luana Silva,Faculdade com uma boa infraestrutura! excelent...,Positivo


In [36]:
df[df.rating=='Neutro'].count()

Unnamed: 0    43
author        43
text          43
rating        43
dtype: int64

In [37]:
df[df.rating=='Positivo'].count()

Unnamed: 0    957
author        957
text          957
rating        957
dtype: int64

In [38]:
df[df.rating=='Negativo'].count()

Unnamed: 0    10
author        10
text          10
rating        10
dtype: int64

In [58]:
texto = df['text'].values
classificacao = df['rating'].values

# Bag of Words (BoW) - Processo de Vetorização

## 1. Tokenização:

O primeiro passo é dividir o texto em unidades menores chamadas "tokens". Em BoW, os tokens geralmente são palavras, mas podem ser n-gramas ou até mesmo caracteres, dependendo da granularidade desejada.

**Exemplo:**

Texto: "A análise de sentimentos é uma parte interessante do processamento de linguagem natural."

Tokens: ["A", "análise", "de", "sentimentos", "é", "uma", "parte", "interessante", "do", "processamento", "de", "linguagem", "natural"]


## 2. Construção do Vocabulário:

Em seguida, cria-se um vocabulário único a partir de todos os tokens encontrados no corpus (conjunto de documentos). Cada palavra única no vocabulário recebe um índice único.

**Exemplo:**

Vocabulário: {"A": 0, "análise": 1, "de": 2, "sentimentos": 3, "é": 4, "uma": 5, "parte": 6, "interessante": 7, "do": 8, "processamento": 9, "linguagem": 10, "natural":11}

## 3. Contagem de Ocorrências:

Para cada documento, conta-se quantas vezes cada palavra do vocabulário aparece no documento. Essa contagem é armazenada em um vetor

**Exemplo:**

Vetor do Documento: [1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1]

Este vetor representa a contagem de ocorrências de cada palavra no documento em relação ao vocabulário.

## 4. Vetorização Final:

O conjunto de vetores resultante, um para cada documento, forma a representação final do BoW para o corpus.

**Exemplo (Dois Documentos):**

Documento 1: [1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Documento 2: [0, 2, 1, 0, 2, 1, 0, 1, 0, 2, 1, 1]

Cada posição no vetor representa a contagem de ocorrências de uma palavra específica no documento.

## Considerações Finais:

- BoW perde a ordem das palavras e considera apenas a presença ou ausência delas.
- Pode resultar em vetores esparsos, especialmente em grandes vocabulários.
- Pode ser usado como entrada para algoritmos de aprendizado.
.
tos):**
lo:**
:**
]


In [69]:
vectorizer = CountVectorizer(analyzer="word")
freq_texto = vectorizer.fit_transform(texto)
modelo = MultinomialNB()
modelo.fit(freq_texto, classificacao)

In [60]:
freq_texto.shape

(1010, 5956)

In [61]:
freq_texto.A

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

In [62]:
testes = ['Essa faculdade está um lixo', 'Essa faculdade é boa', 'Essa faculdade não é boa', 'Não sei se amo ou odeio essa faculdade', 'Amo a UNIP']

In [63]:
freq_testes = vectorizer.transform(testes)

In [64]:
for t, c in zip(testes, modelo.predict(freq_testes)):
    print(f'{t}, {c}')

Essa faculdade está um lixo, Positivo
Essa faculdade é boa, Positivo
Essa faculdade não é boa, Positivo
Não sei se amo ou odeio essa faculdade, Positivo
Amo a UNIP, Positivo


In [72]:
print(modelo.classes_)
modelo.predict_proba(freq_testes).round(2)

['Negativo' 'Neutro' 'Positivo']


array([[0.  , 0.  , 0.99],
       [0.  , 0.01, 0.99],
       [0.  , 0.01, 0.99],
       [0.  , 0.03, 0.97],
       [0.  , 0.01, 0.99]])

In [51]:
resultados = cross_val_predict(modelo, freq_texto, classificacao, cv=10)

In [52]:
metrics.accuracy_score(classificacao, resultados)

0.9475247524752475

In [55]:
sentimento=['Positivo','Negativo','Neutro']
print(metrics.classification_report(classificacao, resultados, target_names=sentimento, zero_division=1))

              precision    recall  f1-score   support

    Positivo       1.00      0.00      0.00        10
    Negativo       1.00      0.00      0.00        43
      Neutro       0.95      1.00      0.97       957

    accuracy                           0.95      1010
   macro avg       0.98      0.33      0.32      1010
weighted avg       0.95      0.95      0.92      1010

