In [2]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
from sklearn.pipeline import make_pipeline
import pandas as pd

In [22]:

# Carregar o arquivo CSV
file_path = 'dataset/pre-processed.csv'
data = pd.read_csv(file_path)

# Exibir as primeiras linhas do dataframe para entender a estrutura dos dados
data.head()

Unnamed: 0,index,label,preprocessed_news
0,0,fake,katia abreu diz vai colocar expulsao moldura n...
1,1,fake,ray peita bolsonaro conservador fake entrevist...
2,2,fake,reinaldo azevedo desmascarado policia federal ...
3,3,fake,relatorio assustador bndes mostra dinheiro pub...
4,4,fake,radialista americano fala sobre pt vendem ilus...


O `CountVectorizer` é uma técnica utilizada em processamento de linguagem natural (PLN) e aprendizado de máquina para converter uma coleção de documentos de texto em uma matriz de contagens de tokens. Essencialmente, ele transforma os textos em um formato que os algoritmos de aprendizado de máquina podem entender. Vamos detalhar suas características principais:

1. **Tokenização**: Ele divide os textos em palavras, termos ou símbolos (conhecidos como tokens). Por exemplo, a frase "O gato dorme" seria dividida em tokens como "O", "gato", "dorme".

2. **Construção de Vocabulário**: Cria um vocabulário de todos os tokens únicos presentes nos documentos de texto. Por exemplo, se tivermos duas frases, "O gato dorme" e "O cachorro brinca", o vocabulário seria ["O", "gato", "dorme", "cachorro", "brinca"].

3. **Contagem de Frequência**: Para cada documento, conta quantas vezes cada palavra do vocabulário aparece. Isto resulta em uma matriz onde cada linha representa um documento e cada coluna representa um token do vocabulário. Os valores da matriz são as contagens de frequência de cada token no documento correspondente.

4. **Normalização**: Opcionalmente, o CountVectorizer pode aplicar várias formas de normalização nos dados, como converter todas as letras para minúsculas para garantir que "Gato" e "gato" sejam contados como o mesmo token.

O CountVectorizer é uma ferramenta básica, mas poderosa, para a conversão de texto em um formato numérico que pode ser utilizado por algoritmos de aprendizado de máquina. Ele é particularmente útil para tarefas de classificação de texto, análise de sentimento, agrupamento de documentos, entre outras aplicações em PLN. No entanto, ele tem limitações, como a incapacidade de capturar a ordem das palavras ou o contexto em que aparecem, que podem ser superadas por técnicas mais avançadas como TF-IDF ou word embeddings.

In [23]:
# Dividindo os dados em características (X) e alvo (y)
X = data['preprocessed_news']
y = data['label']

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criando e treinando o modelo
# Usaremos um pipeline que inclui a vetorização e o classificador Naive Bayes
model = make_pipeline(CountVectorizer(), MultinomialNB())
model.fit(X_train, y_train)

# Avaliando o modelo no conjunto de teste
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)




In [24]:
print(accuracy);print(report)

0.8270833333333333
              precision    recall  f1-score   support

        fake       0.96      0.68      0.80       718
        true       0.76      0.97      0.85       722

    accuracy                           0.83      1440
   macro avg       0.86      0.83      0.82      1440
weighted avg       0.86      0.83      0.82      1440



# Sobre TfidfVectorizer
### Para aplicar word embeddings ao modelo de classificação de texto, podemos usar o TfidfVectorizer ou incorporar embeddings pré-treinados como os do Word2Vec ou GloVe. O TfidfVectorizer é uma alternativa ao CountVectorizer que não apenas conta a frequência das palavras, mas também leva em consideração a importância relativa das palavras nos documentos. Vamos começar com o TfidfVectorizer.

TfidfVectorizer: TF-IDF significa "Term Frequency-Inverse Document Frequency". Este método avalia a importância de uma palavra no contexto de um conjunto de documentos. Ele aumenta a pontuação de palavras que são frequentes em um documento, mas não em todos os documentos, o que ajuda a filtrar palavras comuns que não contribuem para o significado do texto.

In [25]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Criando e treinando o modelo com TfidfVectorizer
model_tfidf = make_pipeline(TfidfVectorizer(), MultinomialNB())
model_tfidf.fit(X_train, y_train)

# Avaliando o modelo com TfidfVectorizer no conjunto de teste
y_pred_tfidf = model_tfidf.predict(X_test)
accuracy_tfidf = accuracy_score(y_test, y_pred_tfidf)
report_tfidf = classification_report(y_test, y_pred_tfidf)

accuracy_tfidf, report_tfidf
print(accuracy_tfidf);print(report_tfidf)

0.6145833333333334
              precision    recall  f1-score   support

        fake       1.00      0.23      0.37       718
        true       0.57      1.00      0.72       722

    accuracy                           0.61      1440
   macro avg       0.78      0.61      0.55      1440
weighted avg       0.78      0.61      0.55      1440



#### Resultado mostrou ser menor que anterior (CountVectorizer)


## Para explorar embeddings de palavras mais sofisticados, vamos usar GloVe com Rede Neural.

Para incorporar embeddings pré-treinados como GloVe em seu modelo de classificação de texto, é necessário um processo mais complexo. Infelizmente, não posso executar esse processo diretamente aqui devido a limitações de hardware e software, mas posso fornecer uma visão geral de como você pode fazer isso em seu próprio ambiente de desenvolvimento.

O processo geral envolve os seguintes passos:

1. **Download do GloVe**: Primeiro, você precisa baixar os embeddings pré-treinados do GloVe. Eles estão disponíveis em várias dimensões (por exemplo, 50, 100, 200, 300).

2. **Carregar os Embeddings do GloVe**: Carregar os embeddings em sua aplicação. Isso geralmente envolve ler o arquivo do GloVe e criar um dicionário onde as chaves são as palavras e os valores são os vetores de embedding correspondentes.

3. **Preparação dos Dados**: Você precisa converter os textos do seu conjunto de dados em vetores usando os embeddings do GloVe. Isso geralmente significa que você precisará calcular a média dos embeddings de todas as palavras em um documento para obter um único vetor representando esse documento.

4. **Construção do Modelo**: Em vez de usar modelos como Naive Bayes, você provavelmente usará um modelo de rede neural, como um perceptron multicamada, que pode processar os vetores de entrada de alta dimensão.

5. **Treinamento e Avaliação**: Treine o modelo em seu conjunto de dados e avalie seu desempenho.

Aqui está um exemplo de código que ilustra como isso pode ser feito em Python, utilizando bibliotecas como Pandas, NumPy e Scikit-learn:

In [26]:
import numpy as np
import pandas as pd
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

In [27]:
# Carregar o GloVe embeddings
embeddings_index = {}
with open('glove/glove_s100.txt', 'r', encoding='utf8') as f:
    for line in f:
        values = line.split()
        word = values[0]
        vector_values = []
        for val in values[1:]:
            try:
                vector_values.append(float(val))
            except ValueError:
                # Pular valores que não podem ser convertidos em float
                continue
        if len(vector_values) == 100:  # Garantir que o vetor tenha a dimensão correta
            embeddings_index[word] = np.asarray(vector_values, dtype='float32')
        
        
        
        


In [28]:

# Função para converter texto em embedding
def text_to_embedding(text, embeddings_index):
    words = text.split()
    embedding = np.zeros(100)  # usando GloVe 100d. Se usar de X dimensao, deve alterar
    for word in words:
        embedding += embeddings_index.get(word, np.zeros(100))
    return embedding / len(words)

In [29]:
# Carregar e preparar os dados
file_path = 'dataset/pre-processed.csv'
data = pd.read_csv(file_path)
X = data['preprocessed_news'].apply(lambda x: text_to_embedding(x, embeddings_index))
y = data['label']

# Dividir os dados
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Converter para NumPy arrays
X_train = np.stack(X_train.values)
X_test = np.stack(X_test.values)

# Construir e treinar o modelo
model = MLPClassifier(hidden_layer_sizes=(100, ), max_iter=500)
model.fit(X_train, y_train)

# Avaliar o modelo
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

        fake       0.91      0.89      0.90       718
        true       0.89      0.91      0.90       722

    accuracy                           0.90      1440
   macro avg       0.90      0.90      0.90      1440
weighted avg       0.90      0.90      0.90      1440





## Como pode ser visto. Usando Glove de 100 dimensões obtemos um resultado melhor. Não fiz vários testes e nem arrumei os melhores parâmetros para rede