<a href="https://colab.research.google.com/github/fellipeassuncao/fake-news-classification-lstm/blob/main/%5BIGTI%5D_CLASSIFICA%C3%87%C3%83O_DE_FAKE_NEWS_USANDO_DEEP_LEARNING.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NLP - CLASSIFICAÇÃO DE FAKE NEWS USANDO DEEP LEARNING



Nesta prática iremos classificar um texto a partir de algoritmos de classificação baseado em Redes Neurais Recorrentes (RNN), em especifico Long Short Term Memory (LSTM). Para resolução do problema de classificação, passaremos por algumas etapas, conforme discutido em nossos estudos.

## Por que usar o LSTM para classificação de texto?
Podemos classificar textos a partir do Processamento de Linguagem Natural e diferentes Algoritmos de Classificação baseados em Deep Learning como LSTMs e CNNs.

Existem muitos algoritmos de classificação clássicos como Árvores de Decisão, Random Forest, SVM, que podem fazer um bom trabalho, então por que usar LSTM para classificação?

> Uma boa razão para usar o LSTM é que ele é eficaz na memorização de informações importantes. Se olharmos e outras técnicas de classificação de redes não neurais, elas são treinadas em várias palavras como entradas separadas que são apenas palavras sem significado real como uma frase, e ao prever a classe dará a saída de acordo com as estatísticas e não de acordo com o significado. Isso significa que cada palavra é classificada em uma das categorias.

> Isso ocorre de maneira diferente em LSTM. No LSTM, podemos usar uma string de várias palavras para descobrir a classe à qual ela pertence. Isso é muito útil ao trabalhar com Processamento de Linguagem Natural. Se usarmos camadas apropriadas de incorporação e codificação em LSTM, o modelo será capaz de descobrir o significado real na string de entrada e fornecer a classe de saída mais precisa. O código a seguir elaborará a ideia de como a classificação de texto é feita usando LSTM.

Para a construção do modelo e testes, você pode baixar os dados em https://www.kaggle.com/c/fake-news/data#

# Importar bibliotecas


In [None]:
import pandas as pd

## Importar e verificar os dados

In [None]:
df=pd.read_csv('train/train.csv')

In [None]:
df.head()

In [None]:
### Drop Nan Values
df=df.dropna()
## Get the Independent Features
X=df.drop('label',axis=1)
## Get the Dependent features
y=df['label']

In [None]:
X.shape

In [None]:
y.shape

In [None]:
import tensorflow as tf

In [None]:
tf.__version__

In [None]:
from tensorflow.keras.layers import Embedding
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.preprocessing.text import one_hot
from tensorflow.keras.layers import LSTM
from tensorflow.keras.layers import Dense

In [None]:
### Vocabulary size
voc_size=5000

## One-hot representation

In [None]:
messages=X.copy()

In [None]:
messages['title'][1]

In [None]:
messages.reset_index(inplace=True)

### Dataset Pre processing

In [None]:
import nltk
import re
from nltk.corpus import stopwords
nltk.download('stopwords')

In [None]:
### Dataset Preprocessing
from nltk.stem.porter import PorterStemmer
ps = PorterStemmer()
corpus = []
for i in range(0, len(messages)):
    print(i)
    review = re.sub('[^a-zA-Z]', ' ', messages['title'][i])
    review = review.lower()
    review = review.split()
    
    review = [ps.stem(word) for word in review if not word in stopwords.words('english')]
    review = ' '.join(review)
    corpus.append(review)

In [None]:
# print corpus content
print(corpus)

In [None]:
# one hot representation
onehot_repr=[one_hot(words,voc_size)for words in corpus] 
onehot_repr

## Embedding Representation

In [None]:
sent_length=20
embedded_docs=pad_sequences(onehot_repr,padding='pre',maxlen=sent_length)
print(embedded_docs)

In [None]:
embedded_docs[0]

## Creating model

In [None]:
## Creating model
embedding_vector_features=40
model=Sequential()
model.add(Embedding(voc_size,embedding_vector_features,input_length=sent_length))
model.add(LSTM(100))
model.add(Dense(1,activation='sigmoid'))
model.compile(loss='binary_crossentropy',optimizer='adam',metrics=['accuracy'])
print(model.summary())

In [None]:
len(embedded_docs), y.shape