In [9]:
import sys, os
import pandas as pd
import numpy as np

from nltk.tokenize import wordpunct_tokenize
from sklearn.feature_extraction.text import CountVectorizer

import nltk

In [10]:
df_corpus = pd.read_pickle('./Dados/preprocessed_corpus.pkl')

In [12]:
corpus = list(df_corpus['sample'])

# Bag of Words

#### CountVectorizer: 

Cria uma matriz esparsa, em que cada coluna representa uma palavra única do vocabulário e cada linha representa um documento. Os valores preenchidos nas colunas representam a contagem de ocorrências daquela palavra (nome da coluna) naquele documento (linha).

No caso do nosso dataset, temos:

* 7200 linhas, uma para cada amostra (notícia) 
    * 2600 são falsas
    * 2600 são verdadeiras

Parâmetros:

* __lowercase__: converte todos os caracteres para minúsculo antes de tokenizar (default)
    
* __tokenizer__: define de que forma as features serão tokenizadas
    * _None_: será tokenizada a partir das palavras (default)

* __preprocessor__: define quais serão os pré-processamentos aplicados ao dataset
    * _None_: torna todas as letras minúsculas e retira os acentos (default)

* __stop_words__: define quais palavras serão removidas das features
    * _None_: nenhuma palavra é removida (default)

* __token_pattern__: define o que constitui um token
    * _r'(?u)\b\w\w+\b'_: 2 ou mais caracteres alfanuméricos - pontuação é completamente ignorada (default)

* __analyzer__: define a unidade de granulação das features
    * _word_: cada token vai conter uma palavra
    * _char_: cada token vai conter um caractere

* __ngram_range__: define quantos itens seguidos vão constituir um token. 
    * _(1,1)_: cria apenas unigramas (default)
    * _(1,2)_: cria unigramas e bigramas

>'esse é um exemplo'

>analyzer = word; ngram = 1;

>\['esse','é','um','exemplo']

>analyzer = word; ngram = 2;

>\['esse é','um exemplo']

>analyzer = word; ngram_range = (1,2)

>\['esse','é','um','exemplo','esse é','um exemplo']

* __max_df__: define um limite máximo de vezes em que um token pode aparecer antes de ser desconsiderado - detecta stop words
    * _1.0_ (float): 100%, ou seja, nenhum token é desconsiderado (default)
    * _1_ (int): desconsidera todos os tokens que aparecerem mais de uma vez

* __min_df__: define um limite mínimo de vezes em que um token pode aparecer antes de ser desconsiderado - detecta cut-off words
    * _1_ (int): desconsidera todos os tokens que aparecem menos de uma vez (default)
    * _1.0_ (float): 100%, ou seja, desconsidera todos os tokens

* __max_features__: define número máximo de features do vetor ordenado pela frequência das palavras
    * None: todas as palavras que aparecem no corpus serão consideradas (default)


In [13]:
vectorizer = CountVectorizer(lowercase = True,
                             analyzer = 'word',
                             tokenizer = None,
                             preprocessor = None,
                             stop_words = None,
                             max_features = None)

In [14]:
X_BoW = vectorizer.fit_transform(corpus)
X_BoW = X_BoW.toarray()

In [15]:
X_BoW.shape

(7200, 83032)

# Bag of Words com Stopwords

In [15]:
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ELOGROUP\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


In [16]:
vectorizer = CountVectorizer(analyzer = "word",
                             tokenizer = None,
                             preprocessor = None,
                             stop_words = stopwords,
                             max_features = None)

In [17]:
X_BoW_stopwords = vectorizer.fit_transform(corpus)
X_BoW_stopwords = X_BoW_stopwords.toarray()

In [None]:
X_Bow_stopwords.shape

In [None]:
# np.savetxt("./Dados/X_BoW_stopwords.csv", X_BoW_stopwords, delimiter=",")

# Bag of Words com Stopwords e Stemming

In [19]:
nltk.download('rslp')
stemmer = nltk.stem.RSLPStemmer()

[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\ELOGROUP\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping stemmers\rslp.zip.


In [20]:
analyzer = CountVectorizer().build_analyzer()

In [21]:
def stemmed_words(doc):
    return (stemmer.stem(w) for w in analyzer(doc))

In [22]:
vectorizer = CountVectorizer(analyzer=stemmed_words,
                             tokenizer = None,
                             preprocessor = None,
                             stop_words = stopwords,
                             max_features = None)

In [23]:
X_BoW_stem = vectorizer.fit_transform(corpus)
X_BoW_stem = X_BoW_stem.toarray()

In [None]:
X_Bow_stem.shape

In [None]:
# np.savetxt("./Dados/X_BoW_stem.csv", X_BoW_stem, delimiter=",")