# Extração do vetor de características
## Tokenização e contagem de palavras

In [None]:
# importaçÕes necessárias
import os
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
import html
from bs4 import BeautifulSoup

In [None]:
# instalar stemmer português no nltk
nltk.download('rslp')
nltk.download('punkt')

In [None]:
# função para ler os arquivos e retornar em uma lista
def retorna_conteudo(pasta):
    lista_conteudos = []
    for arquivo in os.listdir(os.getcwd()+'/'+pasta):
        with open(pasta+'/'+arquivo, 'r', encoding="utf8") as arq:
            lista_conteudos.append(arq.read())
    return lista_conteudos

In [None]:
lista_conteudos = retorna_conteudo('wikis_text')

In [None]:
# extrair contagem de palavras com a configuração padrão
# extrair ocorrência binária
contagem = TfidfVectorizer()

vetor = contagem.fit_transform(lista_conteudos)
#nomes das características
print(contagem.get_feature_names())
# vetor de características
print(vetor.toarray())

In [None]:
# extrair ocorrência binária
bo = TfidfVectorizer(binary=True, norm=None, use_idf=False)

vetor = bo.fit_transform(lista_conteudos)
#nomes das características
print(bo.get_feature_names())
# vetor de características
print(vetor.toarray())

In [None]:
# extrair com ocorrência dos termos
to = TfidfVectorizer(binary=False, norm=None, use_idf=False)

vetor = to.fit_transform(lista_conteudos)
#nomes das características
print(to.get_feature_names())
# vetor de características
print(vetor.toarray())

In [None]:
# extrair com tf
tf = TfidfVectorizer(binary=False,norm='l1', use_idf=False)

vetor = tf.fit_transform(lista_conteudos)
#nomes das características
print(tf.get_feature_names())
# vetor de características
print(vetor.toarray())

In [None]:
# extrair com tf.idf
tfidf = TfidfVectorizer(binary=False,norm='l1', use_idf=True)

vetor = tfidf.fit_transform(lista_conteudos)
#nomes das características
print(tfidf.get_feature_names())
# vetor de características
print(vetor.toarray())

# Processamento linguístico

## Remover o que não é palavra (considera somente termos com 3 ou mais letras

In [None]:
# token pattern: termos com letras, com 3 ou mias caracteres
tfidf = TfidfVectorizer(binary=False,norm='l1', use_idf=True, token_pattern=r'\b[a-zA-Z]{3,}\b')
vetor = tfidf.fit_transform(lista_conteudos)
#nomes das características
print(tfidf.get_feature_names())
# vetor de características
print(vetor.toarray())

## remover stopwords

In [None]:
# ler arquivo com stopwords e transforma em uma lista
stopwords = []
with open('stopwords.txt','r', encoding='utf-8') as s:
    stopwords = s.read().split('\n')

In [None]:
tfidf = TfidfVectorizer(binary=False,norm='l1', use_idf=True, token_pattern=r'\b[a-zA-Z]{3,}\b', stop_words=stopwords)
vetor = tfidf.fit_transform(lista_conteudos)
#nomes das características
print(tfidf.get_feature_names())
# vetor de características
print(vetor.toarray())

## executar stemmer

In [None]:
# método para fazer o stemmer
def stemmer(doc):
    stemmer = nltk.stem.RSLPStemmer()
    return ' '.join([stemmer.stem(t) for t in nltk.word_tokenize(doc)])

In [None]:
tfidf = TfidfVectorizer(binary=False,norm='l1', use_idf=True, token_pattern=r'\b[a-zA-Z]{3,}\b', stop_words=stopwords, preprocessor=stemmer)
vetor = tfidf.fit_transform(lista_conteudos)
#nomes das características
print(tfidf.get_feature_names())
# vetor de características
print(vetor.toarray())