# Pré-processamento

Notebook para pré-processamento de dados textuais

## Carregando pacotes iniciais

In [None]:
!pip install unidecode==1.2.0
!pip install wikipedia==1.4.0
!pip install spacy==2.2.4

In [None]:
import nltk
import wikipedia
import re
import spacy
from nltk.probability import FreqDist
nltk.download("stopwords")
nltk.download('punkt')
nltk.download('rslp')

## Carregando dados da wikipidia

In [None]:
wikipedia.set_lang("pt")

In [None]:
pln = wikipedia.page("PLN")

In [None]:
pln.conte

In [None]:
corpus = pln.content

In [None]:
print(corpus)

In [None]:
print("O texto que estamos utilizando é da URL",pln.url)

## Tokenização
Primeiro pré-processamento é de tokenização. Consideramos tokens o menor nível de representação do texto; por exemplo palavras.

Abaixo são apresentado três metodologias para tokenização.

1. Utilizando a função split, usualmente tokenizamos usando o espaço para quebrar os tokens.
2. Utilizando regex
Na regex usada de exemplo '\w+(?:'\w+)?|[^\w\s]' onde temos um grupo de caracter alfanumerico, podendo ou não ter apostofro, seguido de alfanumerico ou um grupo com caracter que não é alfanumerico e nem espaçamento.
3. Utilizando a função  word_tokenize do nltk

In [None]:
tokens_split = corpus.split(" ")

In [None]:
tokens_regex = re.findall(r"\w+(?:'\w+)?|[^\w\s]", corpus)

In [None]:
nltk.word_tokenize(corpus, language='portuguese')
tokens_nltk = nltk.word_tokenize(corpus, language='portuguese')

In [None]:
def plot_frequencia_tokens(tokens):
    fd_words = FreqDist(tokens)
    fd_words.plot(20)

In [None]:
plot_frequencia_tokens(tokens_split)

In [None]:
plot_frequencia_tokens(tokens_regex)

In [None]:
plot_frequencia_tokens(tokens_nltk)

In [None]:
len(set(tokens_nltk))

## Remoção de stopWords

Para remover stopword utilizaremos as palavras já definidas no pacote stopwords; para remover as stopwords iremos validar qual token não esta no conjunto de stopwords.

In [None]:
from nltk.corpus import stopwords
portugues_stops = stopwords.words('portuguese')

In [None]:
print(portugues_stops)

In [None]:
len(portugues_stops)

In [None]:
tokens_sem_stop = [t for t in tokens_regex if t not in portugues_stops]

In [None]:
plot_frequencia_tokens(tokens_sem_stop)

In [None]:
len(set(tokens_sem_stop))

## Capitalização
Para esse processo iremos passar as letras para minusculo ou maiusculo, para isso usaremos as funções do python (.lower() e .upper())

In [None]:
tokens = [t.lower() for t in tokens_sem_stop]

In [None]:
plot_frequencia_tokens(tokens)

In [None]:
len(set(tokens))

## Remoção de números
Para remover ou substituir números iremos usar a função sub de re; esse processamento pode ser feito antes ou depois da tokenização.

In [None]:
tokens_sem_numbers = [re.sub(r'\d', '', t) for t in tokens]

In [None]:
plot_frequencia_tokens(tokens_sem_numbers)

In [None]:
len(set(tokens_sem_numbers))

## Remoção de pontos
Para remoção iremos criar um conjunto de strings que representam pontos, para obter esse conjunto iremos usar o objeto punctuation do pacote string

In [None]:
import string
string.punctuation

In [None]:
tokens_sem_punction = [t for t in tokens_sem_numbers if t not in string.punctuation]

In [None]:
plot_frequencia_tokens(tokens_sem_punction)

In [None]:
len(set(tokens_sem_punction))

## Remoção de acentos
Para a remoção de acentos iremos usar a função unidecode do pacote unidecode. Essa função será utilizada em cada token.

In [None]:
from unidecode import unidecode

In [None]:
unidecode('é')

In [None]:
tokens_sem_acentos = [unidecode(t) for t in tokens_sem_punction]

In [None]:
plot_frequencia_tokens(tokens_sem_acentos)

In [None]:
len(set(tokens_sem_acentos))

## Stemming

Para realizar stemming será usado o modelo do pacote nltk. Lembrando que será criado palavras que podem não existir.

In [None]:
stemmer = nltk.stem.RSLPStemmer()

In [None]:
tokens_sem_acentos[15]

In [None]:
stemmer.stem('linguas')

In [None]:
tokens_stemmer = [stemmer.stem(t) for t in tokens_sem_acentos]

In [None]:
plot_frequencia_tokens(tokens_stemmer)

In [None]:
len(set(tokens_stemmer))

8. Lemmanization

Para realizar lemmanization temos que carregar o modelo a ser usada para isso usaremos os modelos disponiveis no pacote [spaCy](https://spacy.io/). Para o exemplo usaremos o modelo [pt_core_news_sm](https://spacy.io/models/pt#pt_core_news_sm)

In [None]:
import pt_core_news_sm

In [None]:
nlp = pt_core_news_sm.load()

In [None]:
str_tokens = ' '.join(tokens_sem_acentos)
str_tokens

In [None]:
doc = nlp(str_tokens)

In [None]:
token_lemm = [token.lemma_ for token in doc]

In [None]:
plot_frequencia_tokens(token_lemm)

In [None]:
len(set(token_lemm))