# Pré-Processamento

## 1 - Tokenizar (Biblioteca nltk)

### 1.1 - Sentence Tokenization (Tokenizar Sentenças)

- 1.1.1 - Sent Tokenize: <br />

In [1]:
import nltk

texto = "Phoenix Suns e o Miami Heat estrearam com vitória em suas semifinais de Conferência nos playoffs da NBA. Com atuação mais convincente, os Suns lembraram os momentos de regularidade na temporada, quando dominaram! O jogo ocorreu na noite desta segunda-feira (2)."

st = nltk.sent_tokenize
tokens = st(text=texto, language='portuguese')

print(tokens)

['Phoenix Suns e o Miami Heat estrearam com vitória em suas semifinais de Conferência nos playoffs da NBA.', 'Com atuação mais convincente, os Suns lembraram os momentos de regularidade na temporada, quando dominaram!', 'O jogo ocorreu na noite desta segunda-feira (2).']


- 1.1.2 - RegexpTokenizer: <br />

In [2]:
import nltk

SENTENCE_TOKENS_PATTERN = r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<![A-Z]\.)(?<=\.|\?|\!)\s'
texto = "Phoenix Suns e o Miami Heat estrearam com vitória em suas semifinais de Conferência nos playoffs da NBA. Com atuação mais convincente, os Suns lembraram os momentos de regularidade na temporada, quando dominaram! O jogo ocorreu na noite desta segunda-feira (2)."

rt = nltk.tokenize.RegexpTokenizer(pattern=SENTENCE_TOKENS_PATTERN, gaps=True)
tokens = rt.tokenize(texto)

print(tokens)

['Phoenix Suns e o Miami Heat estrearam com vitória em suas semifinais de Conferência nos playoffs da NBA. Com atuação mais convincente, os Suns lembraram os momentos de regularidade na temporada, quando dominaram!', 'O jogo ocorreu na noite desta segunda-feira (2).']


### 1.2 - Word Tokenization (Tokenizar Palavras)

- 1.2.1 - Word Tokenize:<br />

In [3]:
import nltk

sentenca = "O Toronto Raptors é um time de basquete profissional canadense sediado em Toronto, Ontário"

wt = nltk.word_tokenize 
tokens = wt(sentenca)

print(tokens)

['O', 'Toronto', 'Raptors', 'é', 'um', 'time', 'de', 'basquete', 'profissional', 'canadense', 'sediado', 'em', 'Toronto', ',', 'Ontário']


- 1.2.2 - RegexpTokenizer:

In [4]:
import nltk

sentenca = "O Toronto Raptors é um time de basquete profissional canadense sediado em Toronto, Ontário"

# No Gap (só palavras)
TOKEN_PATTERN = r'\w+'
wt_nogap = nltk.tokenize.RegexpTokenizer(pattern=TOKEN_PATTERN, gaps=False) 
tokens_nogap = wt_nogap.tokenize(sentenca)
print(tokens_nogap)

# Gap (pontuação - "palavra completa")
GAP_PATTERN = r'\s+'
wt_nogap = nltk.tokenize.RegexpTokenizer(pattern=GAP_PATTERN, gaps=True) 
tokens_gap = wt_nogap.tokenize(sentenca)
print(tokens_gap)

# Mostrar os índices dos tokens
indices = list(wt_nogap.span_tokenize(sentenca))
print(indices)

['O', 'Toronto', 'Raptors', 'é', 'um', 'time', 'de', 'basquete', 'profissional', 'canadense', 'sediado', 'em', 'Toronto', 'Ontário']
['O', 'Toronto', 'Raptors', 'é', 'um', 'time', 'de', 'basquete', 'profissional', 'canadense', 'sediado', 'em', 'Toronto,', 'Ontário']
[(0, 1), (2, 9), (10, 17), (18, 19), (20, 22), (23, 27), (28, 30), (31, 39), (40, 52), (53, 62), (63, 70), (71, 73), (74, 82), (83, 90)]


- 1.2.3 - Outras Funções (Punctuation e White Space):

In [5]:
import nltk

# Punctuation - Separa pontuação

sentenca = "O Toronto Raptors é um time de basquete profissional canadense sediado em Toronto, Ontário"

wt_punct = nltk.WordPunctTokenizer()
tokens = wt_punct.tokenize(sentenca)
print(tokens)

['O', 'Toronto', 'Raptors', 'é', 'um', 'time', 'de', 'basquete', 'profissional', 'canadense', 'sediado', 'em', 'Toronto', ',', 'Ontário']


In [6]:
import nltk

# WhiteSpace - Separa Espaço

sentenca = "O Toronto Raptors é um time de basquete profissional canadense sediado em Toronto, Ontário"

wt_punct = nltk.WhitespaceTokenizer()
tokens = wt_punct.tokenize(sentenca)
print(tokens)

['O', 'Toronto', 'Raptors', 'é', 'um', 'time', 'de', 'basquete', 'profissional', 'canadense', 'sediado', 'em', 'Toronto,', 'Ontário']


## 2 - Normalização

### 2.1 - Cleaning Text

- 2.1.1 - Removendo Caracteres Especiais: <br />

In [7]:
import nltk 
import re 
import string 
from pprint import pprint 

corpus = ["The brown fox wasn't that quick and he couldn't win the race", 
 "Hey that's a great deal! I just bought a phone for $199", 
 "@@You'll (learn) a **lot** in the book. Python is an amazing language !@@"] 

# Função para tokenização
def tokenize_text(text): 
    sentences = nltk.sent_tokenize(text) 
    word_tokens = [nltk.word_tokenize(sentence) for sentence in sentences] 
    return word_tokens

# Tokenização do corpus
token_list = [tokenize_text(text) for text in corpus]
print(token_list)

[[['The', 'brown', 'fox', 'was', "n't", 'that', 'quick', 'and', 'he', 'could', "n't", 'win', 'the', 'race']], [['Hey', 'that', "'s", 'a', 'great', 'deal', '!'], ['I', 'just', 'bought', 'a', 'phone', 'for', '$', '199']], [['@', '@', 'You', "'ll", '(', 'learn', ')', 'a', '*', '*', 'lot', '*', '*', 'in', 'the', 'book', '.'], ['Python', 'is', 'an', 'amazing', 'language', '!'], ['@', '@']]]


In [8]:
# Função de Remoção depois da tokenização
def remove_characters_after_tokenization(tokens): 
    pattern = re.compile('[{}]'.format(re.escape(string.punctuation))) 
    filtered_tokens = filter(None, [pattern.sub('', token) for token in tokens]) 
    return filtered_tokens 

filtra_depois_tokenizacao = [filter(None, [remove_characters_after_tokenization(tokens) for tokens in sentence_tokens]) 
                             for sentence_tokens in token_list]

# Remoção antes da tokenização
pattern = re.compile('[{}]'.format(string.punctuation))
corpus_nopunct = [pattern.sub('', sentence) for sentence in corpus]
print("Remoção simplificada:\n", corpus_nopunct)

# Função remoção antes da tokenização com Regex
def remove_characters_before_tokenization(sentence, keep_apostrophes=False): 
    sentence = sentence.strip() 
    if keep_apostrophes: 
        PATTERN = r'[?|$|&|*|%|@|(|)|~]' # outros caracteres que serão removidos
        filtered_sentence = re.sub(PATTERN, r'', sentence)
    else: 
        PATTERN = r'[^a-zA-Z0-9 ]' # Somente letras e números
        filtered_sentence = re.sub(PATTERN, r'', sentence)
    return filtered_sentence

filtra_sem_apost = [remove_characters_before_tokenization(sentence) for sentence in corpus]
print("\nRemoção com Regex, sem apostrófos:\n", filtra_sem_apost)

filtra_com_apost = [remove_characters_before_tokenization(sentence, keep_apostrophes=True) for sentence in corpus]
print("\nRemoção com Regex, com apostrófos:\n", filtra_com_apost)

Remoção simplificada:
 ['The brown fox wasnt that quick and he couldnt win the race', 'Hey thats a great deal I just bought a phone for 199', 'Youll learn a lot in the book Python is an amazing language ']

Remoção com Regex, sem apostrófos:
 ['The brown fox wasnt that quick and he couldnt win the race', 'Hey thats a great deal I just bought a phone for 199', 'Youll learn a lot in the book Python is an amazing language ']

Remoção com Regex, com apostrófos:
 ["The brown fox wasn't that quick and he couldn't win the race", "Hey that's a great deal! I just bought a phone for 199", "You'll learn a lot in the book. Python is an amazing language !"]


- 2.1.2 - Expandindo contração: <br />

In [9]:
# Usa-se a seguinte função com CONTRATION_MAP sendo um dicionário com as keys sendo as contrações e os values a sua forma expandida

"""
from contractions import CONTRACTION_MAP 
def expand_contractions(sentence, contraction_mapping): 
    contractions_pattern = re.compile('({})'.format('|'.join(contraction_mapping.keys())), flags=re.IGNORECASE|re.DOTALL) 
    def expand_match(contraction): 
        match = contraction.group(0) 
        first_char = match[0] 
        expanded_contraction = contraction_mapping.get(match)\ 
                                if contraction_mapping.get(match)\ 
                                else contraction_mapping.get(match.lower()) 
        expanded_contraction = first_char+expanded_contraction[1:] 
        return expanded_contraction 
    expanded_sentence = contractions_pattern.sub(expand_match, sentence) 
    return expanded_sentence

"""

- 2.1.3 - Case Conversion: <br />

In [10]:
print("Conversão para letras minúsculas:\n", corpus[0].lower())
print("\nConversão para letras maiúsculas:\n", corpus[0].upper())

Conversão para letras minúsculas:
 the brown fox wasn't that quick and he couldn't win the race

Conversão para letras maiúsculas:
 THE BROWN FOX WASN'T THAT QUICK AND HE COULDN'T WIN THE RACE


### 2.2 - StopWords

In [11]:
import nltk
# Função que limpa as stopwords

def remove_stopwords(tokens, lang='english'): 
    stopword_list = nltk.corpus.stopwords.words(lang) 
    filtered_tokens = [token for token in tokens if token not in stopword_list] 
    return filtered_tokens

# Tokenização do corpus limpo
token_list_sw = [tokenize_text(text) for text in corpus_nopunct]

# Aplicação função limpar stopwords
no_stopwords = [[remove_stopwords(tokens) for tokens in sentence_tokens] 
                for sentence_tokens in token_list_sw]

no_stopwords

[[['The', 'brown', 'fox', 'wasnt', 'quick', 'couldnt', 'win', 'race']],
 [['Hey', 'thats', 'great', 'deal', 'I', 'bought', 'phone', '199']],
 [['Youll', 'learn', 'lot', 'book', 'Python', 'amazing', 'language']]]

### 2.3 - Correção ortográfica

- 2.3.1 - Removendo Repetição de Caracteres: <br />

In [12]:
import nltk
from nltk.corpus import wordnet 
import re

# Função que verifica a repetição de 
def remove_repeated_characters(tokens): 
    repeat_pattern = re.compile(r'(\w*)(\w)\2(\w*)') 
    match_substitution = r'\1\2\3' 
    
    #Função que troca a palavra caso ela esteja no banco de palavras
    def replace(old_word): 
        if wordnet.synsets(old_word): 
            return old_word 
        new_word = repeat_pattern.sub(match_substitution, old_word) 
        return replace(new_word) if new_word != old_word else new_word 
    
    correct_tokens = [replace(word) for word in tokens] 
    return correct_tokens

teste_repeticao = 'The NBA is a professsssional basketttttballl leaaaaague.'
tokens_repeticao = tokenize_text(teste_repeticao)[0]
print("Tokens sem a função de remoção de caracteres repetidos:\n", tokens_repeticao)
print("\nTokens com a função aplicada:\n", remove_repeated_characters(tokens_repeticao))

Tokens sem a função de remoção de caracteres repetidos:
 ['The', 'NBA', 'is', 'a', 'professsssional', 'basketttttballl', 'leaaaaague', '.']

Tokens com a função aplicada:
 ['The', 'NBA', 'is', 'a', 'professional', 'basketbal', 'league', '.']


- 2.3.1 - Corrigir Escritas Erradas: <br />

In [None]:
# Algoritmo "manual"

"""
import re, collections 

# Get all words from the corpus 
def tokens(text): 
    return re.findall('[a-z]+', text.lower()) 

WORDS = tokens(file('big.txt').read())
WORD_COUNTS = collections.Counter(WORDS)

# Return all strings that are zero edits away from the input word (i.e., the word itself). 
def edits0(word): 
    return {word}

# Return all strings that are one edit away from the input word. 
def edits1(word): 
    alphabet = 'abcdefghijklmnopqrstuvwxyz' 
    
    # Return a list of all possible (first, rest) pairs that the input word is made of
    def splits(word): 
        return [(word[:i], word[i:]) for i in range(len(word)+1)]
    
    pairs = splits(word)
    deletes = [a+b[1:] for (a, b) in pairs if b] 
    transposes = [a+b[1]+b[0]+b[2:] for (a, b) in pairs if len(b) > 1] 
    replaces = [a+c+b[1:] for (a, b) in pairs for c in alphabet if b] 
    inserts = [a+c+b for (a, b) in pairs for c in alphabet] 
    return set(deletes + transposes + replaces + inserts)

# Return all strings that are two edits away from the input word.
def edits2(word):
    return {e2 for e1 in edits1(word) for e2 in edits1(e1)} 

#  Return the subset of words that are actually in our WORD_COUNTS dictionary. 
def known(words): 
    return {w for w in words if w in WORD_COUNTS}
    
candidates = (known(edits0(word)) or known(edits1(word)) or known(edits2(word)) or [word]) 

# Spell-correct word in match, and preserve proper upper/lower/title case. 
def correct_match(match): 
    word = match.group()
    
    # Return the case-function appropriate for text: upper, lower, title, or just str.:
    def case_of(text): 
        return (str.upper if text.isupper() else 
                str.lower if text.islower() else 
                str.title if text.istitle() else 
                str) 
    return case_of(word)(correct(word.lower())) 
    
# Correct all the words within a text, returning the corrected text. 
def correct_text_generic(text): 
    return re.sub('[a-zA-Z]+', correct_match, text)
"""

# Algoritmos prontos

# Pattern -> Suggest
# PyEnchant
# aspell-python

### 2.4 - Stemming

In [19]:
# Um algoritmo pronto com suporte à português

from nltk.stem import SnowballStemmer, RSLPStemmer
ss = SnowballStemmer("portuguese")
ss.stem("pular")

'pul'

### 2.5 - Lemmatization

In [23]:
# Algoritmo pronto para inglês

from nltk.stem import WordNetLemmatizer

# Nesse caso, é necessário falar se a palavra é um nome (n), verbo (v) ou advérbio (a)
wnl = WordNetLemmatizer() 

# Funciona - classe correta
print(wnl.lemmatize('cars', 'n'))
print(wnl.lemmatize('ate', 'v'))
print(wnl.lemmatize('running', 'v'))
print(wnl.lemmatize('saddest', 'a'))
print(wnl.lemmatize('fancier', 'a'))

# Não funciona - classe incorreta
print('\n')
print(wnl.lemmatize('ate', 'a'))
print(wnl.lemmatize('fancier', 'a'))

car
eat
run
sad
fancy


ate
fancy


### 2.6 - Spacy

In [30]:
# pip install spacy
# python -m spacy download pt_core_news_sm

import spacy

# É necessário entregar dados pré-treinados
sp = spacy.load("pt_core_news_sm")

doc = sp('O Toronto Raptors é um time de basquete profissional canadense sediado em Toronto.')

for token in doc:
    print(token, token.lemma_, token.pos_, token.shape_, token.is_stop)

O o DET X True
Toronto Toronto PROPN Xxxxx False
Raptors Raptors PROPN Xxxxx False
é ser AUX x True
um um DET xx True
time time NOUN xxxx False
de de ADP xx True
basquete basquete NOUN xxxx False
profissional profissional ADJ xxxx False
canadense canadensar VERB xxxx False
sediado sediar VERB xxxx False
em em ADP xx True
Toronto Toronto NOUN Xxxxx False
. . PUNCT . False
