# 1. Limpeza de texto e tokenização

In [None]:
# Importando biblioteca de regex
import re

In [None]:
# Definição de função para limpar um texto
def limpar_tokenizar_texto(sentenca):
  return re.sub(r'([^\s\w]|_)+', ' ', sentenca).split()

In [None]:
# Sentença que usaremos para testar nossa função
sentenca = """São Paulo is the most successful team from Brazil, with 12 international titles. 
It is also one of the most successful South American clubs with 21 state titles, 6 Brasileirão titles, 
3 Copa Libertadores titles, 1 Copa Sudamericana, 1 Supercopa Libertadores, 1 Copa CONMEBOL, 
1 Copa Masters CONMEBOL, 2 Recopa Sudamericanas, 2 Intercontinental Cup and 1 FIFA Club World Cup.""" 

In [None]:
# Limpeza e tokenização do texto
tokens = limpar_tokenizar_texto(sentenca)
tokens

['São',
 'Paulo',
 'is',
 'the',
 'most',
 'successful',
 'team',
 'from',
 'Brazil',
 'with',
 '12',
 'international',
 'titles',
 'It',
 'is',
 'also',
 'one',
 'of',
 'the',
 'most',
 'successful',
 'South',
 'American',
 'clubs',
 'with',
 '21',
 'state',
 'titles',
 '6',
 'Brasileirão',
 'titles',
 '3',
 'Copa',
 'Libertadores',
 'titles',
 '1',
 'Copa',
 'Sudamericana',
 '1',
 'Supercopa',
 'Libertadores',
 '1',
 'Copa',
 'CONMEBOL',
 '1',
 'Copa',
 'Masters',
 'CONMEBOL',
 '2',
 'Recopa',
 'Sudamericanas',
 '2',
 'Intercontinental',
 'Cup',
 'and',
 '1',
 'FIFA',
 'Club',
 'World',
 'Cup']

# 2. Extração de ngramas

In [None]:
# Definição de função que retorna os ngramas de um texto
def n_gramas(sentenca, n):
  ngramas = []
  tokens = re.sub(r'([^\s\w]|_)+', ' ', sentenca).split()
  for i in range(len(tokens)-n+1):
    ngramas.append(tokens[i:i+n])
  return ngramas

In [None]:
# Testando a nossa função
print(n_gramas("""São Paulo FC was founded on 25 January 1930 by 60 former officials, 
players, members, and friends of the football clubs Club Athletico Paulistano and 
Associação Atlética das Palmeiras of São Paulo.""", 2))

[['São', 'Paulo'], ['Paulo', 'FC'], ['FC', 'was'], ['was', 'founded'], ['founded', 'on'], ['on', '25'], ['25', 'January'], ['January', '1930'], ['1930', 'by'], ['by', '60'], ['60', 'former'], ['former', 'officials'], ['officials', 'players'], ['players', 'members'], ['members', 'and'], ['and', 'friends'], ['friends', 'of'], ['of', 'the'], ['the', 'football'], ['football', 'clubs'], ['clubs', 'Club'], ['Club', 'Athletico'], ['Athletico', 'Paulistano'], ['Paulistano', 'and'], ['and', 'Associação'], ['Associação', 'Atlética'], ['Atlética', 'das'], ['das', 'Palmeiras'], ['Palmeiras', 'of'], ['of', 'São'], ['São', 'Paulo']]


In [None]:
# Usando um função do pacote nltk para encontrar os ngramas
from nltk import ngrams
list(ngrams("""São Paulo FC was founded on 25 January 1930 by 60 former officials, 
players, members, and friends of the football clubs Club Athletico Paulistano and 
Associação Atlética das Palmeiras of São Paulo.""".split(), 2))

[('São', 'Paulo'),
 ('Paulo', 'FC'),
 ('FC', 'was'),
 ('was', 'founded'),
 ('founded', 'on'),
 ('on', '25'),
 ('25', 'January'),
 ('January', '1930'),
 ('1930', 'by'),
 ('by', '60'),
 ('60', 'former'),
 ('former', 'officials,'),
 ('officials,', 'players,'),
 ('players,', 'members,'),
 ('members,', 'and'),
 ('and', 'friends'),
 ('friends', 'of'),
 ('of', 'the'),
 ('the', 'football'),
 ('football', 'clubs'),
 ('clubs', 'Club'),
 ('Club', 'Athletico'),
 ('Athletico', 'Paulistano'),
 ('Paulistano', 'and'),
 ('and', 'Associação'),
 ('Associação', 'Atlética'),
 ('Atlética', 'das'),
 ('das', 'Palmeiras'),
 ('Palmeiras', 'of'),
 ('of', 'São'),
 ('São', 'Paulo.')]

In [None]:
# Usando uma função do pacote textblob para encontrar os ngramas
!pip install -U textblob
import nltk
nltk.download('punkt')
from textblob import TextBlob

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [None]:
# Testando o pacote blob
blob = TextBlob("""São Paulo FC was founded on 25 January 1930 by 60 former officials, 
players, members, and friends of the football clubs Club Athletico Paulistano and 
Associação Atlética das Palmeiras of São Paulo.""")
blob.ngrams(n=3)

[WordList(['São', 'Paulo', 'FC']),
 WordList(['Paulo', 'FC', 'was']),
 WordList(['FC', 'was', 'founded']),
 WordList(['was', 'founded', 'on']),
 WordList(['founded', 'on', '25']),
 WordList(['on', '25', 'January']),
 WordList(['25', 'January', '1930']),
 WordList(['January', '1930', 'by']),
 WordList(['1930', 'by', '60']),
 WordList(['by', '60', 'former']),
 WordList(['60', 'former', 'officials']),
 WordList(['former', 'officials', 'players']),
 WordList(['officials', 'players', 'members']),
 WordList(['players', 'members', 'and']),
 WordList(['members', 'and', 'friends']),
 WordList(['and', 'friends', 'of']),
 WordList(['friends', 'of', 'the']),
 WordList(['of', 'the', 'football']),
 WordList(['the', 'football', 'clubs']),
 WordList(['football', 'clubs', 'Club']),
 WordList(['clubs', 'Club', 'Athletico']),
 WordList(['Club', 'Athletico', 'Paulistano']),
 WordList(['Athletico', 'Paulistano', 'and']),
 WordList(['Paulistano', 'and', 'Associação']),
 WordList(['and', 'Associação', 'Atlét

# 3. Tokenização usando keras e bloob

In [None]:
# Importando keras e textblob
from keras.preprocessing.text import text_to_word_sequence
from textblob import TextBlob

In [None]:
# Senteça que usaremos
sentenca = """São Paulo is the third best-supported club in Brazil, with over 16 million supporters.[6] 
The team's traditional home kit is a white shirt with two horizontal stripes (one red and one black), 
white shorts, and white socks.[7] Its home ground is the 72,039-seater[1] Morumbi football stadium in São Paulo,
[8] where it has played since 1960.[9] The stadium was the venue for the Copa Libertadores finals 
of 1992, 1993, 1994, 2000, 2003, 2005 and 2006. São Paulo is the second richest Brazilian 
football club in terms of revenue, with an annual revenue of $111.9m (€78.2m), and the 
nation's second most valuable club, worth over $353.4m (€246.9m) in 2011.[10]"""

In [None]:
# Definindo função que tokeniza usando keras
def tokens_keras(texto):
  return text_to_word_sequence(texto)

In [None]:
# Testando a função
tokens_keras(sentenca)

['são',
 'paulo',
 'is',
 'the',
 'third',
 'best',
 'supported',
 'club',
 'in',
 'brazil',
 'with',
 'over',
 '16',
 'million',
 'supporters',
 '6',
 'the',
 "team's",
 'traditional',
 'home',
 'kit',
 'is',
 'a',
 'white',
 'shirt',
 'with',
 'two',
 'horizontal',
 'stripes',
 'one',
 'red',
 'and',
 'one',
 'black',
 'white',
 'shorts',
 'and',
 'white',
 'socks',
 '7',
 'its',
 'home',
 'ground',
 'is',
 'the',
 '72',
 '039',
 'seater',
 '1',
 'morumbi',
 'football',
 'stadium',
 'in',
 'são',
 'paulo',
 '8',
 'where',
 'it',
 'has',
 'played',
 'since',
 '1960',
 '9',
 'the',
 'stadium',
 'was',
 'the',
 'venue',
 'for',
 'the',
 'copa',
 'libertadores',
 'finals',
 'of',
 '1992',
 '1993',
 '1994',
 '2000',
 '2003',
 '2005',
 'and',
 '2006',
 'são',
 'paulo',
 'is',
 'the',
 'second',
 'richest',
 'brazilian',
 'football',
 'club',
 'in',
 'terms',
 'of',
 'revenue',
 'with',
 'an',
 'annual',
 'revenue',
 'of',
 '111',
 '9m',
 '€78',
 '2m',
 'and',
 'the',
 "nation's",
 'second'

In [None]:
# Definindo função para obter tokens usando textblob
def tokens_textblob(text):
  blob = TextBlob(text)
  return blob.words

In [None]:
# Testando a função
tokens_textblob(sentenca)

WordList(['São', 'Paulo', 'is', 'the', 'third', 'best-supported', 'club', 'in', 'Brazil', 'with', 'over', '16', 'million', 'supporters', '6', 'The', 'team', "'s", 'traditional', 'home', 'kit', 'is', 'a', 'white', 'shirt', 'with', 'two', 'horizontal', 'stripes', 'one', 'red', 'and', 'one', 'black', 'white', 'shorts', 'and', 'white', 'socks', '7', 'Its', 'home', 'ground', 'is', 'the', '72,039-seater', '1', 'Morumbi', 'football', 'stadium', 'in', 'São', 'Paulo', '8', 'where', 'it', 'has', 'played', 'since', '1960', '9', 'The', 'stadium', 'was', 'the', 'venue', 'for', 'the', 'Copa', 'Libertadores', 'finals', 'of', '1992', '1993', '1994', '2000', '2003', '2005', 'and', '2006', 'São', 'Paulo', 'is', 'the', 'second', 'richest', 'Brazilian', 'football', 'club', 'in', 'terms', 'of', 'revenue', 'with', 'an', 'annual', 'revenue', 'of', '111.9m', '€78.2m', 'and', 'the', 'nation', "'s", 'second', 'most', 'valuable', 'club', 'worth', 'over', '353.4m', '€246.9m', 'in', '2011', '10'])

# 4. Usando diferentes tokenizadores

Alguns diferentes tokenizadores:

* **Whitespace tokenizer:** este é o tipo mais simples de tokenizador. Ele divide uma string sempre que um caractere de espaço, tabulação ou nova linha estiver presente.

* **Tweet tokenizer:** projetado especificamente para tokenizar tweets. Ele cuida de todos os caracteres especiais e emojis usados em tweets e retorna tokens limpos.

* **MWE tokenizer:** MWE significa Multi-Word Expression. Aqui, certos grupos de palavras são tratados como uma entidade durante a tokenização, como "United States of America", "People's Republic of China", "not only" e "but also". Esses grupos predefinidos são adicionados no início com métodos mwe().

* **Regular expression tokenizer:** esses tokenizadores são desenvolvidos usando expressões regulares. As frases são divididas com base na ocorrência de um padrão específico (uma expressão regular).

* **WordPunctTokenizer:** divide um trecho de texto em uma lista de caracteres alfabéticos e não alfabéticos. Ou seja, faz uma tokenizaão também considerando pontos e outros caracteres especiais.

In [None]:
# Importando os diferentes tokenizers
from nltk.tokenize import TweetTokenizer
from nltk.tokenize import MWETokenizer
from nltk.tokenize import RegexpTokenizer
from nltk.tokenize import WhitespaceTokenizer
from nltk.tokenize import WordPunctTokenizer

In [None]:
# Sentença que usaremos
sentenca = 'Sunil tweeted, "Witnessing 70th Republic Day of India from Rajpath, \
New Delhi. Mesmerizing performance by Indian Army! Awesome airshow! @india_official \
@indian_army #India #70thRepublic_Day. For more photos ping me sunil@photoking.com :)"'

In [None]:
# Tokenizer para tweets
def tweet_tokens(texto):
  tokenizer = TweetTokenizer()
  return tokenizer.tokenize(texto)

In [None]:
# Tokenizer para multi-word expressions
def mwe_tokenizer(texto):
  tokenizer = MWETokenizer()
  tokenizer.add_mwe(('New', 'Delhi.'))
  return tokenizer.tokenize(texto.split())

In [None]:
# Tokenizer com regex
def regex_tokenizer(texto):
  tokenizer = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
  return tokenizer.tokenize(texto)

In [None]:
# Tokenizer baseado em espaços em branco
def ws_tokenizer(texto):
  tokenizer = WhitespaceTokenizer()
  return tokenizer.tokenize(texto)

In [None]:
# Tokenizer WordPunct
def wordpunct_tokenizer(texto):
  tokenizer = WordPunctTokenizer()
  return tokenizer.tokenize(texto)

In [None]:
print(tweet_tokens(sentenca))
print("##############")
print(mwe_tokenizer(sentenca))
print("##############")
print(regex_tokenizer(sentenca))
print("##############")
print(ws_tokenizer(sentenca))
print("##############")
print(wordpunct_tokenizer(sentenca))

['Sunil', 'tweeted', ',', '"', 'Witnessing', '70th', 'Republic', 'Day', 'of', 'India', 'from', 'Rajpath', ',', 'New', 'Delhi', '.', 'Mesmerizing', 'performance', 'by', 'Indian', 'Army', '!', 'Awesome', 'airshow', '!', '@india_official', '@indian_army', '#India', '#70thRepublic_Day', '.', 'For', 'more', 'photos', 'ping', 'me', 'sunil@photoking.com', ':)', '"']
##############
['Sunil', 'tweeted,', '"Witnessing', '70th', 'Republic', 'Day', 'of', 'India', 'from', 'Rajpath,', 'New_Delhi.', 'Mesmerizing', 'performance', 'by', 'Indian', 'Army!', 'Awesome', 'airshow!', '@india_official', '@indian_army', '#India', '#70thRepublic_Day.', 'For', 'more', 'photos', 'ping', 'me', 'sunil@photoking.com', ':)"']
##############
['Sunil', 'tweeted', ',', '"Witnessing', '70th', 'Republic', 'Day', 'of', 'India', 'from', 'Rajpath', ',', 'New', 'Delhi', '.', 'Mesmerizing', 'performance', 'by', 'Indian', 'Army', '!', 'Awesome', 'airshow', '!', '@india_official', '@indian_army', '#India', '#70thRepublic_Day.', 

# 5. Convertendo palavras com Stemmers 

In [None]:
# Importando RegexStemmer para converter palavras em sua forma básica
from nltk.stem import RegexpStemmer

In [None]:
# Definindo a função para pegar os stems
def get_stems_regex(texto):
  # Criando objeto RegexStemmer que remove -ing do final de palavras com mais de quatro letras
  stemmer = RegexpStemmer('ing$', min=4)
  return " ".join([stemmer.stem(palavra) for palavra in texto.split()])

In [None]:
# Importando o Porter Stemmer
from nltk.stem.porter import *

In [None]:
# Definindo função para usar o Stemmer de Porter
def get_stems_porter(texto):
  stemmer = PorterStemmer()
  return " ".join([stemmer.stem(palavra) for palavra in texto.split()])

In [None]:
# Testando ambos os stemmers
sentenca = "Before eating it would be nice to sanitize your hands with a sanitizer"
print(get_stems_regex(sentenca))
print(get_stems_porter(sentenca))

Before eat it would be nice to sanitize your hands with a sanitizer
befor eat it would be nice to sanit your hand with a sanit
