# Tokenize

In [1]:
# Natural Language Toolkit - Biblioteca para se trabalhar com linguagem natural 
import nltk

In [2]:
# Frase a ser analisada
text = "Mary had a little lamb. Her fleece was white as snow"

# Importamos as funcoes para extrair palavras e frases/sentencas
from nltk.tokenize import word_tokenize, sent_tokenize

#nltk.download()

# Executa a acao de extracao de sentenças no texto sugerido
sents = sent_tokenize(text)

# Exibe o resultado, que sera uma lista de frases/sentencas
print(sents)

['Mary had a little lamb.', 'Her fleece was white as snow']


In [3]:
# Percorremos a listagem de sentenças para a extração das palavras
words=[word_tokenize(sent) for sent in sents]

# O resultado será duas listas de palavras. Uma para cada sentença obtida.
print(words)

# Vale notar que as pontuações são tratadas como entidades

[['Mary', 'had', 'a', 'little', 'lamb', '.'], ['Her', 'fleece', 'was', 'white', 'as', 'snow']]


# Stopwords

Hora de remover as palavras que não adicionam informação relevante ao contexto da sentença.

Vamos começar utilizando a frase anterior para remover as stopwords. Em nosso cenário queremos remover coisas como a, and the period, and was, and as, and so on.

In [4]:
from nltk.corpus import stopwords 
from string import punctuation

# Um dos principais recursos que dispomos é uma coleção de stopwords em diferentes línguas.
# Vamos utilizar esta coleção apontada para o idioma correto.
# Não esquecer de importar também as pontuações, que são tratadas como entidades específicas.
# Neste caso utilizamos uma lista de pontuações disponíveis no módulo python e combinamos com as stopwords.
# Agora temos uma lista de palavras que queremos filtrar.
# Note how we have stored all the stopwords in a set and not a list because the order really doesn't matter here. 

customStopWords = set(stopwords.words('english') + list(punctuation))

Agora, dada qualquer lista de tokens ou palavras que você tem por tokenizing um pedaço de texto, você pode tomar isso e apenas filtrá-lo para apenas as palavras que não estão na lista de stopwords personalizado. Assim você começ uma lista das palavras que tem todas as palavras-chaves removidas.

So you can see how from the sentence, Mary had a little lamb, the words had and a are removed now, and from her fleece was white as snow, we have removed the words was and as.

In [5]:
wordsWOStopwords = [word for word in word_tokenize(text) if word not in customStopWords]

print(wordsWOStopwords)

['Mary', 'little', 'lamb', 'Her', 'fleece', 'white', 'snow']


# Bigram

Colocações são basicamente quaisquer palavras que são colocadas ou que ocorrem em conjunto. A partir do módulo de colocações, usamos uma classe chamada BigramCollocationFinder que ajuda a construir bigrams de uma determinada lista de palavras. 

Assim, usando a classe BigramCollocationFinder e usando o método from_words dessa classe, você pode construir bigrams e armazená-los em uma classe chamada finder. 

Agora, o objeto finder tem seu próprio método para realmente imprimir todos os bigrams que ele é construído. Dentro do objeto finder, temos todos os bigrams que estão presentes nesta lista de palavras e suas freqüências. 

Assim, cada bigram ocorre juntamente com o número de vezes que ocorreu dentro dessa lista de palavras. Para imprimi-los, usamos a função ngram_fd.items e ele irá imprimir todos os bigrams junto com suas freqüências. 

Se você tivesse um pedaço de texto em que os bigrams em particular fossem mais importantes do que outros, então esse pedaço particular de código classificaria todos os bigrams na ordem de sua freqüência e veria os bigrams mais importantes no topo. 

O módulo de colocações também tem um localizador de colocação de trigramas, que você pode usar de uma maneira muito semelhante para encontrar trigramas, ou grupos de palavras em três.

In [6]:
from nltk.collocations import *

bigram_measures = nltk.collocations.BigramAssocMeasures()

finder = BigramCollocationFinder.from_words(wordsWOStopwords)

sorted(finder.ngram_fd.items())

[(('Her', 'fleece'), 1),
 (('Mary', 'little'), 1),
 (('fleece', 'white'), 1),
 (('lamb', 'Her'), 1),
 (('little', 'lamb'), 1),
 (('white', 'snow'), 1)]

In [7]:
text2 = "Mary closed on closing night when she was in the mood to close."
from nltk.stem.lancaster import LancasterStemmer
st=LancasterStemmer()
stemmedWords=[st.stem(word) for word in word_tokenize(text2)]
print(stemmedWords)

['mary', 'clos', 'on', 'clos', 'night', 'when', 'she', 'was', 'in', 'the', 'mood', 'to', 'clos', '.']


In [8]:
nltk.pos_tag(word_tokenize(text2))

[('Mary', 'NNP'),
 ('closed', 'VBD'),
 ('on', 'IN'),
 ('closing', 'NN'),
 ('night', 'NN'),
 ('when', 'WRB'),
 ('she', 'PRP'),
 ('was', 'VBD'),
 ('in', 'IN'),
 ('the', 'DT'),
 ('mood', 'NN'),
 ('to', 'TO'),
 ('close', 'VB'),
 ('.', '.')]

In [9]:
from nltk.corpus import wordnet as wn
for ss in wn.synsets('bass'):
    print(ss, ss.definition())

Synset('bass.n.01') the lowest part of the musical range
Synset('bass.n.02') the lowest part in polyphonic music
Synset('bass.n.03') an adult male singer with the lowest voice
Synset('sea_bass.n.01') the lean flesh of a saltwater fish of the family Serranidae
Synset('freshwater_bass.n.01') any of various North American freshwater fish with lean flesh (especially of the genus Micropterus)
Synset('bass.n.06') the lowest adult male singing voice
Synset('bass.n.07') the member with the lowest range of a family of musical instruments
Synset('bass.n.08') nontechnical name for any of numerous edible marine and freshwater spiny-finned fishes
Synset('bass.s.01') having or denoting a low vocal or instrumental range


In [10]:
from nltk.wsd import lesk
sense1 = lesk(word_tokenize("Sing in a lower tone, along with the bass"),'bass')
print(sense1, sense1.definition())

Synset('bass.n.07') the member with the lowest range of a family of musical instruments


In [11]:
sense2 = lesk(word_tokenize("This sea bass was really hard to catch"),'bass')
print(sense2, sense2.definition())

Synset('sea_bass.n.01') the lean flesh of a saltwater fish of the family Serranidae
