# Associação de palavras com NLTK


In [None]:
import nltk
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
nltk.download('punkt') # Punkt sentence tokenizer
from nltk.probability import FreqDist

# Tokenização

In [None]:
text="""Hello Mr. Smith, how are you doing today? The weather is great, and city is awesome. The sky is pinkish-blue. You shouldn't eat cardboard"""
tokenized_text=sent_tokenize(text)
print(tokenized_text)

In [None]:
tokenized_word=word_tokenize(text)
print(tokenized_word)

# Distribuição de frequência 

In [None]:
fdist = FreqDist(tokenized_word)
print(fdist)

In [None]:
fdist.most_common(10)

In [None]:
import matplotlib.pyplot as plt
fdist.plot(30,cumulative=False)
plt.show()

## Remover stopwords

In [None]:
from nltk.corpus import stopwords
nltk.download('stopwords')
stop_words=set(stopwords.words("english"))
print(stop_words)

In [None]:
filtered_sent=[]
for w in tokenized_word:
    if w not in stop_words:
        filtered_sent.append(w)
print("Tokenized Sentence:",tokenized_word)
print("Filterd Sentence:",filtered_sent)

In [None]:
# Stemming
from nltk.stem import PorterStemmer
from nltk.tokenize import sent_tokenize, word_tokenize

ps = PorterStemmer()

stemmed_words=[]
for w in filtered_sent:
    stemmed_words.append(ps.stem(w))

print("Filtered Sentence:",filtered_sent)
print("Stemmed Sentence:",stemmed_words)

In [None]:
fdist_stemmed = FreqDist(stemmed_words)
fdist_stemmed.most_common(10)

In [None]:
# remove punkt
filtered_sent=[]
stemmed_words=[]
for w in filtered_sent:
    stemmed_words.append(ps.stem(w))
for w in tokenized_word:
    if w not in stop_words and w.isalnum():
      stemmed_words.append(ps.stem(w))
fdist_stemmed = FreqDist(stemmed_words)
fdist_stemmed.most_common(10)

In [None]:
import matplotlib.pyplot as plt
fdist.plot(30,cumulative=False)
plt.show()

# n-Gram

In [None]:
from nltk import ngrams

sentence = 'this is a foo bar sentences and i want to ngramize it'

n = 2
sixgrams = ngrams(sentence.split(), n)

for grams in sixgrams:
  print (grams)

# WordNet

Cada token pode ser associado a um **synset**. Um **synset** é identificado com um nome de três partes do formulário, como "word.pos.nn", em que 'pos (part of speech)' é uma classe gramatical específica de palavras como substantivo, adjetivo ou verbo e 'nn' é um índice porque uma palavra pode ter múltiplos significados. Você pode ver a lista de sinônimos em um formulário com três partes:

In [None]:
from nltk.corpus import wordnet as wn
nltk.download('wordnet')

In [None]:
dog = wn.synsets('dog')
print(dog)

Para acessar o significado de cada synset, utilizar o método `definition()`:

In [None]:
for syn in wn.synsets('dog'):
  print(syn, syn.definition())

Fecho transitivo

In [None]:
dog = wn.synset('dog.n.01')
cat = wn.synset('cat.n.01')

In [None]:
hyper = lambda s: s.hypernyms()
display(dog.hypernyms())
display(list(dog.closure(hyper)))

O WordNet possui diferentes formas de calcular similaridades entre termos (lista completa [aqui](https://www.nltk.org/howto/wordnet.html)). Por exemplo, o método `path_similarity` retorna um score indicando como são semelhantes os sentidos de duas palavras, com base no caminho mais curto que conecta os sentidos na taxonomia is-a (hypernym / hypnoym)

In [None]:
print(dog.path_similarity(cat))
print(dog.wup_similarity(cat)) #distância baseada na profundidade na taxonomia e ancestral mais comum