# Treinando um modelo Fastext

In [1]:
from gensim.models.fasttext import FastText
from nltk.corpus import machado
from nltk import sent_tokenize
from gensim.utils import simple_preprocess

In [2]:
# modelo que gera vetores de dimensao 50
model = FastText(size=50)

In [3]:
# o algoritmo fastext processa as palavras por sentença. Então precisamos dividir os textos
# como sentenças para alimentar o nosso modelo. A função sent_tokenize do ntlk faz isso.
corpus_machado = []
for f_id in machado.fileids():
    sent_lst = sent_tokenize(machado.raw(f_id))
    for s in sent_lst:
        corpus_machado.append(simple_preprocess(s))

In [4]:
# contrucao do vocabulario do modelo a partir das sentenças do nosso corpus, 
# neste caso temos subpalavras no nosso modelo
model.build_vocab(corpus_machado)

In [5]:
# treino do modelo
model.train(corpus_machado, epochs=5, total_examples=model.corpus_count)
print(model)

FastText(vocab=23223, size=50, alpha=0.025)


In [9]:
# salvando o nosso modelo
model.save("fasttext_machado.model")

# para carregar o modelo novamente, basta executar o comando:
# model = FastText.load("fasttext_machado.model")

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


# Acessando o nosso modelo

In [10]:
# existe abade no nosso modelo?
print("abade" in model.wv.vocab)

True


In [11]:
# e abades, existe no nosso modelo?
print("abades" in model.wv.vocab)

False


In [13]:
# e como fica a representação de abade no fasttext?
print(model["abade"])

[-0.4443672   0.90805614 -0.75656885  0.04845766 -0.48434898 -1.0175871
 -1.1485176   0.97317183  0.9056195   0.3650224   1.0160483   0.6421229
 -0.09699217  0.50925225 -0.03107869 -0.13866708 -1.336847   -0.10264485
  1.1628333  -0.27653182  0.6170154  -1.106943    0.19625801 -1.0569552
  0.7991096  -0.94431686  2.1544874   1.0009762   0.6431915   0.12453613
  0.26173162 -1.356889    0.137322   -0.48826492  0.08656731  0.4918773
 -1.0626379  -0.20150933  0.4834094   0.87441796 -0.8484097   1.5917965
 -0.12964149 -0.37144127 -0.858114    0.85160434 -0.7957879  -0.734271
  0.54705465 -2.10055   ]


  


In [14]:
# e se tentarmos acessar uma palavra que nao existe no nosso modelo?
print(model["abades"])

# O modelo FastText suporta procura por palavras fora de vocabulário através da soma dos ngramas dos
# CARACTERES pertencentes a palavra

[-1.7268175  -1.929231   -1.503043    1.4269392   1.7914106  -1.7270777
 -0.4226158  -1.4175737   1.3773617   0.64827096  1.7027539  -0.21197453
 -3.1449327  -1.6929512   1.7336026  -1.548388    2.2393162   0.44939062
  1.7803961  -1.3186657   2.6807108  -2.378572   -1.4265658  -1.3875463
 -1.6348926  -0.00926078  1.418007    2.3517413   0.6831238  -0.01157634
 -1.2519003  -2.3625443  -1.1303234   1.6508241   1.8629382   1.4071445
 -2.505636    0.46523264  0.5438156  -1.7397925  -2.5333648  -0.6766551
 -1.3017204  -2.9178734  -0.37297213 -0.17595641 -2.5383284  -1.2862448
  1.410429   -2.4480207 ]


  


# Operações de similaridade

In [18]:
print(model.similarity("abade","abades"))

0.38694217854775886


  """Entry point for launching an IPython kernel.


In [20]:
print(model.similarity("abade","frade"))

0.9263369714377704


  """Entry point for launching an IPython kernel.


In [21]:
print(model.most_similar("abade"))

[('hélade', 0.9488651752471924), ('náiade', 0.9479535222053528), ('invade', 0.9358224868774414), ('soledade', 0.9324263334274292), ('metade', 0.9306560754776001), ('solicitude', 0.9303337335586548), ('calamidade', 0.9274700284004211), ('frade', 0.926336944103241), ('enfermidade', 0.9193874001502991), ('arrogância', 0.9173600673675537)]


  """Entry point for launching an IPython kernel.
