# Modelos de SentencePiece

In [1]:
pip install sentencepiece

Collecting sentencepiece
  Downloading sentencepiece-0.1.95-cp36-cp36m-manylinux2014_x86_64.whl (1.2 MB)
[K     |████████████████████████████████| 1.2 MB 852 kB/s eta 0:00:01
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.95
Note: you may need to restart the kernel to use updated packages.


# Modelo básico de prefijos y decodificadores 

In [3]:

import sentencepiece as spm
spm.SentencePieceTrainer.Train('--input=labiblia.txt --model_prefix=m --vocab_size=1000')
sp = spm.SentencePieceProcessor()
sp.Load("m.model")
sp.EncodeAsIds("Este es un ejemplo de una novela")

[686, 29, 47, 981, 5, 70, 32, 233, 41]

In [9]:
print(sp.encode_as_pieces('Este es el ejemplo de una novela colombiana'))
print(sp.encode_as_ids('Este es el ejemplo de una novela colombiana'))
print(sp.decode_ids([686, 29, 13, 981, 5, 70, 32, 233, 41, 143, 89, 48, 135, 124, 15]))


['▁Este', '▁es', '▁el', '▁ejemplo', '▁de', '▁una', '▁no', 've', 'la', '▁co', 'lo', 'm', 'bi', 'an', 'a']
[686, 29, 13, 981, 5, 70, 32, 233, 41, 143, 89, 48, 135, 124, 15]
Este es el ejemplo de una novela colombiana


# SentencePiece con el modelo bpe real


SentencePiece soporta el modelo original de BPE para segmentación de subpalabras

In [6]:
spm.SentencePieceTrainer.train('--input=labiblia.txt --model_prefix=m_bpe --vocab_size=2000 --model_type=bpe')
sp_bpe = spm.SentencePieceProcessor()
sp_bpe.load('m_bpe.model')

True

En este caso se comrpueba que los ids de los dos modelos el de palabra y el bpe son diferentes

In [10]:
print('*** BPE ***')
print(sp_bpe.encode_as_pieces('Este es el librito de Job'))
print(sp_bpe.encode_as_ids('Este es el librito de Job'))
#print(sp_word.encode_as_pieces('Este es el librito de Job'))
#print(sp_word.encode_as_ids('Este es el librito de Job'))

*** BPE ***
['▁Este', '▁es', '▁el', '▁lib', 'ri', 'to', '▁de', '▁Job']
[1340, 53, 29, 366, 51, 66, 7, 1520]


# Segmentación de palabras con SentencePiece

In [55]:
spm.SentencePieceTrainer.train('--input=hojarasca1.txt --model_prefix=m_word --model_type=word --vocab_size=5000')

sp_word = spm.SentencePieceProcessor()
sp_word.load('m_word.model')

#print(sp_word.encode_as_pieces('Este es el librito de  Job.'))  # '.' will not be one token.
#print(sp_word.encode_as_ids('Este es el libro de Job.'))
print(sp_word.encode_as_pieces('Todos los profesores, estudian para Ph.D y todos me odian'))
print(sp_word.encode_as_ids('Todos los profesores, estudian para Ph.D y todos me odian')) 

['▁Todos', '▁los', '▁profesores,▁estudian', '▁para', '▁Ph.D', '▁y', '▁todos', '▁me', '▁odian']
[1094, 11, 0, 26, 0, 5, 102, 22, 0]


# Que puedo haber pasado con _profesores_estudian

# Modelo de prefijos  con SentencePiece

In [12]:
import sentencepiece as spm
spm.SentencePieceTrainer.train('--input=labiblia.txt --model_prefix=m --vocab_size=2000')

# makes segmenter instance and loads the model file (m.model)
sp = spm.SentencePieceProcessor()
sp.load('m.model')
print(sp.encode_as_pieces('Este es el librito de Job'))
#print(sp_word.encode_as_pieces('¿Quieres saber cómo hacer una aplicación para Android Wear? Te lo explicamos &gt; http://t.co/IjgCIkigvm http://t.co/tUZhU3wrhx '))
print(sp.encode_as_ids('Este es el librito de Job'))

['▁Este', '▁es', '▁el', '▁li', 'b', 'ri', 'to', '▁de', '▁Job']
[681, 30, 10, 432, 44, 93, 59, 5, 995]


# Modelo caracter con SentencePiece

In [11]:
spm.SentencePieceTrainer.train('--input=labiblia.txt --model_prefix=m_char --model_type=char --vocab_size=400')

sp_char = spm.SentencePieceProcessor()
sp_char.load('m_char.model')

print(sp_char.encode_as_pieces('Este es el librito de Job.'))
print(sp_char.encode_as_ids('Este es el librito de Job.'))

['▁', 'E', 's', 't', 'e', '▁', 'e', 's', '▁', 'e', 'l', '▁', 'l', 'i', 'b', 'r', 'i', 't', 'o', '▁', 'd', 'e', '▁', 'J', 'o', 'b', '.']
[3, 36, 7, 13, 4, 3, 4, 7, 3, 4, 11, 3, 11, 10, 19, 8, 10, 13, 6, 3, 12, 4, 3, 43, 6, 19, 20]


# Modelo de usuario defindo para usar con BERT 

In [35]:
spm.SentencePieceTrainer.train('--input=tweets_clean.txt --model_prefix=m_user --user_defined_symbols=<sep>,<cls> --vocab_size=2000')
# ids are reserved in both mode.
# <unk>=0, <s>=1, </s>=2, <sep>=3, <cls>=4
# user defined symbols allow these symbol to apper in the text.
sp_user = spm.SentencePieceProcessor()
sp_user.load('m_user.model')
print(sp_user.encode_as_pieces('this<sep> is a test hello world<cls>'))
print(sp_user.piece_to_id('<sep>'))  # 3
print(sp_user.piece_to_id('<cls>'))  # 4
print('3=', sp_user.decode_ids([3]))  # decoded to <sep>
print('4=', sp_user.decode_ids([4]))  # decoded to <cls>
print(sp_user.encode_as_pieces('<s>Tw33t<sep> # @dude_really<unk> #hash_tag $hit (g@y) retard#d @dude. 😀😀 !😀abc %😀lol #hateit #hate.it $%&/ f*ck- in love_twitter<cls></s>'))
#print('0=', sp_user.decode_ids([0]))  # decoded to <cls>

['▁', 't', 'hi', 's', '<sep>', '▁', 'is', '▁a', '▁te', 's', 't', '▁he', 'llo', '▁', 'w', 'or', 'l', 'd', '<cls>']
3
4
3= <sep>
4= <cls>
['▁', '<', 's', '>', 'T', 'w', '3', '3', 't', '<sep>', '▁#', '▁@', 'du', 'de', '_', 'rea', 'll', 'y', '<', 'un', 'k', '>', '▁#', 'ha', 's', 'h', '_', 't', 'a', 'g', '▁', '$', 'hi', 't', '▁(', 'g', '@', 'y', ')', '▁re', 't', 'ar', 'd', '#', 'd', '▁@', 'du', 'de', '.', '▁', '😀😀', '▁', '!', '😀', 'a', 'b', 'c', '▁', '%', '😀', 'lo', 'l', '▁#', 'ha', 'te', 'i', 't', '▁#', 'ha', 'te', '.', 'i', 't', '▁', '$', '%', '&', '/', '▁f', '*', 'ck', '-', '▁in', '▁lo', 've', '_', 't', 'wi', 't', 't', 'er', '<cls>', '<', '/', 's', '>']


In [27]:
spm.SentencePieceTrainer.train('--input=hojarasca1.txt --model_prefix=m_bos_as_user --user_defined_symbols=<s>,</s> --vocab_size=2000')

sp = spm.SentencePieceProcessor()
sp.load('m.model')
print(sp.encode_as_pieces('<s> Todos los colmbianos cantan</s>'))   # <s>,</s> are segmented. (default behavior)

sp = spm.SentencePieceProcessor()
sp.load('m_bos_as_user.model')
print(sp.encode_as_pieces('<s> Todos los colombianos cantan</s>'))   # <s>,</s> are handled as one token.

['▁', '<', 's', '>', '▁Todo', 's', '▁los', '▁co', 'l', 'm', 'bi', 'a', 'nos', '▁ca', 'nta', 'n', '</', 's', '>']
['▁', '<s>', '▁Todo', 's', '▁lo', 's', '▁c', 'olombia', 'n', 'os', '▁cant', 'an', '</s>']


# Este entrena   un modelo de palabra con tweets


In [37]:
import sentencepiece as spm
spm.SentencePieceTrainer.train('--input=tweets_clean.txt --model_prefix=m_word --model_type=word --vocab_size=2000')

sp_word = spm.SentencePieceProcessor()
sp_word.load('m_word.model')

print(sp_word.encode_as_pieces('¿Quieres<sep> saber cómo hacer una aplicación para Android Wear? Te lo explicamos &gt; http://t.co/IjgCIkigvm http://t.co/tUZhU3wrhx '))
print(sp_word.encode_as_ids('Este es el libro de Job.'))
print(sp_word.encode_as_pieces("@HyperKynetic si me los traes a la te querría para siempre 😁 que  en #ayunas por sacarme sangre :( "))
print(sp_word.encode_as_pieces('Tw33t # @dude_really #hash_tag $hit (g@y) retard#d @dude. 😀😀 !😀abc %😀lol #hateit #hate.it $%&/ f*ck- in love_twitter'))
print(sp_word.encode_as_pieces('Cigarette smoke contains poisonous elements that go into our body and make us suffer from it,due to which a deadly disease like cancer is born. Stop smoking tobacco! Please do listen to satsang daily on #GodMorningFriday#, #Coronvirus'))

['▁¿Quieres<sep>', '▁saber', '▁cómo', '▁hacer', '▁una', '▁aplicación', '▁para', '▁Android', '▁Wear?', '▁Te', '▁lo', '▁explicamos', '▁&gt;', '▁http://t.co/IjgCIkigvm▁http://t.co/tUZhU3wrhx']
[102, 15, 7, 785, 3, 0]
['▁@HyperKynetic', '▁si', '▁me', '▁los', '▁traes', '▁a', '▁la', '▁te', '▁querría', '▁para', '▁siempre', '▁😁', '▁que', '▁en', '▁#ayunas', '▁por', '▁sacarme', '▁sangre', '▁:(']
['▁Tw33t▁#▁@dude_really▁#hash_tag▁$hit▁(g@y)▁retard#d▁@dude.▁😀😀▁!😀abc▁%😀lol▁#hateit▁#hate.it▁$%&/▁f*ck-', '▁in', '▁love_twitter']
['▁Cigarette▁smoke▁contains▁poisonous▁elements▁that▁go▁into▁our▁body', '▁and', '▁make▁us▁suffer▁from▁it,due', '▁to', '▁which', '▁a', '▁deadly▁disease▁like▁cancer', '▁is', '▁born.▁Stop▁smoking▁tobacco!▁Please▁do▁listen', '▁to', '▁satsang▁daily▁on▁#GodMorningFriday#,▁#Coronvirus']


# Modeo de Wordpiece sobre BERT

In [56]:
from transformers import (
    TF2_WEIGHTS_NAME,
    BertConfig,
    BertTokenizer,
    TFBertForTokenClassification,
    create_optimizer)

configuration = BertConfig()
BERT_MODEL = "bert-base-multilingual-cased"

In [58]:
MODEL_CLASSES = {"bert": (BertConfig, TFBertForTokenClassification, BertTokenizer)}
config_class, model_class, tokenizer_class = MODEL_CLASSES['bert']

tokenizer = tokenizer_class.from_pretrained(BERT_MODEL, do_lower_case=False)

word = "Todos los profesores estudian para Ph.D y todos me odian"

word_tokens = tokenizer.tokenize(str(word))

print(word_tokens)

['Todos', 'los', 'profesores', 'estudi', '##an', 'para', 'Ph', '.', 'D', 'y', 'todos', 'me', 'od', '##ian']
