# What's This
This notebook renders texts in a few different languages with different tokenizers and visualizes the results. Think of it as a sanity check and a gallery of how tokenizers behave.

We're interested in CJK languages without clear word delimeters, RTL languages like Hebrew, random bytes from /dev/mem and emojis and hashtashs and "Standard English" 

## Setup
First we download vocab files

In [1]:
!wget https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-vocab.txt -O /tmp/bert-base-uncased-vocab.txt
!wget "https://s3.amazonaws.com/models.huggingface.co/bert/roberta-base-vocab.json" -O /tmp/roberta-base-vocab.json
!wget "https://s3.amazonaws.com/models.huggingface.co/bert/roberta-base-merges.txt" -O /tmp/roberta-base-merges.txt


--2020-11-17 13:01:20--  https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-vocab.txt
Resolving s3.amazonaws.com (s3.amazonaws.com)... 52.216.100.13
Connecting to s3.amazonaws.com (s3.amazonaws.com)|52.216.100.13|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 231508 (226K) [text/plain]
Saving to: ‘/tmp/bert-base-uncased-vocab.txt’


2020-11-17 13:01:22 (245 KB/s) - ‘/tmp/bert-base-uncased-vocab.txt’ saved [231508/231508]

--2020-11-17 13:01:22--  https://s3.amazonaws.com/models.huggingface.co/bert/roberta-base-vocab.json
Resolving s3.amazonaws.com (s3.amazonaws.com)... 52.216.100.13
Connecting to s3.amazonaws.com (s3.amazonaws.com)|52.216.100.13|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 898823 (878K) [application/json]
Saving to: ‘/tmp/roberta-base-vocab.json’


2020-11-17 13:01:26 (288 KB/s) - ‘/tmp/roberta-base-vocab.json’ saved [898823/898823]

--2020-11-17 13:01:26--  https://s3.amazonaws.com/models.huggi

In [25]:
from tokenizers.viz.viztypes import Annotation
anno1 = Annotation(start=0, end=2, label="foo")
anno2 = Annotation(start=2, end=4, label="bar")
anno3 = Annotation(start=6, end=8, label="poo")
anno4 = Annotation(start=9, end=12, label="shoe")
annotations=[
    anno1,
    anno2,
    anno3,
    anno4,
    Annotation(start=23, end=30, label="random tandem bandem sandem landem fandom"),
    Annotation(start=63, end=70, label="foo"),
    Annotation(start=80, end=95, label="bar"),
    Annotation(start=120, end=128, label="bar"),
    Annotation(start=152, end=155, label="poo"),
]



In [26]:
from tokenizers import EncodingVisualizer
from tokenizers import ByteLevelBPETokenizer,BertWordPieceTokenizer
roberta_tokenizer = ByteLevelBPETokenizer.from_file('/tmp/roberta-base-vocab.json', '/tmp/roberta-base-merges.txt')
roberta_visualizer = EncodingVisualizer(tokenizer=roberta_tokenizer,default_to_notebook=True,)
bert_tokenizer = BertWordPieceTokenizer("/tmp/bert-base-uncased-vocab.txt", lowercase=True)
bert_visualizer = EncodingVisualizer(tokenizer=bert_tokenizer,default_to_notebook=True)


In [42]:
texts = {}
texts['English'] ="""Mathias Bynens 'Z͑ͫ̓ͪ̂ͫ̽͏̴̙̤̞͉͚̯̞̠͍A̴̵̜̰͔ͫ͗͢L̠ͨͧͩ͘G̴̻͈͍͔̹̑͗̎̅͛́Ǫ̵̹̻̝̳͂̌̌͘!͖̬̰̙̗̿̋ͥͥ̂ͣ̐́́͜͞': Whenever you’re working on a piece of JavaScript code that deals with strings or regular expressions in some way, just add a unit test that contains a pile of poo (💩) in a string, 💩💩💩💩💩💩💩💩💩💩💩💩 and see if anything breaks. It’s a quick, fun, and easy way to see if your code supports astral symbols. Once you’ve found a Unicode-related bug in your code, all you need to do is apply the techniques discussed in this post to fix it."""
texts["Hebrew With Diacratics"] = """א,א שִׁיר הַשִּׁירִים, אֲשֶׁר לִשְׁלֹמֹה.  א,ב יִשָּׁקֵנִי מִנְּשִׁיקוֹת פִּיהוּ, כִּי-טוֹבִים דֹּדֶיךָ מִיָּיִן.  א,ג לְרֵיחַ שְׁמָנֶיךָ טוֹבִים, שֶׁמֶן תּוּרַק שְׁמֶךָ; עַל-כֵּן, עֲלָמוֹת אֲהֵבוּךָ.  א,ד מָשְׁכֵנִי, אַחֲרֶיךָ נָּרוּצָה; הֱבִיאַנִי הַמֶּלֶךְ חֲדָרָיו, נָגִילָה וְנִשְׂמְחָה בָּךְ--נַזְכִּירָה דֹדֶיךָ מִיַּיִן, מֵישָׁרִים אֲהֵבוּךָ.  {פ}
א,ה שְׁחוֹרָה אֲנִי וְנָאוָה, בְּנוֹת יְרוּשָׁלִָם; כְּאָהֳלֵי קֵדָר, כִּירִיעוֹת שְׁלֹמֹה.  א,ו אַל-תִּרְאוּנִי שֶׁאֲנִי שְׁחַרְחֹרֶת, שֶׁשְּׁזָפַתְנִי הַשָּׁמֶשׁ; בְּנֵי אִמִּי נִחֲרוּ-בִי, שָׂמֻנִי נֹטֵרָה אֶת-הַכְּרָמִים--כַּרְמִי שֶׁלִּי, לֹא נָטָרְתִּי.  א,ז הַגִּידָה לִּי, שֶׁאָהֲבָה נַפְשִׁי, אֵיכָה תִרְעֶה, אֵיכָה תַּרְבִּיץ בַּצָּהֳרָיִם; שַׁלָּמָה אֶהְיֶה כְּעֹטְיָה, עַל עֶדְרֵי חֲבֵרֶיךָ.  א,ח אִם-לֹא תֵדְעִי לָךְ, הַיָּפָה בַּנָּשִׁים; צְאִי-לָךְ בְּעִקְבֵי הַצֹּאן, וּרְעִי אֶת-גְּדִיֹּתַיִךְ, עַל, מִשְׁכְּנוֹת הָרֹעִים.  {פ}
"""

texts["Hebrew"] = "בני אדם זורים בכל יום לרוח, בכוונה ולפי תומם, מלים חמרים חמרים, אותן ואת צרופיהן השונים, ורק מועטים מהם יודעים או מעלים על לב מה היו המלים ההן בימי גבורתן. כמה מאותן המלים לא באו לעולם אלא אחרי חבלי לידה קשים וממושכים של דורות הרבה; כמה מהן הבהיקו כברקים פתאום ובטיסה אחת האירו עולם מלא; דרך כמה מהן נמשכו ועברו מחנות מחנות של נשמות חיות, נשמה הולכת, נשמה באה, וכל אחת הניחה אחריה צל וריח"
              
texts['Chinese'] ="""张九龄自幼聪敏，七岁知属文。十三岁时（690年），王方庆接替被杀的广州都督路元睿，途经韶州，见到他的文章后，大为叹赏[3]。

武曌长安二年（702年）擢进士，最初担任调秘书省校书郎，因“谤议上闻”退职返乡。

703年，前鳳閣舍人張說“忤旨配流欽州”[4]，途经曲江，与张九龄通族谱[5]，敘為昭穆[6]（另一种说法是722年張說拜相后，但703年左右二人认识是确定的[7]），从此张九龄自称范阳张氏，其祖先张守礼出自东漢司空張皓、西晉司空張華（详见张九龄本人为張說所作墓志铭[8]），是其曾祖张君政任韶州别驾死任上才家于曲江的[9]，但死后则称西汉留侯张良、西晉司空張華之后[10]，而其弟張九皋则称西汉张良、张安世之后[11]。其高门的身份并不被当时的大部分人承认，包括唐玄宗[12][13]。

713年，应“道侔伊吕科”举，中高第，为左拾遗。722年，张说拜相，举荐张九龄为司勋员外郎，723年，张说再荐张九龄为中书舍人，封曲江县男。725年，党争失利，张说罢相，十几人受牵连，包括张九龄。张九龄因此转太常少卿，出为冀州刺史。以母老在乡，改为洪州都督。俄转桂州都督，仍充岭南道按察使。

张说卒后，731年3月，玄宗召拜九龄为秘书少监、集贤院学士，副知院事。732年，为工部侍郎。733年5月，检校中书侍郎。其年秋，丁母丧归乡里。12月，起复任中书侍郎同中书门下平章事。734年，迁中书令，集贤院令知院事兼修国史。曾劾安禄山野心，提醒玄宗注意[14]。735年3月，加金紫光禄大夫，累封始兴县子。

736年秋八月天长节，玄宗生日，群臣皆獻珍罕，獨張九齡上事鑑十章以伸諷諫，號「千秋金鑑錄」，帝甚嘉美。張九齡提拔王維為右拾遺，盧象為左補闕。由于李林甫、牛仙客等人结党，张九龄失去唐玄宗的信任，改任尚书右丞相，罢知政事。在主政期间，张九龄主张不循资格用人，为人好名不好利（李林甫刚好相反），敢于谏言，不避利害。

737年，太子李瑛被废。同年，张九龄因所举荐的监察御史周子谅触怒玄宗被杀，被贬为荆州大都督府长史，召孟浩然於幕府。

738年，封始興縣伯。740年春，以“归拜墓”名义辞官，农历五月七日（6月5日）在家乡曲江病逝，享年63岁[15][16]，赠荆州大都督，谥曰文献。归葬罗源洞。

"""

texts["/dev/mem"] = """tuȋcPQV2.$̊c+FY^YX
s0&G
P&O&W&w&&߀XtH2۰>trsr&9uh3w&G&߀2' 

}*
  s'&H&G&G&_.>pǿ
                ëRU!%1
HfKf)!%]ZXPQfVfC&t$q*ff0f3*f^YfX)&$F@<u<uǺt<v
                                              <t&@FO(   &$)@Fa& &       t
tu&
@ f|)f^fZYfXc&$Fauuf
                 s""    4"VWSt
                             [_^Ê߹r:w4u
                                      r*puf2S[f^
"""

# English WordPiece

In [29]:
bert_visualizer(texts['English'],annotations=annotations)

# English BPE

In [31]:
roberta_visualizer(texts['English'],annotations=annotations)

# Hebrew With Diacratics WordPeice

In [35]:
bert_visualizer(texts['Hebrew With Diacratics'],annotations=annotations)

# Hebrew With Diacratics BPE

In [37]:
roberta_visualizer(texts['Hebrew With Diacratics'],annotations=annotations)

# Plain Hebrew WordPiece

In [38]:
bert_visualizer(texts['Hebrew'],annotations=annotations)

# Plain Hebrew BPE

In [39]:
roberta_visualizer(texts["Hebrew"],annotations=annotations)

# Mandarin Chinese Wordpiece

In [40]:
bert_visualizer(texts['Chinese'],annotations=annotations)

# Mandarin Chinese BPE

In [41]:
roberta_visualizer(texts["Chinese"],annotations=annotations)

# /dev/mem WordPiece

In [43]:
bert_visualizer(texts["/dev/mem"],annotations=annotations)

# /dev/mem BPE

In [44]:
roberta_visualizer(texts["/dev/mem"],annotations=annotations)