## Learning Tokenizers

In [1]:
import torch
import transformers

In [2]:
torch.__version__

'1.11.0a0+17540c5'

In [3]:
from transformers import AutoTokenizer

In [4]:
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-base")

In [5]:
inputs = tokenizer("This is the first sentence.", "This is the second one.")
inputs

{'input_ids': [0, 3293, 83, 70, 5117, 149357, 5, 2, 2, 3293, 83, 70, 17932, 1632, 5, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

## Playing with tokenizers in malayalam

In [6]:
malayalam_inputs = tokenizer("അകത്തുള്ളത് മുഖത്ത് വിളങ്ങും.")
malayalam_inputs

{'input_ids': [0, 218286, 107616, 69220, 8527, 116130, 186115, 5, 2], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [7]:
tokenized_inputs = tokenizer.convert_ids_to_tokens(malayalam_inputs["input_ids"])
tokenized_inputs

['<s>', '▁അകത്ത', 'ുള്ളത്', '▁മുഖ', 'ത്ത്', '▁വിള', 'ങ്ങും', '.', '</s>']

In [8]:
len(tokenized_inputs)

9

In [15]:
sample_text = """അകത്തുള്ളത് മുഖത്ത് വിളങ്ങും.
അക്കരെനിന്നാൽ ഇക്കരെപ്പച്ച ഇക്കരെ നിന്നാൽ അക്കരെപ്പച്ച.
അങ്ങാടിപ്പയ്യ് ആലയിൽ നിൽക്കില്ല.
അങ്ങാടിയിൽ തോറ്റതിനമ്മയോട്.
അച്ചിക്ക്‌ ഇഞ്ചി പക്ഷം നായർക്ക്‌ കൊഞ്ച്‌ പക്ഷം.
അച്ഛൻ ആനപ്പുറത്ത് കയറിയാൽ മകന് തഴമ്പുണ്ടാകുമോ?
അടിതെറ്റിയാൽ ആനയും വീഴും.
അടുപ്പെത്ര ചെറുതായാലും കല്ല് മൂന്നെണ്ണം വേണം.
അട്ടയെപ്പിടിച്ചു മെത്തയിൽ കിടത്തിയ പോലെ.
അണ്ണാനെ മരം കയറ്റം പഠിപ്പിക്കണോ?
അണ്ണാൻ കുഞ്ഞും തന്നാലായത്.
അണ്ണാൻ മൂത്താലും മരം കേറ്റം മറക്കുമോ?
അത്തം പത്തോണം.
അത്തം വെളുത്താൽ ഓണം കറുക്കും.
അത്താഴം മുടക്കാൻ നീർക്കോലി മതി.
അമ്മയ്ക്കു പ്രാണവേദന മകൾക്കു വീണവായന.
അരമന രഹസ്യം അങ്ങാടിപ്പാട്ട്.
അരിമണിയൊന്ന് കൊറിക്കാനില്ല കരിവളയിട്ട്‌ കിലുക്കാൻ മോഹം.
അരിയും തിന്നു ആശാരിച്ചിയേം കടിച്ചിട്ട്‌ പിന്നേം നായക്ക്‌ മുറുമുറുപ്പ് 
അരിയെറിഞ്ഞാൽ ആയിരം കാക്ക.
അളക്കുന്ന നാഴിക്കു്‌ അരിവില അറിയാമോ?
ആകെ മുങ്ങിയാൽ കുളിരില്ല.
ആടറിയുമോ അങ്ങാടിവാണിഭം?
ആടു കിടന്നിടത്ത് പൂട പോലുമില്ല.
ആധിയോളം വലിയ വ്യാധിയില്ല.
ആന കൊടുത്താലും ആശ കൊടുക്കരുത്.
ആന മെലിഞ്ഞാൽ തൊഴുത്തിൽ കെട്ടാമോ?
ആന വാ പൊളിക്കുന്നത് കണ്ടിട്ട് അണ്ണാൻ വാ പൊളിച്ചാൽ കാര്യമില്ല.
ആന വായിൽ അമ്പഴങ്ങ.
ആലിൻപഴം പഴുത്തപ്പോൾ കാക്കയ്ക്ക് വായപ്പുണ്ണ്.
ആശാനക്ഷരമൊന്നു പിഴച്ചാൽ അമ്പത്തൊന്നു പിഴക്കും ശിഷ്യന്.
ആളുകൂടിയാൽ പാമ്പ് ചാവില്ല.
ആളു ചെറുതു കോളു വലുതു.
ആഴത്തിൽ ഉഴുതു അകലെ നടണം.
ആറ്റിൽ കളഞ്ഞാലും അളന്ന് കളയണം.
ഇടി വെട്ടിയവനെ പാമ്പു കടിച്ചു.
ഇരിക്കേണ്ടവൻ ഇരിക്കേണ്ടിടത്തിരുന്നില്ലെങ്കിൽ അവിടെ പട്ടി കയറി ഇരിക്കും.
ഇരുന്നിട്ട് വേണം കാൽ നീട്ടാൻ.
ഇല്ലംനിറ വല്ലം നിറ പെട്ടി നിറ പത്തായം നിറ.
ഇഷ്ടം മുറിക്കാൻ അർത്ഥം മഴു
ഉണ്ട ചോറിനു നന്ദി കാട്ടണം.
ഉണ്ട ചോറിൽ കല്ലിടരുതു.
ഉണ്ടെങ്കിലോണം പോലെ അല്ലെങ്കിലേകാദശി.
ഉണ്ണിയെ കണ്ടാൽ അറിയാം ഊരിലെ പഞ്ഞം.
ഉപ്പോളം പോരുമോ ഉപ്പിലിട്ടത്? 
ഉള്ളം കൈയ്യിൽ നിന്ന് രോമം പറിക്കാമോ?
ഉള്ളതുകൊണ്ടു ഓണം പോലെ.
ഉള്ളതു പറഞ്ഞാൽ ഉറിയും ചിരിക്കും.
ഉള്ളതു പറഞ്ഞാൽ കള്ളനു തുള്ളൽ.
എലിയെ പേടിച്ച് ഇല്ലം ചുട്ടു.
എല്ലാരും‌ തേങ്ങ ഉടയ്ക്കുമ്പോൾ ഞാനൊരു ചിരട്ടയെങ്കിലും ഉടയ്ക്കണ്ടേ?
ഐക്യമത്യം മഹാബലം.
ഒന്നുകിൽ ആശാന്റെ നെഞ്ചത്ത് അല്ലെങ്കിൽ കളരിക്ക് പുറത്ത്.
ഒന്നു ചീയുന്നത് മറ്റൊന്നിന് വളം.
ഒരുമയുണ്ടെങ്കിൽ ഉലക്കമേലും കിടക്കാം.
ഒരു വെടിക്കു രണ്ടു പക്ഷി.
ഓടുന്ന പട്ടിയ്ക്കു ഒരു മുഴം മുമ്പേ.
ഓണം കഴിഞ്ഞാൽ ഓലപ്പുര ഓട്ടപ്പുര.
ഓണത്തിനടയ്ക്കാണോ പുട്ടു കച്ചോടം?
ഓണം വരാനൊരു മൂലം വേണം.
ഓന്തിനു വേലി സാക്ഷി വേലിക്കു്‌ ഓന്തു സാക്ഷി.
കക്ഷത്തിലുള്ളത് പോകാനും പാടില്ല ഉത്തരത്തിലേത് ഏടുക്കുകയും വേണം.
കടം അപകടം സ്നേഹത്തിനു വികടം.
കണ്ടറിയാത്തവൻ കൊണ്ടറിയും.
കരയുന്ന കുഞ്ഞിനേ പാലുള്ളൂ.
കലത്തിനറിയാമോ കർപ്പൂരത്തിന്റെ ഗന്ധം?
കള്ളൻ കപ്പലിൽ തന്നെ.
കറിയുടെ സ്വാദു്‌ തവിയറിയില്ല.
കാക്ക കുളിച്ചാൽ കൊക്കാകുമോ?
കാക്കയുടെ വിശപ്പും മാറും പശുവിന്റെ കടിയും മാറും.
കാക്കയ്ക്കും തൻകുഞ്ഞ് പൊൻകുഞ്ഞ്.
കാഞ്ഞിരക്കുരു പാലിലിട്ടാലും കയ്പു തീരില്ല.
കാട്ടിലെ തടി തേവരുടെ ആന വലിയെടാ വലി.
കാണം വിറ്റും ഓണമുണ്ണണം.
കാന്താരിമുളകെന്തിനാ അധികം?
കാലത്തേ വിതച്ചാൽ നേരത്തേ കൊയ്യാം.
കുന്തം പോയാൽ കുടത്തിലും തപ്പണം
കുന്നാണെങ്കിലും കുഴിച്ചാൽ കുഴിയും
കുംഭത്തിൽ മഴ പെയ്താൽ കുപ്പയിലും മാണിക്യം.
കുരക്കുന്ന പട്ടി കടിക്കില്ല.
കുരുത്തക്കേടു് കുന്നിക്കുരുവോളം മതി.
കുളിപ്പിച്ചാലും പന്നി ചേറ്റിൽ.
കുറുക്കൻ ചത്താലും കണ്ണ് കോഴിക്കൂട്ടില്.
കൊക്കിലൊതുങ്ങുന്നതേ കൊത്താവൂ.
കൊക്കെത്ര കുളം കണ്ടതാ?
ക്ഷീരം കൊണ്ടു നനച്ചാലും വേപ്പിന്റെ കയ്പു വിടുമോ?
ക്ഷീരമുള്ളോരകിടിൻ ചുവട്ടിലും ചോരതന്നെ കൊതുകിന്നു കൌതുകം.
ഗതികെട്ടാൽ പുലി പുല്ലും തിന്നും.
ഗരുഡൻ ആകാശത്തിൽ പറക്കും ഈച്ച അങ്കണത്തിൽ പറക്കും
ചങ്ങലയ്ക്കു ഭ്രാന്തു പിടിച്ചാലോ?
ചങ്ങാതി നന്നെങ്കിൽ കണ്ണാടി വേണ്ട.
ചട്ടുവമറിയുമോ കറിയുടെ രസം?
ചന്ദനം ചാരിയാൽ ചന്ദനം മണക്കും ചാണകം ചാരിയാൽ ചാണകം മണക്കും.
ചാണകക്കുഴിയും പെരുങ്കടലും തുല്യമോ?
ചുട്ട ചട്ടി അറിയുമോ അപ്പത്തിന്റെ സ്വാദു്?
ചൂടുവെള്ളത്തിൽ വീണ പൂച്ചക്ക് പച്ചവെള്ളം കണ്ടാലും പേടി.
ചെമ്മീൻ തുള്ളിയാൽ മുട്ടോളം പിന്നെയും തുള്ളിയാൽ ചട്ടീല്.
ചൊട്ടയിലെ ശീലം ചുടല വരെ.
തന്നോളം പോന്നാൽ മകനേയും താനെന്നു വിളിക്കണം.
തലയിലെഴുത്ത് തലോടിയാൽ പോകുമോ?
താനിരിക്കേണ്ടിടത്ത് താനിരുന്നില്ലെങ്കിൽ നായ ഇരിക്കും.
താൻ പാതി ദൈവം പാതി.
താഴ്ന്ന നിലത്തേ നീരോടൂ.
തീയിൽ കുരുത്തത് വെയിലത്തു വാടുമോ?
തീയില്ലാതെ പുകയില്ല.
തെളിച്ച വഴിയെ നടന്നിലെങ്കിൽ നടന്ന വഴിയെ തെളിക്കുക.
തേടിയ വള്ളി കാലിൽ ചുറ്റി.
തേനൊഴിച്ചു വളർത്തിയാലും കാഞ്ഞിരം കയ്ക്കും.
നടുക്കടലിലും നായ നക്കിയേ കുടിക്കൂ.
നവര വിതച്ചാൽ തുവര കായ്ക്കുമോ?
നിത്യാഭ്യാസി ആനയെ എടുക്കും.
നിറകുടം തുളുമ്പില്ല.
നീർക്കോലിക്ക് നീന്തൽ പഠിപ്പിക്കണ്ട.
പട പേടിച്ച് പന്തളത്ത് പോയപ്പോൾ അവിടെ പന്തം കൊളുത്തി പട.
പട്ടി കുരച്ചാൽ പടിപ്പുര തുറക്കുമോ?
പട്ടിക്കു രോമം കിളിർത്തിട്ട് അമ്പട്ടനെന്ത് കാര്യം?
പട്ടിയുടെ വാല് കുഴലിലിട്ടാൽ പന്തീരാണ്ട് കഴിഞ്ഞാലും നിവരില്ല
പണത്തിനു മീതെ പരുന്തും പറക്കില്ല
പയ്യെത്തിന്നാൽ പനയും തിന്നാം
പലതുള്ളിപ്പെരുവെള്ളം.
പഴഞ്ചൊല്ലിൽ പതിരില്ല.
പഴുത്ത പ്ലാവില വീഴുമ്പോൾ പച്ച പ്ലാവില ചിരിക്കേണ്ട.
പറച്ചിൽ നിർത്തി പയറ്റി നോക്കണം.
പാണ്ടൻ നായുടെ പല്ലിനു ശൗര്യം പണ്ടേപോല ഫലിയ്‌ക്കുന്നില്ല.
പാദം പാദം വച്ചാൽ കാതം കാതം പോകാം.
പാലം കടക്കുവോളം നാരായണ  പാലം കടന്നാലൊ കൂരായണ.
പാലം കുലുങ്ങിയാലും കേളൻ കുലുങ്ങില്ല.
പുകഞ്ഞ കൊള്ളി പുറത്ത്.
പുര കത്തുമ്പോൾ വാഴവെട്ടുക.
പൂച്ചയ്ക്കാര് മണികെട്ടും?
പൂച്ചയ്ക്കെന്ത് പൊന്നുരുക്കുന്നിടത്ത് കാര്യം?
പൂട്ടുന്ന കാളയെന്തിനു വിതയ്ക്കുന്ന വിത്തറിയുന്നു?
പെട്ടാൽ പിന്നെ പെടയ്ക്കാനല്ലേ പറ്റൂ.
പൊക്കാളി വിതച്ചാൽ ആരിയൻ കൊയ്യുമോ?
പൊന്നു കായ്ക്കുന്ന മരമായാലും പുരയ്ക്കു ചാഞ്ഞാൽ മുറിയ്ക്കണം.
പൊൻമുട്ടയിടുന്ന താറാവിനെ കൊല്ലരുത്.
മണ്ണു വിറ്റു പൊന്നു വാങ്ങരുതു്‌.
മൺവെട്ടി തണുപ്പറിയുമോ?
മത്ത കുത്തിയാൽ കുമ്പളം മുളക്കില്ല.
മിണ്ടാപ്പൂച്ച കലമുടക്കും.
മിന്നുന്നതെല്ലാം പൊന്നല്ല
മീനത്തിൽ മഴ പെയ്താൽ മീനിനും ഇരയില്ല.
മുതലക്കുഞ്ഞിനെ നീന്തൽ പഠിപ്പിക്കേണ്ട.
മുൻവിള പൊൻവിള.
മുല്ലപൂമ്പൊടിയേറ്റു കിടക്കും കല്ലിനുമുണ്ടാമൊരു സൌരഭ്യം.
മുളയിലറിയാം വിള.
മുറിവൈദ്യം ആപത്ത്.
മൂത്തോരുടെ വാക്കും മുതുനെല്ലിക്കയും ആദ്യം കയ്ക്കും പിന്നെ മധുരിക്കും.
മെല്ലെത്തിന്നാൽ മുള്ളും തിന്നാം.
മോങ്ങാനിരുന്ന പട്ടിയുടെ തലയിൽ തേങ്ങ വീണു.
വന്ന വഴി മറക്കരുത്.
വരമ്പു ചാരി നട്ടാൽ ചുവരു ചാരിയുണ്ണാം.
വർഷം പോലെ കൃഷി.
വല്ലഭനു പുല്ലും ആയുധം.
വാക്കു കൊണ്ടു കോട്ട കെട്ടുക.
വാക്കു കൊണ്ടു വയറു നിറയുകയില്ല.
വിത്താഴം ചെന്നാൽ പത്തായം നിറയും.
വിത്തുഗുണം പത്തുഗുണം.
വിദ്യാധനം സർവ്വധനാൽ പ്രധാനം.
വിശപ്പിനു രുചിയില്ല.
വിളഞ്ഞ കണ്ടത്തിൽ വെള്ളം തിരിക്കണ്ട.
വിളഞ്ഞാൽ പിന്നെ വച്ചേക്കരുതു്‌.
വിളയുന്ന വിത്തു മുളയിലറിയാം.
വെടിക്കെട്ടുകാരന്റെ പട്ടിയെ ഉടുക്ക് കൊട്ടി പേടിപ്പിക്കരുത്.
വെട്ടാൻ വരുന്ന പോത്തിനോട് വേദമോതാൻ നിൽക്കരുത്.
വെട്ടിൽ വീഴ്ത്തിയാൽ വൻമരവും വീഴും.
വേണമെങ്കിൽ ചക്ക വേരിലും കായ്ക്കും.
വേരിനു വളം വയ്ക്കാതെ തലയ്ക്കു വളം വച്ചിട്ടെന്തു കാര്യം?
വേലി ചാടുന്ന പശുവിനു കോലുകൊണ്ട് മരണം.
വേലി തന്നെ വിളവു തിന്നുക.
ശത്രുവിന്റെ ശത്രു മിത്രം.
സമ്പത്ത് കാലത്ത് തൈപത്ത് വച്ചാൽ ആപത്ത് കാലത്ത് കാ പത്തു തിന്നാം.
സൂചികൊണ്ടെടുക്കേണ്ടത് തൂമ്പ കൊണ്ടെടുക്കരുത്.
"""

In [10]:
malayalam_proverbs = sample_text.split("\n")

In [11]:
ml_inputs1 = tokenizer(malayalam_proverbs)
ml_inputs1

{'input_ids': [[0, 218286, 107616, 69220, 8527, 116130, 186115, 5, 2], [0, 2210, 3338, 31794, 205609, 28331, 6177, 3338, 31794, 6190, 7874, 6177, 3338, 31794, 51116, 28331, 2210, 3338, 31794, 6190, 7874, 5, 2], [0, 102704, 121183, 6190, 51171, 847, 2569, 3612, 8265, 230679, 7951, 5, 2], [0, 102704, 121183, 8265, 47812, 8412, 125622, 17093, 119684, 5, 2], [0, 181994, 155112, 6177, 148104, 6, 69434, 574, 6, 26417, 168631, 32078, 93528, 6, 69434, 574, 5, 2], [0, 2210, 121082, 3637, 167027, 130927, 8527, 213913, 28331, 157333, 8510, 14712, 12113, 132071, 47084, 32, 2], [0, 63538, 91889, 20232, 1666, 28331, 167027, 3072, 189513, 2559, 5, 2], [0, 241777, 3435, 18524, 62287, 2282, 176269, 151288, 847, 6, 133636, 168835, 574, 100008, 5, 2], [0, 2210, 7807, 6368, 19396, 132257, 24617, 4493, 8265, 6, 126649, 46929, 26641, 5, 2], [0, 2210, 33274, 2381, 13234, 54636, 574, 4324, 131849, 574, 207905, 144746, 32, 2], [0, 2210, 33274, 9067, 141343, 574, 94563, 80194, 13890, 2117, 5, 2], [0, 2210, 3327

In [12]:
tokenizer.convert_ids_to_tokens(ml_inputs1['input_ids'][0])

['<s>', '▁അകത്ത', 'ുള്ളത്', '▁മുഖ', 'ത്ത്', '▁വിള', 'ങ്ങും', '.', '</s>']

## GPTJ model

In [13]:
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-j-6B")

In [14]:
prompt = (

    "In a shocking finding, scientists discovered a herd of unicorns living in a remote, "

    "previously unexplored valley, in the Andes Mountains. Even more surprising to the "

    "researchers was the fact that the unicorns spoke perfect English."

)

In [15]:
tokenizer(prompt, return_tensors="pt")

{'input_ids': tensor([[  818,   257, 14702,  4917,    11,  5519,  5071,   257, 27638,   286,
         28000, 19942,  2877,   287,   257,  6569,    11,  4271, 31286,  1850,
         19272,    11,   287,   262,   843,   274, 21124,    13,  3412,   517,
          6452,   284,   262,  4837,   373,   262,  1109,   326,   262, 28000,
         19942,  5158,  2818,  3594,    13]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [16]:
input_ids = tokenizer(prompt).input_ids

In [17]:
tokenizer.convert_ids_to_tokens(input_ids)

['In',
 'Ġa',
 'Ġshocking',
 'Ġfinding',
 ',',
 'Ġscientists',
 'Ġdiscovered',
 'Ġa',
 'Ġherd',
 'Ġof',
 'Ġunic',
 'orns',
 'Ġliving',
 'Ġin',
 'Ġa',
 'Ġremote',
 ',',
 'Ġpreviously',
 'Ġunexpl',
 'ored',
 'Ġvalley',
 ',',
 'Ġin',
 'Ġthe',
 'ĠAnd',
 'es',
 'ĠMountains',
 '.',
 'ĠEven',
 'Ġmore',
 'Ġsurprising',
 'Ġto',
 'Ġthe',
 'Ġresearchers',
 'Ġwas',
 'Ġthe',
 'Ġfact',
 'Ġthat',
 'Ġthe',
 'Ġunic',
 'orns',
 'Ġspoke',
 'Ġperfect',
 'ĠEnglish',
 '.']

In [18]:
len(tokenizer.convert_ids_to_tokens(input_ids))

45

In [19]:
text = "The Miami Hurricanes framed collectible featuress a four color photograph collage and laser cut Hurricanes logo art. It comes double matted in team colors and framed in black wood. It is officially licensed by the CLC and the University of Miami. It measures."

In [20]:
tokenizer(text, return_tensors="pt")

{'input_ids': tensor([[  464,  8437, 39419, 23665,  2824,   856,  2218,    84,   601,   257,
          1440,  3124,  8408,  2927,   496,   290, 12855,  2005, 39419, 11112,
          1242,    13,   632,  2058,  4274,   285, 16898,   287,  1074,  7577,
           290, 23665,   287,  2042,  4898,    13,   632,   318,  8720, 11971,
           416,   262,   327,  5639,   290,   262,  2059,   286,  8437,    13,
           632,  5260,    13]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1]])}

In [21]:
input_ids = tokenizer(text).input_ids
tokenizer.convert_ids_to_tokens(input_ids)

['The',
 'ĠMiami',
 'ĠHurricanes',
 'Ġframed',
 'Ġcollect',
 'ible',
 'Ġfeat',
 'u',
 'ress',
 'Ġa',
 'Ġfour',
 'Ġcolor',
 'Ġphotograph',
 'Ġcoll',
 'age',
 'Ġand',
 'Ġlaser',
 'Ġcut',
 'ĠHurricanes',
 'Ġlogo',
 'Ġart',
 '.',
 'ĠIt',
 'Ġcomes',
 'Ġdouble',
 'Ġm',
 'atted',
 'Ġin',
 'Ġteam',
 'Ġcolors',
 'Ġand',
 'Ġframed',
 'Ġin',
 'Ġblack',
 'Ġwood',
 '.',
 'ĠIt',
 'Ġis',
 'Ġofficially',
 'Ġlicensed',
 'Ġby',
 'Ġthe',
 'ĠC',
 'LC',
 'Ġand',
 'Ġthe',
 'ĠUniversity',
 'Ġof',
 'ĠMiami',
 '.',
 'ĠIt',
 'Ġmeasures',
 '.']

In [22]:
len(tokenizer.convert_ids_to_tokens(input_ids))

53