# Токенизација

> Токенизација је процес представљања сирових података у виду токена (најчеће бајтови података)

Од квалитета токена доста зависи и учинак самог модела
Токен је најмањи вид податка коме модел даје значење, и пошто их може бити ограничен број, јер цена модела расте значајно са повећањем самог вокабулара, избор величине токена и шта тај токен треба да обухвати је доста тежак задатак, и мале одлуке доста могу утицати на то шта ће модел разумети из података. 


### Токенизација текста

Код токенизације текста, најчешће се текст у виду стрига, прво претвори у бајтове помоћу utf-8

In [2]:
text = "Здраво"
text_bytes = text.encode("utf-8")

print(text, text_bytes)
print(len(text), len(text_bytes))


Здраво b'\xd0\x97\xd0\xb4\xd1\x80\xd0\xb0\xd0\xb2\xd0\xbe'
6 12


- Међутим овде настаје проблем, пошто је utf-8 погодан само за латинична слова, __ћирилица__ се претвори у 2 бајта и због алгоритма који користимо за спајање токена, број токена које будемо генерисали ће бити дупло већи и сами токени ће бити мање ефикасни

- Због обог разлога ћемо користи ascii бројве за репрезентацију текста

In [8]:
text = "Здраво"
text_ints = [ord(s) for s in text]

print (text, text_ints)
print (len(text), len(text_ints))

Здраво [1047, 1076, 1088, 1072, 1074, 1086]
6 6


### Byte-Pair Encoding

Овај алгоритам и две методе које се понављају

1. Пронађи два суседна слова која се понављају најчешће

2. Замини да два пара са новим токеном

Ове две методе се понављају над текстом за тренинг токенизера док се не добије жељени број токена

In [1]:
vocabulary = {}

def most_frequent_pair(text):
    return token1, token2

def merge_text(text):
    return merged_text

[208, 176, 208, 186, 208, 190, 32, 208, 177, 208, 184, 32, 208, 188, 209, 131, 32, 208, 177, 208, 184, 208, 187, 208, 190, 32, 208, 183, 208, 176, 32, 208, 189, 208, 181, 208, 178, 208, 190, 209, 153, 209, 131, 59, 10, 208, 155, 208, 176, 209, 130, 208, 184, 208, 189, 208, 184, 32, 209, 129, 209, 131, 32, 209, 129, 209, 130, 208, 176, 209, 128, 208, 181, 32, 208, 178, 208, 176, 209, 128, 208, 176, 208, 187, 208, 184, 209, 134, 208, 181, 44, 32, 209, 131, 209, 152, 208, 176, 208, 186, 208, 176, 32, 209, 155, 208, 181, 32, 208, 189, 208, 176, 209, 136, 208, 181, 208, 179, 32, 208, 191, 208, 190, 208, 179, 209, 131, 208, 177, 208, 184, 209, 130, 208, 184, 44, 10, 208, 176, 32, 208, 189, 208, 181, 208, 183, 208, 178, 208, 176, 208, 189, 208, 184, 32, 208, 184, 209, 155, 208, 184, 32, 208, 189, 208, 181, 32, 209, 129, 208, 188, 208, 184, 209, 152, 208, 181, 208, 188, 208, 190, 34, 46, 10, 10, 208, 146, 208, 181, 208, 187, 208, 184, 32, 209, 154, 208, 184, 208, 188, 208, 176, 32, 208, 190, 2

In [15]:
# Pair of bytes that ocuress most frequently

def mf_pair(text):
    recnik = {}
    i = 0
    n = len(text)
    m = 0
    p = ""
    while (i < n-1):
        s = text[i: i+2]
        if not recnik.get(s):
            recnik[s] = 0
        recnik[s] += 1
        if recnik[s] > m:
            m = recnik[s]
            p = s
        i+=1
    return p


In [16]:
mf_pair(text)

'а '