## LAB 5 Jak działa GPT
### Tokenizacja z wykorzystaniem algorytmu BPE

Celem laboratorium jest:

* implementacja algorytmu BPE
* zrozumienie koncepcji tokenizacji

#### Źródła:
* https://github.com/karpathy/minbpe
* https://youtu.be/zduSFxRajkE?si=pHViKDX4I6yrCqf6

In [1]:
from collections import Counter
import requests

In [2]:
# jako tekst ponownie wykorzystamy HPMOR
# Eliezer Yudkowsky, Harry Potter and the Methods of Rationality https://hpmor.com/
url = "https://github.com/asztyber/jak_dziala_gpt_lab/blob/main/data/hpmor_part.txt?raw=true"
response = requests.get(url)
text = response.text

In [3]:
text[:100]

'Beneath the moonlight glints a tiny fragment of silver, a fraction of a line... (black robes, fallin'

In [4]:
# zamieniamy tekst na bajty z kodowania utf8
text_bytes = list(text.encode('utf8'))
print(text_bytes[:50])

[66, 101, 110, 101, 97, 116, 104, 32, 116, 104, 101, 32, 109, 111, 111, 110, 108, 105, 103, 104, 116, 32, 103, 108, 105, 110, 116, 115, 32, 97, 32, 116, 105, 110, 121, 32, 102, 114, 97, 103, 109, 101, 110, 116, 32, 111, 102, 32, 115, 105]


In [5]:
# tworzymy początkowy słownik - ponieważ pracujemy na bajtach to mają one wartości od 0 do 255
vocab = {i: bytes([i]) for i in range(256)}

In [6]:
print(vocab)

{0: b'\x00', 1: b'\x01', 2: b'\x02', 3: b'\x03', 4: b'\x04', 5: b'\x05', 6: b'\x06', 7: b'\x07', 8: b'\x08', 9: b'\t', 10: b'\n', 11: b'\x0b', 12: b'\x0c', 13: b'\r', 14: b'\x0e', 15: b'\x0f', 16: b'\x10', 17: b'\x11', 18: b'\x12', 19: b'\x13', 20: b'\x14', 21: b'\x15', 22: b'\x16', 23: b'\x17', 24: b'\x18', 25: b'\x19', 26: b'\x1a', 27: b'\x1b', 28: b'\x1c', 29: b'\x1d', 30: b'\x1e', 31: b'\x1f', 32: b' ', 33: b'!', 34: b'"', 35: b'#', 36: b'$', 37: b'%', 38: b'&', 39: b"'", 40: b'(', 41: b')', 42: b'*', 43: b'+', 44: b',', 45: b'-', 46: b'.', 47: b'/', 48: b'0', 49: b'1', 50: b'2', 51: b'3', 52: b'4', 53: b'5', 54: b'6', 55: b'7', 56: b'8', 57: b'9', 58: b':', 59: b';', 60: b'<', 61: b'=', 62: b'>', 63: b'?', 64: b'@', 65: b'A', 66: b'B', 67: b'C', 68: b'D', 69: b'E', 70: b'F', 71: b'G', 72: b'H', 73: b'I', 74: b'J', 75: b'K', 76: b'L', 77: b'M', 78: b'N', 79: b'O', 80: b'P', 81: b'Q', 82: b'R', 83: b'S', 84: b'T', 85: b'U', 86: b'V', 87: b'W', 88: b'X', 89: b'Y', 90: b'Z', 91: b'[',

#### Algorytm BPE
Będziemy implementować kroki algorytmu BPE:
1. znaleźć najczęstszą parę tokenów
2. zastąpić ją nowym tokenem
3. powtórzyć kroki 1 i 2, aż do osiągnięcia zadanego limitu liczby połączeń (n_merges)

##### Zaimplementuj funkcję znajdującą najczęstszą parę tokenów
1. stwórz listę **par** tokenów
2. zlicz wystąpienia każdej pary (wskazówka: Counter)
3. znajdź parę z największą liczbą wystąpień (wskazówka: most_common i końcówka notebooka z wykładu)
4. zwróć parę


In [7]:
def find_most_frequent_pair(tokens_list):
    #TODO
    #TODO
    #TODO

In [8]:
# na początku nasza lista tokenów to lista bajtów z tekstu
tokens_list = list(text_bytes)

In [9]:
most_freq_pair = find_most_frequent_pair(tokens_list)
most_freq_pair

(101, 32)

In [10]:
assert most_freq_pair == (101, 32)

In [12]:
# znaki tworzące najczęstszą parę tokenów
print(vocab[most_freq_pair[0]])
print(vocab[most_freq_pair[1]])

b'e'
b' '


#### Napisz funkcję, która zastępuje wybraną parę tokenów nowym tokenem
*Uwaga: to jest miejsce gdzie jest najwięcej pracy i najłatwiej się pomylić, dalej będzie łatwiej*
* uwaga: jeśli zastępujemy to trzeba w przetwarzaniu ominąć następny token
    * tzn. w poniższym przykładzie zastępując (1,2) przez 5, to w przetwarzanie 2 pomijamy
* uwaga: proszę nie gubić ostatniego tokenu

Przykład: replace([1,2,3,4], (1,2), 5) -> [5,3,4]

Kroki:
1. stwórz nową listę tokenów
2. przejdź pętlą for przez listę tokenów
    * sprawdzaj parę token i następny token
    * jeśli napotkasz wybraną parę tokenów, to dodaj nowy token do nowej listy i pomiń następny token
    * jeśli nie napotkasz pary tokenów, to dodaj aktualny token do nowej listy
3. jeśli nie został pominięty ostatni token, to dodaj go do nowej listy
4. zwróć nową listę tokenów


In [13]:
def replace(tokens_list, pair, new_token):
    new_tokens_list = []
    # TODO
    return new_tokens_list 

In [14]:
assert replace([1, 2, 3, 4], (1,2), 5) == [5, 3, 4]

In [15]:
next_token_idx = 256 # pierwszy wolny indeks
new_tokens_list = replace(tokens_list, most_freq_pair, next_token_idx)

In [16]:
# tokeny przed zamianą (20 pierwszych)
print(tokens_list[:20])

[66, 101, 110, 101, 97, 116, 104, 32, 116, 104, 101, 32, 109, 111, 111, 110, 108, 105, 103, 104]


In [17]:
# tokeny po połączeniu (20 pierwszych)
print(new_tokens_list[:20])

[66, 101, 110, 101, 97, 116, 104, 32, 116, 104, 256, 109, 111, 111, 110, 108, 105, 103, 104, 116]


#### Zaimplementujemy 50 połączeń

Potrzebujemy słownika merges, który będzie przechowywał mapowanie par tokenów na nowe tokeny.
Kluczami są pary tokenów, a wartością nowy token.
Przykład:
{(101, 32): 256,
 (32, 116): 257,
 (116, 32): 258}

 Słownik ten będzie nam potrzebny do kodowania i dekodowania tekstu.

 Kroki:
1. stwórz pusty słownik merges
2. przejdź pętlą while, aż do osiągnięcia zadanego limitu liczby połączeń (n_merges) (warto sprawdzać czy lista tokenów ma więcej niż 1 token)
    * znajdź najczęstszą parę tokenów
    * zastąp ją nowym tokenem
    * dodaj parę do słownika merges
    * zwiększ indeks nowego tokenu
    * zwiększ licznik połączeń

In [18]:
n_merges = 50
next_token_idx = 256
tokens_list = list(text_bytes)
merges = {}
merges_counter = 0
while merges_counter < n_merges and len(tokens_list) > 1:
    most_freq_pair = # TODO
    tokens_list =  # TODO
    merges[most_freq_pair] =  # TODO
    # TODO
    # TODO

In [19]:
assert len(tokens_list) == 10601

In [20]:
print(tokens_list[:100])

[66, 268, 101, 97, 273, 276, 109, 111, 274, 108, 105, 103, 104, 258, 103, 108, 260, 116, 261, 97, 257, 260, 270, 102, 114, 97, 103, 109, 268, 258, 305, 115, 105, 108, 118, 262, 266, 284, 102, 114, 97, 99, 116, 105, 274, 32, 305, 284, 108, 260, 101, 46, 46, 265, 40, 98, 108, 97, 99, 107, 32, 114, 111, 98, 279, 266, 102, 294, 108, 271, 41, 32, 46, 46, 46, 98, 108, 111, 111, 259, 115, 112, 105, 108, 108, 261, 267, 258, 260, 32, 108, 299, 114, 279, 266, 286, 115, 298, 101, 274]


In [21]:
merges

{(101, 32): 256,
 (32, 116): 257,
 (116, 32): 258,
 (100, 32): 259,
 (105, 110): 260,
 (115, 32): 261,
 (101, 114): 262,
 (257, 104): 263,
 (97, 110): 264,
 (46, 32): 265,
 (44, 32): 266,
 (111, 117): 267,
 (101, 110): 268,
 (97, 114): 269,
 (121, 32): 270,
 (260, 103): 271,
 (111, 32): 272,
 (116, 104): 273,
 (111, 110): 274,
 (111, 114): 275,
 (263, 256): 276,
 (262, 32): 277,
 (101, 259): 278,
 (101, 115): 279,
 (104, 105): 280,
 (104, 97): 281,
 (101, 108): 282,
 (102, 32): 283,
 (97, 32): 284,
 (105, 99): 285,
 (264, 259): 286,
 (119, 97): 287,
 (271, 32): 288,
 (34, 32): 289,
 (115, 116): 290,
 (257, 272): 291,
 (111, 119): 292,
 (101, 116): 293,
 (97, 108): 294,
 (73, 32): 295,
 (97, 258): 296,
 (121, 267): 297,
 (111, 109): 298,
 (105, 116): 299,
 (101, 100): 300,
 (269, 114): 301,
 (104, 256): 302,
 (108, 270): 303,
 (72, 301): 304,
 (111, 283): 305}

In [22]:
# aktualizaujemy nasz słownik o nowe tokeny
for (t1, t2), tm in merges.items():
    vocab[tm] = vocab[t1] + vocab[t2]

In [23]:
# przejrzyj tokeny powyżej 256 - jakie są?
print(vocab)

{0: b'\x00', 1: b'\x01', 2: b'\x02', 3: b'\x03', 4: b'\x04', 5: b'\x05', 6: b'\x06', 7: b'\x07', 8: b'\x08', 9: b'\t', 10: b'\n', 11: b'\x0b', 12: b'\x0c', 13: b'\r', 14: b'\x0e', 15: b'\x0f', 16: b'\x10', 17: b'\x11', 18: b'\x12', 19: b'\x13', 20: b'\x14', 21: b'\x15', 22: b'\x16', 23: b'\x17', 24: b'\x18', 25: b'\x19', 26: b'\x1a', 27: b'\x1b', 28: b'\x1c', 29: b'\x1d', 30: b'\x1e', 31: b'\x1f', 32: b' ', 33: b'!', 34: b'"', 35: b'#', 36: b'$', 37: b'%', 38: b'&', 39: b"'", 40: b'(', 41: b')', 42: b'*', 43: b'+', 44: b',', 45: b'-', 46: b'.', 47: b'/', 48: b'0', 49: b'1', 50: b'2', 51: b'3', 52: b'4', 53: b'5', 54: b'6', 55: b'7', 56: b'8', 57: b'9', 58: b':', 59: b';', 60: b'<', 61: b'=', 62: b'>', 63: b'?', 64: b'@', 65: b'A', 66: b'B', 67: b'C', 68: b'D', 69: b'E', 70: b'F', 71: b'G', 72: b'H', 73: b'I', 74: b'J', 75: b'K', 76: b'L', 77: b'M', 78: b'N', 79: b'O', 80: b'P', 81: b'Q', 82: b'R', 83: b'S', 84: b'T', 85: b'U', 86: b'V', 87: b'W', 88: b'X', 89: b'Y', 90: b'Z', 91: b'[',

In [24]:
# zamiana tekstu na tokeny
def encode(text):
    text_bytes = list(text.encode('utf8'))
    tokens_list = list(text_bytes)
    for pair, token in merges.items():
        tokens_list = replace(tokens_list, pair, token)
    return tokens_list

In [25]:
# zamiana tokenów na tekst
def decode(tokens_list):
    text_bytes = [vocab[t] for t in tokens_list]
    merged_bytes = b''.join(text_bytes)
    return merged_bytes.decode('utf8')

In [1]:
tokens_list = encode(text)
print(tokens_list[:100])

NameError: name 'encode' is not defined

In [27]:
# powinniśmy otrzymać z powrotem tekst
decode(tokens_list)

'Beneath the moonlight glints a tiny fragment of silver, a fraction of a line... (black robes, falling) ...blood spills out in litres, and someone screams a word.  Every inch of wall space is covered by a bookcase. Each bookcase has six shelves, going almost to the ceiling. Some bookshelves are stacked to the brim with hardback books: science, maths, history, and everything else. Other shelves have two layers of paperback science fiction, with the back layer of books propped up on old tissue boxes or lengths of wood, so that you can see the back layer of books above the books in front. And it still isn\'t enough. Books are overflowing onto the tables and the sofas and making little heaps under the windows. This is the living-room of the house occupied by the eminent Professor Michael Verres-Evans, and his wife, Mrs. Petunia Evans-Verres, and their adopted son, Harry James Potter-Evans-Verres. There is a letter lying on the living-room table, and an unstamped envelope of yellowish parch

In [28]:
print('długość tekstu:', len(text))
print('długość tekstu w bajtach:', len(list(text.encode('utf8'))))
print('liczba tokenów po tokenizacji:', len(tokens_list))

długość tekstu: 16123
długość tekstu w bajtach: 16123
liczba tokenów po tokenizacji: 10601


### Klasa tokenizer
* korzystając z kodu powyżej zaimplementuj klasę Tokenizer
* zaimplementuj funkcje:
    * train
    * encode
    * decode
    * find_most_frequent_pair
    * replace

#### Uwaga
* Przed testmi implementacji warto zrestartować kernel, żeby być pewnym, że nie kożysta się ze starych zmiennych globalnych
* Potem trzeba ponownie wywołać komórki z importem bibliotek i wczytaniem tekstu (dwie pierwsze komórki z kodem od góry)

In [29]:
class Tokenizer:
    def __init__(self):
        self.vocab = {} # słownik tokenów - numer tokenu -> tekst tokenu
        self.merges = {} # słownik połączeń - para tokenów -> nowy token
        self.next_token_idx = 0 # indeks nowego tokenu (pierwszy wolny indeks)

    def train(self, text, n_merges=100): # n_merges to liczba połączeń
        self.vocab = {i: bytes([i]) for i in range(256)}
        self.next_token_idx = 256
        tokens_list = list(text.encode('utf8'))
        self.merges = {}
        # wykonaj zadaną liczbę połączeń, aktualizując listę tokenów, słownik merges i indeks nowego tokenu
        #TODO

        # aktualizacja słownika tokenów
        for (t1, t2), tm in self.merges.items():
            self.vocab[tm] = self.vocab[t1] + self.vocab[t2]

    def encode(self, text):
        # zamiana tekstu na listę tokenów
        # TODO
        return tokens_list

    def decode(self, tokens_list):
        # zamiana listy tokenów na tekst
        # TODO
        return #TODO

    def find_most_frequent_pair(self, tokens_list):
        # znajdź najczęstszą parę tokenów
        # TODO
        return #TODO

    def replace(self, tokens_list, pair, new_token):
        # zamiana pary tokenów na nowy token
        # funkcja zwraca nową listę tokenów
        new_tokens_list = []
        # TODO
        return new_tokens_list 

In [30]:
# tworzymy tokenizer
tokenizer = Tokenizer()

In [31]:
# uczymy tokenizer
tokenizer.train(text, n_merges=50)

In [32]:
print(tokenizer.merges)

{(101, 32): 256, (32, 116): 257, (116, 32): 258, (100, 32): 259, (105, 110): 260, (115, 32): 261, (101, 114): 262, (257, 104): 263, (97, 110): 264, (46, 32): 265, (44, 32): 266, (111, 117): 267, (101, 110): 268, (97, 114): 269, (121, 32): 270, (260, 103): 271, (111, 32): 272, (116, 104): 273, (111, 110): 274, (111, 114): 275, (263, 256): 276, (262, 32): 277, (101, 259): 278, (101, 115): 279, (104, 105): 280, (104, 97): 281, (101, 108): 282, (102, 32): 283, (97, 32): 284, (105, 99): 285, (264, 259): 286, (119, 97): 287, (271, 32): 288, (34, 32): 289, (115, 116): 290, (257, 272): 291, (111, 119): 292, (101, 116): 293, (97, 108): 294, (73, 32): 295, (97, 258): 296, (121, 267): 297, (111, 109): 298, (105, 116): 299, (101, 100): 300, (269, 114): 301, (104, 256): 302, (108, 270): 303, (72, 301): 304, (111, 283): 305}


In [33]:
print(tokenizer.vocab)

{0: b'\x00', 1: b'\x01', 2: b'\x02', 3: b'\x03', 4: b'\x04', 5: b'\x05', 6: b'\x06', 7: b'\x07', 8: b'\x08', 9: b'\t', 10: b'\n', 11: b'\x0b', 12: b'\x0c', 13: b'\r', 14: b'\x0e', 15: b'\x0f', 16: b'\x10', 17: b'\x11', 18: b'\x12', 19: b'\x13', 20: b'\x14', 21: b'\x15', 22: b'\x16', 23: b'\x17', 24: b'\x18', 25: b'\x19', 26: b'\x1a', 27: b'\x1b', 28: b'\x1c', 29: b'\x1d', 30: b'\x1e', 31: b'\x1f', 32: b' ', 33: b'!', 34: b'"', 35: b'#', 36: b'$', 37: b'%', 38: b'&', 39: b"'", 40: b'(', 41: b')', 42: b'*', 43: b'+', 44: b',', 45: b'-', 46: b'.', 47: b'/', 48: b'0', 49: b'1', 50: b'2', 51: b'3', 52: b'4', 53: b'5', 54: b'6', 55: b'7', 56: b'8', 57: b'9', 58: b':', 59: b';', 60: b'<', 61: b'=', 62: b'>', 63: b'?', 64: b'@', 65: b'A', 66: b'B', 67: b'C', 68: b'D', 69: b'E', 70: b'F', 71: b'G', 72: b'H', 73: b'I', 74: b'J', 75: b'K', 76: b'L', 77: b'M', 78: b'N', 79: b'O', 80: b'P', 81: b'Q', 82: b'R', 83: b'S', 84: b'T', 85: b'U', 86: b'V', 87: b'W', 88: b'X', 89: b'Y', 90: b'Z', 91: b'[',

In [34]:
# sprawdzamy czy zamiana działa
tokenizer.replace([1,2,3,4], (1,2), 5)

[5, 3, 4]

In [37]:
# tokenizujemy fragment tekstu
tokens_list = tokenizer.encode(text[:70])
print(tokens_list)

[66, 268, 101, 97, 273, 276, 109, 111, 274, 108, 105, 103, 104, 258, 103, 108, 260, 116, 261, 97, 257, 260, 270, 102, 114, 97, 103, 109, 268, 258, 305, 115, 105, 108, 118, 262, 266, 284, 102, 114, 97, 99, 116, 105, 274, 32, 305]


In [38]:
text[:70]

'Beneath the moonlight glints a tiny fragment of silver, a fraction of '

In [39]:
# i dekodujemy fragment tekstu (powinniśmy dostać z powrotem ten sam tekst)
tokenizer.decode(tokens_list)

'Beneath the moonlight glints a tiny fragment of silver, a fraction of '

In [40]:
print(len(text))
print(len(tokenizer.encode(text)))

16123
10601


#### Uczenie na dłuższym korpusie tekstu po polsku i po angielsku
* Wykorzystamy polski przekład Tajemnicy Baskervilleow
    * Tekst pobrany z https://www.gutenberg.org/
* Oraz dłuższy fragment (10 rozdziałów) HPMOR

In [74]:
url = "https://github.com/asztyber/jak_dziala_gpt_lab/blob/main/data/hpmor_chapters_1-10.txt?raw=true"
response = requests.get(url)
text_eng = response.text
url = "https://github.com/asztyber/jak_dziala_gpt_lab/blob/main/data/TajemnicaBaskervilleow.txt?raw=true"
response = requests.get(url)
text_pl = response.text

In [75]:
print(text_pl[:1000])

               TAJEMNICA BASKERVILLE'ÓW

            Dziwne przygody Sherlocka Holmes


                        PRZEZ

                    Conana Doyle'a


                Przekład z angielskiego

                  EUGENII ŻMIJEWSKIEJ.


                  Dodatek do „SŁOWA”

                      WARSZAWA.

                 DRUKIEM NOSKOWSKIEGO

                 15. ulica Warecka 15.

                        1902.




I.

Pan Sherlock Holmes.


Pan Sherlock Holmes zwykł był wstawać późno, o ile nie czuwał przez
całą noc, a zdarzało mu się to nieraz. Otóż owego dnia wstał
wyjątkowo wcześnie. Jadł śniadanie. Stałem przy kominku. Schyliłem
się i podniosłem laskę, którą nasz gość zostawił wczorajszego
wieczoru. Był to kij gruby, z dużą gałką, utoczoną z drzewa; pod
gałką była srebrna obrączka, a na niej napis: „Jakóbowi Mortimer
M. R. C. S. od przyjaciół C. C. H.”, pod spodem zaś data:
„r. 1884”. Taką laskę staroświecką, mocną, zapewniającą
bezpiec


In [61]:
print(text_eng[:1000])


Disclaimer J. K. Rowling owns Harry Potter, and no one owns the
methods of rationality.
This fic is widely considered to have really hit its stride
starting at around Chapter 5. If you still don't like it after
Chapter 10, give up.
Please visit HPMOR DOT COM for
* Easy email notification system, RSS feed, and Twitter feed for
new chapters;
* Current Author's Notes and progress updates;
* Lovely fanmade bookstyle PDF version;
* Adfree mirror of the text;
* ePUB and MOBI etexts;
* Ongoing podcast of the story;
* Fan art in vast quantities;
* Cameo list (characters named after fan artists);
* Fanfanfiction of this fanfiction;
* Fan music, songs, and animations;
* Fan translations;
* The OKCupid keyword for HPMOR readers;
* Links to TV Tropes page and discussion forum;
associations for some readers; to avoid spoilers for most readers,
* How to learn everything the main character knows;


In [62]:
print('długość polskiego tekstu:', len(text_pl))
print('długość angielskiego tekstu:', len(text_eng))

długość polskiego tekstu: 233131
długość angielskiego tekstu: 255326


In [63]:
tokenizer_pl = Tokenizer()
tokenizer_pl.train(text_pl)

In [64]:
for k, v in tokenizer_pl.vocab.items():
    if k > 256:
        print(k, v.decode('utf8'))

257 ł
258 , 
259 o 
260 ę
261 a 
262  p
263 rz
264  s
265 ż
266 ą
267 nie
268 


269 --
270 cz
271 ś
272  w
273 ał
274 . 
275 -- 
276 sz
277 dz
278  z
279 .


280 em
281 st
282 ó
283 ni
284 na
285 ch
286 ię
287 ow
288 e 
289 ć
290 y 
291 ro
292 ra
293 i 
294 je
295 rze
296 le
297  d
298 .

-- 
299  m
300  t
301 li
302 go 
303 on
304 by
305 od
306 ak
307 an
308 rzy
309 am
310 ci
311 wi
312 na 
313 dzi
314  się
315 ry
316   
317 ar
318 , ż
319 po
320 ob
321 ad
322 er
323 sk
324 en
325 or
326 ej
327 cie
328 ka
329 ta
330 dzie
331  po
332 kt
333 ko
334 ów
335  je
336 był
337 czy
338 ego 
339  nie
340 at
341 wie
342 mi
343  na
344 oś
345  wy
346 ją
347 gł
348 , że 
349  za
350 wy
351  na 
352 ny
353 ir
354 do
355 go


In [2]:
tokens = tokenizer_pl.encode(text_pl)
print('długość polskiego tekstu:', len(text_pl))
print('długość polskiego tekstu w bajtach:', len(list(text_pl.encode('utf8'))))
print('liczba tokenów po tokenizacji:', len(tokens))

NameError: name 'tokenizer_pl' is not defined

In [None]:
assert len(tokens)==148913

#### Powtórz powyższe dla tekstu angielskiego
* utwórz obiekt tokenizer_eng
* naucz tokenizer_eng na tekście angielskim
* wypisz słownik tokenów
* tokenizuj tekst angielski
* wypisz długość tekstu w bajtach i liczbę tokenów


In [66]:
# TODO: Utworzyć obiekt tokenizer_eng i nauczyć go na tekście angielskim

In [68]:
# TODO: Wyświetlić słownik tokenów

{0: b'\x00', 1: b'\x01', 2: b'\x02', 3: b'\x03', 4: b'\x04', 5: b'\x05', 6: b'\x06', 7: b'\x07', 8: b'\x08', 9: b'\t', 10: b'\n', 11: b'\x0b', 12: b'\x0c', 13: b'\r', 14: b'\x0e', 15: b'\x0f', 16: b'\x10', 17: b'\x11', 18: b'\x12', 19: b'\x13', 20: b'\x14', 21: b'\x15', 22: b'\x16', 23: b'\x17', 24: b'\x18', 25: b'\x19', 26: b'\x1a', 27: b'\x1b', 28: b'\x1c', 29: b'\x1d', 30: b'\x1e', 31: b'\x1f', 32: b' ', 33: b'!', 34: b'"', 35: b'#', 36: b'$', 37: b'%', 38: b'&', 39: b"'", 40: b'(', 41: b')', 42: b'*', 43: b'+', 44: b',', 45: b'-', 46: b'.', 47: b'/', 48: b'0', 49: b'1', 50: b'2', 51: b'3', 52: b'4', 53: b'5', 54: b'6', 55: b'7', 56: b'8', 57: b'9', 58: b':', 59: b';', 60: b'<', 61: b'=', 62: b'>', 63: b'?', 64: b'@', 65: b'A', 66: b'B', 67: b'C', 68: b'D', 69: b'E', 70: b'F', 71: b'G', 72: b'H', 73: b'I', 74: b'J', 75: b'K', 76: b'L', 77: b'M', 78: b'N', 79: b'O', 80: b'P', 81: b'Q', 82: b'R', 83: b'S', 84: b'T', 85: b'U', 86: b'V', 87: b'W', 88: b'X', 89: b'Y', 90: b'Z', 91: b'[',

In [69]:
# TODO: Tokenizować tekst angielski
# TODO: Wyświetlić długość tekstu w bajtach i liczbę tokenów

długość angielskiego tekstu: 255326
długość angielskiego tekstu w bajtach: 255326
liczba tokenów po tokenizacji: 151373


In [None]:
assert len(tokens)==151373

#### Wykonaj tokenizację tekstu polskiego z wykorzystaniem tokenizatora nauczonego na tekście angielskim
* wypisz długość tekstu w tokenach po tokenizacji angielskiego tokenizera
* wypisz długość tekstu w tokenach po tokenizacji polskiego tokenizera


In [76]:
# TODO: Wykonać tokenizację tekstu polskiego z wykorzystaniem tokenizatora nauczonego na tekście angielskim
# TODO: Wyświetlić długość tekstu w tokenach po tokenizacji angielskiego tokenizera
# TODO: Wyświetlić długość tekstu w tokenach po tokenizacji polskiego tokenizera


### Pytania
1. Jakie tokeny uzyskaliśmy dla uczenia na tekście angielskim? A jakie dla uczenia na tekście polskim? Czemu są różne?
2. Dla tekstu angielskiego liczba znaków i liczba bajtów jest taka sama. Dlaczego dla tekstu polskiego liczba bajtów jest większa?
3. Na końcu wykorzystujemy tokenizator nauczony na tekście angielskim do tokenizacji tekstu polskiego. Jak ocenisz wynik? Czemu liczba tokenów różni się od liczby tokenów uzyskanej przy tokenizacji z wykorzystaniem tokenizatora nauczonego na tekście polskim?