![Henry Logo](https://www.soyhenry.com/_next/static/media/HenryLogo.bb57fd6f.svg)

# Introducción a las bases de datos vectoriales 
## Clase #1 : Tokens y representación de las palabras


In [1]:
from transformers import AutoTokenizer
import tiktoken
import warnings
warnings.filterwarnings('ignore')

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
### Auxiliary functions
colors = [
    '102;194;165', '252;141;98', '141;160;203',
    '231;138;195', '166;216;84', '255;217;47'
]
def show_tokens(sentence: str, tokenizer_name: str):
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
    token_ids = tokenizer(sentence).input_ids

    
    print(f"Vocab length: {len(tokenizer)}")

    # Print a colored list of tokens
    for idx, t in enumerate(token_ids):
        print(
            f'\x1b[0;30;48;2;{colors[idx % len(colors)]}m' +
            tokenizer.decode(t) +
            '\x1b[0m',
            end=' '
        )

In [3]:
sentence = """Dale a tu cuerpo alegría, Macarena
Que tu cuerpo es pa' darle alegría y cosa buena
Dale a tu cuerpo alegría, Macarena
Eh, Macarena (¡ay!)

Dale a tu cuerpo alegría, Macarena
Que tu cuerpo es pa' darle alegría y cosa buena
Dale a tu cuerpo alegría, Macarena
Eh, Macarena (¡ay!)

Macarena tiene un novio que se llama
Que se llama de apellido Vitorino
Que en la jura de bandera del muchacho
Se la dio con dos amigos (¡ay!)
"""

In [4]:
# Tokens con Bert
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
token_ids = tokenizer(sentence).input_ids
print(token_ids)
print(len(token_ids))

[101, 8238, 170, 189, 1358, 18780, 15615, 1186, 23280, 1403, 1197, 7171, 117, 6603, 8836, 1605, 27328, 189, 1358, 18780, 15615, 1186, 13936, 185, 1161, 112, 5358, 15576, 23280, 1403, 1197, 7171, 194, 1884, 3202, 171, 23404, 1161, 8238, 170, 189, 1358, 18780, 15615, 1186, 23280, 1403, 1197, 7171, 117, 6603, 8836, 1605, 142, 1324, 117, 6603, 8836, 1605, 113, 200, 170, 1183, 106, 114, 8238, 170, 189, 1358, 18780, 15615, 1186, 23280, 1403, 1197, 7171, 117, 6603, 8836, 1605, 27328, 189, 1358, 18780, 15615, 1186, 13936, 185, 1161, 112, 5358, 15576, 23280, 1403, 1197, 7171, 194, 1884, 3202, 171, 23404, 1161, 8238, 170, 189, 1358, 18780, 15615, 1186, 23280, 1403, 1197, 7171, 117, 6603, 8836, 1605, 142, 1324, 117, 6603, 8836, 1605, 113, 200, 170, 1183, 106, 114, 6603, 8836, 1605, 5069, 1673, 8362, 1185, 17417, 15027, 14516, 1325, 7363, 27328, 14516, 1325, 7363, 1260, 170, 10522, 17299, 1186, 159, 15419, 4559, 27328, 4035, 2495, 179, 4084, 1260, 1467, 5970, 3687, 1277, 7291, 1186, 22087, 2495, 4

In [5]:
for id in token_ids:
    print(tokenizer.decode(id))

[CLS]
Dale
a
t
##u
cue
##rp
##o
ale
##g
##r
##ía
,
Mac
##are
##na
Que
t
##u
cue
##rp
##o
es
p
##a
'
da
##rle
ale
##g
##r
##ía
y
co
##sa
b
##uen
##a
Dale
a
t
##u
cue
##rp
##o
ale
##g
##r
##ía
,
Mac
##are
##na
E
##h
,
Mac
##are
##na
(
¡
a
##y
!
)
Dale
a
t
##u
cue
##rp
##o
ale
##g
##r
##ía
,
Mac
##are
##na
Que
t
##u
cue
##rp
##o
es
p
##a
'
da
##rle
ale
##g
##r
##ía
y
co
##sa
b
##uen
##a
Dale
a
t
##u
cue
##rp
##o
ale
##g
##r
##ía
,
Mac
##are
##na
E
##h
,
Mac
##are
##na
(
¡
a
##y
!
)
Mac
##are
##na
tie
##ne
un
no
##vio
que
se
ll
##ama
Que
se
ll
##ama
de
a
##pel
##lid
##o
V
##itor
##ino
Que
en
la
j
##ura
de
band
##era
del
much
##ach
##o
Se
la
di
##o
con
dos
am
##igo
##s
(
¡
a
##y
!
)
[SEP]


In [6]:
colors = [
    '102;194;165', '252;141;98', '141;160;203',
    '231;138;195', '166;216;84', '255;217;47'
]

In [7]:
show_tokens(sentence, "bert-base-cased")

Vocab length: 28996
[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98mDale[0m [0;30;48;2;141;160;203ma[0m [0;30;48;2;231;138;195mt[0m [0;30;48;2;166;216;84m##u[0m [0;30;48;2;255;217;47mcue[0m [0;30;48;2;102;194;165m##rp[0m [0;30;48;2;252;141;98m##o[0m [0;30;48;2;141;160;203male[0m [0;30;48;2;231;138;195m##g[0m [0;30;48;2;166;216;84m##r[0m [0;30;48;2;255;217;47m##ía[0m [0;30;48;2;102;194;165m,[0m [0;30;48;2;252;141;98mMac[0m [0;30;48;2;141;160;203m##are[0m [0;30;48;2;231;138;195m##na[0m [0;30;48;2;166;216;84mQue[0m [0;30;48;2;255;217;47mt[0m [0;30;48;2;102;194;165m##u[0m [0;30;48;2;252;141;98mcue[0m [0;30;48;2;141;160;203m##rp[0m [0;30;48;2;231;138;195m##o[0m [0;30;48;2;166;216;84mes[0m [0;30;48;2;255;217;47mp[0m [0;30;48;2;102;194;165m##a[0m [0;30;48;2;252;141;98m'[0m [0;30;48;2;141;160;203mda[0m [0;30;48;2;231;138;195m##rle[0m [0;30;48;2;166;216;84male[0m [0;30;48;2;255;217;47m##g[0m [0;30;48;2;102;194;165m##r[0m [0;30

### Cambiando al modelo de OpenAI

In [8]:
encoder = tiktoken.encoding_for_model("gpt-4o")
tokens = encoder.encode(sentence)
print(f"Tokens: {tokens}")
print(f"Cantidad de tokens: {len(tokens)}")


Tokens: [35, 1167, 261, 3334, 32793, 121438, 11, 8264, 115734, 198, 7674, 3334, 32793, 878, 2428, 6, 76886, 121438, 342, 28958, 29422, 198, 35, 1167, 261, 3334, 32793, 121438, 11, 8264, 115734, 198, 81446, 11, 8264, 115734, 350, 20407, 356, 52745, 35, 1167, 261, 3334, 32793, 121438, 11, 8264, 115734, 198, 7674, 3334, 32793, 878, 2428, 6, 76886, 121438, 342, 28958, 29422, 198, 35, 1167, 261, 3334, 32793, 121438, 11, 8264, 115734, 198, 81446, 11, 8264, 115734, 350, 20407, 356, 52745, 22922, 115734, 10647, 537, 160149, 661, 458, 69693, 198, 7674, 458, 69693, 334, 102709, 631, 2599, 2081, 198, 7674, 469, 557, 441, 2705, 334, 140758, 1083, 2009, 47349, 198, 1584, 557, 36049, 406, 3406, 27298, 350, 20407, 356, 52210]
Cantidad de tokens: 119


In [12]:
for id in tokens:
    print(id)

35
1167
261
3334
32793
121438
11
8264
115734
198
7674
3334
32793
878
2428
6
76886
121438
342
28958
29422
198
35
1167
261
3334
32793
121438
11
8264
115734
198
81446
11
8264
115734
350
20407
356
52745
35
1167
261
3334
32793
121438
11
8264
115734
198
7674
3334
32793
878
2428
6
76886
121438
342
28958
29422
198
35
1167
261
3334
32793
121438
11
8264
115734
198
81446
11
8264
115734
350
20407
356
52745
22922
115734
10647
537
160149
661
458
69693
198
7674
458
69693
334
102709
631
2599
2081
198
7674
469
557
441
2705
334
140758
1083
2009
47349
198
1584
557
36049
406
3406
27298
350
20407
356
52210


In [18]:
for id in tokens:
    words = encoder.decode([id])
    print(words.strip())

D
ale
a
tu
cuerpo
alegría
,
Mac
arena

Que
tu
cuerpo
es
pa
'
darle
alegría
y
cosa
buena

D
ale
a
tu
cuerpo
alegría
,
Mac
arena

Eh
,
Mac
arena
(
¡
ay
!)
D
ale
a
tu
cuerpo
alegría
,
Mac
arena

Que
tu
cuerpo
es
pa
'
darle
alegría
y
cosa
buena

D
ale
a
tu
cuerpo
alegría
,
Mac
arena

Eh
,
Mac
arena
(
¡
ay
!)
Mac
arena
tiene
un
novio
que
se
llama

Que
se
llama
de
apellido
V
itor
ino

Que
en
la
j
ura
de
bandera
del
much
acho

Se
la
dio
con
dos
amigos
(
¡
ay
!)
