## Install Dependencies

In [None]:
# INSTALL DEPS ################################################################

!pip install mlable tokun

Collecting mlable
  Downloading mlable-0.7.4-py3-none-any.whl.metadata (4.7 kB)
Collecting tokun
  Downloading tokun-0.10.6-py3-none-any.whl.metadata (7.7 kB)
Downloading mlable-0.7.4-py3-none-any.whl (20 kB)
Downloading tokun-0.10.6-py3-none-any.whl (11 kB)
Installing collected packages: mlable, tokun
Successfully installed mlable-0.7.4 tokun-0.10.6


## Login To HF

In [None]:
# LOGIN HF ####################################################################

!huggingface-cli login


    _|    _|  _|    _|    _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|_|_|_|    _|_|      _|_|_|  _|_|_|_|
    _|    _|  _|    _|  _|        _|          _|    _|_|    _|  _|            _|        _|    _|  _|        _|
    _|_|_|_|  _|    _|  _|  _|_|  _|  _|_|    _|    _|  _|  _|  _|  _|_|      _|_|_|    _|_|_|_|  _|        _|_|_|
    _|    _|  _|    _|  _|    _|  _|    _|    _|    _|    _|_|  _|    _|      _|        _|    _|  _|        _|
    _|    _|    _|_|      _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|        _|    _|    _|_|_|  _|_|_|_|

    To login, `huggingface_hub` requires a token generated from https://huggingface.co/settings/tokens .
Enter your token (input will not be visible): 
Add token as git credential? (Y/n) n
Token is valid (permission: write).
Your token has been saved to /root/.cache/huggingface/token
Login successful


## Import Dependencies

In [None]:
# LOAD DEPS ###################################################################

import itertools
import math
import os
import urllib.request

import huggingface_hub as hh
import keras
import tensorflow as tf
import transformers as ht

import mlable.metrics

import tokun.evaluation
import tokun.huggingface
import tokun.meta
import tokun.model
import tokun.pipeline

In [None]:
print("Tensorflow version " + tf.__version__)

Tensorflow version 2.15.0


## Setup the GPU / TPU

In [None]:
# DEVICES #####################################################################

tf.debugging.set_log_device_placement(False)

CPU = tf.config.list_logical_devices('CPU')
GPU = tf.config.list_logical_devices('GPU')
TPU = tf.config.list_logical_devices('TPU')

if TPU:
    RESOLVER = tf.distribute.cluster_resolver.TPUClusterResolver()
    tf.config.experimental_connect_to_cluster(RESOLVER)
    tf.tpu.experimental.initialize_tpu_system(RESOLVER)
    DISTRIBUTION_STRATEGY = tf.distribute.TPUStrategy(RESOLVER)
elif GPU:
    DISTRIBUTION_STRATEGY = tf.distribute.MirroredStrategy(GPU)
else:
    DISTRIBUTION_STRATEGY = tf.distribute.MirroredStrategy(CPU)

print(DISTRIBUTION_STRATEGY)

<tensorflow.python.distribute.mirrored_strategy.MirroredStrategy object at 0x78d1cf7d8e50>


## Defining The Metadata

In [None]:
# TOGGLE ######################################################################

BINARY = True

In [None]:
# META ########################################################################

N_SEQUENCE_AXIS = 1
N_FEATURE_AXIS = -1

N_TOKEN_DIM = [16, 4] # G, for each block
N_INPUT_DIM = 256 # U_i (bytes)
N_OUTPUT_DIM = 8 if BINARY else 256 # U_o (8 bits)
N_EMBEDDING_DIM = 256 # E
N_SEQUENCE_DIM = 512

OUTPUT = 'binary' if BINARY else 'categorical'

In [None]:
# DERIVED #####################################################################

N_TOKEN_SIZES = list(itertools.accumulate(N_TOKEN_DIM, lambda x, y: x * y)) # in bytes

VERSION = tokun.meta.version(token_units=N_TOKEN_DIM, sequence_axis=N_SEQUENCE_AXIS, input_dim=N_INPUT_DIM, embed_dim=N_EMBEDDING_DIM, output_dim=N_OUTPUT_DIM)
LABEL = '2.1'

URL_IMPORT = 'https://github.com/apehex/tokun/raw/main/models/{}/{}/{}/{}.keras'.format(*VERSION, LABEL)

PATH_IMPORT = 'model.keras'
PATH_EXPORT = os.path.join('variants/', *VERSION[:2])

## Download The Model

In [None]:
# DOWNLOAD ###################################################################

urllib.request.urlretrieve(URL_IMPORT, PATH_IMPORT)

('model.keras', <http.client.HTTPMessage at 0x78d09070dcf0>)

## Init

In [None]:
# TOKENIZER ###################################################################

TOKENIZER = tokun.huggingface.ByteTokenizer(vocab_size=256, split_special_tokens=True)

In [None]:
# METRICS #####################################################################

_Accuracy = mlable.metrics.BinaryGroupAccuracy if BINARY else mlable.metrics.CategoricalGroupAccuracy
_Loss = tf.keras.losses.BinaryCrossentropy if BINARY else tf.keras.losses.CategoricalCrossentropy

In [None]:
# MODEL #######################################################################

with DISTRIBUTION_STRATEGY.scope():
    # metrics
    byte_accuracy = _Accuracy(group=1, name='byte_accuracy')
    character_accuracy = _Accuracy(group=4, name='character_accuracy')
    token_accuracy = _Accuracy(group=N_TOKEN_SIZES[-1], name='token_accuracy')
    # weights and config
    MODEL = tf.keras.models.load_model(PATH_IMPORT, compile=False)
    # compilation
    MODEL.compile(
        optimizer=tf.keras.optimizers.Adam(learning_rate=0.0001),
        loss=_Loss(from_logits=False, label_smoothing=0., axis=-1, reduction=tf.keras.losses.Reduction.SUM_OVER_BATCH_SIZE, name='loss'),
        metrics=[byte_accuracy, character_accuracy, token_accuracy])


In [None]:
# SPECIFY IO ##################################################################

__inputs = tf.keras.layers.Input(shape=(math.prod(N_TOKEN_DIM) * N_SEQUENCE_DIM,), dtype=tf.int32)

__outputs = MODEL._encoder(__inputs)
__outputs = MODEL._decoder(__outputs)

TOKUN = tf.keras.models.Model(__inputs, __outputs)

In [None]:
MODEL.summary()
TOKUN.summary()

Model: "auto_encoder_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 encoder_3 (Encoder)         (None, 512, 256)          1377792   
                                                                 
 decoder_3 (Decoder)         (None, 32768, 8)          1318920   
                                                                 
Total params: 2696712 (10.29 MB)
Trainable params: 2696712 (10.29 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
Model: "model_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_4 (InputLayer)        [(None, 32768)]           0         
                                                                 
 encoder_3 (Encoder)         (None, 512, 256)          1377792   
                                                             

## Check The Model And Tokenizer

In [None]:
# SAMPLE ######################################################################

__s = """위키백과, 우리 모두의 백과사전.\nt-분포 확률적 임베딩(t-SNE)은 데이터의 차원 축소에 사용되는 기계 학습 알고리즘 중 하나로, 2002년 샘 로이스Sam Rowise와 제프리 힌튼에 의해 개발되었다.[1] t-SNE는 비선형 차원 축소 기법으로, 고차원 데이터를 특히 2, 3차원 등으로 줄여 가시화하는데에 유용하게 사용된다. 구체적으로 t-SNE는 비슷한 데이터는 근접한 2, 3차원의 지점으로, 다른 데이터는 멀리 떨어진 지점으로 맵핑한다."""

In [None]:
# UTF-32 TOKENIZATION #########################################################

__x = TOKENIZER.batch_encode_plus(batch_text_or_text_pairs=[__s], padding='max_length', max_length=math.prod(N_TOKEN_DIM) * N_SEQUENCE_DIM, add_special_tokens=False)
__x = tf.convert_to_tensor(__x['input_ids'])

In [None]:
# TEST THE DERIVED MODEL ######################################################

__e = TOKUN.layers[1](__x) # encoder
__p = TOKUN.layers[2](__e) # decoder
__y = tokun.pipeline.postprocess(__p, binary=BINARY, random=False)
__o = tokun.pipeline.unpack(__y)

In [None]:
print(tokun.evaluation.compare(__s, __o[0]))
print(__s)
print(__o[0])

0.7777777777777778
위키백과, 우리 모두의 백과사전.
t-분포 확률적 임베딩(t-SNE)은 데이터의 차원 축소에 사용되는 기계 학습 알고리즘 중 하나로, 2002년 샘 로이스Sam Rowise와 제프리 힌튼에 의해 개발되었다.[1] t-SNE는 비선형 차원 축소 기법으로, 고차원 데이터를 특히 2, 3차원 등으로 줄여 가시화하는데에 유용하게 사용된다. 구체적으로 t-SNE는 비슷한 데이터는 근접한 2, 3차원의 지점으로, 다른 데이터는 멀리 떨어진 지점으로 맵핑한다.
𜜄키백과, 우릨𐀠모두의𐀠백껼삈𜠄.
t-분포 𝙕률적 임베𛔩(𐁴-S𐁎E)은 데이터의𐀠차원 𜶕소에 삭𜚩되는 기계 𝕙습 알𚣠리즘𐀠중 하나𛡜, 2𐀰02년𐀠샘 로𜝴스S𐁡m Ro𐁷ise𜙀 제프리𐀠힌튺에 의해𐀠𚰜발되𜗈다.[𐀱] t-SNE𛊔 비선𜘕 차원 축소 기뢕으로, 뻠차𜛐 데이터를 특𞞈 𐀲𐂬 3차원 𛃱으로 줄여 𚸀𜋜화하𛊔데에 𜜠용하게𐀠사용된다. 구체적으로 t-S𐁎E는 비슷한 데이터는𐀠근접한 2, 𐀳차원의𐀠지점으𛡜, 다𛥸 데이터는 멀릭 떨어𜧄 지점𼜽𛡜 𛧵핑한다.𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   𐀀   

## Export

In [None]:
# INIT HF API #################################################################

API = hh.HfApi()

In [None]:
# TOKENIZER ###################################################################

TOKENIZER.save_pretrained(save_directory='tokenizer/')
API.upload_folder(repo_id='apehex/tokun', folder_path='tokenizer/', path_in_repo='tokenizer/')

CommitInfo(commit_url='https://huggingface.co/apehex/tokun/commit/f72da972e5abfffb09d8d6a481dcbc7fe9e0841e', commit_message='Upload folder using huggingface_hub', commit_description='', oid='f72da972e5abfffb09d8d6a481dcbc7fe9e0841e', pr_url=None, pr_revision=None, pr_num=None)

In [None]:
# MODEL #######################################################################

hh.save_pretrained_keras(model=TOKUN, save_directory='model/', config=TOKUN.get_config())
API.upload_folder(repo_id='apehex/tokun', folder_path='model/', path_in_repo=PATH_EXPORT)



saved_model.pb:   0%|          | 0.00/768k [00:00<?, ?B/s]

fingerprint.pb:   0%|          | 0.00/55.0 [00:00<?, ?B/s]

Upload 3 LFS files:   0%|          | 0/3 [00:00<?, ?it/s]

variables.data-00000-of-00001:   0%|          | 0.00/6.61M [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/apehex/tokun/commit/b51dece23eff864e326ddb6fa14693ed96c3cbb8', commit_message='Upload folder using huggingface_hub', commit_description='', oid='b51dece23eff864e326ddb6fa14693ed96c3cbb8', pr_url=None, pr_revision=None, pr_num=None)

## Import And Check

In [None]:
# DOWNLOAD REPO ###############################################################

API.snapshot_download(repo_id='apehex/tokun', local_dir='tokun/')

Fetching 62 files:   0%|          | 0/62 [00:00<?, ?it/s]

.gitattributes:   0%|          | 0.00/2.24k [00:00<?, ?B/s]

variants/256x8/4x4x4/config.json:   0%|          | 0.00/1.07k [00:00<?, ?B/s]

fingerprint.pb:   0%|          | 0.00/55.0 [00:00<?, ?B/s]

variants/256x8/4x4x4/model.png:   0%|          | 0.00/6.32k [00:00<?, ?B/s]

saved_model.pb:   0%|          | 0.00/768k [00:00<?, ?B/s]

variants/256x8/4x4x4/README.md:   0%|          | 0.00/292 [00:00<?, ?B/s]

variables.data-00000-of-00001:   0%|          | 0.00/6.61M [00:00<?, ?B/s]

variants/256x8/4x4x4/keras_metadata.pb: 0.00B [00:00, ?B/s]

(…)ts/256x8/4x4x4/variables/variables.index:   0%|          | 0.00/1.64k [00:00<?, ?B/s]

'/content/tokun'

In [None]:
# MODEL #######################################################################

__tokun = hh.from_pretrained_keras(os.path.join('tokun/', PATH_EXPORT))

In [None]:
# TOKENIZER ###################################################################

__tokenizer = tokun.huggingface.ByteTokenizer()

In [None]:
# PREDICT #####################################################################

__s = """위키백과, 우리 모두의 백과사전.\nt-분포 확률적 임베딩(t-SNE)은 데이터의 차원 축소에 사용되는 기계 학습 알고리즘 중 하나로, 2002년 샘 로이스Sam Rowise와 제프리 힌튼에 의해 개발되었다.[1] t-SNE는 비선형 차원 축소 기법으로, 고차원 데이터를 특히 2, 3차원 등으로 줄여 가시화하는데에 유용하게 사용된다. 구체적으로 t-SNE는 비슷한 데이터는 근접한 2, 3차원의 지점으로, 다른 데이터는 멀리 떨어진 지점으로 맵핑한다."""

__x = __tokenizer.batch_encode_plus(batch_text_or_text_pairs=[__s], padding='max_length', max_length=math.prod(N_TOKEN_DIM) * N_SEQUENCE_DIM, add_special_tokens=False)
__x = tf.convert_to_tensor(__x['input_ids'])

__p = __tokun(__x)
__y = tokun.pipeline.postprocess(__p, binary=BINARY, random=False)
__o = tokun.pipeline.unpack(__y)

In [None]:
print(tokun.evaluation.compare(__s, __o[0]))
print(__s)
print(__o[0])

1.0
위키백과, 우리 모두의 백과사전.
t-분포 확률적 임베딩(t-SNE)은 데이터의 차원 축소에 사용되는 기계 학습 알고리즘 중 하나로, 2002년 샘 로이스Sam Rowise와 제프리 힌튼에 의해 개발되었다.[1] t-SNE는 비선형 차원 축소 기법으로, 고차원 데이터를 특히 2, 3차원 등으로 줄여 가시화하는데에 유용하게 사용된다. 구체적으로 t-SNE는 비슷한 데이터는 근접한 2, 3차원의 지점으로, 다른 데이터는 멀리 떨어진 지점으로 맵핑한다.
위키백과, 우리 모두의 백과사전.
t-분포 확률적 임베딩(t-SNE)은 데이터의 차원 축소에 사용되는 기계 학습 알고리즘 중 하나로, 2002년 샘 로이스Sam Rowise와 제프리 힌튼에 의해 개발되었다.[1] t-SNE는 비선형 차원 축소 기법으로, 고차원 데이터를 특히 2, 3차원 등으로 줄여 가시화하는데에 유용하게 사용된다. 구체적으로 t-SNE는 비슷한 데이터는 근접한 2, 3차원의 지점으로, 다른 데이터는 멀리 떨어진 지점으로 맵핑한다.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           

{'name': 'model_2',
 'trainable': True,
 'layers': ListWrapper([DictWrapper({'module': 'keras.layers', 'class_name': 'InputLayer', 'config': DictWrapper({'batch_input_shape': ListWrapper([None, 32768]), 'dtype': 'int32', 'sparse': False, 'ragged': False, 'name': 'input_3'}), 'registered_name': None, 'name': 'input_3', 'inbound_nodes': ListWrapper([])}), DictWrapper({'module': 'tokun.model', 'class_name': 'Encoder', 'config': DictWrapper({'token_dim': ListWrapper([4, 4, 4]), 'encoding_dim': 256, 'embedding_dim': 256, 'sequence_axis': 1, 'feature_axis': -1, 'activation': 'gelu'}), 'registered_name': 'models>Encoder', 'build_config': DictWrapper({'input_shape': ListWrapper([None, 1024])}), 'name': 'encoder_2', 'inbound_nodes': ListWrapper([ListWrapper([ListWrapper(['input_3', 0, 0, DictWrapper({})])])])}), DictWrapper({'module': 'tokun.model', 'class_name': 'Decoder', 'config': DictWrapper({'token_dim': ListWrapper([4, 4, 4]), 'encoding_dim': 8, 'embedding_dim': 256, 'sequence_axis': 1, '