<b>WandB Notes</b>

* Code save
* Logging (HTML)
* WandB conifg (run config)
* WandB callback (super?)
* run.save (model summary)



<div align="center">

# 🚀 Spearecode Preprocessing 🚀

</div>

<br>

Welcome to the **Spearecode Preprocessing Notebook**! This notebook will guide you through the necessary preprocessing steps to prepare a toy dataset for Language Model training. We will focus on making the dataset more suitable for training by performing the following steps:

1. 📚 **Loading the dataset**: We'll start by importing the dataset from a file or external source.
2. 📦 **Chunking the text**: The dataset will be divided into smaller chunks or segments, making it easier to process during training.
3. 💬 **Tokenization**: Each chunk of text will be split into individual tokens (words or subwords), which are the basic units for language models.
4. 📊 **Basic Exploratory Data Analysis (EDA)**: We'll analyze the dataset's characteristics, such as token frequency, to gain insights and identify potential issues.

After completing the preprocessing and EDA, the toy dataset will be converted into `TFRecords` format. This efficient binary format is designed for use with TensorFlow and will enable seamless integration with your Language Model training pipeline.

Let's dive in and start preprocessing the dataset! 🎉


<br><br>

<div align="center">

# 🌟 Table of Contents 🌟

</div>

---

0. [**Setup**](#setup)
1. [**Loading the Dataset**](#loading-the-dataset)
2. [**Chunking the Text**](#chunking-the-text)
3. [**Tokenization**](#tokenization)
4. [**Basic Exploratory Data Analysis (EDA)**](#basic-eda)
5. [**Converting to TFRecords**](#converting-to-tfrecords)

---



<br>

<div align="center">

## 🛠️ Setup <a name="setup"></a>

</div>

<br>

In this section, we'll import required libraries and methods from our utilities file. We will also define relevant paths and high level information we may need later. We also run a few basic Tensorflow setup steps to ensure optimal and reproducible runs.

In [3]:
# !pip install -q --upgrade tokenizer-viz
# !pip install -q --upgrade langchain
# !pip install -q --upgrade wandb

# Regular imports (native python and pypi packages)
import os
import sys
import random
import langchain
import numpy as np
import pandas as pd
from glob import glob
import tensorflow as tf
import sentencepiece as spm
from IPython.display import HTML, display
from tokenizer_viz import TokenVisualization
from tqdm.notebook import tqdm; tqdm.pandas()

# Add project root into path so imports work
PROJECT_DIR = os.path.dirname(os.getcwd())
sys.path.insert(0, PROJECT_DIR) 

import wandb
wandb.init(settings=wandb.Settings(code_dir=PROJECT_DIR))

# Our project imports
from spearecode.utils.preprocessing_utils import (
    load_from_txt_file, preprocess_shakespeare, save_to_txt_file, print_check_speare
)
from spearecode.utils.general_utils import (
    tf_xla_jit, tf_set_memory_growth, seed_it_all, flatten_l_o_l, print_ln
)
from spearecode.utils.filtering_utils import (
    save_ds_version, drop_str_from_col_names, pad_truncate_centered,
    get_metadata_df, check_chunks, tokenize, get_n_tokens,
    get_n_lines, get_n_chars
)
from spearecode.utils.tfrecord_utils import write_tfrecords, load_tfrecord_dataset


### DEFINE PATHS --- [PROJECT_DIR="/home/paperspace/home/spearecode"] --- ###
NBS_PATH = os.path.join(PROJECT_DIR, "nbs")
DATA_PATH = os.path.join(PROJECT_DIR, "data")
SS_TEXT_PATH = os.path.join(DATA_PATH, "t8.shakespeare.txt")
PREPROCESSED_FULL_TEXT_PATH = SS_TEXT_PATH.replace(".txt", "_preprocessed.txt")

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
[34m[1mwandb[0m: Paste an API key from your profile and hit enter, or press ctrl+c to quit:

  ········


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /home/paperspace/.netrc


<br>

<div align="center">

## 📚 Loading the Dataset <a name="loading-the-dataset"></a>

</div>

<br>

In this section, we'll import the dataset from a file or external source. The dataset will be read into memory, allowing us to manipulate and process the text as needed throughout the preprocessing steps.


In [36]:
raw_text = load_from_txt_file(SS_TEXT_PATH)
ss_text = preprocess_shakespeare(raw_text)
save_to_txt_file(ss_text, PREPROCESSED_FULL_TEXT_PATH)
print_check_speare(ss_text)


... DATASET INFO:
	NUMBER OF CHARS --> 5,419,872
	NUMBER OF LINES --> 120,696


... FIRST 1000 CHARACTERS:



1
  From fairest creatures we desire increase,
  That thereby beauty's rose might never die,
  But as the riper should by time decease,
  His tender heir might bear his memory:
  But thou contracted to thine own bright eyes,
  Feed'st thy light's flame with self-substantial fuel,
  Making a famine where abundance lies,
  Thy self thy foe, to thy sweet self too cruel:
  Thou that art now the world's fresh ornament,
  And only herald to the gaudy spring,
  Within thine own bud buriest thy content,
  And tender churl mak'st waste in niggarding:
    Pity the world, or else this glutton be,
    To eat the world's due, by the grave and thee.

2
  When forty winters shall besiege thy brow,
  And dig deep trenches in thy beauty's field,
  Thy youth's proud livery so gazed on now,
  Will be a tattered weed of small worth held:  
  Then being asked, where all thy beauty lies,
  Where al

<br>

<div align="center">

## 📦 Chunking the Text <a name="chunking-the-text"></a>

</div>

<br>

Once the dataset is loaded, we'll divide it into smaller chunks or segments. This step is crucial for making the dataset more similar to code files (which is the type of data we will be using during the other parallel streams).

I implement two simple methods:
1. A basic double newline split **(`\n\n`)** resulting in 6294 chunks
2. Using Langchain RecursiveTextSplitter to chunk to a particular text length
    * This allows us to specify our desired text length and even overlap the chunks.
        * Note we allow for a small amount of overlap and this may cause some leakage... but whatever.
    * **We will use this method for our purposes.**
    


In [37]:
def do_rcts_chunking(text, chunk_size=1280, chunk_overlap=428, length_fn=len):
    """
    Perform Recursive Character Text Splitting (RCTS) chunking on the input text.
    
    Args:
        text (str): The input text to be chunked.
        chunk_size (int): The maximum size of each chunk.
        chunk_overlap (int): The number of overlapping characters between adjacent chunks.
        length_fn (callable, optional): Function to calculate the length of the text. Defaults to len.
    
    Returns:
        list: A list of chunked text segments.
    """
    # Import the RecursiveCharacterTextSplitter from langchain.text_splitter module
    from langchain.text_splitter import RecursiveCharacterTextSplitter
    
    # Instantiate the text splitter with the specified parameters
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=length_fn,
    )
    
    # Split the input text into chunks
    docs = text_splitter.create_documents([text])
    
    # Return the list of chunked text segments
    return [x.page_content for x in docs if len(x.page_content)>1]

def do_basic_chunking(text, chunk_delimeter="\n\n", max_length=1800, min_length=600):
    """
    Perform basic chunking on the input text using the specified delimiter.
    
    Args:
        text (str): The input text to be chunked.
        chunk_delimeter (str, optional): The delimiter used to split the text. Defaults to "\n\n".
    
    Returns:
        list: A list of chunked text segments.
    """
    # Split the input text based on the specified delimiter (ensure no empty chunks by stripping from ends)
    raw_docs = text.strip(chunk_delimeter).split(chunk_delimeter)
    tmp_docs = []
    docs = []
    
    while len(raw_docs)>0:
        doc = raw_docs.pop()
        
        if len(doc)>max_length:
            raw_docs+=doc.split("\n")
        elif len(doc)<min_length:
            tmp_docs.append(doc)
        else:
            docs.append(doc)
            
        if len("\n".join(tmp_docs))>min_length:
            docs.append("\n".join(tmp_docs))
            tmp_docs = []
    if tmp_docs:
        docs.append("\n".join(tmp_docs))
    
    # Return the list of chunked text segments
    return docs

In [38]:
# Feel free to pass non-default kwargs 
#    -- otherwise the rcts chunks will overlap by 64 and be 512 characters long
CHUNK_STYLE = "rcts" # one of ['basic' | 'rcts']
basic_chunks = do_basic_chunking(ss_text)
rcts_chunks = do_rcts_chunking(ss_text)

print("\n... FIRST BASIC CHUNK ...\n")
print(basic_chunks[0])

print("\n... FIRST RCTS CHUNK ...\n")
print(rcts_chunks[0])

print("\n... EXAMPLE RANDOM BASIC CHUNK ...\n")
print(random.sample(basic_chunks, 1)[0])

print("\n... EXAMPLE RANDOM RCTS CHUNK ...\n")
print(random.sample(rcts_chunks, 1)[0])

print("\n... LAST BASIC CHUNK ...\n")
print(basic_chunks[-1])

print("\n... LAST RCTS CHUNK ...\n")
print(rcts_chunks[-1])



... FIRST BASIC CHUNK ...

  'O, that infected moisture of his eye,
  O, that false fire which in his cheek so glowed,
  O, that forced thunder from his heart did fly,
  O, that sad breath his spongy lungs bestowed,
  O, all that borrowed motion, seeming owed,
  Would yet again betray the fore-betrayed,
  And new pervert a reconciled maid.'
  'Thus merely with the garment of a Grace  
  The naked and concealed fiend he covered,
  That th' unexperient gave the tempter place,
  Which, like a cherubin, above them hovered.
  Who, young and simple, would not be so lovered?
  Ay me, I fell, and yet do question make
  What I should do again for such a sake.

... FIRST RCTS CHUNK ...

1
  From fairest creatures we desire increase,
  That thereby beauty's rose might never die,
  But as the riper should by time decease,
  His tender heir might bear his memory:
  But thou contracted to thine own bright eyes,
  Feed'st thy light's flame with self-substantial fuel,
  Making a famine where abundanc

wandb: Network error (ReadTimeout), entering retry loop.


<br>

<div align="center">

## 💬 Tokenization <a name="tokenization"></a>

</div>

<br>

In this section, we'll tokenize the text, which involves splitting the chunks into individual tokens (words or subwords). Tokenization is an essential step in preprocessing, as it helps the Language Model understand the basic units of the text and learn meaningful patterns.

* We will train our tokenizer on the non-chunked dataset (after basic preprocessing), however, we will 


In [42]:
# Setup model directory if not already setup
MODEL_DIR = os.path.join(os.path.dirname(DATA_PATH), "models")
if not os.path.isdir(MODEL_DIR): os.makedirs(MODEL_DIR, exist_ok=True)

# User defined parameters (matching alphafold and code tokenization standards)
MODEL_PATH = os.path.join(MODEL_DIR, 'spearecode')
USER_DEFINED_SYMBOLS = ["[MASK]", "[NL]"] # mask and newline replacement
VOCAB_SIZE = 8_000
CHAR_COVERAGE = 1.0000

# If using CLS token
PREPEND_CLS = False
if PREPEND_CLS: USER_DEFINED_SYMBOLS.append(["CLS"])


# Tokenizer parameters (and some defaults)
base_tokenizer_kwargs = dict(
    input = PREPROCESSED_FULL_TEXT_PATH,
    vocab_size=VOCAB_SIZE,
    character_coverage=CHAR_COVERAGE,
    pad_id=0, unk_id=1, bos_id=2, eos_id=3,
    remove_extra_whitespaces=False,
    allow_whitespace_only_pieces=True,
    add_dummy_prefix=False,
    user_defined_symbols=USER_DEFINED_SYMBOLS,
    normalization_rule_name="identity",
    num_threads=os.cpu_count(),
    minloglevel=2,
)

unigram_tokenizer_kwargs = base_tokenizer_kwargs.copy()
unigram_tokenizer_kwargs.update(dict(
    model_prefix=MODEL_PATH+"_uni",
    model_type="unigram",
))

bpe_tokenizer_kwargs = base_tokenizer_kwargs.copy()
bpe_tokenizer_kwargs.update(dict(
    model_prefix=MODEL_PATH+"_bpe",
    model_type="bpe",
))

# train_tokenizer(ALL_TXT_PATHS, MODEL_PATH, VOCAB_SIZE, TOKENIZER_STYLE)
spm.SentencePieceTrainer.Train(**unigram_tokenizer_kwargs)
spm.SentencePieceTrainer.Train(**bpe_tokenizer_kwargs)

sp_uni = spm.SentencePieceProcessor()
sp_uni.load(f'{unigram_tokenizer_kwargs["model_prefix"]}.model')
uni_encoder = lambda x: sp_uni.encode(x.replace("\n", "[NL]"))
uni_decoder = lambda x: sp_uni.decode(x).replace("[NL]", "\n")

sp_bpe = spm.SentencePieceProcessor()
sp_bpe.load(f'{bpe_tokenizer_kwargs["model_prefix"]}.model')
bpe_encoder = lambda x: sp_bpe.encode(x.replace("\n", "[NL]"))
bpe_decoder = lambda x: sp_bpe.decode(x).replace("[NL]", "\n")

In [45]:
print("\n... BPE TOKENIZATION:")
bpe_token_viz = TokenVisualization(
    encoder=bpe_encoder,
    decoder=bpe_decoder,
    background_color="#FBFBFB"
)
_ = bpe_token_viz.visualize(rcts_chunks[0], display_inline=True)

print("\n... UNIGRAM TOKENIZATION:")
uni_token_viz = TokenVisualization(
    encoder=uni_encoder,
    decoder=uni_decoder,
    background_color="#FBFBFB"
)
_ = uni_token_viz.visualize(rcts_chunks[0], display_inline=True)


### FOR FUN AND VIZ ###
print("\n... CHAR TOKENIZATION:")
dumb_char_map_s2i = {x:i for i, x in enumerate(set(basic_chunks[0]))}
dumb_char_map_i2s = {v:k for k,v in dumb_char_map_s2i.items()}
char_token_viz = TokenVisualization(
    encoder=lambda x: [dumb_char_map_s2i.get(_x) for _x in x] if type(x)==str else dumb_char_map_s2i.get(x),
    decoder=lambda x: "".join([dumb_char_map_i2s.get(_x) for _x in x]) if type(x)==list else dumb_char_map_i2s.get(x),
    background_color="#FBFBFB"
)
_ = char_token_viz.visualize(basic_chunks[0], display_inline=True)


... BPE TOKENIZATION:



... UNIGRAM TOKENIZATION:



... CHAR TOKENIZATION:


<br>

<div align="center">

## 📊 Basic Exploratory Data Analysis (EDA) <a name="basic-eda"></a>

</div>

<br>

Here, we'll perform a basic EDA on the dataset to gain insights and identify potential issues. This analysis may include examining token frequency, distribution of chunk lengths, and other relevant characteristics. This information can be helpful in understanding the dataset's structure and guiding further preprocessing decisions.

We will utilize the metadata columns we create to create different versions of the dataset:

<br>

<table>
  <thead>
    <tr>
      <th style="text-align: center; font-weight: bold; width: 15%;">Version</th>
      <th style="text-align: center; font-weight: bold; width: 85%;">Description</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td style="text-align: center;"><strong>v1</strong></td>
        <td>No filtering, no chunks removed. We just generate metadata and (optional) prepend a <b>[CLS]</b> token to every chunk.</td>
    </tr>
    <tr>
      <td style="text-align: center;"><strong>v2</strong></td>
      <td>Split into individual datasets for bpe, unigram within each chunking technique (4 datasets total)<br>Rename columns to not specify tokenization method to allow for more generalization across interaction</td>
    </tr>
    <tr>
      <td style="text-align: center;"><strong>v3</strong></td>
      <td>Drop small chunks<br>Drop really big chunks</td>
    </tr>
    <tr>
      <td style="text-align: center;"><strong>v4</strong></td>
      <td>Evenly pad/truncated tokenized sequences up to reasonable length (close to max length --> 90th percentile?)</td>
    </tr>
  </tbody>
</table>

<br>



In [46]:
# 1. Setup - Create directories if necessary    
DATASET_DIR = os.path.join(DATA_PATH, "datasets")
if not os.path.isdir(DATASET_DIR): os.makedirs(DATASET_DIR, exist_ok=True)
META_DIR = os.path.join(DATASET_DIR, "meta")
if not os.path.isdir(META_DIR): os.makedirs(META_DIR, exist_ok=True)


# 2. Dataframe and metadata creation
#       - Instantiate
#       - Create metadata columns
#       - Create metadata dataframe (optional)
basic_chunk_df = pd.DataFrame({"content":basic_chunks})
rcts_chunk_df = pd.DataFrame({"content":rcts_chunks})

for _df in [basic_chunk_df, rcts_chunk_df]:
    if PREPEND_CLS: _df["content"] = "[CLS] "+_df["content"]
    _df["uni_token_content"] = _df["content"].progress_apply(lambda x: tokenize(x, uni_encoder))
    _df["bpe_token_content"] = _df["content"].progress_apply(lambda x: tokenize(x, bpe_encoder))
    _df["n_uni_tokens"] = _df["uni_token_content"].apply(get_n_tokens)
    _df["n_bpe_tokens"] = _df["bpe_token_content"].apply(get_n_tokens)
    _df["n_chars"] = _df["content"].apply(get_n_chars)
    _df["n_lines"] = _df["content"].apply(get_n_lines)
    _df["valid_uni_chunk"] = _df["n_uni_tokens"].apply(check_chunks)
    _df["valid_bpe_chunk"] = _df["n_bpe_tokens"].apply(check_chunks)

basic_chunk_df_meta = get_metadata_df(basic_chunk_df)
rcts_chunk_df_meta = get_metadata_df(rcts_chunk_df)


# 3. Versioning
    
######################################## v1 ########################################
# Save the previously created datasets along with the manually created metadata
####################################################################################
save_ds_version(rcts_chunk_df, "rcts", version_str="v1", meta_dir=META_DIR, ds_dir=DATASET_DIR, meta_df=rcts_chunk_df_meta)
save_ds_version(basic_chunk_df, "basic", version_str="v1", meta_dir=META_DIR, ds_dir=DATASET_DIR, meta_df=basic_chunk_df_meta)
####################################################################################

######################################## v2 ########################################
# Split bpe and unigram into their own dataframes (meta is generated automatically)
####################################################################################
rcts_uni_chunk_df = rcts_chunk_df.copy().drop(columns=[_c for _c in rcts_chunk_df.columns if "bpe" in _c])
basic_uni_chunk_df = basic_chunk_df.copy().drop(columns=[_c for _c in basic_chunk_df.columns if "bpe" in _c])
rcts_bpe_chunk_df = rcts_chunk_df.copy().drop(columns=[_c for _c in rcts_chunk_df.columns if "uni" in _c])
basic_bpe_chunk_df = basic_chunk_df.copy().drop(columns=[_c for _c in basic_chunk_df.columns if "uni" in _c])

# Rename columns
rcts_uni_chunk_df = drop_str_from_col_names(rcts_uni_chunk_df, "uni")
rcts_bpe_chunk_df = drop_str_from_col_names(rcts_bpe_chunk_df, "bpe")
basic_uni_chunk_df = drop_str_from_col_names(basic_uni_chunk_df, "uni")
basic_bpe_chunk_df = drop_str_from_col_names(basic_bpe_chunk_df, "bpe")

save_ds_version(rcts_uni_chunk_df, "rcts_uni", version_str="v2", meta_dir=META_DIR, ds_dir=DATASET_DIR)
save_ds_version(rcts_bpe_chunk_df, "rcts_bpe", version_str="v2", meta_dir=META_DIR, ds_dir=DATASET_DIR)
save_ds_version(basic_uni_chunk_df, "basic_uni", version_str="v2", meta_dir=META_DIR, ds_dir=DATASET_DIR)
save_ds_version(basic_bpe_chunk_df, "basic_bpe", version_str="v2", meta_dir=META_DIR, ds_dir=DATASET_DIR)
####################################################################################

######################################## v3 ########################################
# Filtering (big and little get dropped)
####################################################################################

# Filter and drop valid chunk col
for _df in [rcts_uni_chunk_df, rcts_bpe_chunk_df, basic_uni_chunk_df, basic_bpe_chunk_df]:
    _df = _df[_df.valid_chunk].drop(columns=["valid_chunk"]).reset_index(drop=True)

# Save
save_ds_version(rcts_uni_chunk_df, "rcts_uni", version_str="v3", meta_dir=META_DIR, ds_dir=DATASET_DIR)
save_ds_version(rcts_bpe_chunk_df, "rcts_bpe", version_str="v3", meta_dir=META_DIR, ds_dir=DATASET_DIR)
save_ds_version(basic_uni_chunk_df, "basic_uni", version_str="v3", meta_dir=META_DIR, ds_dir=DATASET_DIR)
save_ds_version(basic_bpe_chunk_df, "basic_bpe", version_str="v3", meta_dir=META_DIR, ds_dir=DATASET_DIR)
####################################################################################

# ######################################## v4 ########################################
# # Padding and truncation --> basic upper limit of 384 (assuming context lengths of 64-128)
# ####################################################################################
FIXED_CHUNK_SIZE = 384

for _df in [rcts_uni_chunk_df, rcts_bpe_chunk_df, basic_uni_chunk_df, basic_bpe_chunk_df]:
    _df["token_content"] = _df["token_content"].apply(lambda x: pad_truncate_centered(x, FIXED_CHUNK_SIZE))

save_ds_version(rcts_uni_chunk_df, "rcts_uni", version_str="v4", meta_dir=META_DIR, ds_dir=DATASET_DIR)
save_ds_version(rcts_bpe_chunk_df, "rcts_bpe", version_str="v4", meta_dir=META_DIR, ds_dir=DATASET_DIR)
save_ds_version(basic_uni_chunk_df, "basic_uni", version_str="v4", meta_dir=META_DIR, ds_dir=DATASET_DIR)
save_ds_version(basic_bpe_chunk_df, "basic_bpe", version_str="v4", meta_dir=META_DIR, ds_dir=DATASET_DIR)
# ####################################################################################

  0%|          | 0/7770 [00:00<?, ?it/s]

  0%|          | 0/7770 [00:00<?, ?it/s]

  0%|          | 0/6986 [00:00<?, ?it/s]

  0%|          | 0/6986 [00:00<?, ?it/s]

<br>

<div align="center">

## 💾 Converting to TFRecords <a name="converting-to-tfrecords"></a>

</div>

<br>

Finally, after completing the preprocessing steps and EDA, we'll convert the toy dataset into the `TFRecords` format. This efficient binary format is designed for use with TensorFlow and will enable seamless integration with your Language Model training pipeline.



In [50]:
# Define tfrecord creation constants
TFRECORD_DIR = os.path.join(DATASET_DIR, "tfrecords")
N_PER = 100 # artificially low to replicate tfrecord amounts expected
VERSION_TO_USE = "v4"

for _df, _suffix in zip([rcts_uni_chunk_df, rcts_bpe_chunk_df, basic_uni_chunk_df, basic_bpe_chunk_df], 
                        ["rcts_uni", "rcts_bpe", "basic_uni", "basic_bpe"]):
    # Create the respective tfrecords
    write_tfrecords(
        ds=_df["token_content"],  n_ex=len(_df),  
        output_suffix=_suffix,  version_str=VERSION_TO_USE, 
        n_ex_per_rec=N_PER, out_dir=TFRECORD_DIR, 
    )

Writing TFRecords:   0%|                                                                  | 0/70 [00:00<?, ?it/s]


... Writing TFRecord 1 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15392.51it/s][A



... Writing TFRecord 2 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13807.50it/s][A



... Writing TFRecord 3 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14012.31it/s][A



... Writing TFRecord 4 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14209.31it/s][A



... Writing TFRecord 5 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14185.76it/s][A



... Writing TFRecord 6 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14098.97it/s][A



... Writing TFRecord 7 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14185.76it/s][A



... Writing TFRecord 8 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14314.54it/s][A



... Writing TFRecord 9 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15328.38it/s][A



... Writing TFRecord 10 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14380.80it/s][A
Writing TFRecords:  14%|████████▏                                                | 10/70 [00:00<00:00, 95.08it/s]


... Writing TFRecord 11 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14547.90it/s][A



... Writing TFRecord 12 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14664.37it/s][A



... Writing TFRecord 13 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13666.68it/s][A



... Writing TFRecord 14 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13754.52it/s][A



... Writing TFRecord 15 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14984.47it/s][A



... Writing TFRecord 16 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13738.30it/s][A



... Writing TFRecord 17 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13908.23it/s][A



... Writing TFRecord 18 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13887.04it/s][A



... Writing TFRecord 19 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13980.08it/s][A



... Writing TFRecord 20 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14900.90it/s][A
Writing TFRecords:  29%|████████████████▎                                        | 20/70 [00:00<00:00, 95.55it/s]


... Writing TFRecord 21 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14185.76it/s][A



... Writing TFRecord 22 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12826.62it/s][A



... Writing TFRecord 23 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15717.24it/s][A



... Writing TFRecord 24 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15574.26it/s][A



... Writing TFRecord 25 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14058.33it/s][A



... Writing TFRecord 26 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13336.84it/s][A



... Writing TFRecord 27 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14065.88it/s][A



... Writing TFRecord 28 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13907.30it/s][A



... Writing TFRecord 29 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14475.60it/s][A



... Writing TFRecord 30 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13783.45it/s][A
Writing TFRecords:  43%|████████████████████████▍                                | 30/70 [00:00<00:00, 93.91it/s]


... Writing TFRecord 31 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13865.01it/s][A



... Writing TFRecord 32 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13881.53it/s][A



... Writing TFRecord 33 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13721.67it/s][A



... Writing TFRecord 34 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13239.18it/s][A



... Writing TFRecord 35 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13812.96it/s][A



... Writing TFRecord 36 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13923.93it/s][A



... Writing TFRecord 37 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13602.41it/s][A



... Writing TFRecord 38 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14000.61it/s][A



... Writing TFRecord 39 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13692.56it/s][A



... Writing TFRecord 40 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13925.31it/s][A
Writing TFRecords:  57%|████████████████████████████████▌                        | 40/70 [00:00<00:00, 93.84it/s]


... Writing TFRecord 41 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13881.53it/s][A



... Writing TFRecord 42 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13712.25it/s][A



... Writing TFRecord 43 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14179.53it/s][A



... Writing TFRecord 44 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13920.69it/s][A



... Writing TFRecord 45 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13952.18it/s][A



... Writing TFRecord 46 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13683.62it/s][A



... Writing TFRecord 47 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13379.39it/s][A



... Writing TFRecord 48 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13230.41it/s][A



... Writing TFRecord 49 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13329.21it/s][A



... Writing TFRecord 50 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13400.33it/s][A
Writing TFRecords:  71%|████████████████████████████████████████▋                | 50/70 [00:00<00:00, 93.31it/s]


... Writing TFRecord 51 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13759.94it/s][A



... Writing TFRecord 52 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13439.84it/s][A



... Writing TFRecord 53 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13574.24it/s][A



... Writing TFRecord 54 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13554.50it/s][A



... Writing TFRecord 55 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13891.18it/s][A



... Writing TFRecord 56 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14032.47it/s][A



... Writing TFRecord 57 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13811.14it/s][A



... Writing TFRecord 58 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14142.23it/s][A



... Writing TFRecord 59 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13703.29it/s][A



... Writing TFRecord 60 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14111.78it/s][A
Writing TFRecords:  86%|████████████████████████████████████████████████▊        | 60/70 [00:00<00:00, 92.92it/s]


... Writing TFRecord 61 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13867.76it/s][A



... Writing TFRecord 62 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13998.28it/s][A



... Writing TFRecord 63 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14160.86it/s][A



... Writing TFRecord 64 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14318.94it/s][A



... Writing TFRecord 65 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14489.60it/s][A



... Writing TFRecord 66 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14055.04it/s][A



... Writing TFRecord 67 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13888.88it/s][A



... Writing TFRecord 68 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14504.13it/s][A



... Writing TFRecord 69 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13943.83it/s][A



... Writing TFRecord 70 of 70 (100 per TFRecord)...




 86%|█████████████████████████████████████████████████████████████▉          | 86/100 [00:00<00:00, 13939.95it/s][A
Writing TFRecords: 100%|█████████████████████████████████████████████████████████| 70/70 [00:00<00:00, 93.98it/s]
Writing TFRecords:   0%|                                                                  | 0/70 [00:00<?, ?it/s]


... Writing TFRecord 1 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13357.66it/s][A



... Writing TFRecord 2 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13958.21it/s][A



... Writing TFRecord 3 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13952.18it/s][A



... Writing TFRecord 4 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14300.39it/s][A



... Writing TFRecord 5 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14377.35it/s][A



... Writing TFRecord 6 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14359.14it/s][A



... Writing TFRecord 7 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13963.79it/s][A



... Writing TFRecord 8 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13471.35it/s][A



... Writing TFRecord 9 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14104.19it/s][A



... Writing TFRecord 10 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13059.45it/s][A
Writing TFRecords:  14%|████████▏                                                | 10/70 [00:00<00:00, 99.32it/s]


... Writing TFRecord 11 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14614.81it/s][A



... Writing TFRecord 12 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14756.21it/s][A



... Writing TFRecord 13 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13493.88it/s][A



... Writing TFRecord 14 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15060.34it/s][A



... Writing TFRecord 15 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14557.49it/s][A



... Writing TFRecord 16 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13720.78it/s][A



... Writing TFRecord 17 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14474.60it/s][A



... Writing TFRecord 18 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14621.94it/s][A



... Writing TFRecord 19 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14365.04it/s][A



... Writing TFRecord 20 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14301.36it/s][A



... Writing TFRecord 21 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14430.77it/s][A
Writing TFRecords:  30%|████████████████▊                                       | 21/70 [00:00<00:00, 101.11it/s]


... Writing TFRecord 22 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14133.18it/s][A



... Writing TFRecord 23 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14617.86it/s][A



... Writing TFRecord 24 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14576.21it/s][A



... Writing TFRecord 25 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14020.74it/s][A



... Writing TFRecord 26 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14363.56it/s][A



... Writing TFRecord 27 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14397.58it/s][A



... Writing TFRecord 28 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14147.96it/s][A



... Writing TFRecord 29 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13741.00it/s][A



... Writing TFRecord 30 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13538.75it/s][A



... Writing TFRecord 31 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13496.06it/s][A



... Writing TFRecord 32 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14211.72it/s][A
Writing TFRecords:  46%|█████████████████████████▌                              | 32/70 [00:00<00:00, 100.82it/s]


... Writing TFRecord 33 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13796.60it/s][A



... Writing TFRecord 34 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13413.62it/s][A



... Writing TFRecord 35 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13447.59it/s][A



... Writing TFRecord 36 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13922.08it/s][A



... Writing TFRecord 37 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13383.23it/s][A



... Writing TFRecord 38 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14774.40it/s][A



... Writing TFRecord 39 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14996.80it/s][A



... Writing TFRecord 40 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12994.31it/s][A



... Writing TFRecord 41 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13725.72it/s][A



... Writing TFRecord 42 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14362.09it/s][A



... Writing TFRecord 43 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15223.78it/s][A
Writing TFRecords:  61%|██████████████████████████████████▍                     | 43/70 [00:00<00:00, 100.52it/s]


... Writing TFRecord 44 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12983.85it/s][A



... Writing TFRecord 45 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14257.61it/s][A



... Writing TFRecord 46 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14127.47it/s][A



... Writing TFRecord 47 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13942.44it/s][A



... Writing TFRecord 48 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15018.28it/s][A



... Writing TFRecord 49 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14106.56it/s][A



... Writing TFRecord 50 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13905.00it/s][A



... Writing TFRecord 51 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14310.15it/s][A



... Writing TFRecord 52 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12958.98it/s][A



... Writing TFRecord 53 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13593.16it/s][A



... Writing TFRecord 54 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13582.15it/s][A
Writing TFRecords:  77%|███████████████████████████████████████████▉             | 54/70 [00:00<00:00, 98.41it/s]


... Writing TFRecord 55 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14248.41it/s][A



... Writing TFRecord 56 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14196.32it/s][A



... Writing TFRecord 57 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13869.59it/s][A



... Writing TFRecord 58 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14020.27it/s][A



... Writing TFRecord 59 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14197.77it/s][A



... Writing TFRecord 60 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13797.05it/s][A



... Writing TFRecord 61 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13947.54it/s][A



... Writing TFRecord 62 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13429.08it/s][A



... Writing TFRecord 63 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13752.27it/s][A



... Writing TFRecord 64 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12973.41it/s][A
Writing TFRecords:  91%|████████████████████████████████████████████████████     | 64/70 [00:00<00:00, 97.84it/s]


... Writing TFRecord 65 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13807.50it/s][A



... Writing TFRecord 66 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13072.48it/s][A



... Writing TFRecord 67 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12944.98it/s][A



... Writing TFRecord 68 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13137.99it/s][A



... Writing TFRecord 69 of 70 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13277.74it/s][A



... Writing TFRecord 70 of 70 (100 per TFRecord)...




 86%|█████████████████████████████████████████████████████████████▉          | 86/100 [00:00<00:00, 13589.14it/s][A
Writing TFRecords: 100%|█████████████████████████████████████████████████████████| 70/70 [00:00<00:00, 98.52it/s]
Writing TFRecords:   0%|                                                                  | 0/78 [00:00<?, ?it/s]


... Writing TFRecord 1 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12826.23it/s][A



... Writing TFRecord 2 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13934.10it/s][A



... Writing TFRecord 3 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14220.87it/s][A



... Writing TFRecord 4 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15879.70it/s][A



... Writing TFRecord 5 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13883.83it/s][A



... Writing TFRecord 6 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13286.15it/s][A



... Writing TFRecord 7 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13826.62it/s][A



... Writing TFRecord 8 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14413.42it/s][A


... Writing TFRecord 9 of 78 (100 per TFRecord)...





100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13534.82it/s][A



... Writing TFRecord 10 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13983.81it/s][A
Writing TFRecords:  13%|███████▎                                                 | 10/78 [00:00<00:00, 96.61it/s]


... Writing TFRecord 11 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14024.96it/s][A



... Writing TFRecord 12 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13750.01it/s][A



... Writing TFRecord 13 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14397.58it/s][A



... Writing TFRecord 14 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14338.52it/s][A



... Writing TFRecord 15 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14120.81it/s][A



... Writing TFRecord 16 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14158.94it/s][A



... Writing TFRecord 17 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13679.16it/s][A



... Writing TFRecord 18 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13276.90it/s][A



... Writing TFRecord 19 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13573.80it/s][A



... Writing TFRecord 20 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13238.34it/s][A
Writing TFRecords:  26%|██████████████▌                                          | 20/78 [00:00<00:00, 96.36it/s]


... Writing TFRecord 21 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13209.57it/s][A



... Writing TFRecord 22 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13599.33it/s][A



... Writing TFRecord 23 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13499.10it/s][A



... Writing TFRecord 24 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13675.15it/s][A



... Writing TFRecord 25 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13948.47it/s][A



... Writing TFRecord 26 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13945.68it/s][A



... Writing TFRecord 27 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13661.34it/s][A



... Writing TFRecord 28 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14002.02it/s][A



... Writing TFRecord 29 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13864.55it/s][A



... Writing TFRecord 30 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14017.46it/s][A
Writing TFRecords:  38%|█████████████████████▉                                   | 30/78 [00:00<00:00, 96.15it/s]


... Writing TFRecord 31 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13749.11it/s][A



... Writing TFRecord 32 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13624.95it/s][A



... Writing TFRecord 33 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13522.16it/s][A



... Writing TFRecord 34 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13562.39it/s][A



... Writing TFRecord 35 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13129.36it/s][A



... Writing TFRecord 36 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12956.58it/s][A



... Writing TFRecord 37 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13171.41it/s][A



... Writing TFRecord 38 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14284.32it/s][A



... Writing TFRecord 39 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13633.36it/s][A



... Writing TFRecord 40 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13732.01it/s][A
Writing TFRecords:  51%|█████████████████████████████▏                           | 40/78 [00:00<00:00, 95.16it/s]


... Writing TFRecord 41 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14112.73it/s][A



... Writing TFRecord 42 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14275.08it/s][A



... Writing TFRecord 43 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12682.73it/s][A



... Writing TFRecord 44 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13095.33it/s][A



... Writing TFRecord 45 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14430.77it/s][A



... Writing TFRecord 46 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14884.50it/s][A



... Writing TFRecord 47 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13858.14it/s][A



... Writing TFRecord 48 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14228.59it/s][A



... Writing TFRecord 49 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13580.39it/s][A



... Writing TFRecord 50 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13967.05it/s][A
Writing TFRecords:  64%|████████████████████████████████████▌                    | 50/78 [00:00<00:00, 96.22it/s]


... Writing TFRecord 51 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14263.91it/s][A



... Writing TFRecord 52 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14149.39it/s][A



... Writing TFRecord 53 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12157.76it/s][A



... Writing TFRecord 54 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13736.50it/s][A



... Writing TFRecord 55 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13806.14it/s][A



... Writing TFRecord 56 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14126.52it/s][A



... Writing TFRecord 57 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13873.72it/s][A



... Writing TFRecord 58 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14359.14it/s][A



... Writing TFRecord 59 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14190.56it/s][A



... Writing TFRecord 60 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14175.21it/s][A
Writing TFRecords:  77%|███████████████████████████████████████████▊             | 60/78 [00:00<00:00, 96.03it/s]


... Writing TFRecord 61 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14300.39it/s][A



... Writing TFRecord 62 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13193.37it/s][A



... Writing TFRecord 63 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14356.68it/s][A



... Writing TFRecord 64 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14227.63it/s][A



... Writing TFRecord 65 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14331.66it/s][A



... Writing TFRecord 66 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14381.79it/s][A



... Writing TFRecord 67 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 11494.39it/s][A



... Writing TFRecord 68 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14069.65it/s][A



... Writing TFRecord 69 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13289.94it/s][A



... Writing TFRecord 70 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14278.48it/s][A
Writing TFRecords:  90%|███████████████████████████████████████████████████▏     | 70/78 [00:00<00:00, 95.87it/s]


... Writing TFRecord 71 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15345.76it/s][A



... Writing TFRecord 72 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15636.39it/s][A



... Writing TFRecord 73 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14464.61it/s][A



... Writing TFRecord 74 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14345.39it/s][A



... Writing TFRecord 75 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14110.36it/s][A



... Writing TFRecord 76 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13486.07it/s][A



... Writing TFRecord 77 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13941.98it/s][A



... Writing TFRecord 78 of 78 (100 per TFRecord)...




 70%|██████████████████████████████████████████████████▍                     | 70/100 [00:00<00:00, 12633.45it/s][A
Writing TFRecords: 100%|█████████████████████████████████████████████████████████| 78/78 [00:00<00:00, 96.63it/s]
Writing TFRecords:   0%|                                                                  | 0/78 [00:00<?, ?it/s]


... Writing TFRecord 1 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13675.59it/s][A



... Writing TFRecord 2 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13869.14it/s][A



... Writing TFRecord 3 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13652.44it/s][A



... Writing TFRecord 4 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14151.30it/s][A



... Writing TFRecord 5 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14951.89it/s][A



... Writing TFRecord 6 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14366.02it/s][A



... Writing TFRecord 7 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15002.70it/s][A



... Writing TFRecord 8 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15700.77it/s][A



... Writing TFRecord 9 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14473.10it/s][A



... Writing TFRecord 10 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13787.53it/s][A



... Writing TFRecord 11 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13439.84it/s][A
Writing TFRecords:  14%|███████▉                                                | 11/78 [00:00<00:00, 103.23it/s]


... Writing TFRecord 12 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14174.73it/s][A



... Writing TFRecord 13 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13881.07it/s][A



... Writing TFRecord 14 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14200.65it/s][A



... Writing TFRecord 15 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14123.66it/s][A



... Writing TFRecord 16 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14089.98it/s][A



... Writing TFRecord 17 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14606.16it/s][A



... Writing TFRecord 18 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14796.29it/s][A



... Writing TFRecord 19 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14516.18it/s][A



... Writing TFRecord 20 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14042.33it/s][A



... Writing TFRecord 21 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14015.59it/s][A



... Writing TFRecord 22 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13926.24it/s][A
Writing TFRecords:  28%|███████████████▊                                        | 22/78 [00:00<00:00, 102.65it/s]


... Writing TFRecord 23 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 12138.40it/s][A



... Writing TFRecord 24 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14260.03it/s][A



... Writing TFRecord 25 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14373.90it/s][A



... Writing TFRecord 26 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13696.13it/s][A



... Writing TFRecord 27 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13248.80it/s][A



... Writing TFRecord 28 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14417.38it/s][A



... Writing TFRecord 29 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15250.91it/s][A



... Writing TFRecord 30 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14740.65it/s][A



... Writing TFRecord 31 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15022.58it/s][A


... Writing TFRecord 32 of 78 (100 per TFRecord)...





100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14262.94it/s][A



... Writing TFRecord 33 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13981.95it/s][A
Writing TFRecords:  42%|████████████████████████                                 | 33/78 [00:00<00:00, 99.43it/s]


... Writing TFRecord 34 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14141.28it/s][A



... Writing TFRecord 35 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13519.11it/s][A



... Writing TFRecord 36 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13241.69it/s][A



... Writing TFRecord 37 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14514.17it/s][A



... Writing TFRecord 38 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13903.16it/s][A



... Writing TFRecord 39 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13971.70it/s][A



... Writing TFRecord 40 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14405.99it/s][A



... Writing TFRecord 41 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14336.56it/s][A



... Writing TFRecord 42 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14389.19it/s][A



... Writing TFRecord 43 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14218.46it/s][A
Writing TFRecords:  55%|███████████████████████████████▍                         | 43/78 [00:00<00:00, 99.63it/s]


... Writing TFRecord 44 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14142.23it/s][A



... Writing TFRecord 45 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14322.36it/s][A



... Writing TFRecord 46 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14316.01it/s][A



... Writing TFRecord 47 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15306.00it/s][A



... Writing TFRecord 48 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14037.63it/s][A



... Writing TFRecord 49 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14366.02it/s][A



... Writing TFRecord 50 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14033.40it/s][A



... Writing TFRecord 51 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14749.98it/s][A



... Writing TFRecord 52 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 15377.27it/s][A



... Writing TFRecord 53 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14667.45it/s][A



... Writing TFRecord 54 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14494.61it/s][A
Writing TFRecords:  69%|██████████████████████████████████████▊                 | 54/78 [00:00<00:00, 100.27it/s]


... Writing TFRecord 55 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14677.20it/s][A



... Writing TFRecord 56 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14552.94it/s][A



... Writing TFRecord 57 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13021.74it/s][A



... Writing TFRecord 58 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14150.82it/s][A



... Writing TFRecord 59 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14839.21it/s][A



... Writing TFRecord 60 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14239.70it/s][A



... Writing TFRecord 61 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14665.91it/s][A



... Writing TFRecord 62 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14593.45it/s][A



... Writing TFRecord 63 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14147.96it/s][A



... Writing TFRecord 64 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14844.99it/s][A



... Writing TFRecord 65 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14423.82it/s][A
Writing TFRecords:  83%|██████████████████████████████████████████████▋         | 65/78 [00:00<00:00, 101.33it/s]


... Writing TFRecord 66 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13955.89it/s][A



... Writing TFRecord 67 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13618.31it/s][A



... Writing TFRecord 68 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13579.51it/s][A



... Writing TFRecord 69 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13286.57it/s][A



... Writing TFRecord 70 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13676.93it/s][A



... Writing TFRecord 71 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14462.62it/s][A



... Writing TFRecord 72 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14069.65it/s][A



... Writing TFRecord 73 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14097.08it/s][A



... Writing TFRecord 74 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14832.39it/s][A



... Writing TFRecord 75 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 13540.06it/s][A



... Writing TFRecord 76 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14471.60it/s][A
Writing TFRecords:  97%|██████████████████████████████████████████████████████▌ | 76/78 [00:00<00:00, 100.85it/s]


... Writing TFRecord 77 of 78 (100 per TFRecord)...




100%|███████████████████████████████████████████████████████████████████████| 100/100 [00:00<00:00, 14438.72it/s][A



... Writing TFRecord 78 of 78 (100 per TFRecord)...




 70%|██████████████████████████████████████████████████▍                     | 70/100 [00:00<00:00, 14141.28it/s][A
Writing TFRecords: 100%|████████████████████████████████████████████████████████| 78/78 [00:00<00:00, 101.12it/s]


<br>

**Check dataset**

In [51]:
DEMO_DS_CHUNK_STYLE, DEMO_DS_TOK_STYLE, DEMO_DS_VERSION = "rcts", "bpe", "v4"
DEMO_TFREC_PATHS = sorted(glob(os.path.join(
    TFRECORD_DIR, f"{DEMO_DS_CHUNK_STYLE}_{DEMO_DS_TOK_STYLE}_{DEMO_DS_VERSION}", "*.tfrec"
)))

# Get respective tooling
demo_ds = load_tfrecord_dataset(DEMO_TFREC_PATHS)
viz_tool = bpe_token_viz if DEMO_DS_TOK_STYLE=="bpe" else uni_token_viz

# Check and compare
print("\n... FROM TFRECORD ...\n")
display(HTML(viz_tool.visualize(bpe_decoder(next(iter(demo_ds)).numpy().tolist()))))

# TODO make modular... not important
print("\n... FROM PANDAS DATAFRAME ...\n")
display(HTML(viz_tool.visualize(bpe_decoder(rcts_bpe_chunk_df["token_content"][0]))))


... FROM TFRECORD ...




... FROM PANDAS DATAFRAME ...



<br>

<b>Send Some wandb Stuff</b>

In [66]:
from wandb import Table

rcts_bpe_wandb_table  = Table(dataframe=get_metadata_df(rcts_bpe_chunk_df))
rcts_uni_wandb_table  = Table(dataframe=get_metadata_df(rcts_uni_chunk_df))
basic_bpe_wandb_table = Table(dataframe=get_metadata_df(basic_bpe_chunk_df))
basic_uni_wandb_table = Table(dataframe=get_metadata_df(basic_uni_chunk_df))

wandb.log({
    "rcts_bpe": rcts_bpe_wandb_table,
    "rcts_uni": rcts_uni_wandb_table,
    "basic_bpe": basic_bpe_wandb_table,
    "basic_uni": basic_uni_wandb_table,
})
wandb.finish()