In [1]:
from streaming import MDSWriter
from streaming.base.format.mds.encodings import Encoding, _encodings
from streaming import LocalDataset
import numpy as np

class UInt32(Encoding):
    def encode(self, obj) -> bytes:
        return obj.tobytes()

    def decode(self, data: bytes):
        return np.frombuffer(data, np.uint32)

_encodings['uint32'] = UInt32

columns = {
    'input_ids': 'uint32',
    'position_ids': 'uint32',
    'attention_mask': 'uint32',
    'audio': 'str',
    'text': 'str'
}
hashes = 'sha1', 'xxh64'

  import pynvml  # type: ignore[import]


In [2]:
from glob import glob
folders = glob('gfs/01be5b33/multipacking-*')
folders

['gfs/01be5b33/multipacking-malaysian-emilia-dialects',
 'gfs/01be5b33/multipacking-malaysian-tamil-emilia',
 'gfs/01be5b33/multipacking-malaysian-mandarin-emilia',
 'gfs/01be5b33/multipacking-10k-tts',
 'gfs/01be5b33/multipacking-emilia-yodas',
 'gfs/01be5b33/multipacking-malaysian-emilia']

In [7]:
!rm -rf gfs/01be5b33/combine-multipacking-v2

In [8]:
from tqdm import tqdm

with MDSWriter(out='gfs/01be5b33/combine-multipacking-v2', columns=columns, compression=None, hashes=hashes) as out:
    for f in folders:
        try:
            dataset = LocalDataset(local=f)
            print(f, (len(dataset) * 10240) / 1e9)
            for i in tqdm(range(len(dataset))):
                out.write(dataset[i])
        except Exception as e:
            print(e)
            pass

gfs/01be5b33/multipacking-malaysian-emilia-dialects 5.79149824


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 565576/565576 [04:15<00:00, 2209.41it/s]


gfs/01be5b33/multipacking-malaysian-tamil-emilia 0.83674112


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 81713/81713 [00:36<00:00, 2221.67it/s]


gfs/01be5b33/multipacking-malaysian-mandarin-emilia 1.82521856


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 178244/178244 [01:21<00:00, 2184.77it/s]


gfs/01be5b33/multipacking-10k-tts 14.64338432


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1430018/1430018 [08:01<00:00, 2972.15it/s]


gfs/01be5b33/multipacking-emilia-yodas 19.483392


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1902675/1902675 [14:31<00:00, 2184.05it/s]


gfs/01be5b33/multipacking-malaysian-emilia 7.94181632


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 775568/775568 [05:59<00:00, 2159.19it/s]


In [5]:
5.79149824 + 0.83674112 + 1.82521856 + 19.483392 + 7.94181632 + 14.64338432

50.52205056

In [9]:
!du -hs gfs/01be5b33/combine-multipacking-v2

357G	gfs/01be5b33/combine-multipacking-v2


In [None]:
dataset = LocalDataset('gfs/01be5b33/combine-multipacking')
len(dataset)

In [None]:
dataset[0]

In [None]:
0.83674112 + 1.82521856 + 12.0742912 + 19.483392 + 7.94181632

In [None]:
0.87891968 + 1.82521856 + 28.09001984 + 8.1671168 + 12.0742912