dedup-text-dataset

Dedup and postprocessing for text dataset gathered from https://github.com/users/huseinzol05/projects/1

Server spec

Deduping can explode the memory, easily eat up to 30 GB if the dataset is > 10GB, so beware.

wget https://huggingface.co/datasets/mesolitica/crawl-amanz-my/resolve/main/parsed.jsonl -O hf-datasets/raw-datasets/amanz.jsonl

But sometime we have to some preprocessing like,

We save raw datasets at hf-datasets/raw-datasets.

All dedup datasets will save at hf-datasets/dedupe-datasets.

Rerun this notebook will not overwrite postprocessed datasets.

There is no consideration AI alignment and safety in current dataset, we only apply basic postfilter.

Name		Name	Last commit message	Last commit date
Latest commit History 55 Commits
gemma		gemma
hf-datasets		hf-datasets
litellama		litellama
llama-3		llama-3
llama		llama
madlad-400-ms		madlad-400-ms
mistral		mistral
nanot5		nanot5
pretrain-clm		pretrain-clm
pretrain-llm		pretrain-llm
processing		processing
qwen2		qwen2
solar		solar
text_dedup		text_dedup
tinyllama		tinyllama
yi		yi
.gitignore		.gitignore
README.md		README.md
calculate-token-size.ipynb		calculate-token-size.ipynb
clean-html.ipynb		clean-html.ipynb
combine-news.ipynb		combine-news.ipynb
compare-tokens.ipynb		compare-tokens.ipynb
dedup-2024-04-24.ipynb		dedup-2024-04-24.ipynb
dedup_experiment.ipynb		dedup_experiment.ipynb
download-2023-10-01.ipynb		download-2023-10-01.ipynb
download-wikipedia.ipynb		download-wikipedia.ipynb
mp.py		mp.py
postprocessing.ipynb		postprocessing.ipynb
process-data.gov.my.ipynb		process-data.gov.my.ipynb
process-lowyat.ipynb		process-lowyat.ipynb
process-snapshot.ipynb		process-snapshot.ipynb
remove-duplicate-text-dataset-data.gov.my.ipynb		remove-duplicate-text-dataset-data.gov.my.ipynb
remove-duplicate-text-dataset-lowyat.ipynb		remove-duplicate-text-dataset-lowyat.ipynb
remove-duplicate-text-dataset-snapshot.ipynb		remove-duplicate-text-dataset-snapshot.ipynb
remove-duplicate-text-dataset.ipynb		remove-duplicate-text-dataset.ipynb
test-collactor.ipynb		test-collactor.ipynb