In [1]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

import sys
current_dir = os.getcwd()
sys.path.append(os.path.join(os.getcwd(), '..'))

import random

import torch
# Check if a GPU is available
if torch.cuda.is_available():
    # Get the current device index (default is 0 if no other device is specified)
    current_device = torch.cuda.current_device()
    
    # Get the name of the GPU at this device index
    gpu_name = torch.cuda.get_device_name(current_device)
    print(f"Current GPU: {gpu_name}")
else:
    print("No GPU available.")

import pandas as pd

from tqdm import tqdm
from datasets import Dataset, DatasetDict, load_dataset, concatenate_datasets
from utils.helper import convert_to_llama_format

print("Import Successful!")

Current GPU: Tesla P40
Import Successful!


In [2]:
# Create an empty dataset using a pandas DataFrame
empty_df = pd.DataFrame(columns=["conversations", "tag"])  # Define your schema here
empty_dataset = Dataset.from_pandas(empty_df)

### aixsatoshi/cosmopedia-japanese-100k

In [3]:
repo_id = "aixsatoshi/cosmopedia-japanese-100k"
dataset = load_dataset(repo_id)
dataset

DatasetDict({
    train: Dataset({
        features: ['format', 'japanese', 'english', 'audience', 'seed_data'],
        num_rows: 99866
    })
})

In [4]:
# View available dataset splits
print("Available Splits:", dataset.keys())

# Load specific split (e.g., 'train') and inspect the first few rows
train_data = dataset["train"]

sample = train_data[random.choice(range(train_data.num_rows))] #train_data[0]

messages = [
    {"role": "system", "content": "You are a translator, your job is translate English to Japanese"},
    {"role": "user", "content" : "Translate the given content to Japanese"},
    {"role": "user", "content" : sample['english']},
    {"role": "user", "content" : sample['japanese']},
     ]
messages

Available Splits: dict_keys(['train'])


[{'role': 'system',
  'content': 'You are a translator, your job is translate English to Japanese'},
 {'role': 'user', 'content': 'Translate the given content to Japanese'},
 {'role': 'user',
  'content': ' Industrial rubber belts are essential components in various industrial applications due to their ability to transmit power, reduce friction, and provide flexibility in material handling systems. This section delves into two types of industrial rubber belts - special belts and urethane thumb belts - discussing their design, construction materials, applications, advantages, and selection considerations.\n\n**Special Belts:**\n\nSpecial belts are specifically engineered to transfer power between rotating shafts while operating at high speeds. They typically consist of multiple layers of fabric reinforcement covered by a wear-resistant rubber or polymer layer, forming a robust and durable structure. The primary function of special belts is power transmission; therefore, they often have 

In [5]:
# Loop through the source dataset and append data to the empty dataset
new_data = {"conversations": [], "tag": []}  # Initialize dictionary to store new data
for row in tqdm(train_data):
    # Create messages
    messages = [
    {"role": "system", "content": "You are a translator, your job is translate English to Japanese"},
    {"role": "user", "content" : "Translate the given content to Japanese"},
    {"role": "user", "content" : sample['english']},
    {"role": "user", "content" : sample['japanese']},
     ]
    
    new_data["conversations"].append(messages)
    new_data["tag"].append(repo_id)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 99866/99866 [00:02<00:00, 40712.20it/s]


In [6]:
# Add the collected data to the empty dataset
updated_dataset = Dataset.from_dict(new_data)

# Concatenate them
empty_dataset = concatenate_datasets([empty_dataset, updated_dataset])

# Print the resulting dataset
print(empty_dataset)

Dataset({
    features: ['conversations', 'tag'],
    num_rows: 99866
})


### shi3z/Japanese_wikipedia_conversation_100K

In [7]:
repo_id = "shi3z/Japanese_wikipedia_conversation_100K"
dataset = load_dataset(repo_id)
dataset

DatasetDict({
    train: Dataset({
        features: ['conversations'],
        num_rows: 110322
    })
})

In [8]:
# View available dataset splits
print("Available Splits:", dataset.keys())

# Load specific split (e.g., 'train') and inspect the first few rows
train_data = dataset["train"]

sample = train_data[random.choice(range(train_data.num_rows))] #train_data[0]

messages = convert_to_llama_format(sample['conversations'])

messages

Available Splits: dict_keys(['train'])


[{'role': 'user', 'content': '紀元前35年って何の時代ですか？'},
 {'role': 'assistant', 'content': '紀元前35年は紀元前という西暦の前の時代のことを指します。'},
 {'role': 'user', 'content': '紀元前35年に何か重要な出来事はありましたか？'},
 {'role': 'assistant',
  'content': '具体的な出来事は特に記されていないようです。紀元前35年について詳しく言及された情報は少ないようです。'}]

In [9]:
# Loop through the source dataset and append data to the empty dataset
new_data = {"conversations": [], "tag": []}  # Initialize dictionary to store new data
for row in tqdm(train_data):
    # Create messages
    messages = convert_to_llama_format(row['conversations'])    
    new_data["conversations"].append(messages)
    new_data["tag"].append(repo_id)

100%|████████████████████████████████████████████████████████████████████████████████████████████████| 110322/110322 [00:05<00:00, 20794.38it/s]


In [10]:
# Add the collected data to the empty dataset
updated_dataset = Dataset.from_dict(new_data)

# Concatenate them
empty_dataset = concatenate_datasets([empty_dataset, updated_dataset])

# Print the resulting dataset
print(empty_dataset)

Dataset({
    features: ['conversations', 'tag'],
    num_rows: 210188
})


### FreedomIntelligence/alpaca-gpt4-japanese

In [11]:
repo_id = "FreedomIntelligence/alpaca-gpt4-japanese"
dataset = load_dataset(repo_id)
dataset

DatasetDict({
    train: Dataset({
        features: ['conversations', 'id'],
        num_rows: 49969
    })
})

In [12]:
# View available dataset splits
print("Available Splits:", dataset.keys())

# Load specific split (e.g., 'train') and inspect the first few rows
train_data = dataset["train"]
sample = train_data[random.choice(range(train_data.num_rows))] #train_data[0]

messages = convert_to_llama_format(sample['conversations'])

messages

Available Splits: dict_keys(['train'])


[{'role': 'user', 'content': '以下の文字並べ替え問題を解くアルゴリズムを作成してください。\naalw'},
 {'role': 'assistant',
  'content': '単語の並び替えを解決するアルゴリズムは次のとおりです。\n\n1. 単語リストを取得します - これは英語単語リストである場合も、ユーザの文脈に関連する辞書である場合もあります。\n2. 混同した単語を入力として取得します。\n3. 混同した単語を文字のリストに変換します。\n4. 文字のリストをアルファベット順に並べます。\n5. 単語リストから可能な単語を格納する空のリストを作成します。\n6. 単語リストの各単語を反復処理するループを開始します。\n7. 各単語について、単語を文字のリストに変換します。\n8. 文字のリストをアルファベット順に並べます。\n9. 混合した単語からアルファベット順に並べた文字のリストを、単語リストの単語からアルファベット順に並べた文字のリストと比較します。\n10. 並べ替えたリストが同じである場合、文字が一致し、したがって単語が問題の可能な解決策であることを意味します。\n11. 可能な単語を可能な単語のリストに追加します。\n12. すべての単語をチェックするまで、単語リストを反復処理を継続します。\n13. 入力された混乱した単語の解決策となる可能性がある可能性のある単語のリストを返します。\n\n混乱した単語「aalw」の結果は「wall」です。'}]

In [13]:
# Loop through the source dataset and append data to the empty dataset
new_data = {"conversations": [], "tag": []}  # Initialize dictionary to store new data
for row in tqdm(train_data):
    # Create messages
    messages = convert_to_llama_format(row['conversations'])    
    new_data["conversations"].append(messages)
    new_data["tag"].append(repo_id)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 49969/49969 [00:01<00:00, 42785.86it/s]


In [14]:
# Add the collected data to the empty dataset
updated_dataset = Dataset.from_dict(new_data)

# Concatenate them
empty_dataset = concatenate_datasets([empty_dataset, updated_dataset])

# Print the resulting dataset
print(empty_dataset)

Dataset({
    features: ['conversations', 'tag'],
    num_rows: 260157
})


### FreedomIntelligence/evol-instruct-japanese

In [15]:
repo_id = "FreedomIntelligence/evol-instruct-japanese"
dataset = load_dataset(repo_id)
dataset

Repo card metadata block was not found. Setting CardData to empty.


DatasetDict({
    train: Dataset({
        features: ['conversations', 'id'],
        num_rows: 59022
    })
})

In [16]:
# View available dataset splits
print("Available Splits:", dataset.keys())

# Load specific split (e.g., 'train') and inspect the first few rows
train_data = dataset["train"]
sample = train_data[random.choice(range(train_data.num_rows))] #train_data[0]

messages = convert_to_llama_format(sample['conversations'])
messages

Available Splits: dict_keys(['train'])


[{'role': 'user',
  'content': 'C++を使用して、オンラインショッピング体験に関する満足度を測定するためのアンケート質問を作成する方法は？ 買い物体験のさまざまな側面（使用のしやすさ、商品選択、顧客サービスなど）の変数を含めることを検討してください。ユーザーの以前の回答に基づいて質問を調整するために条件文を組み込むこともできますか？\n'},
 {'role': 'assistant',
  'content': 'オンラインショッピング体験に関する満足度を測定するために、以下のアンケート質問を作成することができます。\n\n1. あなたが最近オンラインで買い物をした場合、そのサイトでの買い物体験についてどの程度満足しましたか？\n\n2. 商品の品揃えについてどの程度満足しましたか？\n\n3. 商品の価格についてどの程度満足しましたか？\n\n4. 商品の品質についてどの程度満足しましたか？\n\n5. 商品の説明や詳細情報についてどの程度満足しましたか？\n\n6. 商品を探しやすさについてどの程度満足しましたか？\n\n7. サイトの使用のしやすさについてどの程度満足しましたか？\n\n8. 支払いや配送に関する情報についてどの程度満足しましたか？\n\n9. 商品の配送時間についてどの程度満足しましたか？\n\n10. カスタマーサービスの質についてどの程度満足しましたか？\n\n11. サイトのセキュリティについてどの程度安心できましたか？\n\n12. あなたは今後もこのサイトで買い物をすると考えていますか？\n\n条件文を組み込むこともできます。たとえば、「前回のアンケートで不満を示した場合、今回改善されたかどうか聞きたい場合などには、条件文を使用することができます。例えば、「前回のアンケートでサイトの使用のしやすさについて不満を示しましたが、今回改善されていると感じますか？」といった具合です。'}]

In [17]:
# Loop through the source dataset and append data to the empty dataset
new_data = {"conversations": [], "tag": []}  # Initialize dictionary to store new data
for row in tqdm(train_data):
    # Create messages
    messages = convert_to_llama_format(row['conversations'])    
    new_data["conversations"].append(messages)
    new_data["tag"].append(repo_id)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 59022/59022 [00:01<00:00, 43791.33it/s]


In [18]:
# Add the collected data to the empty dataset
updated_dataset = Dataset.from_dict(new_data)

# Concatenate them
empty_dataset = concatenate_datasets([empty_dataset, updated_dataset])

# Print the resulting dataset
print(empty_dataset)

Dataset({
    features: ['conversations', 'tag'],
    num_rows: 319179
})


Shuffle and random select sample in new dataset

In [21]:
# Shuffle the dataset
shuffled_dataset = empty_dataset.shuffle(seed=42)  # Optional seed for reproducibility
shuffled_dataset

Dataset({
    features: ['conversations', 'tag'],
    num_rows: 319179
})

In [42]:
sample = shuffled_dataset[random.choice(range(shuffled_dataset.num_rows))]
sample

{'conversations': [{'content': 'この作品のタイトルは何ですか？', 'role': 'user'},
  {'content': '『アルゴノーツ 伝説の冒険者たち』（アルゴノーツ でんせつのぼうけんしゃたち）というタイトルです。',
   'role': 'assistant'},
  {'content': '放送された年と国はどこですか？', 'role': 'user'},
  {'content': 'この作品は2000年5月7日にアメリカ合衆国で放送されました。', 'role': 'assistant'},
  {'content': 'この作品はどのような映像化作品ですか？', 'role': 'user'},
  {'content': 'この作品はギリシャ神話のアルゴナウタイの冒険譚を映像化したTVミニシリーズです。また、1963年の特撮映画『アルゴ探検隊の大冒険』の完全リメイク版でもあります。',
   'role': 'assistant'},
  {'content': '監督や主演は誰ですか？', 'role': 'user'},
  {'content': '監督はニック・ウィリングで、主演はジェイソン・ロンドン、デニス・ホッパー、ナターシャ・ヘンストリッジなどです。',
   'role': 'assistant'},
  {'content': 'この作品は日本で公開されましたか？', 'role': 'user'},
  {'content': 'いいえ、この作品は日本で劇場公開されませんでした。ただし、2001年5月25日に日活から180分の＜完全版＞のDVDが発売されました。',
   'role': 'assistant'},
  {'content': 'この作品のキャッチコピーは何ですか？', 'role': 'user'},
  {'content': 'パッケージ裏のキャッチコピーは「名作「アルゴ探検隊の大冒険」新世紀リメイクここに登場!!」です。',
   'role': 'assistant'},
  {'content': 'キャストについて教えてください。', 'role': 'user'},
  {'content': 'キャストには日本語吹替も含まれますが、詳細は文章には記

Upload dataset

In [44]:
!huggingface-cli whoami

locchuong


In [48]:
# Push the dataset to Hugging Face Hub
dataset_name = "llama_conversations"
shuffled_dataset.push_to_hub(dataset_name)

Uploading the dataset shards:   0%|          | 0/3 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/107 [00:00<?, ?ba/s]

Creating parquet from Arrow format:   0%|          | 0/107 [00:00<?, ?ba/s]

Creating parquet from Arrow format:   0%|          | 0/107 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/locchuong/llama_conversations/commit/e17f97ae2a439728eb2a20bea73ba1daa724025c', commit_message='Upload dataset', commit_description='', oid='e17f97ae2a439728eb2a20bea73ba1daa724025c', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/locchuong/llama_conversations', endpoint='https://huggingface.co', repo_type='dataset', repo_id='locchuong/llama_conversations'), pr_revision=None, pr_num=None)

In [49]:
loaded_dataset = load_dataset(f"locchuong/{dataset_name}")
print(loaded_dataset)

README.md:   0%|          | 0.00/398 [00:00<?, ?B/s]

train-00000-of-00003.parquet:   0%|          | 0.00/52.0M [00:00<?, ?B/s]

train-00001-of-00003.parquet:   0%|          | 0.00/52.1M [00:00<?, ?B/s]

train-00002-of-00003.parquet:   0%|          | 0.00/52.1M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/319179 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['conversations', 'tag'],
        num_rows: 319179
    })
})


In [55]:
subset = shuffled_dataset.select(range(int(0.0032 * len(shuffled_dataset))))  # Select first 10%

# Print the subset
print(subset)

Dataset({
    features: ['conversations', 'tag'],
    num_rows: 1021
})


In [56]:
# Push the dataset to Hugging Face Hub
dataset_name = "llama_conversations_1k"
subset.push_to_hub(dataset_name)

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/2 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/locchuong/llama_conversations_1k/commit/909d3003457d4021f49bd610535a8ff3c8cd5f63', commit_message='Upload dataset', commit_description='', oid='909d3003457d4021f49bd610535a8ff3c8cd5f63', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/locchuong/llama_conversations_1k', endpoint='https://huggingface.co', repo_type='dataset', repo_id='locchuong/llama_conversations_1k'), pr_revision=None, pr_num=None)

In [57]:
loaded_dataset = load_dataset(f"locchuong/{dataset_name}")
print(loaded_dataset)

README.md:   0%|          | 0.00/403 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/497k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/1021 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['conversations', 'tag'],
        num_rows: 1021
    })
})


### longquan/llm-japanese-dataset-split_10

In [64]:
repo_id = "longquan/llm-japanese-dataset-split_10"
dataset = load_dataset(repo_id)
dataset

DatasetDict({
    train: Dataset({
        features: ['instruction', 'input', 'output'],
        num_rows: 251655
    })
})

In [66]:
# View available dataset splits
print("Available Splits:", dataset.keys())

# Load specific split (e.g., 'train') and inspect the first few rows
train_data = dataset["train"]
sample = train_data[random.choice(range(train_data.num_rows))] #train_data[0]

if sample["input"]:
    messages = [
            {"role": "system", "content": "You are helpful assistant"},
            {"role": "user", "content" : sample["instruction"]},
            {"role": "user", "content" : sample['input']},
            {"role": "user", "content" : sample['output']},
             ]
else:
    messages = [
            {"role": "system", "content": "You are helpful assistant"},
            {"role": "user", "content" : sample["instruction"]},
            {"role": "user", "content" : sample['output']},
             ]   
messages

Available Splits: dict_keys(['train'])


[{'role': 'system', 'content': 'You are helpful assistant'},
 {'role': 'user',
  'content': '次の日本語には間違っている部分があります。その部分を直して、正しい日本語の文を出力してください。'},
 {'role': 'user',
  'content': 'ＵＳＥＮ\u3000がインターネットのブロードバンドをフルに活用して、さまざまな番組コンテンツをを一般のテレビ番組に倣って、提供スポンサー企業からのコマーシャル収入により、ユーザー（利用者）は簡単な手続き（入会金・年会費等諸費完全無料）をおこなうだけでいつでもパソコン上で楽しむことができるオンデマンド放送サービスを２００５年より始めた。'},
 {'role': 'user',
  'content': 'ＵＳＥＮ\u3000がインターネットのブロードバンドをフルに活用して、さまざまな番組コンテンツを一般のテレビ番組に倣って、提供スポンサー企業からのコマーシャル収入により、ユーザー（利用者）は簡単な手続き（入会金・年会費等諸費完全無料）をおこなうだけでいつでもパソコン上で楽しむことができるオンデマンド放送サービスを２００５年より始めた。'}]

In [67]:
# Loop through the source dataset and append data to the empty dataset
new_data = {"conversations": [], "tag": []}  # Initialize dictionary to store new data
for row in tqdm(train_data):
    # Create messages
    if row["input"]:
        messages = [
            {"role": "system", "content": "You are helpful assistant"},
            {"role": "user", "content" : row["instruction"]},
            {"role": "user", "content" : row['input']},
            {"role": "user", "content" : row['output']},
             ]
    else:
        messages = [
            {"role": "system", "content": "You are helpful assistant"},
            {"role": "user", "content" : row["instruction"]},
            {"role": "user", "content" : row['output']},
             ]    
    new_data["conversations"].append(messages)
    new_data["tag"].append(repo_id)

100%|████████████████████████████████████████████████████████████████████████████████████████████████| 251655/251655 [00:04<00:00, 55747.44it/s]


In [69]:
# Add the collected data to the empty dataset
formated_dataset = Dataset.from_dict(new_data)
formated_dataset

Dataset({
    features: ['conversations', 'tag'],
    num_rows: 251655
})

In [75]:
sample = formated_dataset[random.choice(range(formated_dataset.num_rows))]
sample

{'conversations': [{'content': 'You are helpful assistant', 'role': 'system'},
  {'content': '入力されたワードを説明してください。', 'role': 'user'},
  {'content': '山梨県薬剤師会', 'role': 'user'},
  {'content': '一般社団法人山梨県薬剤師会（いっぱんしゃだんほうじんやまなしけんやくざいしかい 英称 Yamanashi Pharmaceutical Association）は、山梨県の薬剤師を会員とする一般社団法人。',
   'role': 'user'}],
 'tag': 'longquan/llm-japanese-dataset-split_10'}

In [76]:
# Push the dataset to Hugging Face Hub
dataset_name = "llama-longquan-llm-japanese-dataset-split_10"
formated_dataset.push_to_hub(dataset_name)

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/252 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/locchuong/llama-longquan-llm-japanese-dataset-split_10/commit/4c2412be552e173151cafdbea2b0628c8a8de9c1', commit_message='Upload dataset', commit_description='', oid='4c2412be552e173151cafdbea2b0628c8a8de9c1', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/locchuong/llama-longquan-llm-japanese-dataset-split_10', endpoint='https://huggingface.co', repo_type='dataset', repo_id='locchuong/llama-longquan-llm-japanese-dataset-split_10'), pr_revision=None, pr_num=None)

In [83]:
loaded_dataset = load_dataset(f"locchuong/{dataset_name}")
print(loaded_dataset)

README.md:   0%|          | 0.00/391 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/55.0M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/251655 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['conversations', 'tag'],
        num_rows: 251655
    })
})


In [79]:
# Select subset
subset = formated_dataset.select(range(int(0.001 * len(formated_dataset))))  # Select first 10%

# Print the subset
print(subset)

Dataset({
    features: ['conversations', 'tag'],
    num_rows: 251
})


In [80]:
# Push the dataset to Hugging Face Hub
dataset_name = "llama-longquan-llm-japanese-dataset-split_10_250"
subset.push_to_hub(dataset_name)

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/locchuong/llama-longquan-llm-japanese-dataset-split_10_250/commit/918ea0d1e521f6b46a1ce85b7d34923d8e721817', commit_message='Upload dataset', commit_description='', oid='918ea0d1e521f6b46a1ce85b7d34923d8e721817', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/locchuong/llama-longquan-llm-japanese-dataset-split_10_250', endpoint='https://huggingface.co', repo_type='dataset', repo_id='locchuong/llama-longquan-llm-japanese-dataset-split_10_250'), pr_revision=None, pr_num=None)

In [81]:
loaded_dataset = load_dataset(f"locchuong/{dataset_name}")
print(loaded_dataset)

README.md:   0%|          | 0.00/379 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/53.8k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/251 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['conversations', 'tag'],
        num_rows: 251
    })
})


Here's an example of creating an empty dataset using the Hugging Face Datasets library, looping through another dataset, and adding data to it:

In [49]:
from datasets import Dataset, DatasetDict
import pandas as pd

# Create an empty dataset using a pandas DataFrame
empty_df = pd.DataFrame(columns=["text", "label"])  # Define your schema here
empty_dataset = Dataset.from_pandas(empty_df)

# Example dataset to iterate over (you can use your own)
data = {
    "text": ["Hello world", "Hugging Face is awesome", "I love NLP"],
    "label": [0, 1, 1]
}
source_dataset = Dataset.from_dict(data)

# Loop through the source dataset and append data to the empty dataset
new_data = {"text": [], "label": []}  # Initialize dictionary to store new data
for row in source_dataset:
    # Process row if needed (e.g., filtering, transforming, etc.)
    if row["label"] == 1:  # Example condition
        new_data["text"].append(row["text"])
        new_data["label"].append(row["label"])

# Add the collected data to the empty dataset
updated_dataset = Dataset.from_dict(new_data)

# Print the resulting dataset
print(updated_dataset)

Dataset({
    features: ['text', 'label'],
    num_rows: 2
})
