In [2]:
from datasets import load_dataset

# 'wikitext-2-raw-v1'은 적당한 크기의 버전으로, 테스트하기에 좋습니다.
raw_dataset = load_dataset('wikitext', 'wikitext-2-raw-v1')

# 다운로드된 데이터셋 구조 확인
print(raw_dataset)
# 출력 결과:
# DatasetDict({
#     train: Dataset({
#         features: ['text']   num_rows: 36718
#     })
#     validation: Dataset({
#         features: ['text'],
#         num_rows: 360
#     })
#     test: Dataset({
#         features: ['text'],
#         num_rows: 4358
#     })
# })

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Generating test split: 100%|██████████| 4358/4358 [00:00<00:00, 253488.15 examples/s]
Generating train split: 100%|██████████| 36718/36718 [00:00<00:00, 942137.18 examples/s]
Generating validation split: 100%|██████████| 3760/3760 [00:00<00:00, 429341.80 examples/s]

DatasetDict({
    test: Dataset({
        features: ['text'],
        num_rows: 4358
    })
    train: Dataset({
        features: ['text'],
        num_rows: 36718
    })
    validation: Dataset({
        features: ['text'],
        num_rows: 3760
    })
})





In [3]:
from transformers import BertTokenizer

# 모델과 동일한 토크나이저 준비
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 전처리 함수 정의
def tokenize_function(examples):
    # 텍스트를 토큰 ID, 어텐션 마스크 등으로 변환
    return tokenizer(
        examples["text"], 
        padding="max_length", # 문장 길이를 맞춰주기 위해 패딩
        truncation=True,      # 최대 길이를 넘는 부분은 잘라냄
        max_length=128        # 문장의 최대 길이를 128 토큰으로 설정
    )

# .map()을 사용해 전체 데이터셋에 함수를 적용
print("토크나이징을 시작합니다. (데이터 양에 따라 몇 분 정도 걸릴 수 있습니다)...")
tokenized_dataset = raw_dataset.map(tokenize_function, batched=True)
print("✅ 토크나이징 완료!")

# 전처리 후 결과 확인
print("\n--- 전처리 후 데이터셋 ---")
print(tokenized_dataset)

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


토크나이징을 시작합니다. (데이터 양에 따라 몇 분 정도 걸릴 수 있습니다)...


Map: 100%|██████████| 4358/4358 [00:03<00:00, 1297.82 examples/s]
Map: 100%|██████████| 36718/36718 [00:25<00:00, 1424.09 examples/s]
Map: 100%|██████████| 3760/3760 [00:02<00:00, 1368.99 examples/s]

✅ 토크나이징 완료!

--- 전처리 후 데이터셋 ---
DatasetDict({
    test: Dataset({
        features: ['text', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 4358
    })
    train: Dataset({
        features: ['text', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 36718
    })
    validation: Dataset({
        features: ['text', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 3760
    })
})



