<img src='https://huggingface.co/datasets/huggingface/brand-assets/resolve/main/hf-logo-with-title.svg'>

## 1. Hugging Face란?

Hugging Face는 AI 커뮤니티가 사전 학습(pretrained) 모델, 데이터셋, 평가 도구를 쉽게 **공유하고 재사용**할 수 있도록 하는 **AI 중심의 오픈소스 플랫폼**입니다.

- 본사는 뉴욕에 위치한 스타트업
- NLP 중심으로 시작했지만 지금은 **CV, Audio, Tabular, 멀티모달 모델**까지 확장
- 슬로건: *Democratize AI* (AI의 민주화)

---

## 2. Hugging Face의 핵심 라이브러리

| 라이브러리        | 기능 설명 |
|------------------|----------|
|  `transformers` | 사전 학습된 모델을 손쉽게 사용하고 Fine-tuning 가능 |
|  `datasets`     | 수천 개의 표준 데이터셋 로드 및 처리 |
|  `evaluate`     | 모델 성능 평가 지표 제공 (BLEU, ROUGE, Accuracy 등) |
|  `tokenizers`   | 초고속 토크나이저 라이브러리 (Rust 기반) |
|  `accelerate`   | 멀티 GPU/TPU 및 분산 학습 지원 |
|  `optimum`      | ONNX, TensorRT 등 하드웨어 최적화 통합 |
|  `hub`          | 모델, 데이터셋, Spaces 웹 앱 공유 플랫폼 |

---

##  3. Transformers 라이브러리 구조

### 주요 클래스

| 클래스 이름 | 설명 |
|-------------|------|
| `AutoTokenizer` | 문장을 토큰으로 분해하는 토크나이저 자동 로딩 |
| `AutoModel` | Transformer 기반 모델 로딩 (특정 Task 없음) |
| `AutoModelForSequenceClassification` | 문장 분류용 모델 로딩 |
| `AutoModelForQuestionAnswering` | 질의 응답 모델 |
| `AutoModelForSeq2SeqLM` | 요약/번역/생성 모델 (BART, T5 등) |

---

## 4. Transformers 예제: 문장 분류

```python
from transformers import TFAutoModelForSequenceClassification, AutoTokenizer
import tensorflow as tf
import numpy as np

# 1. 모델과 토크나이저 로딩 (사전학습된 DistilBERT 기반 문장 분류기)
model_name = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModelForSequenceClassification.from_pretrained(model_name)

# 2. 예측할 문장
sentence = "I really enjoyed the movie!"

# 3. 입력 토큰 변환
inputs = tokenizer(sentence, return_tensors="tf")

# 4. 모델 예측
outputs = model(**inputs)
logits = outputs.logits

# 5. 확률로 변환 (Softmax)
probabilities = tf.nn.softmax(logits, axis=1)
predicted_class = tf.argmax(probabilities, axis=1).numpy()[0]

# 6. 출력
labels = ['Negative', 'Positive']  # SST-2 기준
print(f"문장: {sentence}")
print(f"예측된 클래스: {labels[predicted_class]}")
print(f"확률 분포: {probabilities.numpy()}")


## 트랜스포머 애플리케이션 둘러보기

In [None]:
!pip install transformers



In [None]:
from transformers import pipeline

# 사전학습된 감정 분류 모델 로딩 (7가지 감정 포함 모델)
classifier = pipeline("text-classification", model="bhadresh-savani/distilbert-base-uncased-emotion")

# 예제 데이터
examples = [
    {"text": "I’m so happy with the service I received today. Absolutely wonderful!", "label": "joy"},
    {"text": "I'm really disappointed with the product. It broke within two days.", "label": "anger"},
    {"text": "I feel so alone and empty... nothing seems to matter anymore.", "label": "sadness"},
    {"text": "What a fantastic experience! I’ll definitely come back again.", "label": "joy"},
    {"text": "I'm worried about tomorrow's test. I don't think I'm ready.", "label": "fear"},
    {"text": "Ugh, traffic again! I hate wasting time like this.", "label": "anger"},
    {"text": "This is the best surprise ever! Thank you so much!!", "label": "surprise"},
    {"text": "I’m nervous but also kind of excited about the new job.", "label": "mixed"},
    {"text": "Why does this always happen to me...? Nothing ever goes right.", "label": "sadness"},
    {"text": "That movie was terrifying! I couldn’t sleep all night.", "label": "fear"}
]

# 예측 수행
for ex in examples:
    prediction = classifier(ex["text"])[0]
    print(f"Text: {ex['text'][:60]}...")
    print(f" True Label: {ex['label']} | Predicted: {prediction['label']} ({prediction['score']:.2f})\n")


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/768 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/291 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


Text: I’m so happy with the service I received today. Absolutely w...
 True Label: joy | Predicted: joy (1.00)

Text: I'm really disappointed with the product. It broke within tw...
 True Label: anger | Predicted: sadness (1.00)

Text: I feel so alone and empty... nothing seems to matter anymore...
 True Label: sadness | Predicted: sadness (1.00)

Text: What a fantastic experience! I’ll definitely come back again...
 True Label: joy | Predicted: joy (1.00)

Text: I'm worried about tomorrow's test. I don't think I'm ready....
 True Label: fear | Predicted: joy (0.86)

Text: Ugh, traffic again! I hate wasting time like this....
 True Label: anger | Predicted: anger (0.92)

Text: This is the best surprise ever! Thank you so much!!...
 True Label: surprise | Predicted: joy (1.00)

Text: I’m nervous but also kind of excited about the new job....
 True Label: mixed | Predicted: fear (1.00)

Text: Why does this always happen to me...? Nothing ever goes righ...
 True Label: sadness | Predicted

### 개체명 인식

In [None]:
from transformers import pipeline

# 예제 문장
ex = {
    "text": "Dear Amazon, I ordered an Optimus Prime action figure from your online store in Germany.",
    "label": "neutral"
}

#  1. NER 파이프라인 정의 (단어 병합)
ner_tagger = pipeline("ner", aggregation_strategy="simple")

#  2. 개체명 인식 실행
ner_results = ner_tagger(ex["text"])

#  3. 결과 출력
if ner_results:
    print(" 개체명 인식 결과:")
    for ent in ner_results:
        print(f"   - {ent['word']:>20} | {ent['entity_group']:>10} | Score: {ent['score']:.3f}")
else:
    print(" 개체명 없음")


No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision 4c53496 (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/1.33G [00:00<?, ?B/s]

Some weights of the model checkpoint at dbmdz/bert-large-cased-finetuned-conll03-english were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/60.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

Device set to use cuda:0


 개체명 인식 결과:
   -               Amazon |        ORG | Score: 0.982
   -        Optimus Prime |       MISC | Score: 0.987
   -              Germany |        LOC | Score: 1.000


### 질문 응답(QA)

In [None]:
from transformers import pipeline
import pandas as pd

#  텍스트 (문맥)
text = "Dear Amazon, I ordered an Optimus Prime action figure from your online store in Germany. Unfortunately, I received a Megatron figure instead. As an Autobot, I hope you understand the problem. Please exchange Megatron with Optimus Prime. Sincerely, Bumblebee."

#  질문 정의
question = "What does the customer want?"

#  1. QA 파이프라인 정의
reader = pipeline("question-answering")

#  2. 질문과 문맥 전달
output = reader(question=question, context=text)

#  3. 결과를 DataFrame으로 출력
df = pd.DataFrame([output])
print(df)


No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 564e9b5 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

Device set to use cuda:0


      score  start  end                                answer
0  0.196147    199  235  exchange Megatron with Optimus Prime


### 요약

In [None]:
from transformers import pipeline

# 1. 요약 파이프라인 불러오기
summarizer = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6")

# 2. 긴 텍스트 정의
text = """
Amazon is an American multinational technology company which focuses on e-commerce, cloud computing, digital streaming, and artificial intelligence.
It is one of the Big Five companies in the U.S. information technology industry, along with Google, Apple, Meta, and Microsoft.
The company has been referred to as "one of the most influential economic and cultural forces in the world", and is one of the world's most valuable brands.
Amazon was founded by Jeff Bezos in Bellevue, Washington, on July 5, 1994.
"""

# 3. 요약 수행
summary = summarizer(text, max_length=50, min_length=25, do_sample=False)

# 4. 출력
print("요약 결과:\n", summary[0]['summary_text'])


config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Device set to use cuda:0


요약 결과:
  Amazon is one of the Big Five companies in the U.S. information technology industry, along with Google, Apple, Meta, and Microsoft . The company has been referred to as "one of the most influential economic and cultural forces in


- 한국어 요약 예제 : KoBART 사용

In [None]:
from transformers import pipeline

# 1. 한국어 요약 모델 로딩 (KoBART 기반)
summarizer = pipeline("summarization", model="digit82/kobart-summarization")

# 2. 한국어 긴 문장 정의
text = """
지난 5일, 서울 강남구에서 대규모 개발자 컨퍼런스가 열렸다. 이 행사는 국내외 IT 업계 전문가들이 참여하여 인공지능, 빅데이터, 클라우드 기술에 대한 최신 동향과 사례를 공유하는 자리였다.
특히, 오픈AI의 최신 GPT 모델에 대한 실시간 데모가 큰 화제를 모았다. 이번 컨퍼런스는 팬데믹 이후 처음으로 오프라인으로 개최되었으며, 수천 명이 현장을 찾았다.
"""

# 3. 요약 수행
summary = summarizer(text, max_length=64, min_length=20, do_sample=False)

# 4. 출력
print(" 원문:\n", text)
print("\n 요약:\n", summary[0]["summary_text"])


config.json:   0%|          | 0.00/1.20k [00:00<?, ?B/s]

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels will be overwritten to 2.
You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels will be overwritten to 2.


pytorch_model.bin:   0%|          | 0.00/496M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/496M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/295 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/682k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/109 [00:00<?, ?B/s]

Device set to use cuda:0


 원문:
 
지난 5일, 서울 강남구에서 대규모 개발자 컨퍼런스가 열렸다. 이 행사는 국내외 IT 업계 전문가들이 참여하여 인공지능, 빅데이터, 클라우드 기술에 대한 최신 동향과 사례를 공유하는 자리였다. 
특히, 오픈AI의 최신 GPT 모델에 대한 실시간 데모가 큰 화제를 모았다. 이번 컨퍼런스는 팬데믹 이후 처음으로 오프라인으로 개최되었으며, 수천 명이 현장을 찾았다.


 요약:
 5일, 강남구에서 대규모 개발자 컨퍼런스가 열렸으며 국내외 IT 업계 전문가들이 참여하여 인공지능, 빅데이터, 클라우드 기술에 대한 최신 동향과 사례를 공유하는 자리였다.


### 번역

- 영어 -> 독일어(English -> German)

In [None]:
from transformers import pipeline

# 영어 → 독일어 번역기
translator = pipeline("translation_en_to_de", model="Helsinki-NLP/opus-mt-en-de")

# 영어 문장
text = "The government announced a new policy to improve infrastructure and promote AI-based traffic systems."

# 번역 수행
outputs = translator(text, clean_up_tokenization_spaces=True, min_length=50)

# 결과 출력
print(" 영어 원문:\n", text)
print("🇩🇪 독일어 번역:\n", outputs[0]['translation_text'])


config.json:   0%|          | 0.00/1.33k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/298M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/298M [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/768k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/797k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.27M [00:00<?, ?B/s]

Device set to use cuda:0


 영어 원문:
 The government announced a new policy to improve infrastructure and promote AI-based traffic systems.
🇩🇪 독일어 번역:
 Die Regierung kündigte eine neue Politik an, um die Infrastruktur zu verbessern und KI-gestützte Verkehrssysteme zu fördern...................................................................................................................................................................................................................................................


- 영어 -> 한국어(English -> Korean)
    - Papago 기반 NLLB 모델(NLLB : facebook/nllb-200-distilled-600M)
    - 200개 언어 지원 다국어 번역 모델
    - Hugging Face의 translation 파이프라인과 직접 호환되지는 않지만 아래와 같이 사용 가능.

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

# 모델 및 토크나이저 로드
model_name = "facebook/nllb-200-distilled-600M"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# 번역 파이프라인 생성 (lang codes는 ISO 기준)
translator = pipeline("translation", model=model, tokenizer=tokenizer, src_lang="eng_Latn", tgt_lang="kor_Hang")

# 입력 문장
text = "Artificial intelligence is transforming how we work and live every day."

# 번역 수행
outputs = translator(text, max_length=100)

# 출력
print(" 영어 원문:\n", text)
print("🇰🇷 한국어 번역:\n", outputs[0]['translation_text'])

tokenizer_config.json:   0%|          | 0.00/564 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/4.85M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.3M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/3.55k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/846 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.46G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.46G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/189 [00:00<?, ?B/s]

Device set to use cuda:0


 영어 원문:
 Artificial intelligence is transforming how we work and live every day.
🇰🇷 한국어 번역:
 인공지능은 우리가 일하고 살아가는 방식을 변화시키고 있습니다.


- 한국어 -> 영어(Korean -> English)

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

# 1. 다국어 번역 모델 로딩 (NLLB)
model_name = "facebook/nllb-200-distilled-600M"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# 2. 번역 파이프라인 정의
translator = pipeline("translation", model=model, tokenizer=tokenizer, src_lang="kor_Hang", tgt_lang="eng_Latn")

# 3. 번역할 한국어 문장
text = "인공지능은 우리의 일상과 업무 방식을 변화시키고 있습니다."

# 4. 번역 수행
outputs = translator(text, max_length=100)

# 5. 출력 결과
print("🇰🇷 한국어 원문:\n", text)
print("🇺🇸 영어 번역:\n", outputs[0]['translation_text'])

Device set to use cuda:0


🇰🇷 한국어 원문:
 인공지능은 우리의 일상과 업무 방식을 변화시키고 있습니다.
🇺🇸 영어 번역:
 AI is changing our daily lives and our way of working.


### 영어 텍스트 생성 예제(GPT-2 기반)

In [None]:
from transformers import pipeline

# 1. 텍스트 생성 파이프라인 정의
generator = pipeline("text-generation", model="gpt2")

# 2. 프롬프트(시작 문장)
prompt = "The future of artificial intelligence is"

# 3. 텍스트 생성
output = generator(prompt, max_length=50, num_return_sequences=1)

# 4. 결과 출력
print(" 생성된 텍스트:\n", output[0]['generated_text'])


config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Device set to use cuda:0
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


 생성된 텍스트:
 The future of artificial intelligence is at hand. A new era of high-value AI research will bring with it a lot more exciting opportunities.

In particular, because of our ongoing technological advances, data is incredibly valuable. In a rapidly evolving world


### 한국어 텍스트 생성 예제(KoGPT2)

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

# 1. 한국어 GPT2 모델 로딩
model_name = "skt/kogpt2-base-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 2. 파이프라인 정의
generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

# 3. 프롬프트
prompt = "인공지능은 우리 사회에"

# 4. 생성 실행
output = generator(prompt, max_length=50, do_sample=True, top_k=50)

# 5. 결과 출력
print(" 생성된 한국어 텍스트:\n", output[0]['generated_text'])


config.json:   0%|          | 0.00/1.00k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.83M [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/513M [00:00<?, ?B/s]

Device set to use cuda:0


model.safetensors:   0%|          | 0.00/513M [00:00<?, ?B/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


 생성된 한국어 텍스트:
 인공지능은 우리 사회에 새로운 변화를 몰고 올 중대한 분수령이 될 것이다.
우리의 미래에는 더 이상 지능 중심의 산업에서 인공지능에 기반한 지식기반 서비스가 지배적 지위를 차지하고 있다.
인공지능을 기반으로 하는 지능기술이 인류의 문명을 변화


##허깅 페이스의 생태계

<img src='https://velog.velcdn.com/images/beaver_zip/post/d642e9a5-f29a-4a1f-a18e-e79f25cef9de/image.png'>

- 참고 : 트랜스포머를 활용한 자연어처리

#  Hugging Face `datasets` 라이브러리 완전 정복

---

##  1. 개요

`datasets`는 Hugging Face에서 제공하는 파이썬 라이브러리로, 다양한 머신러닝/딥러닝 데이터셋을 **간편하게 불러오고, 전처리하고, 분할할 수 있는 기능**을 제공합니다.

- 10,000개 이상의 공개 데이터셋 제공
- **Stream 방식** 로딩 지원 (대용량 처리 가능)
- **TensorFlow, PyTorch 모두 호환**
-  Transformers와 완벽하게 통합됨

---

##  2. 설치


In [None]:
!pip install huggingface_hub



## 3. 데이터셋 불러오기

In [None]:
from huggingface_hub import list_datasets

# 제너레이터를 리스트로 변환
all_datasets = list(list_datasets())

print(f'현재 허브에는 {len(all_datasets)}개의 데이터셋이 있습니다.')
print(f'처음 10개 데이터셋 : {all_datasets[:10]}')

현재 허브에는 365503개의 데이터셋이 있습니다.
처음 10개 데이터셋 : [DatasetInfo(id='zwhe99/DeepMath-103K', author='zwhe99', sha='736ce9bfca63afc046a07d545915fa261bbe843f', created_at=datetime.datetime(2025, 4, 14, 10, 41, 33, tzinfo=datetime.timezone.utc), last_modified=datetime.datetime(2025, 4, 18, 6, 29, 38, tzinfo=datetime.timezone.utc), private=False, gated=False, disabled=False, downloads=7542, downloads_all_time=None, likes=133, paperswithcode_id=None, tags=['task_categories:text-generation', 'task_categories:text2text-generation', 'language:en', 'license:mit', 'size_categories:100K<n<1M', 'format:parquet', 'modality:text', 'library:datasets', 'library:dask', 'library:mlcroissant', 'library:polars', 'arxiv:2504.11456', 'region:us', 'math', 'reasoning', 'rl'], trending_score=112, card_data=None, siblings=None, xet_enabled=None), DatasetInfo(id='Anthropic/values-in-the-wild', author='Anthropic', sha='984078fc407bb5c6c3e754c8f571825754842a18', created_at=datetime.datetime(2025, 4, 10, 6, 4, 36, tzinfo=dat

In [None]:
from huggingface_hub import list_datasets

# 'emotion' 키워드를 포함하는 데이터셋 필터링
emotions = list(list_datasets(filter="emotion"))
emotions

[DatasetInfo(id='google-research-datasets/go_emotions', author='google-research-datasets', sha='add492243ff905527e67aeb8b80c082af02207c3', created_at=datetime.datetime(2022, 3, 2, 23, 29, 22, tzinfo=datetime.timezone.utc), last_modified=datetime.datetime(2024, 1, 4, 11, 56, 51, tzinfo=datetime.timezone.utc), private=False, gated=False, disabled=False, downloads=12918, downloads_all_time=None, likes=202, paperswithcode_id='goemotions', tags=['task_categories:text-classification', 'task_ids:multi-class-classification', 'task_ids:multi-label-classification', 'annotations_creators:crowdsourced', 'language_creators:found', 'multilinguality:monolingual', 'source_datasets:original', 'language:en', 'license:apache-2.0', 'size_categories:100K<n<1M', 'format:parquet', 'modality:tabular', 'modality:text', 'library:datasets', 'library:pandas', 'library:mlcroissant', 'library:polars', 'arxiv:2005.00547', 'region:us', 'emotion'], trending_score=2, card_data=None, siblings=None, xet_enabled=None),
 D

In [None]:
!pip install datasets

Collecting datasets
  Downloading datasets-3.5.0-py3-none-any.whl.metadata (19 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.12.0,>=2023.1.0 (from fsspec[http]<=2024.12.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.12.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.5.0-py3-none-any.whl (491 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m491.2/491.2 kB[0m [31m15.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m12.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.12.0-py3-none-any.

In [None]:
from huggingface_hub import list_datasets
from datasets import load_dataset

# 1. 'emotion' 관련 데이터셋 이름 검색
emotion_datasets = list(list_datasets(filter="emotion"))
print(" 감정 관련 데이터셋 리스트:", emotion_datasets[:5])  # 예시로 일부만 출력

# 2. 'emotion' 데이터셋 로딩
dataset = load_dataset("emotion")

# 3. train/validation/test 접근
train_ds = dataset["train"]
print(" 첫 번째 샘플:", train_ds[0])

 감정 관련 데이터셋 리스트: [DatasetInfo(id='google-research-datasets/go_emotions', author='google-research-datasets', sha='add492243ff905527e67aeb8b80c082af02207c3', created_at=datetime.datetime(2022, 3, 2, 23, 29, 22, tzinfo=datetime.timezone.utc), last_modified=datetime.datetime(2024, 1, 4, 11, 56, 51, tzinfo=datetime.timezone.utc), private=False, gated=False, disabled=False, downloads=12918, downloads_all_time=None, likes=202, paperswithcode_id='goemotions', tags=['task_categories:text-classification', 'task_ids:multi-class-classification', 'task_ids:multi-label-classification', 'annotations_creators:crowdsourced', 'language_creators:found', 'multilinguality:monolingual', 'source_datasets:original', 'language:en', 'license:apache-2.0', 'size_categories:100K<n<1M', 'format:parquet', 'modality:tabular', 'modality:text', 'library:datasets', 'library:pandas', 'library:mlcroissant', 'library:polars', 'arxiv:2005.00547', 'region:us', 'emotion'], trending_score=2, card_data=None, siblings=None, xet_

README.md:   0%|          | 0.00/9.05k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/1.03M [00:00<?, ?B/s]

validation-00000-of-00001.parquet:   0%|          | 0.00/127k [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/129k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/16000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/2000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/2000 [00:00<?, ? examples/s]

 첫 번째 샘플: {'text': 'i didnt feel humiliated', 'label': 0}


In [None]:
len(train_ds)

16000

In [None]:
train_ds.column_names

['text', 'label']

# Hugging Face Transformers의 Tokenizer

---

## 개요

`Tokenizer`는 자연어 문장을 **모델이 이해할 수 있는 숫자 형태의 토큰**으로 변환해주는 도구입니다.  
Hugging Face의 `transformers` 라이브러리는 다양한 사전 학습 모델(BERT, GPT, T5 등)에 맞는 **전용 토크나이저**를 제공합니다.

---

## 토크나이저의 주요 역할

1. 문장을 **토큰 단위로 분리** (예: 단어, 서브워드, 문자 등)
2. 토큰을 사전의 **고유 인덱스**로 변환 (숫자화)
3. **패딩(padding)**, **마스크(mask)**, **어텐션 마스크** 등을 생성
4. 모델의 입력 포맷에 맞게 자동 구성 (예: `input_ids`, `attention_mask`, `token_type_ids`)

---



# Transformers 주요 토크나이저(Tokenizers) 종류 정리

토크나이저는 문장을 모델이 이해할 수 있도록 숫자 토큰으로 바꾸는 전처리 핵심 도구입니다. Hugging Face는 모델마다 적절한 토크나이저를 제공합니다.

---

## 1.WordPiece Tokenizer

- 자주 등장하는 단어는 그대로 유지하고, 드문 단어는 하위 단위(서브워드)로 분리하는 방식.
- **기반 알고리즘**: 사전에 정의된 서브워드 사전 사용
- **장점**: 복잡한 단어도 잘 처리 (예: `unhappiness` → `un`, `##happiness`)
- **단점**: 새로운 단어에 대한 일반화 한계

### 📚 사용 모델:
- `bert-base-uncased`
- `distilbert-base-uncased`
- `albert-base-v2`

```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")



## 2. Byte-Pair Encoding (BPE) Tokenizer


- 가장 빈도 높은 **문자 쌍(pair)** 을 반복적으로 병합하여 서브워드를 생성하는 방식.
- 주로 GPT, RoBERTa 등에서 사용.

##### 장점
- 오타, 신조어 등 **신규 단어에 강함**
- 적절한 서브워드 단위로 **단어 커버율이 높음**

##### 단점
- 의미 있는 토큰 단위가 아니라 **의미 왜곡 발생 가능성**
- 병합 순서에 따라 결과 달라짐

##### 사용 모델
- `gpt2`, `roberta-base`, `xlm-roberta-base`, `distilgpt2`, `ctrl`

#####  예제 코드

```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokens = tokenizer.tokenize("Transformers are amazing!")
print(tokens)


##3. SentencePiece Tokenizer

- Google에서 만든 공백 없는 토크나이저, 문장을 통째로 처리 가능

- 내부적으로 BPE 또는 Unigram 알고리즘을 사용

##### 장점

- 공백 없는 언어(한국어, 일본어 등)에 적합

- 기존 공백 기반 분리 없이 문장 전체 모델링 가능

###### 단점
- 디코딩 시 공백 처리 불명확

- BPE보다 처리 속도 느릴 수 있음

#####사용 모델

- t5-base, mt5-small, mbart-large-cc25, xlm-en-roberta




```
tokenizer = AutoTokenizer.from_pretrained("t5-base")
tokens = tokenizer.tokenize("한국어 문장을 처리합니다.")
print(tokens)

```



### 4.Unigram Language Model Tokenizer

- 전체 말뭉치에서 가능한 서브워드 분해 중 확률이 가장 높은 경로를 선택

- SentencePiece에서 제공하는 옵션 중 하나

##### 장점
- 확률 최적화로 더 자연스러운 서브워드 분할

- BPE보다 일반적으로 더 우수한 토큰 분리 성능

##### 단점

- 학습 및 추론 속도 BPE보다 느릴 수 있음

- 구현이 비교적 복잡함

#####사용 모델
- google/mt5-small, xlm-roberta-base, facebook/mbart-large-cc25



```
tokenizer = AutoTokenizer.from_pretrained("google/mt5-small")
tokens = tokenizer.tokenize("인공지능이 사회를 바꾸고 있습니다.")
print(tokens)

```



###5. Character-Level Tokenizer

- 문장을 문자 단위로 나누는 가장 단순한 방식

- 언어 중립적이며, 전처리 없이 바로 사용 가능

###### 장점
- 오타나 신조어에 매우 강함

- 모든 언어에서 사용 가능

##### 단점
- 시퀀스 길이가 매우 길어짐

- 의미 단위 처리가 어려워서 모델 학습 비효율적

##### 사용 모델
- 연구용 또는 특수 목적 모델에서 실험적으로 사용됨

- 예: 문자 기반 GPT 변형, 극한 노이즈 환경



```
text = "Hello"
tokens = list(text)
print(tokens)
# ['H', 'e', 'l', 'l', 'o']

```



# KLUE: Korean Language Understanding Evaluation

---

**KLUE**는 한국어 자연어 이해(NLU) 능력을 평가하기 위한 벤치마크 데이터셋입니다. 다양한 한국어 NLU 태스크를 포함하여, 한국어 사전학습 언어 모델의 성능을 공정하게 비교하고 평가할 수 있도록 설계되었습니다.

- **공식 웹사이트**: [https://klue-benchmark.com](https://klue-benchmark.com)
- **GitHub 저장소**: [https://github.com/KLUE-benchmark/KLUE](https://github.com/KLUE-benchmark/KLUE)
- **논문**: [KLUE: Korean Language Understanding Evaluation](https://arxiv.org/abs/2105.09680)

---

## 구성된 8가지 태스크

KLUE는 다음의 8가지 대표적인 한국어 NLU 태스크로 구성되어 있습니다:

1. **Topic Classification (TC)**
   - **목적**: 뉴스 헤드라인을 주어진 주제 카테고리로 분류
   - **데이터 출처**: Naver 뉴스 등
   - **평가 지표**: Macro F1 Score

2. **Semantic Textual Similarity (STS)**
   - **목적**: 두 문장의 의미적 유사도 측정 (0~5 점수)
   - **데이터 출처**: Airbnb 리뷰 등
   - **평가 지표**: Pearson Correlation Coefficient

3. **Natural Language Inference (NLI)**
   - **목적**: 주어진 전제(premise)와 가설(hypothesis) 문장 간의 관계 판단 (Entailment, Contradiction, Neutral)
   - **데이터 출처**: NSMC 등
   - **평가 지표**: Accuracy

4. **Named Entity Recognition (NER)**
   - **목적**: 문장에서 개체명(인물, 장소, 조직 등) 인식 및 분류
   - **데이터 출처**: WIKITREE 뉴스, NSMC 리뷰 등
   - **평가 지표**: Entity-level F1 Score, Character-level F1 Score

5. **Relation Extraction (RE)**
   - **목적**: 문장에서 두 개체


##  데이터셋 특징

- **언어**: 한국어 (`ko-KR`)
- **라이선스**: CC-BY-SA 4.0
- **데이터 접근**: Hugging Face Datasets 라이브러리를 통해 손쉽게 접근 가능


In [None]:
from transformers import AutoTokenizer

model_name = "klue/bert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)

tokenizer_config.json:   0%|          | 0.00/289 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/425 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/495k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

- help(tokenizer) 구문으로 Tokenizer 객체의 설명을 확인할 수 있다.
    - PreTrainedTokenizer를 상속받고 있으며 워드피스(WordPiece) 에 기반하고 있음을 알 수 있다.

In [None]:
help(tokenizer)

Help on BertTokenizerFast in module transformers.models.bert.tokenization_bert_fast object:

class BertTokenizerFast(transformers.tokenization_utils_fast.PreTrainedTokenizerFast)
 |  BertTokenizerFast(vocab_file=None, tokenizer_file=None, do_lower_case=True, unk_token='[UNK]', sep_token='[SEP]', pad_token='[PAD]', cls_token='[CLS]', mask_token='[MASK]', tokenize_chinese_chars=True, strip_accents=None, **kwargs)
 |  
 |  Construct a "fast" BERT tokenizer (backed by HuggingFace's *tokenizers* library). Based on WordPiece.
 |  
 |  This tokenizer inherits from [`PreTrainedTokenizerFast`] which contains most of the main methods. Users should
 |  refer to this superclass for more information regarding those methods.
 |  
 |  Args:
 |      vocab_file (`str`):
 |          File containing the vocabulary.
 |      do_lower_case (`bool`, *optional*, defaults to `True`):
 |          Whether or not to lowercase the input when tokenizing.
 |      unk_token (`str`, *optional*, defaults to `"[UNK]"`):

In [None]:
print(tokenizer.vocab_size)
print(tokenizer.get_vocab())
print(tokenizer.special_tokens_map)

32000
{'##40': 9888, '주인': 4268, '경실련': 21916, '해시': 24998, '계략': 26816, '오르막': 25545, '##샤브': 26353, '유가증권': 13175, '##금': 2157, '골프클럽': 30703, '분만': 23095, '우렁': 23227, '유치': 4415, '성과급': 17208, '##르바': 22744, 'my': 15408, '이례': 10156, '토마토': 10763, '##짭': 3357, '공심': 28716, '한국노총': 18546, '##게트': 27184, '먹구름': 25731, '서류': 6033, '막히': 11512, '180': 7995, '##감정원': 30729, '장자': 12626, '기라': 22896, '카페인': 20496, 'I': 45, '여건': 6015, '옥션': 15583, '트인': 20018, '방귀': 30026, '테이블': 6889, '##억': 2028, '##영화': 16516, '215': 22813, '##리나': 16794, '홀리': 20370, '어째서': 12531, '밖': 1120, '##렬': 2884, '주권': 10356, '킥': 1755, '일반인': 8012, '##계산': 27420, '##읍': 2058, '과거': 4222, '잔뜩': 9114, '포상': 12568, '회식': 12063, '중형': 11731, '배워': 9069, '미처': 11200, '한일': 30662, '##마니': 21925, '##퍼레이션': 29198, '대박': 8183, '먹였': 31211, '야지': 12491, '정우택': 29587, '스타일': 4715, '##언': 2347, '허준': 27138, '##70': 9871, '페미니스트': 23203, '돌변': 23779, '무림': 15812, '##하우스': 17975, '##너스': 11222, '기어이': 24258, '무가': 29475, 

- \<CLS> : Special Classification token /  \<bos> : begin of sentence /  \<eos> : end of sentence

In [None]:
sentence = '이것은 테스트용입니다.'

#토큰화 작업
token1 = tokenizer.tokenize(sentence)
print(token1)

['이것', '##은', '테스트', '##용', '##입니다', '.']


- \## : 앞 토큰과 공백 없이 이어짐을 의미 / sentencePiece 토크나이저는 기본으로 ## 표시를 이어짐을 표시함.

- BPE 토크나이저는 토큰 앞부분에 밑줄 문자(언더바,_)를 붙여서 사용함.

In [None]:
#토큰을 입력 식별자로 변환
ids1 = tokenizer.convert_tokens_to_ids(token1)
print(ids1)

ids2 = tokenizer(sentence)
print(ids2)

[3982, 2073, 7453, 2048, 12190, 18]
{'input_ids': [2, 3982, 2073, 7453, 2048, 12190, 18, 3], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1]}


In [None]:
#디코딩
decoded_string1 = tokenizer.decode(ids1)
print(decoded_string1)
decoded_string2 = tokenizer.decode(ids2['input_ids'])
print(decoded_string2)

decoded_string3 = tokenizer.decode(ids2['input_ids'], skip_special_tokens=True)
print(decoded_string3)

이것은 테스트용입니다.
[CLS] 이것은 테스트용입니다. [SEP]
이것은 테스트용입니다.


# Hugging Face DataCollator 완전 정리

---


`DataCollator`는 Hugging Face `transformers`에서 학습용 `DataLoader`와 함께 사용되며, **토크나이즈된 여러 샘플을 배치(batch)로 묶어주는 역할**을 합니다.

- PyTorch의 `collate_fn`과 유사한 개념
- 모델 학습 시 **패딩(padding)**, **마스크 생성**, **라벨 정렬** 등을 자동화

---

## 왜 필요한가?

데이터셋은 보통 문장 길이가 다르기 때문에, 다음을 수동으로 해야 합니다:

- `max_length`에 맞춰 padding
- `attention_mask` 생성
- `input_ids`, `labels` 정렬

`DataCollator`는 이 과정을 자동으로 처리해 줍니다.

---

## 기본 예시: DataCollatorWithPadding

```python
from transformers import AutoTokenizer, DataCollatorWithPadding
from datasets import load_dataset
from torch.utils.data import DataLoader

# 1. 토크나이저 로딩
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# 2. 데이터셋 로딩 및 토크나이징
dataset = load_dataset("imdb", split="train[:1000]")

def tokenize_fn(example):
    return tokenizer(example["text"], truncation=True)

tokenized_dataset = dataset.map(tokenize_fn, batched=True)

# 3. DataCollator 정의
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

# 4. DataLoader에 collator 적용
dataloader = DataLoader(tokenized_dataset, batch_size=8, collate_fn=data_collator)

# 5. 배치 확인
batch = next(iter(dataloader))
print(batch.keys())


##주요 DataCollator 종류 비교

| 이름 | 사용 용도 | 특징 |
|------|-----------|------|
| `DataCollatorWithPadding` | 텍스트 분류, QA 등 일반 태스크 | 동적 패딩 자동 처리 |
| `DataCollatorForLanguageModeling` | MLM (BERT) | 마스킹 토큰 자동 생성 |
| `DataCollatorForTokenClassification` | 개체명 인식(NER), POS 태깅 | 라벨 길이 정렬, pad alignment |
| `DataCollatorForSeq2Seq` | 번역, 요약 등 | `decoder_input_ids` 자동 생성 |
| `DefaultDataCollator` | 최소한의 정리만 필요할 때 | 단순히 텐서로만 묶음 (no padding) |

---

### 1. `DataCollatorWithPadding`

- **용도**: 일반 텍스트 분류, QA 등에서 입력 길이 자동 정규화
- **기능**: 토크나이저 기반 **동적 padding**, `attention_mask` 자동 생성

```
from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
```

### 2. `DataCollatorForLanguageModeling`
- **용도**: 마스크드 언어 모델(Masked LM, ex. BERT) 학습

- **기능**: 입력 시 자동으로 일부 토큰을 [MASK]로 치환하고 labels 생성

```
from transformers import DataCollatorForLanguageModeling

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=True,
    mlm_probability=0.15
)
```

### 3.`DataCollatorForTokenClassification`

- **용도**: 토큰 단위 라벨이 필요한 태스크 (NER 등)

- **기능**: 각 문장마다 labels 길이를 패딩에 맞춰 정렬

```
from transformers import DataCollatorForTokenClassification

data_collator = DataCollatorForTokenClassification(tokenizer=tokenizer)
```

### 4.```DataCollatorForSeq2Seq```
- **용도**: Seq2Seq 모델 학습 (번역, 요약 등)
- **기능**:
    - labels 자동 패딩
    - decoder_input_ids 자동 생성
    - encoder/decoder 구분된 입력 구조에 맞춤

```
from transformers import DataCollatorForSeq2Seq

data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)
```

5. DefaultDataCollator
- **용도**: 텍스트 길이가 같거나 별도 padding 처리 완료된 경우

- **기능**: 텐서로 단순 묶음만 수행 (패딩 없음)

```
from transformers import DefaultDataCollator

data_collator = DefaultDataCollator()
```

In [None]:
!pip install transformers datasets

Collecting datasets
  Downloading datasets-3.5.0-py3-none-any.whl.metadata (19 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.12.0,>=2023.1.0 (from fsspec[http]<=2024.12.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.12.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.5.0-py3-none-any.whl (491 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m491.2/491.2 kB[0m [31m19.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m8.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.12.0-py3-none-any.w

In [None]:
##1. DataCollatorWithPadding 예제 (텍스트 분류용)
from transformers import AutoTokenizer, DataCollatorWithPadding
from datasets import load_dataset
from torch.utils.data import DataLoader

# 1. 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# 2. 데이터셋 로딩
dataset = load_dataset("imdb", split="train[:100]")

# 3. 토크나이징 함수 (padding 포함)
def tokenize_fn(example):
    return tokenizer(example["text"], truncation=True, padding=True)

# 4. 토큰화 적용
tokenized_dataset = dataset.map(tokenize_fn, batched=True,remove_columns=["text"])

# 5. DataCollator 생성 (동적 padding 적용)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

# 6. DataLoader 생성
dataloader = DataLoader(tokenized_dataset, batch_size=8, collate_fn=data_collator)

# 7. 배치 출력
batch = next(iter(dataloader))
print(batch.keys())

Map:   0%|          | 0/100 [00:00<?, ? examples/s]

dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'labels'])


In [None]:
#2. DataCollatorForLanguageModeling 예제 (Masked Language Modeling 용)

from transformers import AutoTokenizer, DataCollatorForLanguageModeling
from datasets import load_dataset
from torch.utils.data import DataLoader

# 1. 토크나이저 로딩
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# 2. 데이터셋 로딩
dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train[:100]")

# 3. 토크나이징 함수 (padding X → DataCollator가 처리함)
def tokenize_fn(example):
    return tokenizer(example["text"], truncation=True)

# 4. 토큰화 적용 + 원본 text 제거
tokenized_dataset = dataset.map(tokenize_fn, batched=True, remove_columns=["text"])

# 5. MLM용 DataCollator 생성
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=True,
    mlm_probability=0.15
)

# 6. DataLoader 생성
dataloader = DataLoader(tokenized_dataset, batch_size=4, collate_fn=data_collator)

# 7. 배치 출력
batch = next(iter(dataloader))
print(batch.keys())  # input_ids, attention_mask, labels

README.md:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/733k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/6.36M [00:00<?, ?B/s]

validation-00000-of-00001.parquet:   0%|          | 0.00/657k [00:00<?, ?B/s]

Generating test split:   0%|          | 0/4358 [00:00<?, ? examples/s]

Generating train split:   0%|          | 0/36718 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/3760 [00:00<?, ? examples/s]

Map:   0%|          | 0/100 [00:00<?, ? examples/s]

dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'labels'])


In [None]:
from transformers import AutoTokenizer, DataCollatorForTokenClassification
from datasets import load_dataset
from torch.utils.data import DataLoader

# 1. 사전학습된 BERT 토크나이저 로딩 (cased 모델은 NER에 유리)
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

# 2. CoNLL-2003 NER 데이터셋의 상위 100개 샘플 로드
dataset = load_dataset("conll2003", split="train[:100]")

# 3. 전체 레이블 이름 추출 (ex: 'B-ORG', 'I-LOC', ...)
label_list = dataset.features["ner_tags"].feature.names

# 4. 라벨을 모든 서브토큰에 적용할지 여부 설정
label_all_tokens = False

# 5. 토큰화 및 라벨 정렬 함수 정의
def tokenize_and_align_labels(examples):
    # 각 문장을 토큰화 (단어 리스트 기준으로 split 처리)
    tokenized_inputs = tokenizer(
        examples["tokens"],
        truncation=True,
        is_split_into_words=True,
    )

    labels = []
    # 각 문장에 대해 라벨 alignment 수행
    for i, label in enumerate(examples["ner_tags"]):
        word_ids = tokenized_inputs.word_ids(batch_index=i)  # 토큰이 어떤 단어에서 나왔는지 확인
        previous_word_idx = None
        label_ids = []

        for word_idx in word_ids:
            if word_idx is None:
                label_ids.append(-100)  # 패딩/스페셜 토큰에 해당하는 경우 무시
            elif word_idx != previous_word_idx:
                label_ids.append(label[word_idx])  # 첫 번째 서브토큰: 원래 라벨
            else:
                label_ids.append(label[word_idx] if label_all_tokens else -100)  # 이후 서브토큰
            previous_word_idx = word_idx

        labels.append(label_ids)

    # 토큰화된 입력에 라벨 추가
    tokenized_inputs["labels"] = labels
    return tokenized_inputs

# 6. 토크나이징 및 라벨 정렬 + 원본 열 제거 (리스트 형태 제거)
tokenized_dataset = dataset.map(
    tokenize_and_align_labels,
    batched=True,
    remove_columns=dataset.column_names  # 'tokens', 'pos_tags', 'ner_tags', 'id' 등 제거
)

# 7. TokenClassification용 DataCollator 생성 (패딩 자동 처리)
data_collator = DataCollatorForTokenClassification(tokenizer=tokenizer)

# 8. PyTorch DataLoader 생성 (collator 적용)
dataloader = DataLoader(tokenized_dataset, batch_size=4, collate_fn=data_collator)

# 9. 첫 번째 배치 추출 및 출력
batch = next(iter(dataloader))
print(batch.keys())  # => input_ids, attention_mask, labels

Map:   0%|          | 0/100 [00:00<?, ? examples/s]

dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'labels'])


#  Hugging Face Transformers 모델

---

`transformers` 라이브러리는 다양한 자연어 처리(NLP) 태스크를 위한 사전 학습(pretrained) 모델들을 제공합니다.  
대표적인 태스크에는 텍스트 분류, 번역, 요약, 질의응답, 생성 등이 포함되며, 모델마다 특화된 아키텍처가 존재합니다.

---

## 모델 아키텍처 비교

| 모델명 | 구조 | 태스크 예시 | 특징 |
|--------|------|-------------|------|
| **BERT** | Encoder | 분류, NER, QA | 양방향, 마스킹 기반(Masked LM) |
| **RoBERTa** | Encoder | 분류, QA | BERT 개선형, 더 많은 데이터 |
| **DistilBERT** | Encoder | 분류 | 경량화된 BERT |
| **ALBERT** | Encoder | QA, NLI | 파라미터 공유로 경량화 |
| **GPT/GPT-2** | Decoder | 텍스트 생성 | 단방향, 언어 생성에 특화 |
| **GPT-3 / GPT-4** | Decoder | 채팅, 생성 | 대규모, 대화형 모델 |
| **T5** | Encoder-Decoder | 번역, 요약, QA | 모든 태스크를 텍스트 → 텍스트로 처리 |
| **BART** | Encoder-Decoder | 요약, 생성 | 디노이징 기반 사전학습 |
| **XLNet** | Permutation-based Encoder | QA, 분류 | 순열 기반, BERT보다 더 넓은 컨텍스트 |
| **Electra** | Discriminator | 분류, QA | generator-discriminator 훈련 방식 |
| **mBERT** | Encoder | 다국어 분류 | BERT의 다국어 버전 |
| **XLM-R** | Encoder | 다국어 QA, 분류 | RoBERTa 기반 다국어 모델 |
| **Pegasus** | Encoder-Decoder | 요약 | 요약 특화된 T5 기반 |
| **Longformer** | Encoder | 긴 문서 분류, QA | 긴 시퀀스 입력 처리 가능 |

---

## 모델별 주요 태스크 요약

| 태스크 | 추천 모델 |
|--------|-----------|
| 텍스트 분류 | BERT, RoBERTa, DistilBERT |
| 개체명 인식 (NER) | BERT, XLM-R |
| 질의응답 (SQuAD 등) | BERT, RoBERTa, ALBERT |
| 요약 | BART, T5, Pegasus |
| 기계 번역 | T5, MarianMT, mBART |
| 텍스트 생성 | GPT2, GPT-3, GPT-4, BART |
| 다국어 처리 | mBERT, XLM-R, mT5 |

---

## 예시: 모델 로딩 및 사용

```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 모델 로딩 (예: BERT 기반 감정 분류 모델)
model_name = "nlptown/bert-base-multilingual-uncased-sentiment"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
