In [3]:
!pip install transformers[sentencepiece]



###  NLP 태스크 종류

전체 문장을 분류하기(Classifying whole sentences): 리뷰(review)의 감정(sentiment)을 식별하고, 이메일이 스팸인지 감지하고, 문장이 문법적으로 올바른지 또는 두 문장이 논리적으로 관련되어 있는지 여부를 판단합니다.

단일 문장에서 각 단어를 분류하기(Classifying each word in a sentence): 문장의 문법적 구성요소(명사, 동사, 형용사) 또는 명명된 개체(개체명, e.g., 사람, 위치, 조직) 식별

텍스트 컨텐트 생성하기(Generating text content): 자동 생성된 텍스트로 프롬프트 완성(completing a prompt), 마스킹된 단어(masked words)로 텍스트의 공백 채우기

텍스트에서 정답 추출하기(Extracting an answer from a text): 질문(question)과 맥락(context)이 주어지면, 맥락에서 제공된 정보를 기반으로 질문에 대한 답변을 추출

입력 텍스트에서 새로운 문장을 생성하기(Generating a new sentence from an input text): 텍스트를 다른 언어로 번역(translation), 텍스트 요약(summarization)

### 파이프라인(pipeline) 활용하기

파이프라인에 텍스트가 입력되면 3가지 주요 단계가 내부적으로 실행됩니다.

- 텍스트는 모델이 이해할 수 있는 형식으로 전처리됩니다(preprocessing).

- 전처리 완료된 입력 텍스트는 모델에 전달됩니다.

- 모델이 예측한 결과는 후처리되어(postprocessing) 우리가 이해할 수 있는 형태로 변환됩니다.


In [3]:
from transformers import pipeline

#### sentiment-analysis

In [6]:
classifier = pipeline('sentiment-analysis')

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [9]:
classifier.model

DistilBertForSequenceClassification(
  (distilbert): DistilBertModel(
    (embeddings): Embeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (transformer): Transformer(
      (layer): ModuleList(
        (0-5): 6 x TransformerBlock(
          (attention): MultiHeadSelfAttention(
            (dropout): Dropout(p=0.1, inplace=False)
            (q_lin): Linear(in_features=768, out_features=768, bias=True)
            (k_lin): Linear(in_features=768, out_features=768, bias=True)
            (v_lin): Linear(in_features=768, out_features=768, bias=True)
            (out_lin): Linear(in_features=768, out_features=768, bias=True)
          )
          (sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
          (ffn): FFN(
            (dropout): Dropout(p=0.1, inplace=False)
 

In [8]:
classifier("But I'm a creep. I'm a weirdo. What the hell am I doin' here?")

[{'label': 'NEGATIVE', 'score': 0.9873543381690979}]

#### zero-shot-classification

In [10]:
classifier = pipeline('zero-shot-classification')

No model was supplied, defaulted to facebook/bart-large-mnli and revision c626438 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (…)lve/main/config.json:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

In [12]:
classifier(
    'this is a course about the transformers library',
    candidate_labels=['education', 'politics', 'business']
)

{'sequence': 'this is a course about the transformers library',
 'labels': ['education', 'business', 'politics'],
 'scores': [0.9224742650985718, 0.05610811710357666, 0.02141762152314186]}

In [15]:
classifier(
    'this is a course about the transformers library',
    candidate_labels=['education', 'hello', 'transformers', 'library']
)

{'sequence': 'this is a course about the transformers library',
 'labels': ['transformers', 'library', 'education', 'hello'],
 'scores': [0.5709097981452942,
  0.22722122073173523,
  0.19435232877731323,
  0.007516666781157255]}

#### test-generation

In [17]:
generator = pipeline('text-generation')

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (…)lve/main/config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

Downloading (…)neration_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

In [18]:
generator('In this course, we will teach you how to')

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to create the perfect portfolio from the ground up, with the aid of an experienced brand manager. We will discuss a range of product and service requirements to help you keep up with your daily projects at an early'}]

In [19]:
generator('In this course, we will teach you how to', num_return_sequences=10, max_length=30)

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


[{'generated_text': 'In this course, we will teach you how to achieve the success of your project and learn from your experience in the company (and its many competitors).'},
 {'generated_text': 'In this course, we will teach you how to apply the skills of the modern world to create a revolutionary web framework for digital art that will transform digital'},
 {'generated_text': 'In this course, we will teach you how to connect your iPhone and iPad to the Internet for online or offline use. We will use your email and'},
 {'generated_text': 'In this course, we will teach you how to program a virtual machine to build out your own custom operating system on a computer.\n\nYou will'},
 {'generated_text': "In this course, we will teach you how to use Java EE to manage your applications' user interfaces with JAX-RS and Java EE. We"},
 {'generated_text': 'In this course, we will teach you how to make a life sentence or a life parole for your child.\n\n1. Teach a child:'},
 {'generated_text': '

#### Mask filling

In [20]:
unmasker = pipeline('fill-mask')

No model was supplied, defaulted to distilroberta-base and revision ec58a5b (https://huggingface.co/distilroberta-base).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (…)lve/main/config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/331M [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

In [21]:
unmasker.model

RobertaForMaskedLM(
  (roberta): RobertaModel(
    (embeddings): RobertaEmbeddings(
      (word_embeddings): Embedding(50265, 768, padding_idx=1)
      (position_embeddings): Embedding(514, 768, padding_idx=1)
      (token_type_embeddings): Embedding(1, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): RobertaEncoder(
      (layer): ModuleList(
        (0-5): 6 x RobertaLayer(
          (attention): RobertaAttention(
            (self): RobertaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): RobertaSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): La

In [22]:
unmasker('This course will teach you all about <mask> models', top_k = 2)

[{'score': 0.19631513953208923,
  'token': 30412,
  'token_str': ' mathematical',
  'sequence': 'This course will teach you all about mathematical models'},
 {'score': 0.04449228197336197,
  'token': 745,
  'token_str': ' building',
  'sequence': 'This course will teach you all about building models'}]

#### ner

In [26]:
ner = pipeline("ner", grouped_entities = True)
ner.model

BertForTokenClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(28996, 1024, padding_idx=0)
      (position_embeddings): Embedding(512, 1024)
      (token_type_embeddings): Embedding(2, 1024)
      (LayerNorm): LayerNorm((1024,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-23): 24 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=1024, out_features=1024, bias=True)
              (key): Linear(in_features=1024, out_features=1024, bias=True)
              (value): Linear(in_features=1024, out_features=1024, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=1024, out_features=1024, bias=True)
              (LayerNorm): LayerNorm((1024,), 

In [27]:
ner("My name is Sylvain and I work at Hugging Face in Brooklyn.")

[{'entity_group': 'PER',
  'score': 0.9981694,
  'word': 'Sylvain',
  'start': 11,
  'end': 18},
 {'entity_group': 'ORG',
  'score': 0.9796019,
  'word': 'Hugging Face',
  'start': 33,
  'end': 45},
 {'entity_group': 'LOC',
  'score': 0.9932106,
  'word': 'Brooklyn',
  'start': 49,
  'end': 57}]

#### question_answer

In [29]:
QA = pipeline('question-answering')
QA.model

DistilBertForQuestionAnswering(
  (distilbert): DistilBertModel(
    (embeddings): Embeddings(
      (word_embeddings): Embedding(28996, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (transformer): Transformer(
      (layer): ModuleList(
        (0-5): 6 x TransformerBlock(
          (attention): MultiHeadSelfAttention(
            (dropout): Dropout(p=0.1, inplace=False)
            (q_lin): Linear(in_features=768, out_features=768, bias=True)
            (k_lin): Linear(in_features=768, out_features=768, bias=True)
            (v_lin): Linear(in_features=768, out_features=768, bias=True)
            (out_lin): Linear(in_features=768, out_features=768, bias=True)
          )
          (sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
          (ffn): FFN(
            (dropout): Dropout(p=0.1, inplace=False)
      

In [31]:
QA(
    question = 'Where do I work?',
    context = "My name is Sylvain and I work at Hugging Face in Brooklyn"
)

{'score': 0.6949767470359802, 'start': 33, 'end': 45, 'answer': 'Hugging Face'}

#### summarizer

In [32]:
summarizer = pipeline("summarization")
summarizer.model

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (…)lve/main/config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

BartForConditionalGeneration(
  (model): BartModel(
    (shared): Embedding(50264, 1024, padding_idx=1)
    (encoder): BartEncoder(
      (embed_tokens): Embedding(50264, 1024, padding_idx=1)
      (embed_positions): BartLearnedPositionalEmbedding(1026, 1024)
      (layers): ModuleList(
        (0-11): 12 x BartEncoderLayer(
          (self_attn): BartAttention(
            (k_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (v_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (q_proj): Linear(in_features=1024, out_features=1024, bias=True)
            (out_proj): Linear(in_features=1024, out_features=1024, bias=True)
          )
          (self_attn_layer_norm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
          (activation_fn): GELUActivation()
          (fc1): Linear(in_features=1024, out_features=4096, bias=True)
          (fc2): Linear(in_features=4096, out_features=1024, bias=True)
          (final_layer_norm): LayerN

In [33]:
summarizer("""

           Once upon a time, in a quaint little village nestled amidst rolling green hills, there lived a young girl named Amelia. She had an insatiable curiosity and a heart full of dreams that extended far beyond the borders of her small world.

Amelia's days were filled with endless exploration and boundless imagination. From a tender age, she would venture into the nearby forests, enthralled by the secrets they held. Every tree, every creature, seemed to whisper stories of enchantment and wonder. The villagers regarded her as a peculiar child, forever lost in her own world.

One sunny morning, as the dew-kissed grass glistened under the gentle caress of the golden rays, Amelia stumbled upon an ancient book tucked away beneath a moss-covered stone. Its pages were weathered and fragile, but its words beckoned to her, promising grand adventures.

She sat beneath the shade of a towering oak tree and began to read. The book revealed tales of mythical creatures, forgotten civilizations, and far-off lands where magic thrived. With each turn of the page, Amelia's imagination soared, and her desire to see these wondrous places grew stronger.

Determined to embark on her own extraordinary journey, Amelia packed a small bag with provisions, bid farewell to her worried parents, and set off into the unknown. She followed the clues within the book, traversing treacherous mountains, crossing raging rivers, and braving dense forests.

Along her odyssey, Amelia encountered fantastical beings she had only read about—majestic unicorns, mischievous sprites, and wise old wizards. They guided her, shared their wisdom, and became her faithful companions. With their help, she overcame daunting challenges and unraveled the mysteries that lay before her.

As her travels unfolded, Amelia discovered that true magic existed not only in the realms she visited but also within herself. She realized that the power to create, to inspire, and to change the world lay dormant within her heart. Each encounter, each experience, awakened a new facet of her own potential.

After months of incredible exploits, Amelia found herself standing at the edge of a shimmering lake, the final destination of her extraordinary quest. The reflection on the water's surface revealed a transformed young girl, brimming with confidence, compassion, and a boundless sense of purpose.

Returning to her village, Amelia shared her tales of wonder and the lessons she had learned. The once-skeptical villagers, captivated by her words and the light that radiated from her soul, were inspired to embrace their own dreams and embark on their own personal journeys.

And so, the village blossomed into a place of boundless imagination, where every child and adult alike dared to dream and pursue their passions. All because a young girl named Amelia had dared to believe in the magic within herself and had embarked on a remarkable adventure that changed not only her own life but also the lives of those around her.

From that day forward, the village became a testament to the extraordinary power of dreams, the indomitable spirit of adventure, and the everlasting magic that resides within each and every one of us. And Amelia, the girl with stars in her eyes and an untamed heart, continued to explore the wonders of the world, forever reminding us that the greatest stories are the ones we dare to live.

           """)

[{'summary_text': ' A young girl named Amelia discovered that true magic existed not only in the realms she visited but also within herself . The village became a testament to the extraordinary power of dreams, the indomitable spirit of adventure, and the everlasting magic that resides within each and every one of us .'}]

#### 기계 번역

In [3]:
translator = pipeline("translation", model = "Helsinki-NLP/opus-mt-fr-en")
translator.model

Downloading (…)olve/main/source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

Downloading (…)olve/main/target.spm:   0%|          | 0.00/778k [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.34M [00:00<?, ?B/s]



MarianMTModel(
  (model): MarianModel(
    (shared): Embedding(59514, 512, padding_idx=59513)
    (encoder): MarianEncoder(
      (embed_tokens): Embedding(59514, 512, padding_idx=59513)
      (embed_positions): MarianSinusoidalPositionalEmbedding(512, 512)
      (layers): ModuleList(
        (0-5): 6 x MarianEncoderLayer(
          (self_attn): MarianAttention(
            (k_proj): Linear(in_features=512, out_features=512, bias=True)
            (v_proj): Linear(in_features=512, out_features=512, bias=True)
            (q_proj): Linear(in_features=512, out_features=512, bias=True)
            (out_proj): Linear(in_features=512, out_features=512, bias=True)
          )
          (self_attn_layer_norm): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
          (activation_fn): SiLUActivation()
          (fc1): Linear(in_features=512, out_features=2048, bias=True)
          (fc2): Linear(in_features=2048, out_features=512, bias=True)
          (final_layer_norm): LayerNorm((512,),

In [5]:
translator("Ce course produit par Hugging Face ")

[{'translation_text': 'This race produced by Hugging Face'}]

### Transformers 라이브러리 사용하기

>라이브러리의 목표는 모든 Transformer 모델들을 적재하고, 학습하고, 저장할 수 있는 단일 API를 제공하는 것입니다. 🤗Transformers 라이브러리의 특징은 다음과 같습니다. 들여쓴 블록

- 사용 용이성(Ease of use): 최신 NLP 모델을 기반으로 추론 작업을 수행하기 위해서, 해당 모델을 다운로드, 적재 및 사용하는데 단 두 줄의 코드만 작성하면 됩니다.

- 유연성(Flexibility): 기본적으로 모든 모델은 PyTorch의 nn.Module 또는 TensorFlow의 tf.keras.Model 클래스로 표현되며 각 기계 학습(ML) 프레임워크(framework, e.g., PyTorch, Tensorflow) 내에서의 다른 모델들과 동일하게 취급됩니다.

- 단순성(Simplicity): 라이브러리 전체에서 추상화(abstraction)가 거의 이루어지지 않습니다. "All in one file"은 🤗Transformers 라이브러리의 핵심 개념입니다. 다시 말해서, 모델의 순전파(forward pass)가 단일 파일에 완전히 정의되어 해당 코드 자체를 쉽게 이해하고 해킹할 수 있습니다.

















#### Pipeline 내부 실행 과정

Pipeline은 전처리(preprocessing), 모델로 입력 전달 및 후처리(postprocessing)의 3단계를 한번에 실행
<img src = 'https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/full_nlp_pipeline.svg'>




In [104]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier(
    [
        "I've been waiting for a HuggingFace course my whole life.",
        "I hate this so much!",
    ]
)

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.
Xformers is not installed correctly. If you want to use memory_efficient_attention to accelerate training use the following command to install Xformers
pip install xformers.


[{'label': 'POSITIVE', 'score': 0.9598048329353333},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455}]

#### 토크나이저를 이용한 전처리

첫번째 단계는 텍스트 입력을 모델이 이해할 수 있는 숫자로 변환하는 것입니다. 이를 위해 사용하는 것이 **tokenizer** 이다 .

- 입력을 토큰(token) 이라고 부르는 단어(word), 하위 단어(subword) 또는 기호(symbol)(예: 구두점)로 분할

- 각 토큰(token)을 정수(integer)로 매핑(mapping)

- 모델에 유용할 수 있는 부가적인 입력(additional inputs)을 추가

In [7]:
from transformers import AutoTokenizer

이 모든 전처리(preprocessing)는 모델이 사전 학습(pretraining)될 때와 정확히 동일한 방식으로 수행되어야 한다.

이를 위해 AutoTokenizer 클래스와 from_pretrained() 메서드를 사용합니다.

모델의 체크포인트(checkpoint) 이름을 사용하여 모델의 토크나이저(tokenizer)와 연결된 데이터를 자동으로 가져와 캐시합니다.


In [105]:
checkpoint = 'distilbert-base-uncased-finetuned-sst-2-english' # sentiment-analysis 파이프라인의 디폴트 체크포인트(default checkpoint)
tokenizer = AutoTokenizer.from_pretrained(checkpoint) #모델이 사용하는 토크나이저 방식을 불러옴

Downloading (…)okenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

 Transformer 모델은 텐서(tensor) 입력만 받으므로 은 input IDs 리스트를 텐서(tensors)로 변환

 텐서 유형이 지정되지 않으면 결과로 이중 리스트(list of list)가 표시됩니다.

In [38]:
raw_inputs = [
    "I've been waiting for a huggingface course my whole life ",
    "I hate this so much"
]

In [39]:
inputs = tokenizer(raw_inputs, padding = True, # 입력 시퀀스의 길이를 맞추기 위해 패딩을 추가
                   truncation=True, # 입력 시퀀스가 최대 길이를 초과하는 경우 자르는 작업을 지시
                   return_tensors='pt') #  출력을 PyTorch의 텐서 형식으로 반환하도록 지시

PyTorch 텐서 유형의 결과는 위와 같습니다. 위 결과에서 보듯이, 출력은 두 개의 키 input_ids 및 attention_mask를 가지는 파이썬 딕셔너리입니다.




In [40]:
inputs['input_ids']

tensor([[  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,
          2607,  2026,  2878,  2166,   102],
        [  101,  1045,  5223,  2023,  2061,  2172,   102,     0,     0,     0,
             0,     0,     0,     0,     0]])

In [41]:
inputs['attention_mask']

tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]])

#### 모델 살펴보기

In [42]:
from transformers import AutoModel

해당 아키텍처에는 기본 Transformer 모듈만 포함되어 있습니다. 따라서, 입력이 주어지면 자질(feature) 이라고도 불리는 **hidden states** 를 출력합니다.

각 모델 입력에 대해 Transformer 모델에 의해서 수행된 해당 입력의 문맥적 이해(contextual understanding) 결과 를 나타내는 **고차원 벡터(high-dimensional vector)**를 가져옵니다.

이러한 hidden states는 그 자체로도 유용할 수 있지만 일반적으로 head 라고 알려진 모델의 다른 부분에 대한 입력으로 들어갑니다.


In [107]:
model = AutoModel.from_pretrained(checkpoint)

Some weights of the model checkpoint at distilbert-base-uncased-finetuned-sst-2-english were not used when initializing DistilBertModel: ['pre_classifier.bias', 'classifier.bias', 'classifier.weight', 'pre_classifier.weight']
- This IS expected if you are initializing DistilBertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DistilBertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


#### 고차원 벡터

Transformer 모듈의 벡터 출력은 일반적으로 규모가 큽니다. 일반적으로 세 가지 차원이 있습니다

- 배치 크기(Batch size): 한 번에 처리되는 시퀀스(sequence)의 개수(위의 예제에서는 2개).

- 시퀀스 길이(Sequence length): 시퀀스 숫자 표현의 길이(이 예에서는 16).

- 은닉 크기(Hidden size): 각 모델 입력의 벡터 차원.

위에서 마지막 값 때문에 "고차원(high-dimensional)" 벡터라고 나타냅니다.

In [108]:
outputs = model(**inputs)

In [109]:
outputs

BaseModelOutput(last_hidden_state=tensor([[[-0.1378,  0.1974,  0.6768,  ..., -0.2884,  0.4254,  0.1880],
         [ 0.2657,  0.5706,  0.3957,  ..., -0.1252,  0.4597,  0.1770],
         [ 0.7825,  0.1824,  0.2876,  ...,  0.2613, -0.0953, -0.5923],
         ...,
         [ 0.1757,  0.3456,  0.3675,  ..., -0.5196,  0.6726, -0.2503],
         [ 0.0929,  0.4920,  0.3286,  ..., -0.3443,  0.4261, -0.0208],
         [ 0.2093,  0.4148,  0.4770,  ...,  0.3803,  0.4811, -0.5183]],

        [[-0.3088,  0.7332, -0.1861,  ..., -0.1305, -0.9360, -0.0433],
         [-0.3340,  0.9830, -0.0946,  ..., -0.3825, -0.6176,  0.2008],
         [-0.1687,  0.8781, -0.1117,  ..., -0.2380, -0.7790,  0.0935],
         ...,
         [-0.3022,  0.8105, -0.1694,  ..., -0.1124, -0.7401, -0.0543],
         [-0.3047,  0.7850, -0.2043,  ..., -0.1101, -0.7665, -0.0563],
         [-0.4014,  0.8999, -0.2245,  ..., -0.1877, -0.6910,  0.0329]]],
       grad_fn=<NativeLayerNormBackward0>), hidden_states=None, attentions=None)

In [45]:
outputs.last_hidden_state.shape

torch.Size([2, 15, 768])

#### 모델 헤드(model heads): 숫자 이해하기

모델 헤드(model head)는 hidden states의 고차원 벡터(high-dimensional vector)를 입력으로 받아 다른 차원에 투영(project)합니다. 일반적으로 헤드(head)는 하나 또는 몇 개의 선형 레이어(linear layers)로 구성됩니다.

<img src = 'https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/transformer_and_head.svg'>


Transformer 모델의 출력은 처리할 모델 헤드(model head)로 직접 전달됩니다.

모델은 임베딩 레이어(embeddings layer)와 후속 레이어(subsequent layers)로 표현됩니다.

임베딩 레이어(embeddings layer)는 토큰화된 입력(tokenized input)의 각 입력 ID를 해당 토큰을 나타내는 벡터(embeddings vector)로 변환합니다.

그 이후의 후속 레이어는 주의 메커니즘(attention mechanism)을 사용하여 이들 임베딩 벡터(embeddings vector)를 조작하여 문장의 최종 표현(final representation)을 생성합니다.


#### 시퀀스 분류 헤드(sequence classification head)

In [33]:
from transformers import AutoModelForSequenceClassification

In [110]:
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

"""
raw_inputs = [
    "I've been waiting for a huggingface course my whole life ",
    "I hate this so much"
]

"""
outputs = model(**inputs)

In [50]:
outputs

SequenceClassifierOutput(loss=None, logits=tensor([[-1.4683,  1.5105],
        [ 4.2141, -3.4158]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)

In [111]:
# 두 개의 문장과 두 개의 레이블만 있기 때문에, 모델에서 얻은 결과의 모양(shape)은 2 x 2입니다.
print(outputs.logits.shape)

torch.Size([2, 2])


#### 출력 후처리하기

우리 모델은 첫 번째 문장에 대해 [-1.5607, 1.6123], 두 번째 문장에 대해 [4.1692, -3.3464]를 예측했습니다.

이는 확률이 아니라 모델의 마지막 계층에서 출력된 정규화되지 않은** 원시 점수인 logits **입니다

이들 값을 확률로 변환하려면** SoftMax 계층**을 통과해야 합니다.

**모든 Transformers 모델은 이 logits 값을 출력합니다**.

그 이유는 일반적으로 학습을 위한 손실 함수(loss function)는 최종 활성화 함수(activation function, e.g., SoftMax)와 실제 손실 함수(actual loss function, e.g., cross entropy)를 모두 사용하여 구현되기 때문입니다.



In [112]:
print(outputs.logits)

tensor([[-1.4683,  1.5105],
        [ 4.2141, -3.4158]], grad_fn=<AddmmBackward0>)


In [51]:
import torch

In [114]:
pred = torch.nn.functional.softmax(outputs.logits, dim = -1)

# 첫 번째 문장에 대해 [0.048, 0.95], 두 번째 문장에 대해 [0.99, 0.0004]를 예측
print(pred)

tensor([[4.8393e-02, 9.5161e-01],
        [9.9951e-01, 4.8549e-04]], grad_fn=<SoftmaxBackward0>)


In [115]:
#각 위치에 해당하는 레이블을 가져오기 위해, model.config의 id2label 속성값을 확인b
model.config.id2label

{0: 'NEGATIVE', 1: 'POSITIVE'}

이제 모델이 아래 내용을 예측했다는 결론을 내릴 수 있습니다

- 첫번째 문장 : NEGATIVE: 0.048, POSITIVE: 0.9

- 두번째 문장 : NEGATIVE: 0.99, POSITIVE: 0.0004

#### Model

 지정된 체크포인트(checkpoint)를 바탕으로 모델을 인스턴스화할 때 편리한AutoModel클래스를 사용

In [3]:
from transformers import BertConfig, BertModel

In [4]:
# config(설정)을 만듭니다
config = BertConfig()
# 해당 config 모델 생성
model = BertModel(config)

이 설정(configuration) 객체에는 모델을 빌드하는데 필요한 많은 속성이 포함되어 있습니다:

- hidden_size 속성은 hidden_states 벡터의 크기를 정의
- num_hidden_layers 는 Transformer 모델의 계층(layers) 수를 정의

In [5]:
config

BertConfig {
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.30.2",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}

이 상태에서 모델을 바로 사용할 수도 있겠지만 해당 출력은 그야말로 횡설수설입니다. 따라서 먼저 학습을 해야 합니다.

불필요하고 중복되는 노력을 피하기 위해서는 이미 학습된 모델을 공유하고 재사용할 수 있어야 합니다.

이미 사전 학습된 Transformer 모델을 로드하는 것은 간단합니다. from_pretrained() 메서드를 사용하여 이 작업을 수행할 수 있습니다:

In [6]:
from transformers import BertModel

model = BertModel.from_pretrained("bert-base-cased")

Downloading (…)lve/main/config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/436M [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-base-cased were not used when initializing BertModel: ['cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


BertModel을 동일한 기능을 수행하는 AutoModel 클래스로 대체할 수 있습니다.

이렇게 하면 체크포인트(checkpoint)에 구애받지 않는 코드를 구현할 수 있으므로 지금부터 이 클래스를 사용합니다.

이 코드가 특정 체크포인트에서 작동한다면 다른 체크포인트에서도 원활하게 작동해야 합니다.

이는 심지어 모델의 아키텍처(architecture)가 다르더라도, 변경할 체크포인트가 현재 체크포인트와 유사한 작업(task),

예를 들어, 감성 분석 태스크(sentiment analysis task)로 학습되었다면 변경이 가능해야 합니다.


>위의 코드 샘플에서는 BertConfig 를 사용하지 않고 대신 **bert-base-cased** 식별자를 통해 사전 학습된 모델(pretrained model)을 로드했습니다. 이것은 BERT 개발자가 직접 학습한 모델 **체크포인트(model checkpoint)**입니다.<p>
모델은 체크포인트의 모든 가중치로 초기화됩니다. 학습된 작업(task)에 대한 추론(inference)에 직접 사용할 수 있으며, 새로운 작업(task)에 대해 미세 조정할(fine-tune) 수도 있습니다.

**저장 메서드(Saving methods)**

**config.json** 파일 내용을 보면 모델 아키텍처(model architecture)를 구축하는 데 필요한 다양한 속성들을 볼 수 있습니다.

**pytorch_model.bin** 파일은 state dictionary 라고 부릅니다. 여기에는 모델의 모든 가중치가 저장되어 있습니다.


In [8]:
model.save_pretrained('save_model')

**트랜스포머 모델을 활용한 추론(inference)**

 Transformer 모델은 토크나이저가 생성하는 숫자만 처리할 수 있습니다.

  모델이 허용하는 입력을 살펴보자

In [9]:
sequences = ["Hello!", "Cool.", "Nice!"]

토크나이저는 이를 일반적으로** input IDs** 라고 하는 어휘 인덱스로 변환합니다.


In [10]:
encoded_sequences = [
    [101, 7592, 999, 102],
    [101, 4658, 1012, 102],
    [101, 3835, 999, 102],
]

텐서(tensor)는 직사각형(rectangular) 모양(shape)만 허용합니다.

encoded_sequences는 이미 "배열(array)" 형태의 직사각형(rectangular) 모양이므로 텐서로 변환하는 것은 쉽습니다.

In [11]:
import torch

model_inputs = torch.tensor(encoded_sequences)

**모델의 입력으로 텐서 활용**

In [12]:
output = model(model_inputs)

#### 토크나이저 (Tokenizer)

토크나이저는 NLP 파이프라인의 핵심 구성 요소 중 하나입니다. 토크나이저는 단지 1가지 목적을 가지고 있습니다.

즉, 입력된 텍스트를 모델에서 처리할 수 있는 데이터로 변환하는 것입니다.

모델은 숫자만 처리할 수 있으므로, 토크나이저는 텍스트 입력을 숫자 데이터로 변환해야 합니다.

⚡_토크나이저의 목표는 가장 의미있는 표현(meaningful representation), 즉 **모델에 가장 적합하면서 최대한 간결한 표현을 찾는 것**입니다._

**1. 단어 기반 토큰화 (Word-based Tokenization)**

아래 그림에서의 토큰화 과정은 원시 텍스트를 단어로 나누고 각각에 대한 숫자 표현을 찾는 것입니다:

<img src = 'https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/word_based_tokenization.svg'>














In [14]:
# split() 함수를 적용하여 공백을 기준으로 텍스트를 단어로 토큰화
tokenized_text = "Jim Henson was a puppeteer".split()
print(tokenized_text)

['Jim', 'Henson', 'was', 'a', 'puppeteer']


각 단어에는 0에서부터 시작하여 어휘집(vocabulary) 크기(개수) 사이의 ID(식별자)가 할당됩니다. 모델은 이러한 ID를 사용하여 각 단어를 식별합니다.

단어기반 토크나이저는 해당 언어의 모든 단어에 대한 식별자가 필요하고, 이는 엄청난 양의 토큰을 생성합니다.

❗ **단어기반 토크나이저 문제점**
 - 영어에는 500,000개 이상의 단어가 있으므로 개별 단어에 대한 input ID(입력 식별자)로의 매핑을 구성하기 위해서 그만큼의 식별자들을 감당해야 합니다. <p>게다가, "dog"와 같은 단어는 "dogs"와 같은 단어와 다르게 표현되며, 모델은 처음에는 "dog"와 "dogs"가 유사한 단어들인지 파악하기 어렵습니다.
 --------------
 -  어휘집(vocabulary)에 없는 단어를 표현하기 위해 사용자 정의 토큰이 필요합니다. 이는 "unknown" 토큰으로 알려져 있으며, 종종 "[UNK]" 또는 ""로 표시됩니다.

 토크나이저가 이러한 "unknown" 토큰을 많이 생성한다는 것은 토크나이저가 해당 단어의 합당한 표현(sensible representation)을 찾을 수 없고, 그 과정에서 정보를 잃어버린다는 뜻이므로 나쁜 징조입니다.

문자 기반 토큰화 (Character-based Tokenization)


문자기반 토크나이저는 텍스트를 단어(words)가 아닌 문자(characters)로 나눕니다. 이러한 방법은 두가지 장점이 있습니다

- 어휘집(vocabulary)의 크기가 매우 작습니다.

- 모든 단어들이 문자를 가지고 만들어질 수 있기 때문에, out-of-vocabulary (OOV, unknown) 토큰이 훨씬 적습니다.

❗ 그러나 여기에서도 공백과 구두점에 관한 몇 가지 의문이 발생합니다:



<img src = 'https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/character_based_tokenization.svg'>

이 방식 역시 완벽하지 않습니다.

분리된 토큰 표현 자체가 단어가 아닌 문자 기반이므로 직관적으로 볼 때 각 토큰의 의미 파악이 어렵습니다.

그러나 이 또한 언어에 따라 다릅니다. 예를 들어, 중국어에서 각 문자(한자)는 라틴(Latin) 언어의 문자보다 더 많은 정보를 전달합니다.

또한, 모델에서 처리할 매우 많은 양의 토큰이 발생하게 된다는 것입니다.




**하위 단어 토큰화 (Subword Tokenization)**

하위 단어 토큰화(subword tokenization) 알고리즘은 빈번하게 사용하는 단어(frequently used words)는 더 작은 하위단어(subword)로 분할하지 않고, 희귀 단어(rare words)를 의미있는 하위 단어(meaningful subwords)로 분할해야 한다는 원칙에 기반합니다.

<img src = 'https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter2/bpe_subword.svg'>

위의 예에서 "tokenization"는 "token"과 "iztion"으로 분리되었습니다.

두 개의 토큰은 각각이 의미 정보(semantic meaning)을 가지면서도 공간 효율적(space-efficient)입니다. 즉, 길이가 긴 한 단어를 표현하기 위해서 단 두 개의 토큰만 필요합니다.

이를 통해 우리는 규모가 작은, 다시 말해서, 구성 어휘가 많지 않은 어휘집(vocabulary)으로도 충분히 많은 수의 토큰들을 표현할 수 있고, "unknown" 토큰이 거의 없습니다.

#### 토크나이저 로딩 및 저장

In [15]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")


Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

AutoModel 클래스와 유사하게 AutoTokenizer 클래스는 라이브러리에서 체크포인트 이름에 해당하는 토크나이저 클래스를 가져옵니다.

라이브러리 내의 다른 모든 체크포인트와 함께 직접 사용할 수 있습니다.

In [16]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")


Downloading (…)/main/tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

In [17]:
tokenizer("Using a Transformer network is simple")


{'input_ids': [101, 7993, 170, 13809, 23763, 2443, 1110, 3014, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

**인코딩 (Encoding)**

텍스트를 숫자로 변환하는(translating text to numbers) 과정을 인코딩(encoding) 이라고 합니다.

**토큰화**와 **입력 식별자(input IDs)**로의 변환이라는 2단계 프로세스로 수행됩니다.


- **토큰화**

  각 모델들이 사전학습될 때 사용한 토큰화 방법이 다양하기 때문에, 본인이 사용하고자 하는 모델의 이름을 이용하여 토크나이저도 인스턴스화(instantiate)해야 합니다. 그래야 해당 모델에서 사용한 토크나이저를 동일하게 사용할 수 있습니다.

- **입력 식별자로 변환**

 토큰화 결과인 토큰들을 숫자로 변환하여 텐서(tensor)를 만들고 이를 모델에 입력할 수 있도록 하는 것입니다.

 이를 위해 토크나이저는 from_pretrained() 메서드로 인스턴스화할 때 다운로드되는 파일 중의 하나로 vocabulary 를 포함하고 있으며

 여기서도, 모델이 사전학습될 때 사용한 것과 동일한 어휘집(vocabulary)을 사용해야 합니다.

In [19]:
# 토큰화

from transformers import AutoTokenizer

# 다운로드되는 파일 중의 하나로 vocabulary 를 포함
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence)

print('여기서 실행한 토크나이저는 하위 단어 토크나이저(subword tokenization)')
print(tokens)


여기서 실행한 토크나이저는 하위 단어 토크나이저(subword tokenization)
['Using', 'a', 'Trans', '##former', 'network', 'is', 'simple']


In [20]:
# 토큰을 입력 식별자로 변환 (From tokens to input IDs)

ids = tokenizer.convert_tokens_to_ids(tokens)

print(ids)

[7993, 170, 13809, 23763, 2443, 1110, 3014]


**디코딩 (Decoding)**

변환된 입력 식별자(input IDs)를 이용해서 어휘집(vocabulary)에서 해당 문자열을 찾습니다.

이것은 다음과 같이 decode() 메서드를 사용하여 수행할 수 있습니다.

In [21]:
decoded_string = tokenizer.decode(ids)
print(decoded_string)

Using a Transformer network is simple


decode() 메서드는 인덱스를 다시 토큰으로 변환할 뿐만 아니라 하위 단어(subword)로 분할된 토큰을 병합하여, 읽을 수 있는 원본 문장을 도출합니다.

 텍스트 생성, 번역(translation), 요약(summarization) 등과 같은 시퀀스-투-시퀀스(sequence-to-sequence) 문제 등을 다룰 때 매우 유용

#### 다중 시퀀스

- 다중 시퀀스(multiple sequences)를 어떻게 처리할까?

- 각각이 길이가 다른 여러 개의 시퀀스를 어떻게 처리할까?

- 모델이 잘 동작할 수 있게 하기 위해서 어휘집(vocabulary)의 인덱스들만 입력하면 될까?

- 길이가 엄청나게 긴 시퀀스에 대해서는 잘 처리할 수 있을까?

**⚡모델(model)은 입력의 배치(batch) 형태를 요구한다.**

In [22]:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)
input_ids = torch.tensor(ids)
# This line will fail
model(input_ids)

Downloading (…)okenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

RuntimeError: ignored

위 문제는 우리가 모델에 하나의 단일 시퀀스를 입력해서 발생하는 문제입니다.
🤗Transformers 모델은 기본적으로 다중 문장(시퀀스)을 한번에 입력하기를 기대한다는 것입니다

아래 코드를 자세히 보면 입력 식별자(input IDs) 리스트를 텐서로 변환하는 동시에 차원(dimension) 하나가 그 위에 추가되는 것을 알 수 있습니다



In [23]:
tokenized_inputs = tokenizer(sequence, return_tensors="pt")
print(tokenized_inputs["input_ids"])

tensor([[  101,  1045,  1005,  2310,  2042,  3403,  2005,  1037, 17662, 12172,
          2607,  2026,  2878,  2166,  1012,   102]])


In [24]:
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)
input_ids = torch.tensor([ids]) # 오류가 발생한 코드에서 input_ids에 새로운 차원을 하나 추가
model(input_ids)

SequenceClassifierOutput(loss=None, logits=tensor([[-2.7276,  2.8789]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)

Batching 이란 모델을 통해 한번에 여러 문장을 입력하는 동작입니다.
문장이 하나만 있는 경우 아래와 같이 단일 시퀀스로 배치(batch) 를 빌드할 수 있습니다.

 하지만 두 번째 문제가 있습니다. 두 개(또는 그 이상) 문장을 함께 배치(batch) 처리하려고 할 때 각 문장의 길이가 다를 수 있습니다. 이전에 텐서(tensor)를 사용해 본 적이 있다면 항상 그 형태가 직사각형 모양이어야 한다는 것을 알고 있을 것입니다


 이럴 경우에는 입력 식별자(input IDs) 리스트를 텐서로 직접 변환할 수 없습니다. 이 문제를 해결하기 위해 **일반적으로 입력을 채웁니다(padding)**.

**입력을 패딩(padding) 하기**

다음 리스트의 리스트(혹은 이중 리스트)는 텐서로 변환할 수 없습니다.

```
batched_ids = [
    [200, 200, 200],
    [200, 200],
]
```
이 문제를 해결하기 위해 패딩(padding) 을 사용하여 텐서를 직사각형 모양으로 만듭니다


In [25]:
padding_id = 100

batched_ids = [
    [200, 200, 200],
    [200, 200, padding_id],
]

batched_ids

[[200, 200, 200], [200, 200, 100]]

패딩 토큰(padding token)의 식별자(ID)는 **tokenizer.
pad_token_id**에 지정되어 있습니다.

이를 활용하여 두 개의 시퀀스를 한번은 개별적으로 또 한번은 배치(batch) 형태로 모델에 입력해 보겠습니다:



In [26]:
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequence1_ids = [[200, 200, 200]]
sequence2_ids = [[200, 200]]
batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

print(model(torch.tensor(sequence1_ids)).logits)
print(model(torch.tensor(sequence2_ids)).logits)
print(model(torch.tensor(batched_ids)).logits)


tensor([[ 1.5694, -1.3895]], grad_fn=<AddmmBackward0>)
tensor([[ 0.5803, -0.4125]], grad_fn=<AddmmBackward0>)
tensor([[ 1.5694, -1.3895],
        [ 1.3374, -1.2163]], grad_fn=<AddmmBackward0>)


```
1. tensor([[ 1.5694, -1.3895]])
2. tensor([[ 0.5803, -0.4125]])
3. tensor([[ 1.5694, -1.3895], [ 1.3374, -1.2163]])
```
*결과 3의 두번째 문장의 결과가 2의 결과와 다름*

이는 트랜스포머(Transformer) 모델의 핵심적인 특징이 각 토큰을 컨텍스트화(contextualize) 하는 **어텐션 레이어(attention layers)**를 가지고 있다는 사실이기 때문입니다.

 **어텐션 레이어(attention layers)**는 시퀀스의 모든 토큰에 주의 집중(paying attention)을 하기 때문에 패딩 토큰도 역시 고려합니다. 모델에 길이가 다른 개별 문장들을 입력할 때나 동일한 문장으로 구성된 패딩이 적용된 배치(batch)를 입력할 때 동일한 결과를 얻기 위해서는 **해당 어텐션 레이어(attention layers)가 패딩 토큰을 무시하도록 지시해야 합니다**.

어텐션 마스크 (attention masks)

어텐션 마스크(attention mask)는 0과 1로 채워진 입력 식별자(input IDs) 텐서(tensor)와 형태가 정확하게 동일한 텐서(tensor)입니다.

 1은 해당 토큰에 주의를 기울여야 함을 나타내고 0은 해당 토큰을 무시해야 함을 나타냅니다.**즉, 모델의 어텐션 레이어(attention layers)에서 무시해야 합니다.**

In [27]:
batch_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]

attention_mask = [
    [1, 1, 1],
    [1, 1, 0],
]

outputs = model(torch.tensor(batch_ids), attention_mask=torch.tensor(attention_mask))
print(outputs.logits)

tensor([[ 1.5694, -1.3895],
        [ 0.5803, -0.4125]], grad_fn=<AddmmBackward0>)


**길이가 더 긴 시퀀스들**

모델에 입력할 수 있는 시퀀스의 길이에 제한이 있습니다. 대부분의 모델은 최대 512개 또는 1024개의 토큰 시퀀스를 처리하며, 그보다 더 긴 시퀀스를 처리하라는 요청을 받으면 오류를 발생시킵니다.

이 문제에 대한 두 가지 솔루션이 있습니다.

- 길이가 더 긴 시퀀스를 지원하는 모델을 사용하십시오.

- 시퀀스를 절단합니다(truncation).

모델 별로 지원되는 시퀀스 길이가 다르며 일부 모델은 매우 긴 시퀀스 처리에 특화되어 있습니다. Longformer가 하나의 예이고 다른 하나는 LED입니다.

그렇지 않으면, max_sequence_length 매개변수를 지정하여 시퀀스를 절단하는 것이 좋습니다.



```
max_sequence_length = 512

sequence = sequence[:max_sequence_length]
```

#### Transformers 요약

- 토크나이저의 작동 방식과 토큰화(tokenization)

- 입력 식별자(input IDs)로의 변환, 패딩(padding)
-  절단(truncation) 및 어텐션 마스크(attention mask)


DistilBERT의 경우, model_inputs에는 입력 식별자(input IDs)와 어텐션 마스크(attention mask)가 포함됩니다

In [30]:


from transformers import AutoTokenizer

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

sequence = "I've been waiting for a HuggingFace course my whole life."

model_inputs = tokenizer(sequence)
print(model_inputs )


{'input_ids': [101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}


다양한 모드에 따라 패딩(padding) 처리를 할 수 있습니다

In [31]:
# 해당 시퀀스를 리스트 내의 최대 시퀀스 길이까지 패딩(padding) 합니다.
model_inputs = tokenizer(sequences, padding="longest")

# 시퀀스를 모델 최대 길이(model max length)까지 패딩(padding) 합니다.
# (512 for BERT or DistilBERT)
model_inputs = tokenizer(sequences, padding="max_length")

# 지정된 최대 길이까지 시퀀스를 패딩(padding) 합니다.
model_inputs = tokenizer(sequences, padding="max_length", max_length=8)

시퀀스를 자를 수도 있습니다:

In [33]:
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

# 모델 최대 길이(model max length)보다 긴 시퀀스를 자릅니다.
# (512 for BERT or DistilBERT)
model_inputs = tokenizer(sequences, truncation=True)
print(model_inputs)

# 지정된 최대 길이보다 긴 시퀀스를 자릅니다.
model_inputs = tokenizer(sequences, max_length=8, truncation=True)
print(model_inputs)


{'input_ids': [[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102], [101, 2061, 2031, 1045, 999, 102]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]}
{'input_ids': [[101, 1045, 1005, 2310, 2042, 3403, 2005, 102], [101, 2061, 2031, 1045, 999, 102]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]}


**특수 토큰들 (Special tokens)**

In [34]:
sequence = "I've been waiting for a HuggingFace course my whole life."

model_inputs = tokenizer(sequence)
print(model_inputs["input_ids"])

tokens = tokenizer.tokenize(sequence)
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)

[101, 1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012, 102]
[1045, 1005, 2310, 2042, 3403, 2005, 1037, 17662, 12172, 2607, 2026, 2878, 2166, 1012]


새로운 토큰 식별자가 처음과 마지막에 하나씩 추가되었습니다. 위의 두 가지 식별자 시퀀스를 디코딩(decoding)하여 이것이 무엇을 나타내는 것인지 알아보겠습니다:

In [35]:
print(tokenizer.decode(model_inputs["input_ids"]))
print(tokenizer.decode(ids))

[CLS] i've been waiting for a huggingface course my whole life. [SEP]
i've been waiting for a huggingface course my whole life.


토크나이저는 시작 부분에 특수 단어 **[CLS]**를 추가하고 끝에 특수 단어 **[SEP]**를 추가했습니다.

 이는 모델이 해당 특수 토큰들로 사전 학습(pre-training)되었기 때문에 추론에 대해 동일한 결과를 얻으려면 이를 추가해야 합니다.

In [36]:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]

tokens = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")
output = model(**tokens)
print(output)

SequenceClassifierOutput(loss=None, logits=tensor([[-1.5607,  1.6123],
        [-3.6183,  3.9137]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)


### 사전학습 모델에 대한 미세조정

가지고 있는 고유의 데이터셋(dataset)을 가지고 기존의 사전 학습된 모델을 미세 조정(fine-tune)하려면 어떻게 해야 할까요? 이 장의 내용이 바로 그 부분입니다!

- 허브(Hub)에서 대규모 데이터셋을 가지고 오는 방법에 대해서 배웁니다.

- 고급 Trainer API를 사용하여 모델을 미세 조정(fine-tune)하는 방법을 공부합니다.

- 사용자 지정 학습 루프(custom training loop)을 사용하는 방법을 알아봅니다.

- 🤗Accelerate 라이브러리를 활용하여 분산 환경에서 사용자 지정 학습 루프(custom training loop)을 쉽게 실행하는 방법을 공부합니다.

#### 데이터 처리 작업

In [40]:
import torch
from transformers import AdamW, AutoTokenizer, AutoModelForSequenceClassification

# 2장의 예제와 동일합니다.
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
sequences = [
    "I've been waiting for a HuggingFace course my whole life.",
    "This course is amazing!",
]
batch = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")

# 새롭게 추가된 코드입니다.
batch["labels"] = torch.tensor([1, 1])
optimizer = AdamW(model.parameters())
loss = model(**batch).loss
loss.backward()
optimizer.step()

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForSequenceClassification: ['cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly i

**허브에서 데이터셋 로딩**

허브(hub)에는 모델만 존재하는 것이 아닙니다. 다양한 언어로 구축된 여러 데이터셋들도 있습니다.

지금은 MRPC 데이터셋에 집중합시다! 이 데이터셋은 10개의 데이터셋으로 구성된 GLUE 벤치마크 중 하나입니다. GLUE 벤치마크는 10가지 텍스트 분류 작업을 통해서 기계학습 모델의 성능을 측정하기 위한 학술적 벤치마크 데이터 집합입니다.

In [4]:
!pip install datasets



In [44]:
from datasets import load_dataset

raw_datasets = load_dataset("glue", "mrpc")
raw_datasets

Downloading builder script:   0%|          | 0.00/28.8k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/28.7k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/27.9k [00:00<?, ?B/s]

Downloading and preparing dataset glue/mrpc to /root/.cache/huggingface/datasets/glue/mrpc/1.0.0/dacbe3125aa31d7f70367a07a8a9e72a5a0bfeb5fc42e75c9db75b96da6053ad...


Downloading data files:   0%|          | 0/3 [00:00<?, ?it/s]

Downloading data: 0.00B [00:00, ?B/s]

Downloading data: 0.00B [00:00, ?B/s]

Downloading data: 0.00B [00:00, ?B/s]

Generating train split:   0%|          | 0/3668 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/408 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/1725 [00:00<?, ? examples/s]

Dataset glue downloaded and prepared to /root/.cache/huggingface/datasets/glue/mrpc/1.0.0/dacbe3125aa31d7f70367a07a8a9e72a5a0bfeb5fc42e75c9db75b96da6053ad. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})

위 결과에서 보듯이, 학습(training), 검증(validation) 및 평가(test) 집합이 저장된 DatasetDict 객체를 얻을 수 있습니다.

이들 각각은 여러 종류의 열(columns)(sentence1, sentence2, label 및 idx)과 행(row)의 개수를 포함하는데,

여기서 행(row)의 개수는 각 집합의 문장쌍의 개수를 나타냅니다.

 따라서, 학습 집합(training set)에는 3,668개의 문장 쌍, 검증 집합(validation set)에는 408개, 평가 집합(test set)에는 1,725개의 문장 쌍이 있습니다.

In [45]:
raw_train_dataset = raw_datasets["train"]
raw_train_dataset[0]

{'sentence1': 'Amrozi accused his brother , whom he called " the witness " , of deliberately distorting his evidence .',
 'sentence2': 'Referring to him as only " the witness " , Amrozi accused his brother of deliberately distorting his evidence .',
 'label': 1,
 'idx': 0}

레이블(label)이 이미 정수(integers)라서 전처리(preprocessing)가 필요 없습니다.

어떤 정수가 어떤 레이블에 해당하는지 파악하기 위해서는 raw_train_dataset의 features 속성을 살펴보면 됩니다:

In [46]:
raw_train_dataset.features

{'sentence1': Value(dtype='string', id=None),
 'sentence2': Value(dtype='string', id=None),
 'label': ClassLabel(names=['not_equivalent', 'equivalent'], id=None),
 'idx': Value(dtype='int32', id=None)}

레이블(label)은 ClassLabel 타입이고 레이블 이름에 대한 정수 매핑은 names 폴더에 저장되어 있습니다.

0은 not_equivalent를 의미하고, 1은 equivalent를 나타냅니다.

**데이터셋 전처리**

데이터셋 전처리를 위해서는 우선적으로 텍스트를 모델이 이해할 수 있는 숫자로 변환해야 합니다.

이는 토크나이저가 담당합니다.

 토크나이저에 단일 문장 또는 다중 문장 리스트를 입력할 수 있으므로, 다음과 같이 각 쌍의 모든 첫 번째 문장과 두 번째 문장을 각각 직접 토큰화할 수 있습니다

In [47]:
from transformers import AutoTokenizer

checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
tokenized_sentences_1 = tokenizer(raw_datasets["train"]["sentence1"])
tokenized_sentences_2 = tokenizer(raw_datasets["train"]["sentence2"])


두 시퀀스를 쌍(pair)으로 처리(단일 매개변수로 처리)하고 적절한 전처리를 적용해야 합니다.

 다행히도 토크나이저(tokenizer)는 다음과 같이 한 쌍의 시퀀스를 가져와 BERT 모델이 요구하는 입력 형태로 구성할 수 있습니다:

In [48]:
inputs = tokenizer("This is the first sentence.", "This is the second one.")
inputs

{'input_ids': [101, 2023, 2003, 1996, 2034, 6251, 1012, 102, 2023, 2003, 1996, 2117, 2028, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

위의 예에서 보듯이, token_type_ids는 전체 입력(input_ids)의 어느 부분이 첫 번째 문장이고 어느 것이 두 번째 문장인지 모델에 알려줍니다.

In [51]:
print(tokenizer.convert_ids_to_tokens(inputs["input_ids"]))
print(inputs['token_type_ids'])


['[CLS]', 'this', 'is', 'the', 'first', 'sentence', '.', '[SEP]', 'this', 'is', 'the', 'second', 'one', '.', '[SEP]']
[0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1]


위에서 보는 바와 같이, "[CLS] 문장1 [SEP]"에 해당하는 입력 부분은 token_type_id가 0이고 "문장2 [SEP]"에 해당하는 다른 부분은 모두 1입니다.

다른 체크포인트(checkpoint)를 선택한다면, 토큰화된 입력(tokenized inputs)에 token_type_ids가 존재하지 않을 수도 있습니다.

 예를 들어, DistilBERT 모델을 사용하는 경우에는 tokenizer가 token_type_ids를 반환하지 않습니다. 모델이 사전학습 과정에서 이러한 형태의 입력 형식으로 학습을 진행했을 경우에만 반환됩니다.

 여기서, BERT는 토큰 타입 IDs를 사용하여 사전 학습되며,다음 문장 예측(next sentence prediction) 이라는 추가 objectives가 있습니다.

사전 학습 과정에서 다음 문장 예측(next sentence prediction)을 사용하면 모델에 무작위로 마스킹된 토큰(masked tokens)이 포함된 문장 쌍이 입력되고 두 번째 문장이 첫 번째 문장을 따르는지 여부를 예측하도록 요구됩니다.

------------------------------
일반적으로, 토큰화 완료된 입력에 token_type_ids가 있는지 여부에 대해 걱정할 필요가 없습니다.

토크나이저와 모델 모두에 동일한 체크포인트(checkpoint)를 사용하는 한, 토크나이저는 모델에 무엇을 제공해야 하는지 알고 있기 때문에 아무런 문제가 되지 않습니다.


In [53]:
tokenized_dataset = tokenizer(
    raw_datasets["train"]["sentence1"],
    raw_datasets["train"]["sentence2"],
    padding=True,
    truncation=True,
)


이 방법은 잘 작동하지만, input_ids, attention_mask, token_type_ids 및 데이터가 담겨진 다차원 리스트가 키로 지정된tokenized_dataset이라는 별도의 파이썬 딕셔너리를 반환하는 단점이 있습니다.

특정 데이터를 dataset 객체로 유지하기 위해 Dataset.map() 메서드를 사용합니다. 이 방법은 토큰화(tokenization) 외에 더 많은 전처리가 필요한 경우 유연성을 발휘합니다.

In [54]:
def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

In [55]:
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
tokenized_datasets

Map:   0%|          | 0/3668 [00:00<?, ? examples/s]

Map:   0%|          | 0/408 [00:00<?, ? examples/s]

Map:   0%|          | 0/1725 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 1725
    })
})

🤗Datasets 라이브러리는 데이터셋(datasets)에 새로운 필드들을 추가합니다.

이 필드들은 전처리 함수에서 반환된 사전의 각 키(input_ids, token_type_ids, attention_mask)에 해당합니다.

**동적 패딩(Dynamic padding)**

샘플들을 함께 모아서 지정된 크기의 배치(batch)로 구성하는 역할을 하는 함수를 **콜레이트 함수(collate function)** 라고 합니다.

이 함수는 DataLoader를 빌드(build)할 때 전달할 수 있는 매개변수입니다.

지금까지 우리는 일부러 패딩(padding) 작업을 미뤄왔는데 그 이유는 전체 데이터셋이 아닌 개별 배치(batch)에 대해서 별도로 패딩(padding)을 수행하여 과도하게 긴 입력으로 인한 과도한 패딩(padding) 작업을 방지하기 위함입니다.

 TPU는 추가적인 패딩(padding)이 필요한 경우에도 전체 데이터셋이 고정된 형태를 선호합니다.

실제로 이를 수행하려면, 배치(batch)로 분리하려는 데이터셋의 요소 각각에 대해서 정확한 수의 패딩(padding)을 적용할 수 있는 **콜레이트 함수(collate function)**를 정의해야 합니다.

다행히도, 🤗Transformers 라이브러리는 **DataCollatorWithPadding** 이러한 기능을 제공합니다. 이 함수는 토크나이저를 입력으로 받습니다.


In [56]:
from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)


In [57]:
samples = tokenized_datasets["train"][:8]
samples = {k: v for k, v in samples.items() if k not in ["idx", "sentence1", "sentence2"]}
[len(x) for x in samples["input_ids"]] # 배치(batch) 내의 각 요소들의 길이를 살펴보세요

[50, 59, 47, 67, 59, 50, 62, 32]

32에서 67까지 다양한 길이의 샘플을 얻을 수 있습니다.

_동적 패딩(dynamic padding)은 이 배치(batch) 내의 모든 샘플들이 배치 내부에서 최대 길이인 67 길이로 패딩(padding)되어야 함을 의미합니다_

In [58]:
batch = data_collator(samples)
{k: v.shape for k, v in batch.items()}


You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


{'input_ids': torch.Size([8, 67]),
 'token_type_ids': torch.Size([8, 67]),
 'attention_mask': torch.Size([8, 67]),
 'labels': torch.Size([8])}

이제 미세 조정(fine-tuning)할 준비가 되었습니다!

#### Trainer API를 이용한 모델 미세 조정(fine-tuning)

Transformers는 Trainer 클래스를 제공함으로써 여러분의 데이터셋을 이용하여 사전 학습된 모델(pretrained models)을 미세 조정(fine-tuning)할 수 있도록 도와줍니다.



In [6]:
from datasets import load_dataset
from transformers import AutoTokenizer, DataCollatorWithPadding

raw_datasets = load_dataset("glue", "mrpc")
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)


Downloading builder script:   0%|          | 0.00/28.8k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/28.7k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/27.9k [00:00<?, ?B/s]

Downloading and preparing dataset glue/mrpc to /root/.cache/huggingface/datasets/glue/mrpc/1.0.0/dacbe3125aa31d7f70367a07a8a9e72a5a0bfeb5fc42e75c9db75b96da6053ad...


Downloading data files:   0%|          | 0/3 [00:00<?, ?it/s]

Downloading data: 0.00B [00:00, ?B/s]

Downloading data: 0.00B [00:00, ?B/s]

Downloading data: 0.00B [00:00, ?B/s]

Generating train split:   0%|          | 0/3668 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/408 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/1725 [00:00<?, ? examples/s]

Dataset glue downloaded and prepared to /root/.cache/huggingface/datasets/glue/mrpc/1.0.0/dacbe3125aa31d7f70367a07a8a9e72a5a0bfeb5fc42e75c9db75b96da6053ad. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

Map:   0%|          | 0/3668 [00:00<?, ? examples/s]

Map:   0%|          | 0/408 [00:00<?, ? examples/s]

Map:   0%|          | 0/1725 [00:00<?, ? examples/s]

**학습 (Training)**

Trainer를 정의하기 전에 먼저 수행할 단계는 Trainer가 학습 및 평가에 사용할 모든 하이퍼파라미터(hyperparameters)를 포함하는 TrainingArguments 클래스를 정의하는 것입니다.

 여기서 우리가 제공해야 할 유일한 매개변수는 학습된 모델이 저장될 디렉토리입니다. 나머지는 모두 기본값(default values)을 그대로 활용하면 됩니다. 기본적인 미세 조정(fine-tuning)에는 이 정도면 충분합니다.


In [5]:
!pip install accelerate -U



In [6]:
from transformers import TrainingArguments,Trainer

training_args = TrainingArguments("test-trainer")

In [8]:
training_args

TrainingArguments(
_n_gpu=1,
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=0,
dataloader_pin_memory=True,
ddp_backend=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_tqdm=False,
do_eval=False,
do_predict=False,
do_train=False,
eval_accumulation_steps=None,
eval_delay=0,
eval_steps=None,
evaluation_strategy=no,
fp16=False,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=[],
fsdp_config={'fsdp_min_num_params': 0, 'xla': False, 'xla_fsdp_grad_ckpt': False},
fsdp_min_num_params=0,
fsdp_transformer_layer_cls_to_wrap=None,
full_determinism=False,
gradient_accumulation_steps=1,
gradient_checkpointing=False,
greater_is_better=None,
group_by_length=False,
half_precision_backend=auto,
hub_model_id=None,
hub_private_repo=False,
hub_strategy=every_save,
hub_token=

두 번째 단계는 모델을 정의하는 것입니다.

이전 장에서와 같이, 두 개의 레이블이 있는 AutoModelForSequenceClassification 클래스를 사용합니다.

In [9]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)


Downloading model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly i

모델(model), training_args, 학습집합 및 검증집합, data_collator 및 토크나이저 등, 지금까지 구성된 모든 개체를 전달하여 Trainer를 정의할 수 있습니다:

In [None]:
trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)


데이터셋으로 모델을 미세 조정(fine-tuning)하려면 Trainer의 train() 메서드를 호출하기만 하면 됩니다:

In [11]:
trainer.train()

You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Step,Training Loss
500,0.588
1000,0.405


TrainOutput(global_step=1377, training_loss=0.4319766729572327, metrics={'train_runtime': 180.7989, 'train_samples_per_second': 60.863, 'train_steps_per_second': 7.616, 'total_flos': 406183858377360.0, 'train_loss': 0.4319766729572327, 'epoch': 3.0})

미세 조정이 시작되고(GPU에서 몇 분 정도 소요됨) 500단계마다 학습 손실(training loss)이 보고됩니다.

그러나 모델의 성능이 좋은지 혹은 나쁜지는 알려주지 않습니다. 그 이유는 다음과 같습니다

- 학습 과정에서 평가가 수행되도록 Trainer에게 evaluation_strategy 매개변수를 "steps"(매 eval_steps마다 평가)나 "epoch"(각 epoch 마지막에 평가) 등으로 지정하지 않았습니다.

- 평가 방법 혹은 평가 척도를 정의한 compute_metrics() 함수를 Trainer에 지정하지 않았습니다. 평가 방법 지정이 안된 상태에서는 평가 과정에서 손실(loss)을 출력했을 것입니다. 직관적인 값은 아니지요.


#### 평가 (Evaluation)

compute_metrics() 함수를 구현하고 이를 학습할 때 사용하는 방법을 살펴보겠습니다.

이 함수는 EvalPrediction 객체(predictions 필드와 label_ids 필드가 포함된 네임드튜플(named tuple))를 필요로 하며 문자열과 실수값(floats)을 매핑하는 딕셔너리를 반환합니다.

 여기서 문자열은 반환된 메트릭(metrics)의 이름이고 실수값(floats)은 해당 메트릭에 기반한 평가 결과값입니다.

 모델에서 예측의 결과를 얻으려면 Trainer.predict() 명령을 사용할 수 있습니다

In [12]:
predictions = trainer.predict(tokenized_datasets["validation"])
print(predictions.predictions.shape, predictions.label_ids.shape)


(408, 2) (408,)


In [13]:
predictions

PredictionOutput(predictions=array([[-2.6149247 ,  2.4620159 ],
       [ 2.425598  , -2.298064  ],
       [-2.2502785 ,  2.0246391 ],
       [-2.4021432 ,  2.2257788 ],
       [ 2.3281217 , -2.2950501 ],
       [-2.440546  ,  2.269114  ],
       [-2.3750677 ,  2.0942984 ],
       [-2.5341148 ,  2.3275075 ],
       [-2.4635093 ,  2.2392569 ],
       [-2.5884364 ,  2.4269166 ],
       [-2.6292942 ,  2.4608114 ],
       [ 2.180699  , -2.03139   ],
       [ 1.8390801 , -2.0700436 ],
       [-2.439623  ,  2.2297578 ],
       [-2.6242988 ,  2.4683235 ],
       [-1.5980512 ,  1.7915995 ],
       [-2.6331873 ,  2.4778984 ],
       [-0.49861792, -0.2250034 ],
       [-2.630394  ,  2.475838  ],
       [ 2.1582363 , -2.2026594 ],
       [ 2.211807  , -2.222144  ],
       [-2.2101085 ,  1.936636  ],
       [ 1.2772804 , -1.0488627 ],
       [-2.608643  ,  2.455251  ],
       [-2.5934832 ,  2.421909  ],
       [-0.9310163 ,  1.004522  ],
       [-2.4239829 ,  2.1843035 ],
       [-2.646857  ,  2.48

metrics 필드에는 전달된 데이터셋의 손실(loss)과 시간 메트릭(time metrics) 값만 포함됩니다.

```
 metrics={'test_loss': 0.5707947015762329, 'test_runtime': 1.8718, 'test_samples_per_second': 217.973, 'test_steps_per_second': 27.247})

```

 predictions은 모양이 408 x 2인 2차원 배열입니다. 408은 우리가 예측에 사용한 데이터셋의 요소 개수입니다. 이는 우리가 predict()에 전달한 데이터셋의 각 요소에 대한 로짓(logit)값들입니다.

 . 이 로짓(logit)값들을 레이블과 비교할 수 있는 예측 결과로 변환하려면 두 번째 축(second axis)에 존재하는 항목에서 최대값이 있는 인덱스를 가져와야 합니다:

In [15]:
import numpy as np

preds = np.argmax(predictions.predictions, axis=-1)
preds

array([1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1,
       0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0,
       0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1,
       1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1,

이제 preds를 레이블(labels)과 비교할 수 있습니다.

In [16]:
from datasets import load_metric

metric = load_metric("glue", "mrpc")
metric.compute(predictions=preds, references=predictions.label_ids)


  metric = load_metric("glue", "mrpc")


Downloading builder script:   0%|          | 0.00/1.84k [00:00<?, ?B/s]

{'accuracy': 0.8357843137254902, 'f1': 0.8873949579831933}

지금까지 설명한 모든 것을 함께 종합하면 compute_metrics() 함수를 얻을 수 있습니다:

In [17]:
def compute_metrics(eval_preds):
    metric = load_metric("glue", "mrpc")
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

In [18]:
training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch")
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)


Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly i

In [19]:
trainer.train()




Epoch,Training Loss,Validation Loss,Accuracy,F1
1,No log,0.395915,0.823529,0.871886
2,0.515000,0.489869,0.852941,0.89899
3,0.315700,0.634946,0.862745,0.903114


TrainOutput(global_step=1377, training_loss=0.34340206747394414, metrics={'train_runtime': 219.228, 'train_samples_per_second': 50.194, 'train_steps_per_second': 6.281, 'total_flos': 406183858377360.0, 'train_loss': 0.34340206747394414, 'epoch': 3.0})

#### 전체 학습 (Full Training)

In [8]:
from datasets import load_dataset
from transformers import AutoTokenizer, DataCollatorWithPadding

raw_datasets = load_dataset("glue", "mrpc")
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)


tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)




  0%|          | 0/3 [00:00<?, ?it/s]



Map:   0%|          | 0/408 [00:00<?, ? examples/s]



**학습을 위한 준비**

실제로 학습 루프(training loop)를 작성하기 전에 몇 가지 객체를 정의해야 합니다.

첫 번째는 배치(batch)를 반복하는 데 사용할 dataloaders입니다.

그러나 이 dataloaders를 정의하기 전에 Trainer가 자동으로 수행한 몇 가지 작업을 직접 처리하기 위해 tokenized_datasets에 약간의 후처리를 적용해야 합니다.

- 모델이 필요로 하지 않는 값이 저장된 열(columns)을 제거합니다. (sentence1, sentence2 등)

- 열 레이블(column label)의 이름을 labels로 바꿉니다. 이는 모델이 labels라는 이름으로 매개변수를 받기 때문입니다.

- 파이썬 리스트 대신 PyTorch 텐서(tensors)를 반환하도록 datasets의 형식을 설정합니다.

In [9]:
tokenized_datasets = tokenized_datasets.remove_columns(["sentence1", "sentence2", "idx"])
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")
tokenized_datasets.set_format("torch")
tokenized_datasets["train"].column_names


['labels', 'input_ids', 'token_type_ids', 'attention_mask']

이제 이 작업이 완료되었으므로 dataloader를 쉽게 정의할 수 있습니다:

In [10]:
from torch.utils.data import DataLoader

train_dataloader = DataLoader(
    tokenized_datasets["train"],
    shuffle=True,
    batch_size=8,
    collate_fn=data_collator,
)

eval_dataloader = DataLoader(
    tokenized_datasets["validation"],
    batch_size=8,
    collate_fn=data_collator,
)


데이터 처리에 오류가 없는지 빠르게 확인하기 위해 다음과 같이 배치(batch)를 검사할 수 있습니다:

In [11]:
for batch in train_dataloader:
    break
{k: v.shape for k, v in batch.items()}

You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


{'labels': torch.Size([8]),
 'input_ids': torch.Size([8, 74]),
 'token_type_ids': torch.Size([8, 74]),
 'attention_mask': torch.Size([8, 74])}

In [12]:
from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

outputs = model(**batch)
print(outputs.loss, outputs.logits.shape)

Downloading model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly i

tensor(0.7267, grad_fn=<NllLossBackward0>) torch.Size([8, 2])


In [13]:
from transformers import AdamW

optimizer = AdamW(model.parameters(), lr=5e-5)




, Trainer에서 디폴트로 사용되는 학습률 스케줄러(learning rate scheduler)는 최대값(5e-5)에서 0까지 선형 감쇠(linear decay)합니다.

 이를 적절하게 정의하려면 우리가 수행할 학습 단계의 횟수를 알아야 합니다.

 이는 실행하려는 에포크(epochs) 수에 학습 배치(batch)의 개수를 곱한 것입니다.

 학습 배치의 개수는 학습 dataloader의 길이와 같습니다.

Trainer는 디폴트로 3개의 에포크(epochs)를 사용하므로 다음을 따릅니다:

In [15]:
from transformers import get_scheduler

num_epochs = 3
num_training_steps = num_epochs * len(train_dataloader)
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps,
)
print(num_training_steps)


1377


**학습 루프 (Training Loop)**

In [16]:
import torch

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)
device

device(type='cuda')

In [17]:
from tqdm.auto import tqdm

progress_bar = tqdm(range(num_training_steps))

model.train()
for epoch in range(num_epochs):
    for batch in train_dataloader:
        batch = {k: v.to(device) for k, v in batch.items()}
        outputs = model(**batch)
        loss = outputs.loss
        loss.backward()

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)

  0%|          | 0/1377 [00:00<?, ?it/s]

**평가 루프 (Evaluation Loop)**

metric.add_batch() 메서드로 평가 루프(evaluation loop)를 실행하면서 배치(batch)별 평가 메트릭(metrics) 계산 결과를 누적할 수 있습니다.

모든 배치(batch)를 누적하고 나면 metric.compute()로 최종 결과를 얻을 수 있습니다.

In [18]:
from datasets import load_metric

metric = load_metric("glue", "mrpc")
model.eval()
for batch in eval_dataloader:
    batch = {k: v.to(device) for k, v in batch.items()}
    with torch.no_grad():
        outputs = model(**batch)

    logits = outputs.logits
    predictions = torch.argmax(logits, dim=-1)
    metric.add_batch(predictions=predictions, references=batch["labels"])

metric.compute()


  metric = load_metric("glue", "mrpc")


Downloading builder script:   0%|          | 0.00/1.84k [00:00<?, ?B/s]

{'accuracy': 0.8578431372549019, 'f1': 0.9023569023569024}

**🤗Accelerate 라이브러리를 사용한 학습 루프 가속화**

 🤗Accelerate 라이브러리를 사용하여 몇 가지 설정만 하면 여러 GPU 또는 TPU에서 분산 학습(distributed training)을 수행할 수 있습니다.

In [19]:
# Accelerate 라이브러리 적용 전
from transformers import AdamW, AutoModelForSequenceClassification, get_scheduler

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
optimizer = AdamW(model.parameters(), lr=3e-5)

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)

num_epochs = 3
num_training_steps = num_epochs * len(train_dataloader)
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps,
)

progress_bar = tqdm(range(num_training_steps))

model.train()
for epoch in range(num_epochs):
    for batch in train_dataloader:
        batch = {k: v.to(device) for k, v in batch.items()}
        outputs = model(**batch)
        loss = outputs.loss
        loss.backward()

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)


Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly i

  0%|          | 0/1377 [00:00<?, ?it/s]

In [20]:
# Accelerate 라이브러리 적용
from accelerate import Accelerator
from transformers import AdamW, AutoModelForSequenceClassification, get_scheduler

# 시스템 환경 설정을 파악하고 적절한 분산 설정을 초기화하는 Accelerator 개체를 인스턴스화
accelerator = Accelerator()

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
optimizer = AdamW(model.parameters(), lr=3e-5)

# 장치에 모델을 배치하는 라인(model.to(device))을 제거
# 아니면 원할 경우, device 대신 accelerator.device를 사용하도록 변경
# 객체들을 적절한 컨테이너로 감싸서(wrapping) 분산 학습(distributed training)이 의도대로 작동되도록 합니다.
train_dataloader, eval_dataloader, model, optimizer = accelerator.prepare(
    train_dataloader, eval_dataloader, model, optimizer
)

num_epochs = 3
num_training_steps = num_epochs * len(train_dataloader)
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps
)

progress_bar = tqdm(range(num_training_steps))

model.train()
for epoch in range(num_epochs):
  # device에 배치(batch)를 복사하는 라인을 제거
    for batch in train_dataloader:
        outputs = model(**batch)
        loss = outputs.loss
        accelerator.backward(loss) # loss.backward() 대체

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)


Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly i

  0%|          | 0/1377 [00:00<?, ?it/s]

In [None]:
# 전체 학습과정

from accelerate import Accelerator
from transformers import AdamW, AutoModelForSequenceClassification, get_scheduler

accelerator = Accelerator()

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
optimizer = AdamW(model.parameters(), lr=3e-5)

train_dl, eval_dl, model, optimizer = accelerator.prepare(
    train_dataloader, eval_dataloader, model, optimizer
)

num_epochs = 3
num_training_steps = num_epochs * len(train_dl)
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps,
)

progress_bar = tqdm(range(num_training_steps))

model.train()
for epoch in range(num_epochs):
    for batch in train_dl:
        outputs = model(**batch)
        loss = outputs.loss
        accelerator.backward(loss)

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)


**🤗 총 정리 코드**

In [None]:
from datasets import load_dataset, load_metric
from transformers import AutoTokenizer, DataCollatorWithPadding, AutoModelForSequenceClassification, AdamW, get_scheduler

import torch
from torch.utils.data import DataLoader

from tqdm.auto import tqdm


# 데이터 셋 적재
raw_datasets = load_dataset("glue", "mrpc")
# 사전학습 언어모델 checkpoint 이름 지정
checkpoint = "bert-base-uncased"
# 지정된 사전학습 언어모델에서 토크나이저 인스턴스화
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


# 토크나이저 함수 사용자 정의화 (sentence1, sentence2 컬럼에 대해서만 토크나이징 수행)
def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)


# 토크나이징 수행
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
# 배치(batch)별 패딩(padding)을 위한 data collator 정의
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

# 불필요한 입력 컬럼을 제거하고 사전학습 언어모델에 필요한 입력만 남김.
tokenized_datasets = tokenized_datasets.remove_columns(["sentence1", "sentence2", "idx"])
# 데이터셋의 label 컬럼명을 labels로 변경
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")
# 데이터셋의 유형을 PyTorch tensor로 변경
tokenized_datasets.set_format("torch")

# 변경된 컬럼 출력
print(tokenized_datasets["train"].column_names)


# 각 종류별 데이터 로더 생성
train_dataloader = DataLoader(tokenized_datasets["train"],
                              shuffle=True,
                              batch_size=8,
                              collate_fn=data_collator)
eval_dataloader = DataLoader(tokenized_datasets["validation"],
                             shuffle=True,
                             batch_size=8,
                             collate_fn=data_collator)

# 사전학습 언어모델 인스턴스화
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)
# 최적화 함수 정의
optimizer = AdamW(model.parameters(), lr=5e-5)

# 에포크 개수 설정
num_epochs = 3
# 학습 스텝 수 계산
num_training_steps = num_epochs * len(train_dataloader)
# 학습 스케쥴러 설정
lr_scheduler = get_scheduler("linear", optimizer=optimizer, num_warmup_steps=0, num_training_steps=num_training_steps)

# GPU로 모델을 이동
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)

# 진행 상황바 정의
progress_bar = tqdm(range(num_training_steps))

# 모델을 학습 모드로 전환
model.train()
# 학습 루프 시작
for epoch in range(num_epochs):
    for batch in train_dataloader:
        # 현재 배치 중에서 입력값을 모두 GPU로 이동.
        batch = {k: v.to(device) for k, v in batch.items()}
        # 모델 실행
        outputs = model(**batch)
        # 손실값 가져오기
        loss = outputs.loss
        # 역전파 수행
        loss.backward()

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)

# 평가 메트릭 가져오기
metric = load_metric("glue", "mrpc")
# 모델을 평가 모드로 전환
model.eval()
for batch in eval_dataloader:
    batch = {k: v.to(device) for k, v in batch.items()}
    with torch.no_grad():
        outputs = model(**batch)

    logits = outputs.logits
    predictions = torch.argmax(logits, dim=-1)
    metric.add_batch(predictions=predictions, references=batch["labels"])

# 평가 결과 계산 및 출력
metric.compute()

### 모델 및 토크나이저 공유

Hub에 포함된 모델들은 🤗Transformers 또는 NLP에 국한되지 않습니다. NLP용 Flair 및 AllenNLP, 음성(speech) 처리를 위한 Asteroid 및 pyannote, 시각(vision)용 timm 등의 모델도 존재합니다.

이러한 각 모델들은 버전관리(versioning) 및 재현성(reproducibility)을 지원하는 Git 리포지토리(repository)로 호스팅됩니다

 Hub에서 모델을 공유한다는 것은 커뮤니티에 모델을 공개하고 이를 쉽게 사용하려는 모든 사람이 액세스할 수 있도록 함으로써, 모델을 직접 학습할 필요가 없이 모델 공유 및 사용을 단순화하는 것을 의미합니다.

### Datasets 라이브러리

모델을 미세조정(fine-tuning)하는 데 3가지 주요 단계가 있음을 확인했습니다

- Hugging Face Hub에서 dataset을 로드합니다.

- Dataset.map()을 사용하여 데이터를 전처리합니다.

- Metric을 로드하고 계산합니다.


이 장에서는 이 라이브러리에 대해 보다 자세히 살펴보겠습니다. 그 과정에서 다음 질문에 대한 답을 찾을 수 있습니다:

- 원하는 데이터셋이 Hub에 없으면 어떻게 할까요?

- 데이터셋을 어떻게 슬라이싱하고(slice) 다이싱할(dice) 수 있을까요? (그리고 Pandas를 꼭 사용해야 한다면 어떻게 할까요?)

- 해당 데이터셋이 너무 크고 노트북의 RAM의 용량이 부족할 때는 어떻게 해야 할까요?

- "메모리 매핑(memory mapping)"과 Apache Arrow는 도대체 무엇입니까?

- 나만의 데이터셋을 생성하여 Hub에 푸시하려면 어떻게 해야 합니까?


#### 만일 자신의 데이터셋이 허브에 없다면?

 일반적으로는 노트북이나 원격 서버에 저장된 데이터로 작업하는 경우가 많습니다.

 이 섹션에서는 🤗Datasets를 사용하여 Hugging Face Hub에 존재하지 않는 데이터셋을 로드하는 방법을 알아보겠습니다.



**로컬 혹은 원격 데이터셋으로 작업하기**

다음과 같은 몇 가지 일반적인 데이터 형식을 지원합니다

|Data format|Loading script|Example|
|:---|:---:|:---|
|CSV & TSV|csv|load_dataset("csv", data_files="my_file.csv")|
|Text files|text|load_dataset("text", data_files="my_file.txt")|
|JSON & JSON Lines|json|load_dataset("json", data_files="my_file.jsonl")|
|Pickled DataFrames|pandas|load_dataset("pandas", data_files="my_dataframe.pkl")|

**로컬 데이터셋 로딩하기**

예제 데이터로 이탈리아어 질의응답(question answering)을 위한 대규모 데이터셋인 SQuAD-it dataset을 사용합니다.

학습 및 평가 집합으로 분할된 파일들은 GitHub에서 호스팅되므로 간단한 **wget** 명령으로 다운로드 할 수 있습니다

In [22]:
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz


--2023-07-08 22:34:33--  https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/crux82/squad-it/master/SQuAD_it-train.json.gz [following]
--2023-07-08 22:34:34--  https://raw.githubusercontent.com/crux82/squad-it/master/SQuAD_it-train.json.gz
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 7725286 (7.4M) [application/octet-stream]
Saving to: ‘SQuAD_it-train.json.gz’


2023-07-08 22:34:34 (87.4 MB/s) - ‘SQuAD_it-train.json.gz’ saved [7725286/7725286]

--2023-07-08 22:34:34--  https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.

In [23]:
# SQuAD_it-train.json.gz 및 SQuAD_it-test.json.gz라는 두 개의 압축 파일  리눅스 gzip 명령으로 풀기
!gzip -dkv SQuAD_it*.json.gz

SQuAD_it-test.json.gz:	 87.5% -- created SQuAD_it-test.json
SQuAD_it-train.json.gz:	 82.3% -- created SQuAD_it-train.json


In [24]:
from datasets import load_dataset

squad_it_dataset = load_dataset("json", data_files="SQuAD_it-train.json", field="data")


Downloading and preparing dataset json/default to /root/.cache/huggingface/datasets/json/default-72e16ba37effb812/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /root/.cache/huggingface/datasets/json/default-72e16ba37effb812/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96. Subsequent calls will reuse this data.


  0%|          | 0/1 [00:00<?, ?it/s]

In [25]:
squad_it_dataset

DatasetDict({
    train: Dataset({
        features: ['title', 'paragraphs'],
        num_rows: 442
    })
})

In [26]:
squad_it_dataset["train"][2]

{'title': '51º stato',
 'paragraphs': [{'context': 'La frase "51° stato" può essere usata in senso positivo, nel senso che una regione o territorio è così allineata, solidale e favorevole agli Stati Uniti che è come uno stato americano. Può anche essere utilizzato in senso peggiorativo, il che significa che un\' area o una regione è percepita come sottoposta a un\' eccessiva influenza o controllo militare o culturale americano. In vari paesi del mondo, le persone che credono che la loro cultura locale o nazionale sia troppo americanizzata usano talvolta il termine "51° stato" in riferimento al proprio paese. eccessiva influenza o controllo culturale o militare americano eccessivo.',
   'qas': [{'answers': [{'answer_start': 71,
       'text': 'una regione o territorio è così allineata, solidale e favorevole agli Stati Uniti'}],
     'id': '572eedffc246551400ce47bc',
     'question': 'Qual è la connotazione positiva dell\' etichetta "51° stato"?'}]},
  {'context': 'L\'articolo 4, III sez

In [27]:
data_files = {"train": "SQuAD_it-train.json", "test": "SQuAD_it-test.json"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
squad_it_dataset


Downloading and preparing dataset json/default to /root/.cache/huggingface/datasets/json/default-8e52394a5a1379fa/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /root/.cache/huggingface/datasets/json/default-8e52394a5a1379fa/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96. Subsequent calls will reuse this data.


  0%|          | 0/2 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['title', 'paragraphs'],
        num_rows: 442
    })
    test: Dataset({
        features: ['title', 'paragraphs'],
        num_rows: 48
    })
})

In [None]:
# Datasets의 load_dataset 함수는 실제로 입력 파일의 압축 해제를 자동으로 지원하므로
# data_files 인수에 압축 파일을 직접 지정하여 gzip 사용을 건너뛸 수 있습니다

data_files = {"train": "SQuAD_it-train.json.gz", "test": "SQuAD_it-test.json.gz"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")


**원격 데이터셋 로딩하기**

In [None]:
url = "https://github.com/crux82/squad-it/raw/master/"
data_files = {
    "train": url + "SQuAD_it-train.json.gz",
    "test": url + "SQuAD_it-test.json.gz",
}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")

#### 데이터셋 슬라이싱(slicing)과 다이싱(dicing)

이번 섹션에서 예제로 UC Irvine Machine Learning Repository에서 호스팅되는 Drug Review Dataset을 사용합니다.

여기에는 다양한 약물에 대한 환자 리뷰, 치료 상태 및 환자 만족도에 대한 별 10개 등급(10-star rating)이 포함되어 있습니다.

In [28]:
!wget "https://archive.ics.uci.edu/ml/machine-learning-databases/00462/drugsCom_raw.zip"
!unzip drugsCom_raw.zip


--2023-07-08 22:59:06--  https://archive.ics.uci.edu/ml/machine-learning-databases/00462/drugsCom_raw.zip
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified
Saving to: ‘drugsCom_raw.zip’

drugsCom_raw.zip        [      <=>           ]  41.00M  39.3MB/s    in 1.0s    

2023-07-08 22:59:07 (39.3 MB/s) - ‘drugsCom_raw.zip’ saved [42989872]

Archive:  drugsCom_raw.zip
  inflating: drugsComTest_raw.tsv    
  inflating: drugsComTrain_raw.tsv   


In [29]:
from datasets import load_dataset

data_files = {"train": "drugsComTrain_raw.tsv", "test": "drugsComTest_raw.tsv"}
# \t 는 Python에서 탭 문자를 나타냅니다.
drug_dataset = load_dataset("csv", data_files=data_files, delimiter="\t")


Downloading and preparing dataset csv/default to /root/.cache/huggingface/datasets/csv/default-ec41c87d452ec392/0.0.0/eea64c71ca8b46dd3f537ed218fc9bf495d5707789152eb2764f5c78fa66d59d...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

Dataset csv downloaded and prepared to /root/.cache/huggingface/datasets/csv/default-ec41c87d452ec392/0.0.0/eea64c71ca8b46dd3f537ed218fc9bf495d5707789152eb2764f5c78fa66d59d. Subsequent calls will reuse this data.


  0%|          | 0/2 [00:00<?, ?it/s]

In [30]:
drug_sample = drug_dataset["train"].shuffle(seed=42).select(range(1000))
# 앞쪽의 샘플 몇개를 가져옵니다.
drug_sample[:3]

{'Unnamed: 0': [87571, 178045, 80482],
 'drugName': ['Naproxen', 'Duloxetine', 'Mobic'],
 'condition': ['Gout, Acute', 'ibromyalgia', 'Inflammatory Conditions'],
 'review': ['"like the previous person mention, I&#039;m a strong believer of aleve, it works faster for my gout than the prescription meds I take. No more going to the doctor for refills.....Aleve works!"',
  '"I have taken Cymbalta for about a year and a half for fibromyalgia pain. It is great\r\nas a pain reducer and an anti-depressant, however, the side effects outweighed \r\nany benefit I got from it. I had trouble with restlessness, being tired constantly,\r\ndizziness, dry mouth, numbness and tingling in my feet, and horrible sweating. I am\r\nbeing weaned off of it now. Went from 60 mg to 30mg and now to 15 mg. I will be\r\noff completely in about a week. The fibro pain is coming back, but I would rather deal with it than the side effects."',
  '"I have been taking Mobic for over a year with no side effects other than 

이 샘플들에서 우리는 해당 데이터셋의 몇 가지 단점(quirks)을 볼 수 있습니다:

"Unnamed: 0" 컬럼(column)은 확실하지는 않지만 각 환자의 익명 ID(anonymized ID)처럼 보입니다.

"condition" 컬럼(column)에는 대문자와 소문자 레이블이 혼합되어 있습니다.

리뷰(review)의 길이는 다양하며 Python 줄 구분 기호(\r\n)와 '와 같은 HTML 문자 코드가 혼합되어 있습니다.

In [33]:
for split in drug_dataset.keys(): # Train, Test
    # assert 문은 주어진 조건이 참이 아니면 AssertionError를 발생
    assert len(drug_dataset[split]) == len(drug_dataset[split].unique("Unnamed: 0"))

In [34]:
# "Unnamed: 0" 컬럼의 명칭을 더 이해하기 쉬운 명칭으로 변경
drug_dataset = drug_dataset.rename_column(
    original_column_name="Unnamed: 0", new_column_name="patient_id"
)
drug_dataset


DatasetDict({
    train: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount'],
        num_rows: 161297
    })
    test: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount'],
        num_rows: 53766
    })
})

In [35]:
# Dataset.map()을 사용하여 모든 condition 레이블을 정규화해 보겠습니다

def lowercase_condition(example):
    return {"condition": example["condition"].lower()}

drug_dataset.map(lowercase_condition) # 이 오류를 통해서 condition 컬럼의 일부 항목이 소문자로 변환할 수 없는 None이라는 것을 추론할 수 있습니다.

Map:   0%|          | 0/161297 [00:00<?, ? examples/s]

In [36]:
def filter_nones(x):
    return x["condition"] is not None


In [37]:
drug_dataset = drug_dataset.filter(lambda x: x["condition"] is not None)

Filter:   0%|          | 0/161297 [00:00<?, ? examples/s]

Filter:   0%|          | 0/53766 [00:00<?, ? examples/s]

In [38]:
drug_dataset = drug_dataset.map(lowercase_condition)
# 소문자화가 제대로 진행되었는지 확인.
drug_dataset["train"]["condition"][:3]

Map:   0%|          | 0/160398 [00:00<?, ? examples/s]

Map:   0%|          | 0/53471 [00:00<?, ? examples/s]

['left ventricular dysfunction', 'adhd', 'birth control']

**새로운 컬럼(column) 만들기**

고객 리뷰를 다룰 때마다, 각 리뷰의 단어 수를 확인하는 것이 좋습니다.

 리뷰는 "Great!"와 같은 한 단어로 구성되거나 또는 수천 개의 단어로 구성된 본격적인 에세이(full-blown essays)로 작성되었을 수도 있습니다.

  따라서, 사용 사례에 따라 이러한 극단적인 상황을 다르게 처리해야 합니다


In [39]:
def compute_review_length(example):
    return {"review_length": len(example["review"].split())}


In [40]:
drug_dataset = drug_dataset.map(compute_review_length)
# 첫 학습 예제를 살펴봅니다.
drug_dataset["train"][0]

Map:   0%|          | 0/160398 [00:00<?, ? examples/s]

Map:   0%|          | 0/53471 [00:00<?, ? examples/s]

{'patient_id': 206461,
 'drugName': 'Valsartan',
 'condition': 'left ventricular dysfunction',
 'review': '"It has no side effect, I take it in combination of Bystolic 5 Mg and Fish Oil"',
 'rating': 9.0,
 'date': 'May 20, 2012',
 'usefulCount': 27,
 'review_length': 17}

In [41]:
drug_dataset["train"].sort("review_length")[:3]

{'patient_id': [111469, 13653, 53602],
 'drugName': ['Ledipasvir / sofosbuvir',
  'Amphetamine / dextroamphetamine',
  'Alesse'],
 'condition': ['hepatitis c', 'adhd', 'birth control'],
 'review': ['"Headache"', '"Great"', '"Awesome"'],
 'rating': [10.0, 10.0, 10.0],
 'date': ['February 3, 2015', 'October 20, 2009', 'November 23, 2015'],
 'usefulCount': [41, 3, 0],
 'review_length': [1, 1, 1]}

review에는 단일 단어만 포함되어 있는데, 이는 감성 분석(sentiment analysis)에는 적합할 수 있지만 condition을 예측하려는 경우에는 크게 도움이 되지는 않습니다.

데이터셋에 새 열을 추가하는 다른 방법은 Dataset.add_column() 함수를 사용하는 것입니다

Dataset.filter() 함수를 사용하여 30단어 미만으로 표현된 리뷰를 제거해 보겠습니다

In [42]:
# 원본 학습 및 평가 집합에서 리뷰의 약 15%를 제거했습니다.
drug_dataset = drug_dataset.filter(lambda x: x["review_length"] > 30)
print(drug_dataset.num_rows)


Filter:   0%|          | 0/160398 [00:00<?, ? examples/s]

Filter:   0%|          | 0/53471 [00:00<?, ? examples/s]

{'train': 138514, 'test': 46108}


마지막으로 우리가 해결해야 할 문제는 리뷰에 HTML 문자 코드가 있다는 것입니다.

Python의 html 모듈을 사용하여 다음과 같이 이러한 문자를 이스케이프 해제(unescape)할 수 있습니다:

In [43]:
import html

text = "I&#039;m a transformer called BERT"
html.unescape(text)


"I'm a transformer called BERT"

In [44]:
drug_dataset = drug_dataset.map(lambda x: {"review": html.unescape(x["review"])})


Map:   0%|          | 0/138514 [00:00<?, ? examples/s]

Map:   0%|          | 0/46108 [00:00<?, ? examples/s]

##### map() 메서드의 대단한 능력

Dataset.map() 메서드의 batched 매개변수가 True로 설정되면, 호출되는 순간마다 여러 개의 예제로 구성된 하나의 배치(batch)가 한번에 map 함수에 입력됩니다.

 배치 크기(batch size)는 별도로 설정이 가능하고 디폴트값은 1000입니다.

 리스트 컴프리헨션(list comprehension, 내포)를 사용하여 동시에 여러 예제를 한번에 처리하여 속도를 높일 수 있습니다

 batched=True가 지정되면 Dataset.map() 메서드의 매개변수로 전달되는 함수가 데이터셋의 필드가 포함된 하나의 딕셔너리를 입력받지만 이 딕셔너리 내부의 각 필드값은 이제 단일 값이 아니라 리스트(list of values)입니다.

  Dataset.map()의 반환 값은 동일해야 합니다.

  예를 들어, 다음 코드는 모든 HTML 문자를 이스케이프 해제하는 또 다른 방법이지만 batch=True를 사용합니다:

In [45]:
new_drug_dataset = drug_dataset.map(
    lambda x: {"review": [html.unescape(o) for o in x["review"]]}, batched=True
)

Map:   0%|          | 0/138514 [00:00<?, ? examples/s]

Map:   0%|          | 0/46108 [00:00<?, ? examples/s]

주피터 노트북(jupyter notebook)에서 이 코드를 실행하면 이 명령이 이전 명령보다 훨씬 빠르게 실행되는 것을 볼 수 있습니다.

 이는 review가 이미 HTML 이스케이프 해제 처리가 되었기 때문이 아닙니다.

 batched=True가 지정되지 않은 이전 섹션의 명령을 다시 실행하면 이전과 같은 시간이 소모됩니다.

 이는 일반적으로 리스트 내포문(list comprehension)이 for 루프에서 동일한 코드를 실행하는 것보다 더 빠르기 때문입니다.

  또한 예제 하나씩이 아니라 동시에 많은 요소에 한꺼번에 접근함으로써 속도가 빨라진 것입니다.

**Dataset.map()에는 자체 병렬화 기능도 있습니다.**

다중 처리를 활성화하려면 num_proc 인수를 사용하고 Dataset.map() 호출에 사용할 프로세스 수를 지정합니다:

In [46]:
slow_tokenizer = AutoTokenizer.from_pretrained("bert-base-cased", use_fast=False)

def slow_tokenize_function(examples):
    return slow_tokenizer(examples["review"], truncation=True)

%time tokenized_dataset = drug_dataset.map(slow_tokenize_function, batched=True, num_proc=8)


Downloading (…)okenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

Map (num_proc=8):   0%|          | 0/138514 [00:00<?, ? examples/s]

Map (num_proc=8):   0%|          | 0/46108 [00:00<?, ? examples/s]

CPU times: user 5.58 s, sys: 1.5 s, total: 7.08 s
Wall time: 5min 20s


 여기서는 우리 예제(examples)들을 토큰화하고 최대 길이 128로 자릅니다.

 그러나 이 과정에서 토크나이저에게 전체 review의 앞부분에 있는 128개의 토큰으로 구성된 청크(chunk)가 아니라 텍스트의 모든 청크(chunk)를 반환하도록 요청할 것입니다

In [47]:
def tokenize_and_split(examples):
    return tokenizer(
        examples["review"],
        truncation=True,
        max_length=128,
        return_overflowing_tokens=True,
    )


In [48]:
# 전체 데이터셋에 대해서 Dataset.map()을 사용하기 전에 예제 테스트
result = tokenize_and_split(drug_dataset["train"][0])
[len(inp) for inp in result["input_ids"]]

#지정한 최대 토큰 수(128)보다 많이 토큰화되었기 때문에 두 가지 자질(feature)로 구성되었습니다.
result["input_ids"]



[[101,
  1000,
  2026,
  2365,
  2003,
  8576,
  2083,
  2010,
  2959,
  2733,
  1997,
  20014,
  19496,
  2615,
  1012,
  2057,
  2150,
  4986,
  2043,
  2002,
  2211,
  2023,
  2197,
  2733,
  1010,
  2043,
  2002,
  2318,
  2635,
  1996,
  3284,
  13004,
  2002,
  2097,
  2022,
  2006,
  1012,
  2005,
  2048,
  2420,
  1010,
  2002,
  2071,
  6684,
  2131,
  2041,
  1997,
  2793,
  1010,
  2001,
  2200,
  27987,
  2100,
  1010,
  1998,
  7771,
  2005,
  3053,
  1022,
  2847,
  2006,
  1037,
  3298,
  2188,
  2013,
  2082,
  10885,
  1006,
  2200,
  5866,
  2005,
  2032,
  1012,
  1007,
  1045,
  2170,
  2010,
  3460,
  2006,
  6928,
  2851,
  1998,
  2016,
  2056,
  2000,
  6293,
  2009,
  2041,
  1037,
  2261,
  2420,
  1012,
  2156,
  2129,
  2002,
  2106,
  2012,
  2082,
  1010,
  1998,
  2007,
  2893,
  2039,
  1999,
  1996,
  2851,
  1012,
  1996,
  2197,
  2048,
  2420,
  2031,
  2042,
  3291,
  2489,
  1012,
  2002,
  2003,
  2172,
  2062,
  5993,
  3085,
  2084,
  2412,
  10

In [49]:
tokenized_dataset = drug_dataset.map(tokenize_and_split, batched=True)


Map:   0%|          | 0/138514 [00:00<?, ? examples/s]

나는 개수가 1,463이고 다른 하나는 길이가 1,000입니다. Dataset.map()에 대한 Documentation을 본 적이 있다면, 이 숫자(1000)는 매핑하는 함수(tokenize_and_split)에 전달된 총 샘플 개수라는 것을 기억할 수 있을겁니다.

여기에서 1,000개의 예제가 입력되어 1,463개의 새로운 자질들을 출력하므로 shape error가 발생했습니다.

문제는 크기가 다른 두 개의 서로 다른 데이터셋을 혼합하려고 한다는 것입니다.

 이 오류에서 drug_dataset 열에는 1,000개의 예제가 있으나 우리가 새롭게 구성하려는 tokenized_dataset에는 그보다 많은 수의 예제(1,463)가 있습니다.
  
  Dataset 객체로서는 제대로 작동할 수가 없습니다.
  
   따라서 이전 데이터셋의 열을 제거하거나 새로운 데이터셋과 동일한 크기로 만들어야 합니다

In [50]:
tokenized_dataset = drug_dataset.map(
    tokenize_and_split, batched=True, remove_columns=drug_dataset["train"].column_names
)


len(tokenized_dataset["train"]), len(drug_dataset["train"])


Map:   0%|          | 0/138514 [00:00<?, ? examples/s]

Map:   0%|          | 0/46108 [00:00<?, ? examples/s]

(204198, 138514)

In [51]:
def tokenize_and_split(examples):
    result = tokenizer(
        examples["review"],
        truncation=True,
        max_length=128,
        return_overflowing_tokens=True,
    )
    # 신규 인덱스와 이전 인덱스와의 매핑 추출
    sample_map = result.pop("overflow_to_sample_mapping")
    for key, values in examples.items():
        result[key] = [values[i] for i in sample_map]
    return result


In [52]:
# 이전과 동일하게 증가된 수의 학습 자질들을 얻었지만 여기서는 모든 이전 필드를 그대로 유지
# 모델을 적용한 후에 이들 이전 필드들에 대한 후처리가 필요한 경우 이 접근 방식을 사용하는 것이 좋습니다.
tokenized_dataset = drug_dataset.map(tokenize_and_split, batched=True)
tokenized_dataset

Map:   0%|          | 0/138514 [00:00<?, ? examples/s]

Map:   0%|          | 0/46108 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 204198
    })
    test: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 68023
    })
})

**Datasets과 DataFrames 간의 상호 변환**

다양한 서드 파티 라이브러리들 간의 변환을 가능하게 하기 위해 🤗Datasets는 Dataset.set_format() 함수를 제공합니다

이 기능은 데이터셋의 출력 형식(output format)만 변경하므로 기본 데이터 포멧(Apache Arrow)에 영향을 주지 않고 다른 형식으로 쉽게 전환할 수 있습니다.


In [53]:
drug_dataset.set_format("pandas")

In [54]:
drug_dataset["train"][:3]


Unnamed: 0,patient_id,drugName,condition,review,rating,date,usefulCount,review_length
0,95260,Guanfacine,adhd,"""My son is halfway through his fourth week of ...",8.0,"April 27, 2010",192,141
1,92703,Lybrel,birth control,"""I used to take another oral contraceptive, wh...",5.0,"December 14, 2009",17,134
2,138000,Ortho Evra,birth control,"""This is my first time using any form of birth...",8.0,"November 3, 2015",10,89


In [55]:
train_df = drug_dataset["train"][:]


In [56]:
frequencies = (
    train_df["condition"]
    .value_counts()
    .to_frame()
    .reset_index()
    .rename(columns={"index": "condition", "condition": "frequency"})
)
frequencies.head()

Unnamed: 0,condition,frequency
0,birth control,27655
1,depression,8023
2,acne,5209
3,anxiety,4991
4,pain,4744


Pandas 분석이 끝나면 다음과 같이 Dataset.from_pandas() 함수를 사용하여 항상 새로운 Dataset 객체를 생성할 수 있습니다:

In [57]:
from datasets import Dataset

freq_dataset = Dataset.from_pandas(frequencies)
freq_dataset


Dataset({
    features: ['condition', 'frequency'],
    num_rows: 819
})

In [58]:
#  "pandas"에서 "arrow"로 drug_dataset의 출력 형식을 재설정합니다
drug_dataset.reset_format()


##### 검증 집합(validation set) 생성

모델 성능 평가에 사용할 수 있는 평가 집합(test set)이 있지만 개발 중에 이 평가 집합을 그대로 두고 별도의 검증 집합(validation set)을 만드는 것이 좋습니다.


검증 집합(validation set)에서 모델의 성능에 만족하면 평가 집합(test set)에서 최종적인 온전성 검사(sanity check)를 수행할 수 있습니다.

이 과정은 모델이 평가 집합(test set)에 과적합되어 실제 데이터에서는 성능이 떨어지는 모델을 배포하는 위험성을 완화하는데 도움이 됩니다.



In [59]:
drug_dataset_clean = drug_dataset["train"].train_test_split(train_size=0.8, seed=42)
# 기본 "test" 분할을 "validation"으로 변경함.
drug_dataset_clean["validation"] = drug_dataset_clean.pop("test")
# 'DatasetDict'에 "test" 집합을 추가.
drug_dataset_clean["test"] = drug_dataset["test"]
drug_dataset_clean


DatasetDict({
    train: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length'],
        num_rows: 110811
    })
    validation: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length'],
        num_rows: 27703
    })
    test: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length'],
        num_rows: 46108
    })
})

##### 데이터셋 저장

Datasets는 다운로드한 모든 데이터셋과 이에 대해 수행된 작업을 임시저장하지만 데이터셋을 디스크에 저장하고 싶을 때가 있습니다



In [61]:
#  Arrow 형식으로 저장
drug_dataset_clean.save_to_disk("drug-reviews")


Saving the dataset (0/1 shards):   0%|          | 0/110811 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/27703 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/46108 [00:00<?, ? examples/s]

In [62]:
# CSV 및 JSON 형식 저장

for split, dataset in drug_dataset_clean.items():
    dataset.to_json(f"drug-reviews-{split}.jsonl")

Creating json from Arrow format:   0%|          | 0/111 [00:00<?, ?ba/s]

Creating json from Arrow format:   0%|          | 0/28 [00:00<?, ?ba/s]

Creating json from Arrow format:   0%|          | 0/47 [00:00<?, ?ba/s]

In [63]:
# JSON 파일 로드

data_files = {
    "train": "drug-reviews-train.jsonl",
    "validation": "drug-reviews-validation.jsonl",
    "test": "drug-reviews-test.jsonl",
}
drug_dataset_reloaded = load_dataset("json", data_files=data_files)

Downloading and preparing dataset json/default to /root/.cache/huggingface/datasets/json/default-18516d354ed57534/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96...


Downloading data files:   0%|          | 0/3 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/3 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating validation split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /root/.cache/huggingface/datasets/json/default-18516d354ed57534/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

### Datasets가 빅데이터 문제를 해결한다!

GPT-2를 사전 학습(pretraining)하는 데 사용되는 WebText 코퍼스는 8백만 개 이상의 문서와 40GB의 텍스트로 구성됩니다.

이 데이터셋을 노트북의 RAM에 로드하면 노트북이 심장마비를 일으킬 수 있습니다!

다행히도, 🤗Datasets는 이러한 한계를 극복하도록 설계되었습니다.

데이터셋을 메모리에 매핑된(memory-mapped) 파일로 처리하여 메모리 관리 문제를 해결하고, 말뭉치의 각 항목들을 스트리밍하여 하드 디스크 제한에서 우리를 해방시킬 수 있습니다.

##### Pile이 무엇인가요?

Pile은 EleutherAI가 대규모 언어 모델을 학습하기 위해 만든 영어 텍스트 말뭉치입니다.


학습 데이터는 14GB 청크로 제공되며 개별적인 구성 요소를 각각 다운로드할 수도 있습니다.

먼저 1,500만 건으로 구성된 생의학 출판물 초록 모음인 PubMed Abstracts 데이터셋을 살펴보겠습니다.

데이터셋은 JSON Lines 형식이고 zstandard 라이브러리를 사용하여 압축되므로 먼저 다음을 설치해야 합니다:


In [1]:
# !pip install zstandard
# 만일 설치가 반영이 제대로 안된다면, 다음 명령어로 설치하고 커널을 다시 실행해야 합니다.
import sys
!{sys.executable} -m pip install zstandard




In [2]:
from datasets import load_dataset

# 아래 코드는 실행하는데 몇분이 소요됩니다.
data_files = "https://the-eye.eu/public/AI/pile_preliminary_components/PUBMED_title_abstracts_2019_baseline.jsonl.zst"
pubmed_dataset = load_dataset("json", data_files=data_files, split="train")
pubmed_dataset


Downloading and preparing dataset json/default to /root/.cache/huggingface/datasets/json/default-6e3092816c4f845b/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /root/.cache/huggingface/datasets/json/default-6e3092816c4f845b/0.0.0/8bb11242116d547c741b2e8a1f18598ffdd40a1d4f2a2872c7a28b697434bc96. Subsequent calls will reuse this data.


Dataset({
    features: ['meta', 'text'],
    num_rows: 15518009
})

In [7]:
pubmed_dataset[0]

{'meta': {'pmid': 11409574, 'language': 'eng'},
 'text': 'Epidemiology of hypoxaemia in children with acute lower respiratory infection.\nTo determine the prevalence of hypoxaemia in children aged under 5 years suffering acute lower respiratory infections (ALRI), the risk factors for hypoxaemia in children under 5 years of age with ALRI, and the association of hypoxaemia with an increased risk of dying in children of the same age. Systematic review of the published literature. Out-patient clinics, emergency departments and hospitalisation wards in 23 health centres from 10 countries. Cohort studies reporting the frequency of hypoxaemia in children under 5 years of age with ALRI, and the association between hypoxaemia and the risk of dying. Prevalence of hypoxaemia measured in children with ARI and relative risks for the association between the severity of illness and the frequency of hypoxaemia, and between hypoxaemia and the risk of dying. Seventeen published studies were found that i

##### 매모리 매핑(memory-mapping)의 마법


In [6]:
!pip install psutil




In [8]:
import psutil

# Process.memory_info는 바이트 단위로 표시되므로 이를 메가바이트로 변환합니다.
print(f"RAM used: {psutil.Process().memory_info().rss / (1024 * 1024):.2f} MB")



RAM used: 755.58 MB


여기에서 rss 속성은 프로세스가 RAM에서 차지하는 메모리 비율인 resident set size(상주 세트 크기)를 나타냅니다

비교를 위해 dataset_size 속성을 사용하여 데이터셋이 디스크에서 어느 정도 크기인지 봅시다.

In [9]:
print(f"Number of files in dataset : {pubmed_dataset.dataset_size}")
size_gb = pubmed_dataset.dataset_size / (1024 ** 3)
print(f"Dataset size (cache file) : {size_gb:.2f} GB")


Number of files in dataset : 20978892555
Dataset size (cache file) : 19.54 GB


### 자신만의 데이터셋 만들기

NLP 애플리케이션을 구축하는데 필요한 데이터셋이 존재하지 않는 경우에는 직접 만들어야 합니다.

이 섹션에서는 GitHub 리포지토리의 버그 또는 특징을 추적하는데 일반적으로 사용되는 GitHub issues 말뭉치를 만드는 방법을 보여줍니다.

이 말뭉치는 다음과 같은 다양한 목적으로 사용될 수 있습니다:

- 미해결 이슈(Open issues) 또는 풀 리퀘스트(pull requests)를 종료하는데 얼마나 시간이 걸리는지 알아보기.

- 문제에 대한 설명(issue's description)에 기반하여 메타데이터 형태의 이슈에 태그("bug", "enhancement", 또는 "question")를 지정할 수 있는 다중 레이블 분류기(multilabel classifier) 학습

- 사용자의 질의와 일치하는 이슈들을 검색하기 위한 시맨틱 검색 엔진(semantic search engine) 만들기

### Tokenizers 라이브러리
3장에서 우리는 대상 작업을 위해서 모델을 미세 조정하는 방법을 살펴보았습니다. 미세 조정 과정에서 사전 학습된 모델과 동일한 토크나이저를 사용합니다

하지만 모델을 처음부터 학습하고 싶을 때는 어떻게 하면 좋을까요?

예를 들어, 영어 말뭉치에 대해 학습된 토크나이저는 공백과 구두점의 사용이 매우 다르기 때문에 일본어 텍스트의 말뭉치에서 제대로 수행되지 않습니다.

이 장에서는 텍스트 말뭉치에서 새로운 토크나이저를 학습하는 방법과 이를 언어 모델을 사전 학습하는데 사용하는 방법을 공부합니다.

새로운 텍스트 말뭉치를 기반으로 특정 체크포인트의 토크나이저와 유사한 새로운 토크나이저를 학습시키는 방법

- 빠른 토크나이저(fast tokenizers)의 특징

- 오늘날 NLP에서 사용되는 세 가지 주요 단어 토큰화 알고리즘의 차이점

- Tokenizers 라이브러리를 사용하여 처음부터 토크나이저를 구축하고 특정 데이터로 학습하는 방법

#### 기존 토크나이저에서 새로운 토크나이저 학습

해당 말뭉치에 적합하게 적응된 토크나이저를 이용하여 모델을 새롭게 학습하기 원할 수도 있습니다.

이를 위해서는 그 데이터셋에 대한 새로운 토크나이저를 학습해야 합니다.

2장에서 토크나이저를 처음 접했을 때 대부분의 트랜스포머(Transformer) 모델이 하위 단어 토큰화(subword tokenization) 알고리즘을 사용하는 것을 보았습니다.

토크나이저 학습은 모델에 대한 학습과는 다릅니다!

모델 학습은 확률적 경사 하강법(stochastic gradient descent)을 사용하여 각각의 배치(batch)에 대해 손실(loss)을 조금씩 더 작게 만듭니다. 이 과정은 본질적으로 무작위입니다

 _즉, 동일한 학습을 두 번 수행할 때 동일한 결과를 얻으려면 고정된 seed를 설정해야 함_

 토크나이저 학습은 주어진 말뭉치에 대해 어떤 하위 단어(subword)를 선택하는 것이 가장 좋은지 식별하려는 통계적 프로세스이며, 이를 선택하는데 사용되는 정확한 규칙은 토큰화 알고리즘에 따라 다릅니다.


##### 말뭉치 모으기

Transformers에는 기존에 존재하는 것들과 동일한 특성을 가진 새로운 토크나이저를 학습하는데 사용할 수 있는 매우 간단한 API가 있습니다.

바로 AutoTokenizer.train_new_from_iterator()가 그것입니다.


### 7장. 주요 NLP 태스크 실제 구현방법

이 장에서는 다음과 같은 주요 NLP 태스크들을 다룰 것입니다.

- 토큰 분류 (Token Classification)

- 마스킹된 언어 모델링 (Masked Language Modeling)

- 요약 (Summarization)

- 번역 (Translation)

- 인과적 언어 모델링 사전학습 (Causal Language Modeling Pretraining like GPT-2)

- 질의응답 (Question Answering)



---



#### 1. 토큰 분류 (Token Classification)

##### 데이터 준비
Reuters의 뉴스 기사가 포함된 CoNLL-2003 데이터셋을 사용합니다.

##### CoNLL-2003 데이터셋


In [11]:
from datasets import load_dataset

# CoNLL-2003 URL이 변경되었음.
raw_datasets = load_dataset("conll2003", revision="main")


Downloading builder script:   0%|          | 0.00/9.57k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/3.73k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/12.3k [00:00<?, ?B/s]

Downloading and preparing dataset conll2003/conll2003 to /root/.cache/huggingface/datasets/conll2003/conll2003/1.0.0/9a4d16a94f8674ba3466315300359b0acd891b68b6c8743ddf60b9c702adce98...


Downloading data:   0%|          | 0.00/983k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/14041 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/3250 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/3453 [00:00<?, ? examples/s]

Dataset conll2003 downloaded and prepared to /root/.cache/huggingface/datasets/conll2003/conll2003/1.0.0/9a4d16a94f8674ba3466315300359b0acd891b68b6c8743ddf60b9c702adce98. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

**Named entity recognition (NER)**

 문장에서 개체명(혹은 엔터티, 예: 사람, 위치 또는 조직)을 찾습니다.

 이 작업은 개채명당 하나의 클래스와 "개체명이 아님(no entity)"에 대한 하나의 클래스를 사용하여 각 토큰에 레이블을 부여하는 것으로 공식화할 수 있습니다.

**Part-of-speech tagging (POS)**

 문장의 각 단어에 대한 특정 품사(명사, 동사, 형용사 등)를 지정합니다.

**Chunking**

 동일한 개체명 혹은 엔터티에 속한 토큰을 찾습니다.

 이 작업(POS 또는 NER와 결합 가능)은 청크(chunk)의 시작 부분에 있는 토큰에 한 레이블(보통 B-)을, 청크 내부에 있는 토큰에 다른 레이블(보통 I-)을, 그리고 청크에 속하지 않는 토큰에 대해서는 세 번째 레이블(보통 O)을 부여하는 것으로 공식화할 수 있습니다.

In [12]:
raw_datasets


DatasetDict({
    train: Dataset({
        features: ['id', 'tokens', 'pos_tags', 'chunk_tags', 'ner_tags'],
        num_rows: 14041
    })
    validation: Dataset({
        features: ['id', 'tokens', 'pos_tags', 'chunk_tags', 'ner_tags'],
        num_rows: 3250
    })
    test: Dataset({
        features: ['id', 'tokens', 'pos_tags', 'chunk_tags', 'ner_tags'],
        num_rows: 3453
    })
})

In [14]:
raw_datasets["train"][0]["tokens"]


['EU', 'rejects', 'German', 'call', 'to', 'boycott', 'British', 'lamb', '.']

In [15]:
raw_datasets["train"][0]["ner_tags"]


[3, 0, 7, 0, 0, 0, 7, 0, 0]

In [16]:
ner_feature = raw_datasets["train"].features["ner_tags"]
ner_feature

Sequence(feature=ClassLabel(names=['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-MISC', 'I-MISC'], id=None), length=-1, id=None)

In [17]:
label_names = ner_feature.feature.names
label_names

['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC', 'B-MISC', 'I-MISC']

O는 단어가 어떤 개체명에도 해당하지 않음을 의미합니다.

- B-PER/I-PER은 해당 단어가 person 개체명의 시작/내부에 있음을 의미합니다.

- B-ORG/I-ORG는 해당 단어가 organization 개체명의 시작/내부에 있음을 의미합니다.

- B-LOC/I-LOC는 해당 단어가 location 개체명의 시작/내부에 있음을 의미합니다.

- B-MISC/I-MISC는 해당 단어가 miscellaneous 개체명의 시작/내부에 있음을 의미합니다.

In [18]:
words = raw_datasets["train"][0]["tokens"]
labels = raw_datasets["train"][0]["ner_tags"]
line1 = ""
line2 = ""
for word, label in zip(words, labels):
    full_label = label_names[label]
    max_length = max(len(word), len(full_label))
    line1 += word + " " * (max_length - len(word) + 1)
    line2 += full_label + " " * (max_length - len(full_label) + 1)

print(line1)
print(line2)


EU    rejects German call to boycott British lamb . 
B-ORG O       B-MISC O    O  O       B-MISC  O    O 
