In [1]:
# 코랩을 사용하지 않으면 이 셀의 코드를 주석 처리하세요.
!git clone https://github.com/rickiepark/nlp-with-transformers.git
%cd nlp-with-transformers
from install import *
install_requirements(chapter=4)

Cloning into 'nlp-with-transformers'...
remote: Enumerating objects: 538, done.[K
remote: Counting objects: 100% (272/272), done.[K
remote: Compressing objects: 100% (165/165), done.[K
remote: Total 538 (delta 165), reused 184 (delta 107), pack-reused 266[K
Receiving objects: 100% (538/538), 46.22 MiB | 15.07 MiB/s, done.
Resolving deltas: 100% (264/264), done.
/content/nlp-with-transformers
⏳ Installing base requirements ...
✅ Base requirements installed!
Using transformers v4.26.1
Using datasets v2.10.0
Using accelerate v0.16.0
Using sentencepiece v0.1.97
Using seqeval


XTREME에서 PAN-X 서브셋(subset) 중 하나를 로드하려면 load_dataset() 함수에 전달할 데이터셋 이름이 필요하다. 여러 서브셋이 포함된 데이터셋을 다룰 때 어떤 서브셋이 제공되는지 확인하려면 get_dataset_config_names() 함수를 호출한다.

In [2]:
from datasets import get_dataset_config_names
xtreme_subsets = get_dataset_config_names("xtreme")
print(f"XTREME 서브셋 개수 : {len(xtreme_subsets)}")

Downloading builder script:   0%|          | 0.00/37.5k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/593k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/105k [00:00<?, ?B/s]

XTREME 서브셋 개수 : 183


서브셋 개수가 183개이다. 검색 범위를 좁혀 'PAN'으로 시작되는 서브셋을 찾아보자.

In [3]:
panx_subsets = [s for s in xtreme_subsets if s.startswith("PAN")]
panx_subsets[:3]

['PAN-X.af', 'PAN-X.ar', 'PAN-X.bg']

PAN_X 서브셋의 이름을 확인하였다.  

독일어(de) 말뭉치를 로드하려면 다음처럼 load_dataset() 함수의 name 매개변수에 독일어에 해당하는 코드를 전달하자.

In [4]:
from datasets import load_dataset

load_dataset("xtreme", name = "PAN-X.de")

Downloading and preparing dataset xtreme/PAN-X.de to /root/.cache/huggingface/datasets/xtreme/PAN-X.de/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4...


Downloading data:   0%|          | 0.00/234M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/20000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Dataset xtreme downloaded and prepared to /root/.cache/huggingface/datasets/xtreme/PAN-X.de/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['tokens', 'ner_tags', 'langs'],
        num_rows: 20000
    })
    validation: Dataset({
        features: ['tokens', 'ner_tags', 'langs'],
        num_rows: 10000
    })
    test: Dataset({
        features: ['tokens', 'ner_tags', 'langs'],
        num_rows: 10000
    })
})

사실적인 스위스 말뭉치를 만들기 위해 스위스에서 사용되는 언어 비율로 PAN-X에서 독일어(de), 프랑스어(fr), 이탈리아어(it), 영어(en) 말뭉치를 샘플링하겠다. 그러면 언어가 불균형한 데이터셋이 만들어지는데, 실제 데이터셋에서는 흔히 벌어지는 일이다. 특히 소수 언어에 유창한 도메인 전문가가 드물기에 소수 언어에서 레이블된 샘플을 구하려면 비용이 많이 든다.

불균형한 이 데이터셋을 사용해 다중 언어 어플리케이션을 다룰 때 발생하는 일반적인 상황을 시뮬레이션하고, 모든 언어에서 작동하는 모델을 만드는 방법을 알아보자.

각 언어를 추적하기 위해 파이썬 defaultdict 객체를 만든다. 다음으로, 언어 코드를 키로 하고 DatasetDict 타입의 PAN-X 말뭉치를 값으로 저장하겠다.

In [5]:
from collections import defaultdict
from datasets import DatasetDict

langs = ['de', 'fr', 'it', 'en']
fracs = [0.629, 0.229, 0.084, 0.059]
#키가 없는 경우 DatasetDict를 반환한다.
panx_ch = defaultdict(DatasetDict) #빈 딕셔너리 생성

for lang, frac in zip(langs, fracs): #zip : 여러 개의 iterable 객체를 인자로 받고, 이를 튜플 형태의 반복자로 전환한다.
  #다국어 말뭉치를 로드함
  ds = load_dataset("xtreme", name = f"PAN-X.{lang}")
  #각 분할(train, validation, test)을 언어 비율에 따라 다운샘플링하고 섞는다.
  for split in ds:
    panx_ch[lang][split] = ( #딕셔너리에 하나씩 추가
        ds[split].shuffle(seed = 0).select(range(int(frac * ds[split].num_rows)))) #select를 활용하여 다운샘플링

  0%|          | 0/3 [00:00<?, ?it/s]

Downloading and preparing dataset xtreme/PAN-X.fr to /root/.cache/huggingface/datasets/xtreme/PAN-X.fr/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4...


Generating train split:   0%|          | 0/20000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Dataset xtreme downloaded and prepared to /root/.cache/huggingface/datasets/xtreme/PAN-X.fr/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

Downloading and preparing dataset xtreme/PAN-X.it to /root/.cache/huggingface/datasets/xtreme/PAN-X.it/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4...


Generating train split:   0%|          | 0/20000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Dataset xtreme downloaded and prepared to /root/.cache/huggingface/datasets/xtreme/PAN-X.it/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

Downloading and preparing dataset xtreme/PAN-X.en to /root/.cache/huggingface/datasets/xtreme/PAN-X.en/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4...


Generating train split:   0%|          | 0/20000 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/10000 [00:00<?, ? examples/s]

Dataset xtreme downloaded and prepared to /root/.cache/huggingface/datasets/xtreme/PAN-X.en/1.0.0/29f5d57a48779f37ccb75cb8708d1095448aad0713b425bdc1ff9a4a128a56e4. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

Dataset.num_rows 속성으로 훈련 세트에 언어마다 얼마나 많은 샘플이 들어있는지 확인해보자.

In [6]:
import pandas as pd
pd.DataFrame({lang : [panx_ch[lang]['train'].num_rows] for lang in langs},
             index = ['Number of training examples'])

Unnamed: 0,de,fr,it,en
Number of training examples,12580,4580,1680,1180


의도한 대로 독일어 샘플은 그 외 언어를 모두 합친 것 보다 많다. 이 데이터셋을 사용해 제로샷 교차 언어 전이를 프랑스어, 이탈리아어, 영어에 수행하겠다. 독일어 말뭉치에 있는 샘플 하나를 확인해보자.

In [7]:
element = panx_ch['de']['train'][0]
for key, value in element.items():
  print(f"{key}: {value}")

tokens: ['2.000', 'Einwohnern', 'an', 'der', 'Danziger', 'Bucht', 'in', 'der',
'polnischen', 'Woiwodschaft', 'Pommern', '.']
ner_tags: [0, 0, 0, 0, 5, 6, 0, 0, 5, 5, 6, 0]
langs: ['de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de', 'de']


앞서 본 Dataset 객체와 마찬가지로, 이 샘플의 키는 애로우 테이블의 열 이름에 해당되고 값은 각 열에 있는 항목이다. 특히 ner_tags 열은 각 개체명이 매핑된 클래스 ID에 해당한다. 숫자만 보면 암호 같으니, 이해하기 쉽게 LOC, PER, ORG 태그로 새로운 열을 만들어보자.  

Dataset 객체는 각 열의 데이터 타입을 담은 features 속성을 가진다.

In [8]:
for key, value in panx_ch['de']['train'].features.items():
  print(f"{key}:{value}")

tokens:Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)
ner_tags:Sequence(feature=ClassLabel(names=['O', 'B-PER', 'I-PER', 'B-ORG',
'I-ORG', 'B-LOC', 'I-LOC'], id=None), length=-1, id=None)
langs:Sequence(feature=Value(dtype='string', id=None), length=-1, id=None)


Sequence 클래스는 이 필드가 특성 리스트를 담고 있음을 나타낸다. ner_tags의 경우 ClassLabel의 리스트이다.

In [9]:
tags = panx_ch['de']['train'].features['ner_tags'].feature
print(tags)

ClassLabel(names=['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC'],
id=None)


ClassLabel.int2str() 메서드를 사용해 각 태그의 클래스 이름을 담은 새로운 열(ner_tags_str)을 훈련 세트에 추가하겠다. map() 메서드에 하나의 dict를 반환하는 함수를 적용한다. 이 딕셔너리의 키는 새로운 열 이름이고 값은 태그 클래스 이름의 list이다.

In [10]:
def create_tag_names(batch):
  return {"ner_tags_str" : [tags.int2str(idx) for idx in batch['ner_tags']]} #숫자로 되어있는 태그를 문자로 바꾸는 작업

panx_de = panx_ch['de'].map(create_tag_names) #map 함수에 대해 정확한 설명 필요

Map:   0%|          | 0/12580 [00:00<?, ? examples/s]

Map:   0%|          | 0/6290 [00:00<?, ? examples/s]

Map:   0%|          | 0/6290 [00:00<?, ? examples/s]

이제 태그가 읽기 좋게 변환되었다. 훈련 세트에 있는 첫 번째 샘플의 토큰과 태그 이름을 나란히 출력하자.

In [11]:
de_example = panx_de['train'][0]
pd.DataFrame([de_example['tokens'], de_example['ner_tags_str']], ['Tokens', 'Tags'])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
Tokens,2.000,Einwohnern,an,der,Danziger,Bucht,in,der,polnischen,Woiwodschaft,Pommern,.
Tags,O,O,O,O,B-LOC,I-LOC,O,O,B-LOC,B-LOC,I-LOC,O


태그가 불균형하게 부여되지 않았나 확인해보자. 각 분할에서 개체명의 빈도를 계산하겠다.

In [12]:
from collections import Counter #개체 수를 세어서 dictionary에 저장

split2freqs = defaultdict(Counter) #Counter 객체로 저장
for split, dataset in panx_de.items(): #split : (train, validation, features) / dataset
  for row in dataset['ner_tags_str']: #문장 단위로 태그 리스트를 하나씩 보내기
    for tag in row: #한 문장의 태그를 하나씩 보내가
      if tag.startswith("B"): #B로 시작하는 태그(접두사)
        tag_type = tag.split("-")[1] #- 기준으로 나눴을 때 뒷부분. 즉, 태그의 성질(LOC, ORG, PER)
        split2freqs[split][tag_type] += 1 #하나씩 증가시키기. 딕셔너리 자료형으로 저장
pd.DataFrame.from_dict(split2freqs, orient = 'index')

Unnamed: 0,LOC,ORG,PER
train,6186,5366,5810
validation,3172,2683,2893
test,3180,2573,3071


균형있는 모습이 보인다. LOC, ORG, PEr 빈도 분포가 대체로 각 분할에서 동일하다. 따라서 이 검증 세트와 테스트 세트는 NER 태그의 일반화 능력을 평가하는 데 적절한 것 같다.  

다음으로 인기 있는 다중 언어 트랜스포머를 몇 가지 살펴보고 NER 작업에 어떻게 적용되는지 알아보자.

# 다중 언어 트랜스포머

다중 언어 트랜스포머의 훈련 과정과 아키텍처는 단일 언어 트랜스포머와 비슷하지만, 사전 훈련에 사용되는 말뭉치가 여러 언어의 문서로 구성된다는 부분이 다르다.  

언어의 차이에 대한 정보가 명시적으로 제공되지 않아도, 이렇게 구축한 언어 표현이 여러 언어의 다양한 후속 작업에 쉽게 일반화된다. 교차 언어 전이를 수행하는 이런 능력이 경우 따라 단일 언어 모델과 비슷한 결과를 내므로 언어마다 별도의 모델을 훈련할 필요가 없다.

NER에 대한 교차 언어 전이의 과정을 측정하기 위해서 CoNLL-2002 데이터셋이 많이 사용된다. 영어, 네덜란드어, 스페인어, 독일어를 위한 벤치마킹으로 사용되며, 이 벤치마크는 PAN-X와 동일하게 개체명이 LOC, PER, ORG 태그로 분류된 뉴스 기사로 구성된다.  

하지만 세 카테고리에 속하지 않는 개체명을 위해 MISC 레이블이 추가된다.  
다중 언어 트랜스포머 모델은 일반적으로 세 가지 방식으로 평가한다.  
- en : 영어 훈련 데이터에서 미세 튜닝한 다음에 각 언어의 테스트 세트에서 평가한다.  
- each : 언어별 성능을 측정하기 위해 단일 언어의 테스트 세트에서 미세 튜닝하고 평가한다.
- all : 모든 훈련 데이터에서 미세 튜닝해 각 언어의 테스트 세트에서 평가한다.

NER 작업에 비슷한 평가 전략을 적용하겠다. 먼저, 평가할 모델부터 선택해야 하는데, XLM-RoBERTa로 대체되었다. XLM-R(XLM-RoBERTa)의 특징은 다음과 같다.

- 이전 모델에 비해 사전 훈련 말뭉치가 매우 크다.
- 사전 훈련 방식이 단일 언어 모델 RoBERTa와 같다(다음 문장 예측 작업을 제거하는 등 BERT의 성능을 크게 높였다).
- XLM에서 사용하는 언어 임베딩도 제거하고 SentencePiece를 사용해 원시 텍스트를 직접 토큰화한다.
- 어휘사전의 크기 측면에서, 사용하는 토큰의 개수가 RoBERTa는 55000개지만 XLM-R은 250000개이다.

등등의 이유로 XLM-R은 다국적 NLU 작업에 잘 맞는 모델이라고 할 수 있다.

# XLM-R 토큰화

XLM-R은 WordPiece 토크나이저 대신 100개 언어의 텍스트에서 훈련된 SentencePiece라는 토크나이저를 사용한다. SentencePiece를 WordPiece와 비교하기 위해 트랜스포머스로 BERT와 XLM-R의 토크나이저를 로드한다.

In [13]:
from transformers import AutoTokenizer

bert_model_name = 'bert-base-cased'
xlmr_model_name = 'xlm-roberta-base'
bert_tokenizer = AutoTokenizer.from_pretrained(bert_model_name)
xlmr_tokenizer = AutoTokenizer.from_pretrained(xlmr_model_name)

Downloading (…)okenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/615 [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

짧은 텍스트 시퀀스를 인코딩해서 각 모델이 사전 훈련 동안에 사용하는 특수 토큰을 확인하자. 

In [14]:
text = 'Jack Sparrow loves New York!'
bert_tokens = bert_tokenizer(text).tokens()
xlmr_tokens = xlmr_tokenizer(text).tokens()

In [15]:
print(bert_tokens)
print(xlmr_tokens)

['[CLS]', 'Jack', 'Spa', '##rrow', 'loves', 'New', 'York', '!', '[SEP]']
['<s>', '▁Jack', '▁Spar', 'row', '▁love', 's', '▁New', '▁York', '!', '</s>']


BERT가 문장 분류 작업에 사용하는 [CLS]와 [SEP] 토큰 대신, XLM-R은 < s >와 < /s >를 사용해 시퀀스의 처음과 끝을 표시한다. 잠시 후 보겠지만 이런 토큰은 토큰화 마지막 단계에 추가된다.

## 토큰화 파이프라인  
실제 전체 토큰화 파이프라인은 4개 단계로 구성됨.  
"Jack Sparrow loves New York!" 예시 문장으로 살펴보자.

1. 정규화
- 원시 문자열을 더 깨끗하게 만들기 위한 연산.
- 유니코드 정규화 ???????????
  - 일반적인 정규화 연산 중 하나.
  - 같은 문자열이 다른 버전으로 표시될 수 있음. 같은 문자를 쓰는 여러 방식을 표준 형식으로 대체한다.
- 소문자 정규화
  - 'jack sparrow loves new york!' 형태로 변환  


2. 사전 토큰화
- 텍스트를 더 작은 객체로 분할하며 후련 마지막에 생성되는 토큰의 상한선을 제공함.
- ['jack', 'sparrow', 'loves', 'new', 'york', '!']로 변환됨. 이와 같은 단어는 토크나이저 모델을 활용하여 부분단어로 분리하기 쉬움.  
- 텍스트를 사전 토큰화하는 대신 언어별 사전 토큰화 라이브러리를 사용하는 방법도 있다.  


3. 토크나이저 모델
- 정규화 및 사전 토큰화 수행 후 토크나이저를 사용해 부분단어 분할 모델을 사용함.
- 토크나이저는 파이프라인에서 말뭉치로 훈련이 필요한 부분임.(사전 훈련된 토크나이저를 사용한다면 이미 훈련되었다고 불 수 있음)
- 이 모델은 단어를 부분단어로 나눠 어휘사전의 크기와 OOV 토큰의 개수를 줄이는 역할을 함.
- 부분단어 토큰화 알고리즘에는 BPF, 유니그램, WordPiece 등이 있다.
- [jack, spa, rrow, loves, new, york, !]로 변환됨.
- 이 시점부터 더 이상 문자열 리스트가 아니라 정수 리스트를 가지게 됨.  


4. 사후 처리
- 토큰화 파이프라인의 마지막 단계.
- 토큰 리스트에 부가적인 변환을 적용한다.
- 입력 토큰 인덱스의 시퀀스 처음과 끝에 특수 토큰을 추가하는 경우가 이 단계에 해당된다.
- [CLS, jack, spa, rrow, loves, new, york, !, SEP]로 변환됨.
- 그 다음 모델에 이 시퀀스를 주입한다.
- SentencePiece에서는 사후 처리 단계에서 [CLS]와 [SEP] 대신 < s >와 < /s >를 추가한다.

## SentencePiece 토크나이저

SentencePiece 토크나이저는 유니그램이라는 부분단어 분할 방식을 기반으로 각 입력 텍스트를 유니코드 문자 시퀀스로 인코딩한다. 
- 악센트, 구두점을 무시해도 되기에 이 특징은 다국어 말뭉치에 특히 유용하다.
- 공백 문자가 유니코드 기호 U+2581 또는 _ 문자에 할당된다.  

따라서 SentencePiece는 언어별 사전 토크나이저에 의존하지 않고, 정확하게 시퀀스를 복원한다. 이전의 절 예시 문장을 다시 보면 WordPiece는 'York'와 '!' 사이에 공백이 없다는 정보를 잃어버린다. 반면 SentencePiece는 토큰화된 텍스트에 공백을 보존하기에 정확하게 원시 텍스트로 다시 변환한다.

In [16]:
"".join(xlmr_tokens).replace(u"\u2581", " ")

'<s> Jack Sparrow loves New York!</s>'

SentencePiece의 작동 원리를 이해했으니 간단한 샘플을 NER에 적합한 형태로 인코딩하는 방법에 대해 알아보자.  

먼저, 토큰 분류 헤드와 함께 사전 훈련된 모델을 로드한다. 하지만 이 헤드를 트랜스포머스에서 로드하지 않고 직접 한번 만들어보자.

## 개체명 인식을 위한 트랜스포머
텍스트 분류를 위해 BERT는 특수 토큰 [CLS]로 전체 텍스트 시퀀스를 표현한다. BERT와 그 외 인코더 기반 트랜스포머는 NER 작업에 비슷한 방식을 사용하는데, 모든 입력 토큰의 표현이 완전 연결 층에 주입되어 해당 토큰의 개체명을 인식한다. 이런 이유로 NER을 토큰 분류 작업으로 생각하기도 한다.

토큰 분류 작업에서 부분단어를 어떻게 처리해야 할까? 예를 들어 'Christa'라는 이름이 'Chr'와 '##ista'로 토큰화되었다고 하자.이 중 어느 닽어에 B-PER 레이블을 할당해야 할까?  
BERT 논문에서 저자들은 이 레이블을 첫 번째 부분단어('Chr')에 할당하고, 이어지는 부분단어('##ista')는 무시했다. 여기에서 이런 방식을 사용하고 무시한 부분단어를 ING로 표시하겠다. 나중에 후처리 단계에서 첫 번째 부분단어의 예측 레이블을 후속 부분단어로 쉽게 전파할 수 있다. '##ista' 부분단어의 표현에 B-PER 레이블을 할당할 경우 IOB2 포맷을 위반한다.  



트랜스포머스가 어떻게 다양한 작업을 지원하는지 알아보자!

# 트랜스포머 모델 클래스

트랜스포머스는 아키텍처와 작업마다 전용 클래스를 제공한다.

그리고 트랜스포머스는 기존 모델을 특정 작업에 맞춰 쉽게 확장 가능하도록 설계되어있다. 사전 훈련된 모델에서 가중치를 로드하고 작업에 특화된 헬퍼 함수를 사용한다. 이를 통해 특정 용도의 사용자 정의 모델을 만들 수 있다. 

## 바디와 헤드
- 모델의 마지막 층이 후속 작업에 맞는 층으로 바뀌는데, 이 마지막 층이 모델의 헤드이며 작업에 특화된다. 
- 모델의 나머지 부분을 바디라고 한다. 여기에는 작업에 특화되지 않은 토큰 임베딩과 트랜스포머 층이 포함된다.  

해당 구조는 트랜스포머스 코드에도 반영된다. 모델의 바디는 BertModel 또는 GPT2Model 같은 클래스로 구현되며, 바디에 있는 마지막 층의 은닉 상태를 반환한다. BertForMaskedLM 또는 BertForSequenceClassification 같이 작업에 특화된 모델은 베이스 모델을 사용하고 마지막 은닉 상태 위에 필요한 헤드를 추가한 것이다.

## 토큰 분류를 위한 사용자 정의 모델 만들기

XLM-R에 대한 사용자 정의 토큰 분류 헤드를 만드는 예제를 다루어보자. XLM-R은 RoBERTa와 모델 구조가 동일하기에 RoBERTa를 베이스 모델로 사용하되 특화된 설정을 추가하겠다. 

먼저 XLM-R NER 태그를 표현할 데이터 구조가 필요하다. 추측건대 모델을 초기화할 설정 객체와 출력을 생성할 forward() 함수가 필요할 것이다. 그럼 토큰 분류를 위한 XLM-R 클래스를 만들어보자.

In [17]:
import torch.nn as nn
from transformers import XLMRobertaConfig
from transformers.modeling_outputs import TokenClassifierOutput
from transformers.models.roberta.modeling_roberta import RobertaModel
from transformers.models.roberta.modeling_roberta import RobertaPreTrainedModel

class XLMRobertqaForTokenClassification(RobertaPreTrainedModel):
  config_class = XLMRobertaConfig

  def __init__(self, config):
    super().__init__(config)
    self.num_labels = config.num_labels
    #모델 바디를 로드한다.
    self.dropout = nn.Dropout(config.hidden_dropout_prob)
    self.classifier = nn.Linear(config.hidden_size, config.num_labels)
    #가중치를 로드하고 초기화한다.
    self.init_weights()

  def forward(self, input_ids = None, attention_mask = None, token_type_ids = None, labels = None, **kwargs):
    #모델 바디를 사용해 인코더 표현을 얻는다.
    outputs = self.roberta(input_ids, attention_mask = attention_mask, token_type_ids = token_type_ids, **kwargs)
    #인코더 표현을 헤드에 통과시킨다.
    sequence_output = self.dropout(output[0])
    logits = self.classifier(sequence_output)
    #손실을 계산한다.
    loss = None
    if labels is not None:
      loss_fct = nn.CrossEntropyLoss()
      loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))
    #모델 출력 객체를 반환한다.
    return TokenClassifierOutput(loss = loss, logits = logits,
                                 hidden_states = outputs.hidden_states,
                                 attentions = outputs.attentions)

## 사용자 정의 모델 로드하기
토큰 분류 모델을 로드할 준비를 끝냈다. 모델 이름 외에 몇 가지 정보를 추가해야 한다.

각 개체명을 레이블링하는 데 사용할 태그, 각 태그를 ID로 매핑하는 딕셔너리와 그 반대로 매핑하는 딕셔너리이다. 이런 정보는 모두 ClassLabel 객체인 tags 변수의 names 속성을 사용해 매핑한다.

In [18]:
#ClassLabel 객체인 tags 변수의 names 속성을 사용해 매핑
index2tag = {idx : tag for idx, tag in enumerate(tags.names)}
tag2index = {tag : idx for idx, tag in enumerate(tags.names)}

AutoConfig 객체에 이런 매핑과 tags.num_classes 속성을 저장하자.  
from_pretrained() 메서드의 키워드 매개변수로 전달해 기본값을 오버라이드한다.

In [20]:
from transformers import AutoConfig

xlmr_config = AutoConfig.from_pretrained(xlmr_model_name,
                                         num_labels = tags.num_classes,
                                         id2label = index2tag, label2id = tag2index)

이제 config 매개변수를 추가한 후, 이전처럼 from_pretrained() 함수를 사용해 모델 가중치를 로드한다. 모델 클래스에 사전 훈련된 가중치를 로드하는 코드를 작성하지 않았지만, RobertaPreTrainedModel을 상속했으므로 아래와 같이 로드 가능하다.


In [21]:
from transformers.models.xlm_roberta.modeling_xlm_roberta import XLMRobertaForTokenClassification
import torch

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
xlmr_model = (XLMRobertaForTokenClassification
              .from_pretrained(xlmr_model_name, config = xlmr_config). #사전훈련
              to(device))

Downloading (…)"pytorch_model.bin";:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

토크나이저와 모델을 바르게 초기화했는지 빠르게 확인하기 위해 개체명을 알고 있는 작은 시퀀스의 예측 결과를 보자. 먼저 텍스트를 입력 ID로 변환한다.

In [22]:
input_ids = xlmr_tokenizer.encode(text, return_tensors = 'pt')
pd.DataFrame([xlmr_tokens, input_ids[0].numpy()], index = ['Tokens', 'Input IDs'])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
Tokens,<s>,▁Jack,▁Spar,row,▁love,s,▁New,▁York,!,</s>
Input IDs,0,21763,37456,15555,5161,7,2356,5753,38,2


In [27]:
outputs = xlmr_model(input_ids.to(device)).logits #(1,10,7) -> 토큰 개수 : 10개, 태그 개수 : 7개
predictions = torch.argmax(outputs, dim = -1)
print(f"시퀀스에 있는 토큰 개수 : {len(xlmr_tokens)}")
print(f"출력 크기 : {outputs.shape}")

시퀀스에 있는 토큰 개수 : 10
출력 크기 : torch.Size([1, 10, 7])


In [30]:
#사전 훈련된 모델의 예측 결과를 태그 이름으로 바꿔 토큰과 함께 확인해보자.
preds = [tags.names[p] for p in predictions[0].cpu().numpy()]
pd.DataFrame([xlmr_tokens, preds], index = ["Tokens", "Tags"])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
Tokens,<s>,▁Jack,▁Spar,row,▁love,s,▁New,▁York,!,</s>
Tags,B-PER,I-LOC,I-LOC,I-LOC,I-LOC,I-LOC,I-LOC,I-LOC,I-LOC,B-PER


위 결과를 보면,,, 랜덤한 가중치를 가진 토큰 분류 층은 개선할 여지가 많다. 레이블링된 데이터로 미세 튜닝해서 결과를 더 좋게 만들어보자.  

훈련 전, 나중을 위해 앞의 과정을 하나의 헬퍼 함수로 만들겠다.

In [33]:
def tag_text(text, tags, model, tokenizer):
  #토큰을 준비한다.
  tokens = tokenizer(text).tokens()
  #시퀀스를 입력 ID로 인코딩한다.
  input_ids = xlmr_tokenizer(text, return_tensors = 'pt').input_ids.to(device)
  #가능한 일곱 개의 클래스에 대한 로짓을 출력한다.
  outputs = model(input_ids)[0]
  #argmax 함수로 토큰마다 가장 가능성이 높은 클래스를 선택한다.
  predictions = torch.argmax(outputs, dim = 2)
  #데이터프레임으로 변환한다.
  preds = [tags.names[p] for p in predictions[0].cpu().numpy()]
  return pd.DataFrame([tokens, preds], index = ['Tokens', 'Tags'])

모델 훈련 전, 입력을 토큰화하고 레이블을 준비하자.


# NER 작업을 위해 텍스트 토큰화하기

하나의 샘플을 인코딩하고 처리하는 토크나이저와 모델을 준비했으므로, 이제는 미세 튜닝을 위해 XLM-R 모델에 전달할 전체 데이터셋을 토큰화해보자.

데이터셋은 map() 연산으로 Dataset 객체를 빠르게 토큰화한다. 이를 위해 먼저 간단한 시그니처를 가진 함수를 정의하겠다.

function(examples: Dict[str, List]) -> Dict[str, List]  

여기서 examples는 Dataset의 슬라이스 하나에 해당한다. 반환된 결과에 어텐션 마스크와 각 토큰에 어떤 NER 태그가 연관됐는지 인코딩하는 레이블 ID를 추가하겠다.

독일어 샘플 문장 하나를 사용해 어떻게 하는지 알아보자. 먼저 평범한 리스트로 단어와 태그를 준비한다.

In [37]:
words, labels = de_example['tokens'], de_example['ner_tags']

그 다음 각 단어를 토큰화한다. 토크나이저에 is_split_into_words 매개변수를 사용해 입력 문장이 이미 단어로 나눠졌다는 사실을 전달한다.

In [42]:
tokenized_input = xlmr_tokenizer(de_example['tokens'], is_split_into_words = True) #정수화 + 어텐션 마스크
tokens = xlmr_tokenizer.convert_ids_to_tokens(tokenized_input['input_ids']) #인덱스를 토큰으로 변환
pd.DataFrame([tokens], index = ['Tokens'])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
Tokens,<s>,▁2.000,▁Einwohner,n,▁an,▁der,▁Dan,zi,ger,▁Buch,...,▁Wo,i,wod,schaft,▁Po,mmer,n,▁,.,</s>


tokenized_input 객체에는 word_ids() 메서드가 있다.   
word_ids는 각 부분단어를 words 리스트에 있는 해당 단어의 인덱스에 매핑한 것이다. 따라서 첫 번째 부분단어 '_2000'은 인덱스 0이고, '_Einwohner'와 'n은 인덱스 1에 할당된다. < s >와 < /s > 같은 특수 토큰은 None에 매핑된다. None은 -100으로 설정해 훈련하는동안 마스킹처리하자.

In [45]:
word_ids = tokenized_input.word_ids()
pd.DataFrame([tokens, word_ids], index = ['Tokens', 'Word IDs'])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
Tokens,<s>,▁2.000,▁Einwohner,n,▁an,▁der,▁Dan,zi,ger,▁Buch,...,▁Wo,i,wod,schaft,▁Po,mmer,n,▁,.,</s>
Word IDs,,0,1,1,2,3,4,4,4,5,...,9,9,9,9,10,10,10,11,11,


In [46]:
previous_word_idx = None
label_ids = []

for word_idx in word_ids:
  if word_idx is None or word_idx == previous_word_idx:
    label_ids.append(-100) #???????????
  elif word_idx != previous_word_idx:
    label_ids.append(labels[word_idx])
  previous_word_idx = word_idx

labels = [index2tag[l] if l != -100 else "IGN" for l in label_ids]
index = ['Tokens', 'Word IDs', 'Label IDs', 'Label']

pd.DataFrame([tokens, word_ids, label_ids, labels], index = index)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
Tokens,<s>,▁2.000,▁Einwohner,n,▁an,▁der,▁Dan,zi,ger,▁Buch,...,▁Wo,i,wod,schaft,▁Po,mmer,n,▁,.,</s>
Word IDs,,0,1,1,2,3,4,4,4,5,...,9,9,9,9,10,10,10,11,11,
Label IDs,-100,0,0,-100,0,0,5,-100,-100,6,...,5,-100,-100,-100,6,-100,-100,0,-100,-100
Label,IGN,O,O,IGN,O,O,B-LOC,IGN,IGN,I-LOC,...,B-LOC,IGN,IGN,IGN,I-LOC,IGN,IGN,O,IGN,IGN


이것으로 레이블 ID와 토큰을 어떻게 정렬하는지 알아보았다. 이제 이 로직을 감싼 함수를 하나 정의해서 전체 데이터셋에 적용하겠다.

In [47]:
def tokenize_and_align_labels(examples):
    tokenized_inputs = xlmr_tokenizer(examples["tokens"], truncation=True, 
                                      is_split_into_words=True)
    labels = []
    for idx, label in enumerate(examples["ner_tags"]):
        word_ids = tokenized_inputs.word_ids(batch_index=idx)
        previous_word_idx = None
        label_ids = []
        for word_idx in word_ids:
            if word_idx is None or word_idx == previous_word_idx:
                label_ids.append(-100)
            else:
                label_ids.append(label[word_idx])
            previous_word_idx = word_idx
        labels.append(label_ids)
    tokenized_inputs["labels"] = labels
    return tokenized_inputs

각 분할을 인코딩하는 데 필요한 모든 요소를 준비했으니 분할에 대해 반복 수행할 함수를 만들어보자.

In [48]:
def encode_panx_dataset(corpus):
    return corpus.map(tokenize_and_align_labels, batched=True, 
                      remove_columns=['langs', 'ner_tags', 'tokens'])

이 함수를 DatasetDict 객체에 적용하면 분할마다 인코딩된 Dataset 객체를 얻는다. 해당 함수를 사용하여 독일어 말뭉치를 인코딩해보자.

In [49]:
panx_de_encoded = encode_panx_dataset(panx_ch['de'])

Map:   0%|          | 0/12580 [00:00<?, ? examples/s]

Map:   0%|          | 0/6290 [00:00<?, ? examples/s]

Map:   0%|          | 0/6290 [00:00<?, ? examples/s]

모델과 데이터셋을 준비했으니 이제 성능 지표를 정의해보자.

# 성능 측정
NER 모델 평가는 텍스트 분류 모델 평가와 비슷하다. 다만, 예측 하나를 정확하다고 판단하기 위해 한 개체명에 있는 모든 단어가 올바르게 예측되어어야 하는데, 이런 종류의 문제를 위해 seqeval 라이브러리가 고안되었다. 가령 다음과 같은 NER 태그와 모델 예측 결과를 전달하면 seqeval의 classification_report() 함수를 통해 지표를 계산한다.

In [50]:
from seqeval.metrics import classification_report

y_true = [["O", "O", "O", "B-MISC", "I-MISC", "I-MISC", "O"],
          ["B-PER", "I-PER", "O"]]
y_pred = [["O", "O", "B-MISC", "I-MISC", "I-MISC", "I-MISC", "O"],
          ["B-PER", "I-PER", "O"]]
print(classification_report(y_true, y_pred))

              precision    recall  f1-score   support

        MISC       0.00      0.00      0.00         1
         PER       1.00      1.00      1.00         1

   micro avg       0.50      0.50      0.50         2
   macro avg       0.50      0.50      0.50         2
weighted avg       0.50      0.50      0.50         2



이렇게 seqeval은 리스트의 리스트로 구성된 예측과 레이블을 입력받는다. 각 리스트는 검증 세트나 테스트 세트의 한 샘플에 해당한다. 해당 지표를 훈련 과정에 통합하려면 모델 출력을 seqeval이 기대하는 리스트로 변환하는 함수가 필요하다. 이를 위해 다음처럼 연속된 부분단어의 레이블 ID를 무시하는 함수를 만든다.

In [51]:
import numpy as np

#연속된 부분단어의 레이블 ID를 무시하는 함수
def align_predictions(predictions, label_ids):
    preds = np.argmax(predictions, axis=2)
    batch_size, seq_len = preds.shape
    labels_list, preds_list = [], []

    for batch_idx in range(batch_size):
        example_labels, example_preds = [], []
        for seq_idx in range(seq_len):
            # 레이블 IDs = -100 무시
            if label_ids[batch_idx, seq_idx] != -100:
                example_labels.append(index2tag[label_ids[batch_idx][seq_idx]])
                example_preds.append(index2tag[preds[batch_idx][seq_idx]])

        labels_list.append(example_labels)
        preds_list.append(example_preds)

    return preds_list, labels_list

성능을 측정할 준비가 되었다. 이제 실제 모델 훈련으로 넘어가보자.

# XLM - RoBERTa 미세 튜닝하기

모델을 미세 튜닝할 모든 요소를 갖추었다.

첫 번째 전략은 PAN-X의 독일어 서브셋에 베이스 모델을 미세 튜닝하고 프랑스어, 이탈리아어, 영어에서 제로샷 교차 언어 성능을 평가하는 것이다. 트랜스포머스 Trainer를 사용해 훈련 루프를 처리해보자.

먼저 TrainingArguments 클래스를 사용해 훈련 속성을 정의한다.

In [52]:
from transformers import TrainingArguments

num_epochs = 3
# 코랩에서 GPU 메모리 부족 에러가 나는 경우 batch_size를 16으로 줄여 주세요.
batch_size = 16  # 16
logging_steps = len(panx_de_encoded["train"]) // batch_size
model_name = f"{xlmr_model_name}-finetuned-panx-de"
training_args = TrainingArguments(
    output_dir=model_name, log_level="error", num_train_epochs=num_epochs, 
    per_device_train_batch_size=batch_size, 
    per_device_eval_batch_size=batch_size, evaluation_strategy="epoch", 
    save_steps=1e6, weight_decay=0.01, disable_tqdm=False, 
    logging_steps=logging_steps, push_to_hub=True)

여기서는 에포크가 끝날 때마다 검증 세트에 대한 모델의 예측을 평가한다. 가중치 감쇠값을 조정하고 체크포인트를 저장하지 않도록 save_steps를 큰 수로 설정해 훈련 속도를 높인다.

In [53]:
#허깅페이스 허브에 로그인하자
from huggingface_hub import notebook_login

notebook_login()
#username : cykim98
#token : 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

Token is valid.
Your token has been saved in your configured git credential helpers (store).
Your token has been saved to /root/.cache/huggingface/token
Login successful


검증 세트에서 평가 지표를 어떻게 계산해야 하는지 Trainer로 전달해야한다. 따라서 앞서 정의한 align_predictions() 함수를 사용해 seqeval이 기대하는 형식에 맞춰 예측과 레이블을 추출해 F1-score을 계산하자.

In [54]:
from seqeval.metrics import f1_score

def compute_metrics(eval_pred):
    y_pred, y_true = align_predictions(eval_pred.predictions, 
                                       eval_pred.label_ids)
    return {"f1": f1_score(y_true, y_pred)}

마지막으로 배치에서 가장 큰 시퀀스 길이로 입력 시퀀스를 패딩하도록 데이터 콜레이터를 정의한다. 트랜스포머스는 토큰 분류를 위해 입력과 레이블을 패딩하는 전용 데이터 콜레이터를 제공한다.

In [55]:
from transformers import DataCollatorForTokenClassification

data_collator = DataCollatorForTokenClassification(xlmr_tokenizer)

텍스트 분류 작업과 달리, 레이블도 시퀀스이기에 레이블 패딩이 필수적이다. 앞에서 보았듯, 레이블 시퀀스를 -100으로 패딩해 파이토치 손실 함수가 무시하도록 만든다.

이 장에서 몇 개의 모델을 훈련하므로 Trainer를 위해 매번 새로운 모델을 만들지 않도록 model_init() 함수를 만들겠다. train() 메서드를 호출할 때 이 함수가 호출되어 훈련되지 않은 모델을 로드한다.

In [56]:
def model_init():
    return (XLMRobertaForTokenClassification
            .from_pretrained(xlmr_model_name, config=xlmr_config)
            .to(device))

이제 인코딩된 데이터셋과 함께 모든 정보를 Trainder에 전달한다.

In [57]:
from transformers import Trainer

trainer = Trainer(model_init=model_init, args=training_args, 
                  data_collator=data_collator, compute_metrics=compute_metrics,
                  train_dataset=panx_de_encoded["train"],
                  eval_dataset=panx_de_encoded["validation"], 
                  tokenizer=xlmr_tokenizer)

Cloning https://huggingface.co/cykim/xlm-roberta-base-finetuned-panx-de into local empty directory.


In [58]:
trainer.train()
trainer.push_to_hub(commit_message = "Training completed")



Epoch,Training Loss,Validation Loss,F1
1,0.2495,0.176437,0.818388
2,0.1299,0.14274,0.856223
3,0.0771,0.140533,0.865468


Adding files tracked by Git LFS: ['tokenizer.json']. This may take a bit of time if the files are large.


Upload file pytorch_model.bin:   0%|          | 32.0k/1.03G [00:00<?, ?B/s]

Upload file sentencepiece.bpe.model:   1%|          | 32.0k/4.83M [00:00<?, ?B/s]

Upload file training_args.bin: 100%|##########| 3.43k/3.43k [00:00<?, ?B/s]

Upload file runs/Feb28_09-04-06_4145162dc7f7/events.out.tfevents.1677576615.4145162dc7f7.1782.0: 100%|########…

Upload file tokenizer.json:   0%|          | 32.0k/16.3M [00:00<?, ?B/s]

Upload file runs/Feb28_09-04-06_4145162dc7f7/1677576615.7304456/events.out.tfevents.1677576615.4145162dc7f7.17…

remote: Scanning LFS files of refs/heads/main for validity...        
remote: LFS file scan complete.        
To https://huggingface.co/cykim/xlm-roberta-base-finetuned-panx-de
   0341346..b2abfc3  main -> main

remote: LFS file scan complete.        
To https://huggingface.co/cykim/xlm-roberta-base-finetuned-panx-de
   0341346..b2abfc3  main -> main

To https://huggingface.co/cykim/xlm-roberta-base-finetuned-panx-de
   b2abfc3..ca256ff  main -> main

   b2abfc3..ca256ff  main -> main



'https://huggingface.co/cykim/xlm-roberta-base-finetuned-panx-de/commit/b2abfc30f6e30e32d10edb5f7ee48b78be8647d0'

NER 모델에서 0.82 정도의 F1-score은 매우 좋은 편이다. 기대한 대로 모델이 잘 작동하는지 확인하기 위해 예시 문장의 독일어 번역을 테스트해보자.

In [59]:
text_de = "Jeff Dean ist ein Informatiker bei Google in Kalifornien"
tag_text(text_de, tags, trainer.model, xlmr_tokenizer)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
Tokens,<s>,▁Jeff,▁De,an,▁ist,▁ein,▁Informati,ker,▁bei,▁Google,▁in,▁Kaliforni,en,</s>
Tags,O,B-PER,I-PER,I-PER,O,O,O,O,O,B-ORG,O,B-LOC,I-LOC,O


성공이다! 하지만 단일 샘플로 수행한 성능 결과를 지나치게 확신하면 안된다. 모델의 오류를 적절하고 자세하게 조사해야 한다.

# 오류 분석


In [61]:
from torch.nn.functional import cross_entropy

def forward_pass_with_label(batch):
    # 리스트의 딕셔너리를 데이터 콜레이터에 적합한 딕셔너리의 리스트로 변환합니다.
    features = [dict(zip(batch, t)) for t in zip(*batch.values())]
    # 입력과 레이블을 패딩하고 모든 텐서를 장치에 배치합니다.
    batch = data_collator(features)
    input_ids = batch["input_ids"].to(device)
    attention_mask = batch["attention_mask"].to(device)
    labels = batch["labels"].to(device)
    with torch.no_grad():
        # 데이터를 모델에 전달합니다.
        output = trainer.model(input_ids, attention_mask)
        # Logit.size: [batch_size, sequence_length, classes]
        # 마지막 축을 따라 가장 큰 로짓 값을 가진 클래스를 선택합니다.
        predicted_label = torch.argmax(output.logits, axis=-1).cpu().numpy()
    # 배치 차원을 펼친 다음 토큰마다 손실을 계산합니다.
    loss = cross_entropy(output.logits.view(-1, 7), 
                         labels.view(-1), reduction="none")
    # 배치 차원을 다시 만들고 넘파이 배열로 변환합니다.
    loss = loss.view(len(input_ids), -1).cpu().numpy()

    return {"loss":loss, "predicted_label": predicted_label}