# 트랜스포머를 활용한 자연어 처리
# Chapter 1. 트랜스포머 소개
- 시퀀스 모델링(sequence modeling)을 위한 새로운 신경망 아키텍처
- 기계 번역 작업의 품질과 훈련 비용 면에서 순환 신경망(RNN)을 능가
- 효율적인 전이 학습(transfer learning) 방법인 ULMFiT가 매우 크고 다양한 말뭉치(corpus)에서 LSTM 신경망을 훈련해 매우 적은 양의 레이블링된 데이터로도 최고 수준의 텍스트 분류 모델을 만들어냄을 증명
- 트랜스포머 아키텍처와 비지도 학습(unsupervised learning)을 결합
  - GPT (Generative Pretrained Transformer)
  - BERT (Bidirectional Encoder Representation from Transformers)

## 트랜스포머의 새로운 점
1. 인코더-디코더 (encoder-decoder) 프레임워크
2. 어텐션 매커니즘 (attention mechanism)
3. 전이 학습 (transfer learning)

## 1.1 인코더-디코더 프레임워크
- 트랜스포머 등장 이전, NLP에서는 LSTM 같은 순환 신경망 구조가 최고 수준의 성능을 달성
- 피드백 루프가, 텍스트와 같은 순차 데이터를 모델링하는 데 이상적
- RNN의 경우, 네트워크를 통과시킨 후 은닉상태(hidden state)라는 벡터를 출력함과 동시에, 출력된 정보를 피드백 루프로 보내 자기 자신에 다시 입력
- RNN은 출력한 정보의 일부를 다음 스텝에 사용
- 이전 스텝의 정보를 추적하고 이를 사용해 예측을 만듬
- 위와 같은 구조는, 인코더-디코더 또는 시퀀스-투-시퀀스(sequence-to-sequence) 구조로 처리하며 입력과 출력이 임의의 길이를 가진 시퀀스일 때 잘 맞음
- 인코더는 입력 시퀀스의 정보를 마지막 은닉 상태(last hidden state)라고도 부르는 수치 표현으로 인코딩 -> 디코더로 전달되어 출력 시퀀스가 생성
- 인코더의 마지막 은닉 상태가 정보 병목(information bottleneck)이 된다는 약점이 있음
- 디코더가 인코더의 모든 은닉 상태에 접근해 병목 현상을 제거 -> 어텐션(attention) 메커니즘

## 1.2 어텐션 메커니즘
- 입력 시퀀스에서 은닉 상태를 만들지 않고 스텝마다 인코더에서 디코더가 참고할 은닉 상태를 출력한다는 주요 개념에 기초
- 어떤 상태를 디코더가 먼저 사용할지 우선순위를 정하는 메커니즘이 필요
- 디코더가 모든 디코딩 타임스탭마다 인코더의 각 상태에 다른 가중치 또는 어텐션을 할당
- 계산이 순차적으로 수행되며, 입력 시퀀스 전체에 걸쳐 병렬화할 수 없음
- 트랜스포머는, 순환을 모두 없애고 **셀프 어텐션(self-attention)**이라는 특별한 형태의 어텐션에 전적으로 의지
  - 신경망의 같은 층에 있는 모든 상태에 대해서 어텐션을 작동시키는 방식
- 어텐션의 출력은 FF NN에 주입

## 1.3 NLP의 전이 학습
- 비전 분야의 경우, 전이 학습을 사용해 한 작업에서 훈련한 다음 새로운 작업에 적용하거나 미세 튜닝(fine-tuning)하는 일이 많음
- 신경망은, 원래 작업에서 학습한 지식을 사용
- 모델은 구조적으로 바디와 헤드로 나눌 수 있음
  - 바디: 훈련하는 동안 원래 도메인에서 다양한 특성을 학습하고, 이 가중치를 사용해 새로운 작업을 위한 모델을 초기화
- 전통적인 지도 학습(supervised learning)과 비교하면, 전이 학습은 일반적으로 다양한 작업에서 적은 양의 레이블 데이터로 훨씬 효과적으로 훈련하는 높은 품질의 모델을 만듬

### ULMFiT
- OpenAI 연구원들이, 비지도 사전 훈련에서 추출한 특성을 사용해 높은 성능을 얻음
- 다양한 작업에서 사전 훈련된 LSTM 모델을 적용

#### 사전 훈련
- 이전 단어를 바탕으로 다음 단어를 예측 (언어 모델링, language modeling)

#### 도메인 적응
- 언어 모델은 대규모 corpus(말뭉치)를 훈련하고, 도메인 내 corpus에 적응 시킴

#### 미세튜닝
- 언어 모델을 타깃 작업을 위한 분류 층과 함께 미세 튜닝

### GPT
- 트랜스포머의 아키텍처의 디코더 부분만 사용하고 ULMFiT 같은 언어 모델링 방법을 사용

### BERT
- 트랜스포머의 아키텍처의 인코더 부분만 사용하고 마스크드 언어 모델링(masked language modeling)이라는 특별한 형태의 언어 모델링을 사용
  - 텍스트에서 랜덤하게 마스킹 된 단어를 예측

## 1.4 허깅페이스 트랜스포머
- 새로운 머신러닝 아키텍처를 새로운 작업에 적용하는 일은, 일반저긍로 다음 단계를 거침
  - 1. 모델 아키텍처 구현
  - 2. 훈련된 가중치 로드
  - 3. 입력을 전처리하고 모델에 전달
  - 4. 데이터로더를 구현하고 모델 훈련을 위해 손실 함수와 옵티마이저를 정의

## 1.5 트랜스포머 애플리케이션 둘러보기

In [1]:
text = \
"""
Dear Amazon, last week I ordered an Optimus Prime action figure from your online store in Germany.
Unfortunately, when I opened the package, I discovered to my horro that I had been sent an action figure of Megatron instead!
As a lifelong enemy of the Decepticons, I hope you can understand my dilemma. To resolve the issue, I demand an exchange of Megatron for the Optimus Prime figure I ordered.
Enclosed are copies of my records concerning this purchase. I expect to hear from you soon. Sincerely, Bumblebee.
"""

### 1.5.1 텍스트 분류
- 원시 텍스트를 미세 튜닝된 모델의 예측으로 변환하기 위해 필요한 모든 단계를 추상화하는 파이프라인을 사용

In [3]:
from transformers import pipeline

# pipeline 함수를 호출하면서 관심 작업 이름을 전달
classifier = pipeline("text-classification")

`text=classification`은 감정 분석을 위해 설계된 모델이지만, 다중 분류(multiclass classification)와 다중 레이블 분류도 지원 (multilabel classification)

In [4]:
import pandas as pd

outputs = classifier(text)

pd.DataFrame(outputs)

### 1.5.2 개체명 인식
- NLP에서는 제품, 장소, 사람 같은 실제 객체를 **개체명(named entity)**이라 하고 이런 개체명을 텍스트에서 추출하는 작업을 **개체명 인식(named entity recognition (NER))**이라 함

In [10]:
ner_tagger = pipeline("ner", aggregation_strategy="simple")
outputs = ner_tagger(text)

pd.DataFrame(outputs)

No model was supplied, defaulted to dbmdz/bert-large-cased-finetuned-conll03-english and revision f2482bf (https://huggingface.co/dbmdz/bert-large-cased-finetuned-conll03-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Unnamed: 0,entity_group,score,word,start,end
0,ORG,0.874225,Amazon,6,12
1,MISC,0.991447,Optimus Prime,37,50
2,LOC,0.999759,Germany,91,98
3,MISC,0.581595,Mega,208,212
4,PER,0.537129,##tron,212,216
5,ORG,0.586276,Decept,253,259
6,MISC,0.516828,##icons,259,264
7,MISC,0.783311,Megatron,350,358
8,MISC,0.988451,Optimus Prime,367,380
9,PER,0.810855,Bumblebee,502,511


### 1.5.3 질문 답변
- 텍스트 구절과 함께 답을 얻고 싶은 질문을 모델에 전달하고, 모델은 답변 텍스트를 반환

In [11]:
reader = pipeline("question-answering")
question = "What does the customer want?"
outputs = reader(question=question, context=text)

pd.DataFrame([outputs])

No model was supplied, defaulted to distilbert-base-cased-distilled-squad and revision 626af31 (https://huggingface.co/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


Unnamed: 0,score,start,end,answer
0,0.610561,335,358,an exchange of Megatron


### 1.5.4 요약
- 텍스트 요약(text summarization)의 목표는 긴 텍스트를 입력으로 받고 관련 사실이 모두 포함된 간단한 버전을 생성하는 것

In [13]:
summarizer = pipeline("summarization")
outputs = summarizer(text, max_length=56, clean_up_tokenization_spaces=True)

print(outputs[0]["summary_text"])

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


 Bumblebee demands an exchange of Megatron for the Optimus Prime figure he ordered. The Decepticons figure was sent to a German online store instead of a Decepticon figure. The Autobot is a lifelong enemy of the Deceptacons and a lifelong foe


### 1.5.5 번역

In [5]:
translator = pipeline("translation_en_to_de", model="Helsinki-NLP/opus-mt-en-de")
outputs = translator(text, clean_up_tokenization_spaces=True, min_length=100)

print(outputs[0]["translation_text"])

Downloading (…)olve/main/source.spm:   0%|          | 0.00/768k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Downloading (…)olve/main/target.spm:   0%|          | 0.00/797k [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.27M [00:00<?, ?B/s]

Liebe Amazon, letzte Woche habe ich eine Optimus Prime Action Figur von Ihrem Online-Shop in Deutschland bestellt. Leider, als ich das Paket öffnete, entdeckte ich zu meinem Horror, dass ich stattdessen eine Action Figur von Megatron geschickt worden war! Als lebenslanger Feind der Decepticons, Ich hoffe, dass Sie mein Dilemma verstehen können. Um das Problem zu lösen, fordere ich einen Austausch von Megatron für die Optimus Prime Figur, die ich bestellt hatte. Eingeschlossen sind Kopien meiner Aufzeichnungen über diesen Kauf. Ich erwarte, bald von Ihnen zu hören. Aufrichtig, Bumblebee.


### 1.5.6 텍스트 생성

In [6]:
generator = pipeline("text-generation")
response = "Dear Bumblebee, I am sorry to hear that your order was mixed up."
prompt = text + "\n\nCustomer service response:\n" + response
outputs = generator(prompt, max_length=200)
print(outputs[0]["generated_text"])

No model was supplied, defaulted to gpt2 and revision 6c0e608 (https://huggingface.co/gpt2).
Using a pipeline without specifying a model name and revision in production is not recommended.


Downloading (…)lve/main/config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/548M [00:00<?, ?B/s]

Downloading (…)neration_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.



Dear Amazon, last week I ordered an Optimus Prime action figure from your online store in Germany.
Unfortunately, when I opened the package, I discovered to my horro that I had been sent an action figure of Megatron instead!
As a lifelong enemy of the Decepticons, I hope you can understand my dilemma. To resolve the issue, I demand an exchange of Megatron for the Optimus Prime figure I ordered.
Enclosed are copies of my records concerning this purchase. I expect to hear from you soon. Sincerely, Bumblebee.


Customer service response:
Dear Bumblebee, I am sorry to hear that your order was mixed up. My question was about 1 (a) Megatron, and (b) you do not need to buy the Transformers figure from Amazon.
I ordered this from Amazon in Germany for my family, but their delivery date was in Germany at the time of my order.
As an aside, you are not my


## 1.6 허깅페이스 생태계
- 크게, 라이브러리와 허브로 구성
  - 라이브러리는 코드를 제공
  - 허브는 사전 훈련된 모델 가중치, 데이터셋, 평가 지표를 위한 스크립트 등을 제공

### 1.6.1 허깅페이스 허브
- 허브는, 모델과 데이터셋 내용을 문서화한 모델 카드와 데이터셋 카드를 제공

### 1.6.2 허깅페이스 토크나이저
- 트랜스포머 모델은 이런 토큰의 수치 표현에서 훈련
- 다양한 토큰화 전력을 제공
- 러스트(Rust) 백엔드 덕분에 빠른 속도

### 1.6.3 허깅페이스 데이터셋
- 수천 개의 데이터셋에 대한 표준 인터페이스를 제공해 단순화
- 메모리 매핑(memory mapping)이라는 특별한 메커니즘을 활용해 램 부족을 피함
  - 파일 내용을 가상 메모리에 저장하고 여러 개의 프로세스로 더 효율적으로 파일을 수정
  - 데이터 랭글링(data wrangling) 도구를 그대로 사용 가능

### 1.6.4 허깅페이스 액셀러레이트
- 사용자 정의 로직을 처리하는 일반적인 훈련 루프에 훈련 인프라에 필요한 추상화 층을 추가