# 트랜스포머 주요 요소

- 멀티 헤드 어텐션, 피드포워드 뉴럴 네트워크, 잔차 연결 및 레이어 정규화 

**피드포워드 뉴럴 네트워크**
- 신경망의 한 종류
- 입력층, 은닉층, 출력층 3개 계층으로 구성 
- 트랜스포머에서 사용하는 피드포워드 뉴럴 네트워크의 활성 함수는 ReLU

**잔차 연결**
- 블록이나 레이어 계산을 건너뛰는 경로를 하나 둠 
- 모델이 다양한 관점에서 블록 계산 수행
- 학습을 쉽게 하는 효과 

**레이어 정규화**
- 미니 배치의 인스턴스 별로 평균을 빼주고 표준편차로 나눠 정규화 수행
- 학습 안정 및 속도 빨라지는 등의 효과 있음 
- 미니 배치의 인스턴스별로 수행 

# 트랜스포머 학습 기법

**드롭 아웃**
- 과적합 현상을 방지하고자 뉴런의 일부를 확률적으로 0으로 대치하여 계산에서 제외 
- 입력 임베딩과 최초 블록 사이, 블록과 블록 사이, 마지막 블록과 출력층 사이 등에 적용 
- 드롭아웃 비율은 10%로 설정하는 것이 일반적

**아담 옵티마이저**
- 트랜스포머 모델이 쓰는 최적화 도구
- 오차를 줄이는 성능이 좋음 
- 핵심 동작 원리는 방향과 보폭을 적절하게 정해줌 

# BERT와 GPT 비교

**GPT**
- 언어 모델. 이전 단어들이 주어졌을 때 다음 단어가 무엇인지 맞히는 과정에서 프리트레인 함
- 문장 왼쪽부터 오른쪽으로 순차적으로 계산한다는 점에서 일방향

**BERT**
- 마스크 언어 모델. 문장 중간에 빈칸을 만들고 해당 빈칸에 어떤 단어가 적절할지 맞히는 과정에서 프리트레인 함 
- 빈칸 앞뒤 문맥을 모두 살필 수 있다는 점에서 양방향 성격 가짐

- GPT는 문장 생성에 BERT는 문장의 의미를 추출하는 데 강점 지님 

# 단어/문장 벡터 변환

**파인튜닝**
- 프리트레인을 마친 BERT와 그 위의 작은 모듈을 포함한 전체 모델을 문서 분류, 개체명 인식 등 다운스트림 데이터로 업데이트하는 과정

## 실습

In [1]:
# 토크나이저 선언
# kcbert-base 모델이 쓰는 토크나이저 선언 
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained(
    "beomi/kcbert-base",
    do_lower_case=False,
)

In [2]:
# 모델 초기화
# BERT 모델이 프리트레인할 때 썼던 토크나이저 그대로 사용 
from transformers import BertConfig, BertModel
pretrained_model_config = BertConfig.from_pretrained(
    "beomi/kcbert-base"
)
model = BertModel.from_pretrained(
    "beomi/kcbert-base",
    config=pretrained_model_config,
)

pretrained_model_config

Downloading pytorch_model.bin:   0%|          | 0.00/418M [00:00<?, ?B/s]

Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.bias', 'cls.predictions.decoder.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


BertConfig {
  "_name_or_path": "beomi/kcbert-base",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 300,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "position_embedding_type": "absolute",
  "transformers_version": "4.21.1",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30000
}

In [4]:
# BERT 모델 입력값 
sentences = ["안녕하세요", "하이!"]
features = tokenizer(
    sentences,
    max_length=10,
    padding="max_length",
    truncation=True,
)

features

{'input_ids': [[2, 19017, 8482, 3, 0, 0, 0, 0, 0, 0], [2, 15830, 5, 3, 0, 0, 0, 0, 0, 0]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 0, 0, 0, 0, 0, 0]]}

In [5]:
# feature 토치 텐서 변환 
import torch
features = {k: torch.tensor(v) for k, v in features.items()}

In [7]:
# BERT 모델 실행
outputs = model(**features)

outputs

BaseModelOutputWithPoolingAndCrossAttentions(last_hidden_state=tensor([[[-0.6969, -0.8248,  1.7512,  ..., -0.3732,  0.7399,  1.1907],
         [-1.4803, -0.4398,  0.9444,  ..., -0.7405, -0.0211,  1.3064],
         [-1.4299, -0.5033, -0.2069,  ...,  0.1285, -0.2611,  1.6057],
         ...,
         [-1.4406,  0.3431,  1.4043,  ..., -0.0565,  0.8450, -0.2170],
         [-1.3625, -0.2404,  1.1757,  ...,  0.8876, -0.1054,  0.0734],
         [-1.4244,  0.1518,  1.2920,  ...,  0.0245,  0.7572,  0.0080]],

        [[ 0.9371, -1.4749,  1.7351,  ..., -0.3426,  0.8050,  0.4031],
         [ 1.6095, -1.7269,  2.7936,  ...,  0.3100, -0.4787, -1.2491],
         [ 0.4861, -0.4569,  0.5712,  ..., -0.1769,  1.1253, -0.2756],
         ...,
         [ 1.2362, -0.6181,  2.0906,  ...,  1.3677,  0.8132, -0.2742],
         [ 0.5409, -0.9652,  1.6237,  ...,  1.2395,  0.9185,  0.1782],
         [ 1.9001, -0.5859,  3.0156,  ...,  1.4967,  0.1924, -0.4448]]],
       grad_fn=<NativeLayerNormBackward0>), pooler_ou

In [12]:
# 단어 수준 임베딩
outputs.last_hidden_state

# 문장 수준 임베딩
outputs.pooler_output

tensor([[-0.1594,  0.0547,  0.1101,  ...,  0.2684,  0.1596, -0.9828],
        [-0.9221,  0.2969, -0.0110,  ...,  0.4291,  0.0311, -0.9955]],
       grad_fn=<TanhBackward0>)