# 패키지 설치
- HuggingFace는 NLP분야에서 BERT 모델 같은 트랜스포머 모델들을 쉽게 다룰 수 있게 해주는 패키지입니다.
- 기본적으로 pytorch 기반으로 만들어져 있지만, 텐서플로우 2.0에서도 사용 가능합니다.



In [None]:
 # huggingface 패키지를 Colab에 설치
!pip install transformers

## 토크나이저 초기화

BERT(`kcbert-base`) 모델이 쓰는 토크나이저를 선언합니다.

In [None]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained(
    "beomi/kcbert-base",
    do_lower_case=False, 
)

## 모델 초기화

BERT(`kcbert-base`) 모델을 읽어들입니다.

In [None]:
from transformers import BertConfig, BertModel

pretrained_model_config = BertConfig.from_pretrained(
    "beomi/kcbert-base"
)

model = BertModel.from_pretrained( 
    "beomi/kcbert-base",
    config=pretrained_model_config,
)

`pretrained_model_config`의 내용을 확인합니다.

In [None]:
pretrained_model_config

## 모델 입력값 만들기

문장을 모델 입력값으로 만들어보겠습니다.

In [5]:
sentences = "안녕하세요 만나서 반갑습니다!!"
features = tokenizer( # 토큰화
    sentences, 
    max_length=15, # 최대 길이
    padding="max_length", # 패딩 방식
    truncation=True, # 최대 길이보다 길면 자르기
)

`features`의 내용을 확인합니다.

In [None]:
features.keys() 

In [None]:
features['input_ids'] # 토큰화된 문장

In [None]:
features['attention_mask'] # 패딩된 부분을 0으로 표시

In [None]:
features['token_type_ids'] # 0(sentence A)과 1(sentence B) 문장 구분

In [None]:
tokenizer.convert_ids_to_tokens(features['input_ids']) # 토큰화된 문장을 다시 텍스트로 변환

In [None]:
tokenizer.decode(features['input_ids']) # 토큰화된 문장을 다시 텍스트로 변환

### 두 문장을 넣어봅시다!
- List[List[str]] 형태로 입력이 들어오면 tokenizer는 하위 list(List[str])가 sentence A, sentence B를 입력하는 것이라 이해합니다.

In [None]:
sentences = ### 채워보기 ### 
features = tokenizer(
    sentences,
    max_length=20,
    padding="max_length",
    truncation=True,
)

### features들을 확인해봅시다!

### 토큰화된 문장을 다시 텍스트로 변환해봅시다!

## BERT 임베딩 추출

위에서 만든 `features`를 파이토치 텐서(tensor)로 변환합니다.

In [8]:
import torch
features = {k: torch.tensor(v) for k, v in features.items()} # 텐서로 변환

BERT 모델에 `features`를 입력해 계산합니다.

In [9]:
outputs = model(**features) # 모델에 입력, 딕셔너리 형태의 `features`의 키-값을 함수의 인자로 전달
# `model(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids)`처럼 작동

BERT 마지막 레이어의 단어 수준 벡터들을 확인합니다.

In [None]:
# 마지막 레이어의 hidden_state : (batch_size, sequence_length, hidden_size)
outputs.last_hidden_state 

BERT 마지막 레이어의 문서 수준 벡터를 확인합니다.

In [None]:
# 마지막 hidden_state의 첫번째 토큰인 [CLS] 토큰의 embedding을 반환
outputs.pooler_output 