# 패키지 설치
pip 명령어로 의존성 있는 패키지를 설치합니다.



In [None]:
!pip install ratsnlp

## 토크나이저 초기화

BERT(`kcbert-base`) 모델이 쓰는 토크나이저를 선언합니다.

In [None]:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained(
    "beomi/kcbert-base",
    do_lower_case=False,
)

## 모델 초기화

BERT(`kcbert-base`) 모델을 읽어들입니다. 

In [None]:
from transformers import BertConfig, BertModel
pretrained_model_config = BertConfig.from_pretrained(
    "beomi/kcbert-base"
)
model = BertModel.from_pretrained(
    "beomi/kcbert-base",
    config=pretrained_model_config,
)

`pretrained_model_config`의 내용을 확인합니다.

In [None]:
pretrained_model_config

## 모델 입력값 만들기

문장 2개를 모델 입력값으로 만들어보겠습니다.

In [None]:
sentences = ["안녕하세요", "하이!"]
features = tokenizer(
    sentences,
    max_length=10,
    padding="max_length",
    truncation=True,
)

`features`의 내용을 확인합니다.

In [None]:
features.keys()

In [None]:
features['input_ids']

In [None]:
features['attention_mask']

In [None]:
features['token_type_ids']

## BERT 임베딩 추출

위에서 만든 `features`를 파이토치 텐서(tensor)로 변환합니다.

In [None]:
import torch
features = {k: torch.tensor(v) for k, v in features.items()}

BERT 모델에 `features`를 입력해 계산합니다.

In [None]:
outputs = model(**features)

BERT 마지막 레이어의 단어 수준 벡터들을 확인합니다.

In [None]:
outputs.last_hidden_state

BERT 마지막 레이어의 문서 수준 벡터를 확인합니다.

In [None]:
outputs.pooler_output