<a href="https://colab.research.google.com/github/ancestor9/24_fall_textmining_NLP/blob/main/1203_Transformer_Models_(PyTorch).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Models (PyTorch)

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

Collecting datasets
  Downloading datasets-3.1.0-py3-none-any.whl.metadata (20 kB)
Collecting evaluate
  Downloading evaluate-0.4.3-py3-none-any.whl.metadata (9.2 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (from fsspec[http]<=2024.9.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.9.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.1.0-py3-none-any.whl (480 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m480.6/480.6 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading evaluate-0.4.3-py3-none-any.whl (84 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.0/84.0 kB[0m [31m5.

### **두 방법의 차이**

| **방법**                      | **설명**                                | **파라미터 상태**          |
|-------------------------------|----------------------------------------|---------------------------|
| `BertModel(config)`           | 모델 구조만 정의, 초기화된 상태의 모델 생성 | **랜덤 초기화**           |
| `BertModel.from_pretrained()` | 사전 학습된 모델과 파라미터 로드         | **사전 학습된 값**        |


### **체크포인트의 주요 역할**

1. **학습 재개**:
   - 긴 학습 과정에서 중간 상태를 저장하여 학습이 중단되더라도 이어서 진행할 수 있습니다.
   - **예**: 학습 도중 컴퓨터가 꺼지거나 중단될 경우, 마지막 체크포인트에서 이어서 학습을 재개.

2. **사전 학습 모델 활용**:
   - 대규모 데이터로 사전 학습된 모델(Pre-trained Model)의 체크포인트를 활용하여 새로운 태스크에 모델을 재사용할 수 있습니다.
   - **예**: BERT의 사전 학습 체크포인트를 불러와 특정 NLP 태스크에 맞게 파인튜닝.

3. **모델 저장 및 배포**:
   - 학습이 끝난 모델을 저장하여 추론(inference) 단계에서 활용하거나, 다른 환경에서 모델을 배포하기 위해 사용됩니다.

---

### **체크포인트의 구성**

1. **가중치 (Weights)**:
   - 학습을 통해 최적화된 모델의 파라미터 값.
   - **예**: 네트워크의 레이어별로 저장된 값.

2. **구성 (Config)**:
   - 모델의 구조와 하이퍼파라미터 정보.
   - **예**: `hidden_size`, `num_attention_heads`, `num_hidden_layers`.

3. **토크나이저 정보 (Optional)**:
   - NLP 모델의 경우, 입력 데이터를 변환하는 데 사용된 토크나이저 정보도 저장될 수 있습니다.


In [None]:
from transformers import BertConfig, BertModel

# Building the config
config = BertConfig()

# Building the model from the config
model = BertModel(config)

In [None]:
print(config)

BertConfig {
  "_attn_implementation_autoset": true,
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.46.2",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}



In [None]:
from transformers import BertConfig, BertModel

config = BertConfig()
model = BertModel(config)

# Model is randomly initialized!

In [None]:
from transformers import BertModel

model = BertModel.from_pretrained("bert-base-cased")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/436M [00:00<?, ?B/s]

In [None]:
model.config

BertConfig {
  "_attn_implementation_autoset": true,
  "_name_or_path": "bert-base-cased",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.46.2",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 28996
}

### 주요 사용 목적
#### 모델 재사용:

- 저장된 모델을 다른 코드나 환경에서 로드하여 재사용할 수 있습니다.
예: 학습 후 저장한 모델을 추론 단계에서 로드.
- 모델 배포: 저장된 모델을 다른 시스템(예: 서버)이나 팀원과 공유할 수 있습니다.
- 중간 상태 저장: 긴 학습 과정에서 중간 단계의 상태를 저장하여 이어서 학습 가능.

In [None]:
model.save_pretrained("directory_on_my_computer")

In [None]:
! ls directory_on_my_computer

config.json  model.safetensors


In [None]:
# 저장된 모델 로드
model = BertModel.from_pretrained("directory_on_my_computer")

In [None]:
sequences = ["Hello!", "Cool.", "Nice!"]

In [None]:
encoded_sequences = [
    [101, 7592, 999, 102],  # "Hello!"
    [101, 4658, 1012, 102],  # "Cool."
    [101, 3835, 999, 102],   # "Nice!"
]

In [None]:
import torch

model_inputs = torch.tensor(encoded_sequences)

In [None]:
model

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(28996, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False

In [None]:
output = model(model_inputs)

In [None]:
output

BaseModelOutputWithPoolingAndCrossAttentions(last_hidden_state=tensor([[[ 4.4496e-01,  4.8276e-01,  2.7797e-01,  ..., -5.4032e-02,
           3.9393e-01, -9.4770e-02],
         [ 2.4943e-01, -4.4093e-01,  8.1772e-01,  ..., -3.1917e-01,
           2.2992e-01, -4.1172e-02],
         [ 1.3668e-01,  2.2518e-01,  1.4502e-01,  ..., -4.6915e-02,
           2.8224e-01,  7.5566e-02],
         [ 1.1789e+00,  1.6738e-01, -1.8187e-01,  ...,  2.4671e-01,
           1.0441e+00, -6.1972e-03]],

        [[ 3.6436e-01,  3.2464e-02,  2.0258e-01,  ...,  6.0110e-02,
           3.2451e-01, -2.0996e-02],
         [ 7.1866e-01, -4.8725e-01,  5.1740e-01,  ..., -4.4012e-01,
           1.4553e-01, -3.7545e-02],
         [ 3.3223e-01, -2.3271e-01,  9.4876e-02,  ..., -2.5268e-01,
           3.2172e-01,  8.1085e-04],
         [ 1.2523e+00,  3.5754e-01, -5.1320e-02,  ..., -3.7840e-01,
           1.0526e+00, -5.6255e-01]],

        [[ 2.4042e-01,  1.4718e-01,  1.2110e-01,  ...,  7.6062e-02,
           3.3564e-01,  2

In [None]:
print(output.last_hidden_state.shape)  # 예: (배치 크기, 시퀀스 길이, 히든 크기)
print(output.pooler_output.shape)     # 예: (배치 크기, 히든 크기)


torch.Size([3, 4, 768])
torch.Size([3, 768])
