# KOBERT를 이용해 ESG 분류하기


`참고 블로그 모음 `

# 모델링 관련 참고 사이트

### kobert modeling code
- kobert 감정분류 코드 : https://velog.io/@sseq007/Kobert-%EB%AA%A8%EB%8D%B8-%EC%82%AC%EC%9A%A91

### 파라미터 저장 및 재적용 관련 참고 사이트
- pytorch 공식 홈페이지 모델 저장하고 불러오기 : https://tutorials.pytorch.kr/beginner/saving_loading_models.html

### requires_grad = True 일부 계층 적용 관련 참고 사이트
- 개인 블로그 : https://jeonghyeokpark.netlify.app/pytorch/2020/11/27/pytorch1.html

### 모델의 파라미터 접근하기
- 개인 블로그 : https://soundprovider.tistory.com/entry/pytorch-torch%EC%97%90%EC%84%9C-parameter-%EC%A0%91%EA%B7%BC%ED%95%98%EA%B8%B0
- 개인 블로그 : https://dbwp031.tistory.com/25

### 파이토치 기초 정리
- 이수안컴퓨터연구소 파이토치 기초 정리 : https://www.youtube.com/watch?v=k60oT_8lyFw&t=8494s

### 모델의 학습모드와 평가모드 설명
- 개인 블로그 : https://tigris-data-science.tistory.com/entry/PyTorch-modeltrain-vs-modeleval-vs-torchnograd

### 데이터 프레임 loc를 이용한 값 변경
- 개인 블로그 : https://velog.io/@skkumin/Pandas-loc%EC%9D%84-%EC%9D%B4%EC%9A%A9%ED%95%98%EC%97%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84-%EA%B0%92-%EB%B3%80%EA%B2%BD%ED%95%98%EA%B8%B0

### train_test_split 사용방법
- 개인 블로그 : https://smalldatalab.tistory.com/23

### Dataset과 DataLoader, transform 사용방법
- Dataset & DataLoader 파이토치 튜토리얼 : https://tutorials.pytorch.kr/beginner/basics/data_tutorial.html
- transform : 파이토치 튜토리얼 : https://tutorials.pytorch.kr/beginner/basics/transforms_tutorial.html
- 개인 블로그 : https://curiousseed.tistory.com/76

### gluonnlp의 bertsentenceTransform 설명
- gluonnlp 공식 사이트 : https://nlp.gluon.ai/api/modules/data.html#gluonnlp.data.BERTSentenceTransform

### model.zero_grad vs optimizer.zero_grad 차이점 설명
- 개인 블로그 : https://otzslayer.github.io/pytorch/2022/04/17/difference-between-zero-grads.html

### 구글 코랩에서 모델 저장하는 방법
- 개인 블로그 : https://velog.io/@bpbpbp_yosep/PyTorch%EC%97%90%EC%84%9C-%EB%AA%A8%EB%8D%B8-%EC%A0%80%EC%9E%A5%ED%95%98%EA%B8%B0

`필요 환경 및 패키지 설치`

In [None]:
!pip install mxnet
!pip install pandas tqdm
!pip install sentencepiece
!pip install transformers
!pip install torch
!pip install gluonnlp==0.10.0
!pip install 'git+https://github.com/SKTBrain/KoBERT.git#egg=kobert_tokenizer&subdirectory=kobert_hf'

In [None]:
# 오류 메세지 frames 열고 onp.bool -> bool로 변경하기
import torch
from torch import nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import pandas as pd

import gluonnlp as nlp
import numpy as np
from tqdm import tqdm, tqdm_notebook
from kobert_tokenizer import KoBERTTokenizer
from transformers import BertModel

from transformers import AdamW
from transformers.optimization import get_cosine_schedule_with_warmup
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
kobert_tokenizer = KoBERTTokenizer.from_pretrained('skt/kobert-base-v1') # input을 만드는 tokenize 명령을 할 수 있는 tokenizer
kobertmodel = BertModel.from_pretrained('skt/kobert-base-v1', return_dict=False) # 코버트 모델 불러오기
vocab = nlp.vocab.BERTVocab.from_sentencepiece(kobert_tokenizer.vocab_file, padding_token='[PAD]') # tokenize의 기반이 되는 사전

`kobert_tokenizer 이해 예시`

In [None]:
word_tokenizer = kobert_tokenizer.tokenize

# kobert_tokenizer(문장) vs kobert_tokenizer.tokenize(문장) 비교하기
print('kobert_tokenizer')

print(kobert_tokenizer('나는 집에 가고 싶다')) # 단어를 분리하고 임베딩까지 한다.

print('kobert_tokenizer.tokenize')

print(word_tokenizer('나는 집에 가고 싶다')) # 단어를 분리한다.


# kobert_tokenizer(문장)이 반환하는 항목 설명

# {
#     input_ids : [스페셜 토큰이 포함된 문장 임베딩]
#     token_type_ids : [문장의 구분을 나누는 문장 임베딩 첫 문장 0]
#     attention_mask : [문장 길이가 다를 때 긴 것에 기준을 맞추고 짧은 것은 패딩 | 패딩 된 부분 : 0 (0이어서 계산에 반영되는 않는 무시의 용도), 패딩 안 된 부분 : 1]
# }

kobert_tokenizer
{'input_ids': [2, 1375, 4384, 6896, 517, 5330, 5439, 3072, 3], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
kobert_tokenizer.tokenize
['▁나는', '▁집', '에', '▁', '가', '고', '▁싶다']


`vocab 특성 확인하기`

In [None]:
print(vocab) # vocab 안에는 8002개 단어의 index가 지정되어져 있고, 사전 안에 없는 것은 : unk / 나머지 special token은 cls, sep, mask, pad 가 존재한다.

Vocab(size=8002, unk="[UNK]", reserved="['[CLS]', '[SEP]', '[MASK]', '[PAD]']")


In [None]:
# 데이터 불러오기
esg_data = pd.read_csv("/content/naver_news_test.csv")


# 필요없는 정보 제거하기
del esg_data['date']
del esg_data['title']
del esg_data['url']

# 라벨을 수치화 해주기

# 데이터 프레임 loc를 이용한 값 변경
# df.loc[조건, "column 이름"] = 변경 값

esg_data.loc[(esg_data['label'] == 'e'), 'label'] = 0
esg_data.loc[(esg_data['label'] == 's'), 'label'] = 1
esg_data.loc[(esg_data['label'] == 'g'), 'label'] = 2
esg_data.loc[(esg_data['label'] == 'label'), 'label'] = 0

# 라벨을 수치화한 데이터 확인하기
esg_data

Unnamed: 0,content,label
0,편의점 CU가 일회용품 사용 규제를 철회하기로 한 환경부 방침과 관계없이 환경 보...,0
1,홍 부회장은 끝으로 올해도 고물가고비용 상황이 이어지는 가운데 사상 최대의 가계기업...,0
2,소재 부문은 글로벌 환경 이슈에 따른 업계의 패러다임 변화에 기민하게 대처하겠다고 밝혔다,0
3,최근 환경부가 일회용품 사용 금지 규제 계도 기간을 무기한 연장하는 방안을 발표한...,0
4,CU는 이를 통해 환경 보호를 위한 소비문화는 계속 이어가면서 규제 변경으로 어려움...,0
...,...,...
1840,이들 업체는 이달 말까지 전국 주요 무인 점포 여 곳의 식품 위생안전관리 현황을 자...,1
1841,소비자원은 편의점 식품 위생안전관리 수준을 높여 사고를 예방하고 안전한 먹거리 환경...,1
1842,이어 앞으로도 민간 주도의 자율 안전관리 강화를 위해 계속 지원하겠다고 더했다.,1
1843,BGF리테일은 서울지역 CU 점포 내 자동심장충격기 설치를 위한 공간 협조를 비롯해...,1


`[문장,라벨]로 묶어주기`

In [None]:
data_list = []
for sent, label in zip(esg_data['content'], esg_data['label']):
    data = []
    data.append(str(sent))
    data.append(str(label))

    data_list.append(data)

print(data)
print(data_list)

['BGF리테일은 업무협약 이후 서울지역 CU 점포 내 자동심장충격기 설치를 위한 공간 협조를 비롯해 점포별로 기기 안전관리책임자를 지정하고 근무자를 대상으로 기기 사용법을 교육하는 등 응급처치 문화 확산에 다방면으로 기여할 예정이다.', '1']
[[' 편의점 CU가 일회용품 사용 규제를 철회하기로 한 환경부 방침과 관계없이 환경 보호를 위해 종이 빨대를 계속 사용하기로 했다', '0'], ['홍 부회장은 끝으로 올해도 고물가고비용 상황이 이어지는 가운데 사상 최대의 가계기업 부채 부동산 프로젝트파이낸싱PF 이슈와 같은 악재로 경영 환경의 불확실성이 계속될 것으로 보인다며 이러한 장기 저성장 국면에서 변화하고 도전해 지속 성장의 토대를 마련할 것이라고 강조했다', '0'], ['소재 부문은 글로벌 환경 이슈에 따른 업계의 패러다임 변화에 기민하게 대처하겠다고 밝혔다', '0'], [' 최근 환경부가 일회용품 사용 금지 규제 계도 기간을 무기한 연장하는 방안을 발표한 가운데 CU가 플라스틱 저감을 위해 종이 빨대 사용을 기존대로 유지한다고 일 밝혔다', '0'], ['CU는 이를 통해 환경 보호를 위한 소비문화는 계속 이어가면서 규제 변경으로 어려움에 처한 종이 빨대 생산 업체와의 상생도 도모하겠다는 복안이라고 전했다', '0'], ['CU는 작년 월 식품접객업 매장 등에서 일회용품 사용을 금지하는 규제를 시행하기 전부터 선제적으로 플라스틱 빨대 사용을 전면 중단 종이 빨대를 도입하고 빨대 없는 컵얼음을 개발하는 등 정부의 친환경 정책에 발맞춰 왔다고 설명했다', '0'], ['점포에서 종이 빨대 나무젓가락 등 소모품을 일반적으로 상시 비치하는 대신 필요한 고객들에게만 제공할 수 있도록 안내하는 권유형 전략을 통해 일회용품 사용을 최소화할 수 있도록 소비자들에게 친환경 소비를 적극 권장하고 있는 것으로 알려졌다', '0'], ['또한 CU는 지난 년부터 그린스토어 등 직영점을 중심으로 비닐봉투 대신 PLA 생분해성 친환경 봉투를 사용했으며 작년 월부터는 전국 

`train_test_split 활용해서 train_data와 valid_data 구분하기`

In [None]:
from sklearn.model_selection import train_test_split
train_data, valid_data = train_test_split(data_list, test_size = 0.2, shuffle = True, random_state = 32)

# train_test_split 사용방법

# 1. split 대상 : 리스트, 튜플, 데이터프레임
# - split의 대상이 하나(x)인 경우 : x_train, x_test 반환
# - split의 대상이 두 개(x,y)인 경우 : x_train, x_test, y_train, y_test 반환

# 2. 주요 파라미터
# - test_size : ex) test_size = 0.2 --> 훈련 데이터 80%, 평가 데이터 20%
# - shuffle : shuffle = True(순서를 무작위로 섞기), shuffle = False(순서대로)
# - random_state = int숫자 : 매번 '동일한' '훈련 데이터'와 '평가 데이터'를 얻기 위한 설정
# - stratify : DataFrame을 split 하는 경우 --> 특정 칼럼을 지정하고 지정 칼럼의 값의 비율을 동일하게 만드는 역할(블로그 참고)

`kobert 모델에 input으로 들어갈 데이터셋(BERTDataset)을 만들어주는 클래스`

`Dataset & DataLoader`
- 사용자 정의 Dataset 클래스의 필수 함수 3가지
  - 1. __ init __ : 파리미터 초기화 및 transform 초기화
  - 2. __ len __  :  데이터셋의 샘플 개수 반환
  - 3. __ getitem __ : index를 통해서 feature와 label(정답)에 접근

In [None]:
class BERTDataset(Dataset): # bert 모델에 어떤 데이터셋을 넣을 줄 것인지 결정 : 어떤 데이터셋을 받아와서 어떻게 token화 해서 넣을 거야??? 를 결정한다.
    def __init__(self, dataset, sent_idx, label_idx, bert_tokenizer, vocab, max_len,
                 pad, pair):

        # Kobert 모델에 들어가기 위한 input을 만드는 함수입니다.

        # dataset: 내 데이터셋 : [문장, 라벨]
        # sent_idx: 0 : 문장 index
        # label_idx: 1 : 라벨 index
        # bert_tokenizer: 사용할 tokenizer : 사전에 정의하고 생성해야 함.
        # max_len: input sentence의 최대 길이
        # pad: (True/False) : max_len을 고려한 패딩 여부 결정
        # pair: (True/False) : input이  [sent a, sent b]처럼 문장쌍으로 들어가는지 여부

        transform = nlp.data.BERTSentenceTransform(bert_tokenizer, max_seq_length=max_len, vocab = vocab, pad=pad, pair=pair)

        # nlp.data.BERTSentenceTransform() 사용 방법

        # input 정리
        # tokenizer(bert_tokenizer)
        # max_seq_length : 위 참고
        # vocab : CLS, SEP 등등의 토큰이 임베딩 되어 있는 사전
        # pad : 위 참고
        # pair : 위 참고

        # output 정리
        # token_ids : vocab에 따른 임베딩
        # valid_len : 문장의 실제 길이
        # tokekn_type : 문장 pair 여부를 보여주는 0,1로 구성된 positional encoding


        self.sentences = [transform([i[sent_idx]]) for i in dataset] # 데이터 셋의 문장들을 bert 맞춤형 토큰화 모음 리스트
        self.labels = [np.int32(i[label_idx]) for i in dataset] # 데이터 셋의 라벨들 모음 리스트

    def __getitem__(self, i): # 특정 문장 특정 문장의 라벨을 리턴해줌
        return (self.sentences[i] + (self.labels[i], ))

    def __len__(self):
        return (len(self.labels)) # 문장 개수 리턴 해줌.

`모델에 사용될 파라미터 사전 지정`

In [None]:
max_len = 128
batch_size = 64
warmup_ratio = 0.1
num_epochs = 5
max_grad_norm = 1
log_interval = 200
learning_rate =  5e-5

`정의해둔 Dataset을 활용한 dataloader 만들기`

In [None]:
data_train = BERTDataset(train_data, 0, 1, word_tokenizer, vocab, max_len, True, False)
data_test = BERTDataset(valid_data, 0, 1, word_tokenizer, vocab, max_len, True, False)

# DataLoader의 역할 : 한번에 batch_size만큼 시키는 iterable 생성
train_dataloader = torch.utils.data.DataLoader(data_train, batch_size = batch_size, num_workers = 5)
test_dataloader = torch.utils.data.DataLoader(data_test, batch_size = batch_size, num_workers = 5)

`KOBERT를 기반해 ESG 분류 계층을 추가한 model 정의`

In [None]:
class BERT_ESG_Classifier(nn.Module):
    def __init__(self,
                 bert, # bert 모델 받아오기
                 hidden_size = 768, # 은닉층의 크기(기준 수)
                 num_classes = 3,   # [E,S,G]
                 dr_rate = None, # dropout_rate : 신경망 학습 중에 일부 뉴런을 무작위로 제거하여 과적합을 방지하고 모델의 일반화 성능을 향상시키는 기법
                 params = None):
        super(BERT_ESG_Classifier, self).__init__()
        self.bert = bert # 사용할 bert 모델 지정
        self.dr_rate = dr_rate # dropout 비율 지정

        self.classifier = nn.Linear(hidden_size , num_classes)
        if dr_rate: # dr_rate가 0과 None이 아니고 (0~1) 사이로 설정되었을 경우에는
            self.dropout = nn.Dropout(p = dr_rate) # nn.dropout을 실행한다.

    def gen_attention_mask(self, token_ids, valid_length): # attention mask를 생성하는 것 : 이 문장을 바라보는 전문가들 생성한다.
        attention_mask = torch.zeros_like(token_ids) # token_ids와 같은 크기를 가지고 있는 0으로 채워지는 것들  : 뭔가 포지셔널 인코딩일 것 같은 느낌
        for i, v in enumerate(valid_length):
            attention_mask[i][:v] = 1 # 가리지 않는 부분 설정하기
        return attention_mask.float() # dtype 은 32로 한다.

    def forward(self, token_ids, valid_length, segment_ids): # segment_ids 는 문장단위를 나누는 임베딩 부분인 것 같다. 한 문장일 경우 0000, 두 문장 이상일 경우 00..111
        attention_mask = self.gen_attention_mask(token_ids, valid_length)
        # torch.long() : int64 타입
        _, pooler = self.bert(input_ids = token_ids, token_type_ids = segment_ids.long(), attention_mask = attention_mask.float().to(token_ids.device),return_dict = False)
        if self.dr_rate:
            out = self.dropout(pooler)
        return self.classifier(out)

`모델 정의하기`

In [None]:
# BERT  모델 불러오기
model = BERT_ESG_Classifier(kobertmodel,  dr_rate = 0.5).to(device)

`모델에 호환되는 optimizer, loss_function, scheduler 정의`

In [None]:
# 옵티마이저 생성 시 전달해줄 파라미터 정의
no_decay = ['bias', 'LayerNorm.weight']
optimizer_grouped_parameters = [ # model.named_parameters()는 model의 해당층이름/ 해당층 가중치를 리턴
    {'params': [weight for name, weight in model.named_parameters() if not any(nd in name for nd in no_decay)], 'weight_decay': 0.01},
    {'params': [weight for name, weight in model.named_parameters() if any(nd in name for nd in no_decay)], 'weight_decay': 0.0} ]


# 옵티마이저 정의 : model로 부터 온 것 : model과 연관
optimizer = AdamW(optimizer_grouped_parameters, lr = learning_rate)

# 손실함수 정의
loss_fn = nn.CrossEntropyLoss()

# 스케쥴러 생성 시 전달해줄 파라미터 정의
t_total = len(train_dataloader) * num_epochs
warmup_step = int(t_total * warmup_ratio)

# 스케쥴러 정의 : model로 부터 온 것 : model과 연관
scheduler = get_cosine_schedule_with_warmup(optimizer, num_warmup_steps = warmup_step, num_training_steps = t_total)



`optimizer vs scheduler`
- optimizer : 가중치 업데이트를 어떤 방식으로 할 것인가?
- scheduler : 학습률을 어떤 방식으로 조절할 것인가?

`정확도 계산하는 함수 정의`

In [None]:
def calc_accuracy(X,Y):
    max_vals, max_indices = torch.max(X, 1)
    train_acc = (max_indices == Y).sum().data.cpu().numpy()/max_indices.size()[0]
    return train_acc

`모델 학습 코드`

In [None]:
for e in range(num_epochs):
    train_acc = 0.0
    model.train() # model을 훈련모드로 바꾸고, 가중치가 업데이트 될 수 있게 한다.
    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(train_dataloader)):
        # 옵티마이저의 미분값을 0으로 초기화
        optimizer.zero_grad()
        # model의 forward 인자 설정
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length= valid_length
        label = label.long().to(device)
        # model output 도출
        out = model.forward(token_ids, valid_length, segment_ids)
        # 모델 output과 label(정답)과의 손실함수 정의
        loss = loss_fn(out, label)
        # 손실함수의 기울기 계산
        loss.backward()
        # gradient vanishing 또는 gradient exploding을 방지하기 위한 gradient clipping
        torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm)
        # 기울기 반영한 가중치 업데이트
        optimizer.step()
        scheduler.step()

        train_acc += calc_accuracy(out, label)

        if batch_id % log_interval == 0:
             print(f'{e+1} 번 반복 | 배치순서 {batch_id + 1} | 오차 정도 {loss.data.cpu().numpy()}| 정확도 {train_acc / (batch_id+1)}')

    print("epoch {} train acc {}".format(e+1, train_acc / (batch_id+1)))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(tqdm_notebook(train_dataloader)):


  0%|          | 0/24 [00:00<?, ?it/s]

  self.pid = os.fork()


1 번 반복 | 배치순서 1 | 오차 정도 1.1666195392608643| 정확도 0.28125
epoch 1 train acc 0.7688802083333334


  0%|          | 0/24 [00:00<?, ?it/s]

2 번 반복 | 배치순서 1 | 오차 정도 0.1946774274110794| 정확도 0.96875
epoch 2 train acc 0.982421875


  0%|          | 0/24 [00:00<?, ?it/s]

3 번 반복 | 배치순서 1 | 오차 정도 0.563318133354187| 정확도 0.828125
epoch 3 train acc 0.9830729166666666


  0%|          | 0/24 [00:00<?, ?it/s]

4 번 반복 | 배치순서 1 | 오차 정도 0.01609090529382229| 정확도 1.0
epoch 4 train acc 0.9928385416666666


  0%|          | 0/24 [00:00<?, ?it/s]

5 번 반복 | 배치순서 1 | 오차 정도 0.01391474436968565| 정확도 1.0
epoch 5 train acc 0.9967447916666666


`학습 완료시킨 model을 이용해서 test(predict) 해보기`

In [None]:
def predict(predict_sentence): # input = 감정분류하고자 하는 sentence

    data = [predict_sentence, '0']
    dataset_another = [data]

    another_test = BERTDataset(dataset_another, 0, 1, word_tokenizer, vocab, max_len, True, False) # 토큰화한 문장
    test_dataloader = torch.utils.data.DataLoader(another_test, batch_size = batch_size, num_workers = 5) # torch 형식 변환

    model.eval()

    for batch_id, (token_ids, valid_length, segment_ids, label) in enumerate(test_dataloader):
        # model의 forward 인자 설정
        token_ids = token_ids.long().to(device)
        segment_ids = segment_ids.long().to(device)
        valid_length = valid_length
        label = label.long().to(device)
        # model output 도출
        out = model(token_ids, valid_length, segment_ids)


        test_eval = []
        for i in out: # out = model(token_ids, valid_length, segment_ids)
            logits = i
            logits = logits.detach().cpu().numpy()

            if np.argmax(logits) == 0:
                test_eval.append('e')
            elif np.argmax(logits) == 1:
                test_eval.append("s")
            elif np.argmax(logits) == 2:
                test_eval.append("g")


    return test_eval[0]


In [None]:
true = 0
false = 0
for sent, label in valid_data[: 40]:
    if label == '0' :
        print(f'실제 값 : e : 예측 값 : {predict(sent)}')
        if predict(sent) == 'e' : true += 1
        else : false += 1
    elif label == '1' :
        print(f'실제 값 : s : 예측 값 : {predict(sent)}')
        if predict(sent) == 's' : true += 1
        else : false += 1
    elif label == '2' :
        print(f'실제 값 : g : 예측 값 : {predict(sent)}')
        if predict(sent) == 'g' : true += 1
        else : false += 1

print(f'정답률(정확도) : {true / (true + false) * 100} % ')

실제 값 : s : 예측 값 : s
실제 값 : g : 예측 값 : g
실제 값 : e : 예측 값 : e
실제 값 : g : 예측 값 : g
실제 값 : e : 예측 값 : e
실제 값 : e : 예측 값 : e
실제 값 : g : 예측 값 : g
실제 값 : s : 예측 값 : s
실제 값 : s : 예측 값 : s
실제 값 : e : 예측 값 : e
실제 값 : g : 예측 값 : g
실제 값 : e : 예측 값 : e
실제 값 : e : 예측 값 : e
실제 값 : e : 예측 값 : e
실제 값 : g : 예측 값 : g
실제 값 : e : 예측 값 : e
실제 값 : g : 예측 값 : g
실제 값 : g : 예측 값 : g
실제 값 : s : 예측 값 : s
실제 값 : e : 예측 값 : e
실제 값 : s : 예측 값 : s
실제 값 : s : 예측 값 : s
실제 값 : s : 예측 값 : s
실제 값 : e : 예측 값 : e
실제 값 : g : 예측 값 : g
실제 값 : g : 예측 값 : g
실제 값 : e : 예측 값 : e
실제 값 : e : 예측 값 : e
실제 값 : e : 예측 값 : e
실제 값 : s : 예측 값 : s
실제 값 : g : 예측 값 : g
실제 값 : s : 예측 값 : s
실제 값 : g : 예측 값 : g
실제 값 : s : 예측 값 : s
실제 값 : e : 예측 값 : e
실제 값 : g : 예측 값 : g
실제 값 : g : 예측 값 : g
실제 값 : s : 예측 값 : s
실제 값 : e : 예측 값 : e
실제 값 : g : 예측 값 : g
정답률(정확도) : 100.0 % 


# 사용한 코드 설명 부분(실행하지 않는 부분)

`모델 저장하고 불러오기`
- 저장할 파라미터 대상 : 분류를 위해서 추가한 계층의 parameters [not kobert parameters]
- 저장할 때 확장자 : .pt or .pth
- 모델 저장 시 권장 방법 : torch.save(model.state_dict(), 경로)  -->  torch.save(model, 경로) 보다 가볍게 저장할 수 있음.

1. 모델의 일부 정보(state_dict())만 저장하고 불러오기 : 모델 저장 시 권장

In [None]:
# model의 state_dict() 저장하기
torch.save(model.classifier.state_dict(), '경로 입력')

# model의 state_dict() 적용하기
model = BERT_ESG_Classifier(kobertmodel,  dr_rate = 0.5).to(device) # 1. 모델 선언
model.classifier.load_state_dict(torch.load('사전에 정의해둔 추가 계층의 파라미터의 파일을 저장한 경로')) # 2. 파라미터 적용
model.eval() # 3. 파이토치 공식문서 코멘트 : 꼭 model.eval()을 호출하여 드롭아웃 및 배치 정규화를 평가 모드로 설정하여야 합니다.

2. 전체 모델 저장하고 불러오기

In [None]:
# 전체 모델 저장하기
torch.save(model, '경로 입력')

# 전체 모델 적용하기
model = BERT_ESG_Classifier(kobertmodel,  dr_rate = 0.5).to(device) # 1. 모델 선언
model = torch.load('저장한 경로')
model.eval()

3. 모델 + 학습 환경 저장하고 불러오기

In [None]:
# 모델 + 학습 환경 저장하기
torch.save({'epoch': num_epochs, 'model_state_dict': model.state_dict(), 'optimizer_state_dict': optimizer.state_dict(), 'loss': loss}, '경로 입력')

# 모델 + 학습 환경 적용하기
model = BERT_ESG_Classifier(kobertmodel,  dr_rate = 0.5).to(device) # 모델 및 옵티마이저 선언
optimizer = AdamW(optimizer_grouped_parameters, lr = learning_rate)

checkpoint = torch.load('저장한 경로 입력') # 전체 환경 load 하기

model.load_state_dict(checkpoint['model_state_dict']) # 적용하기
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']
loss = checkpoint['loss']

model.eval()
# - or -
model.train()

### 추가로 적용할 수 있는 참고 사항
4. 여러개 모델 하나의 파일에 저장하고 불러오기
5. 다른 모델의 매개변수를 사용하여 빠르게 모델 시작하기(warmstart)
6. GPU에서 저장하고 CPU에서 불러오기
7. GPU에서 저장하고 GPU에서 불러오기
8. CPU에서 저장하고 GPU에서 불러오기

`구글 코랩에서 모델 저장하고 불러오기`

In [None]:
PATH = '/content/drive/MyDrive/Colab Notebooks/inceptionv4.pt' # 경로 입력(예시)
import os.path

epoch_start = 1

if os.path.exists(PATH): # 해당 경로에 파일이 있으면
    checkpoint = torch.load(PATH)
    model.load_state_dict(checkpoint['model_state_dict'])
    optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
    epoch_start = checkpoint['epoch'] + 1
    print("successfully loaded!")
    print("epoch saved until here: ", epoch_start-1)
    print("train starts from this epoch: Epoch ", epoch_start)

`pytorch에서 모델의 각 계층 이름 or 파라미터(가중치, 편향) 수치에 직접적으로 접근하는 방법`

In [None]:
# torch.nn.Module.parameters() : 모델이 가지고 있는 가중치와 편향을 순서대로 보여준다.
for para in model.parameters() :
    print(para)

# torch.nn.Module.named_parameters() : 모델이 가지고 있는 (layer의 '이름', 해당 layer의 'parameter')를 순서대로 보여준다.
for name, para in model.named_parameters() :
    print(name)
    print(para)

`pytorch에서 모델의 각 계층 이름 or 파라미터(가중치, 편향) 요약 정보에 접근하는 방법`

In [None]:
# model.children() : 계층의 특성을 요약해서 보여준다.
for child in model.children() :
    print(child)

# model.named_children() : 각 계층의 이름과 요약 정보를 보여준다
for name, child in model.named_children() :
    print(name, child)

`모델 내 존재하는 특정 계층의 파라미터를 보는 방법 - 1 : get_parameter()`

In [None]:
# model이 가지고 있는 layer 이름 파악하기
for name, para in model.named_parameters() :
    print(name)

# 특정 layer의 파라미터 찾기
model.get_parameter('모델 내에 존재하는 특정 계층의 이름')

`모델 내 존재하는 특정 계층의 파라미터를 보는 방법 - 2 : state_dict() : {계층 이름 : 해당 계층 파라미터 값}`
- model.state_dict()
- optimizer.state_dict()

In [None]:
# {계층이름 : 해당 계층 파라미터 값}을 가지는 객체 생성
state_dict = model.state_dict()
# 특정 계층의 파라미터 접근하는 법
state_dict['model에 존재하는 계층 이름']


`model.children() vs model.modules()`
- children : 시퀀스 단계 별 특성 정보
- module : 시퀀스 이름 + 시퀀스 단계 별 특성 정보 + 시퀀스 요약 정보

In [None]:
# 이터레이터이고 직접적으로 보고자 할 때는 list로 바꿔야 한다
print(list(model.children()))
print(list(model.modules()))

`특정 계층만 freezing 하는 방법`
- freezing의 목적 : pre-trained model을 가지고 와서 추가 학습을 시킬 때 pre-trained 모델의 parameter가 업데이트 되는 경우 기존의 잘 학습된 특성을 잃어버릴 수 있기 때문
- freezing 방식 : pre-trained 된 부분의 파라미터는 freezing 하고 특정 task를 위해 추가로 쌓은 layer만 파라미터 업데이트를 할 수 있도록(학습할 수 있도록) 설정한다.
- freezing 판단 : 파라미터의 requires_grad(기울기 계산 할거야?)가 True : unfreezing, False : freezing  

In [None]:
# requires_grad 접근 방법 : 1. model의 파라미터에 접근 2. model파라미터.requires_grad
for name, param in model.named_parameters():
    if name.count("fc2"): # 내가 freezing 하기를 원하는 계층이 있으면 1 이상의 숫자가 나오면서 requires_grad = False로 설정함.
        param.requires_grad = False

`model.train() vs model.eval() & with torch.no_grad()`

In [None]:
# 학습 모드
model.train()

# 평가 모드
model.eval()
with torch.no_grad() :
    pass

`model.eval() & with torch.no_grad()이 항상 같이 등장하는 이유`
- model.eval() : 평가(테스트) 모드
- with torch.no_grad() : 아래부터는 기울기 계산을 하지 않는다.
- 항상 같이 등장하는 이유 : 평가 모드에서는 기울기를 계산할 필요가 없다. 하지만 model.eval() 모드를 작동해도 requires_grad = False 설정이 되지는 않는다. 단지  dropout, batchnorm 같은 것의 기능을 끄는 역할만 한다. 따라서 with torch.no_grad를 이용한다. 이는 requires_grad = False가 되도록 하여 불필요한 계산을 줄이는 역할을 한다.

`model.zero_grad()와 optimizer.zero_grad() 차이`
- 모델 학습 시 '한 종류'의 optimizer만 사용되는 경우 : optimizer.zero_grad() 사용 권장
- 모델 학습 시 '여러 종류'의 optimizer만 사용되는 경우 : model.zero_grad() 사용 권장
- zero_grad() 사용 이유
    - 1. loss.backward()로 Loss gradient를 역전파 한다.
    - 2. 기울기는 누적되어 저장이 된다.
    - 3. zero_grad()를 이용해서 기울기 값을 초기화시켜 이전 기울기의 영향을 제거한다.

`학습 시 일반적으로 필요한 것들`
- 1. Dataset & DataLoader
- 2. model
- 3. loss_function
- 3. optimizer
- 4. scheduler

`학습(train) 순서`
- 1. model 정의하기
- 2. loss_function 정의하기
- 3. optimizer와 scheduler 정의하기
- 4. optimizer.zero_grad() : epoch 마다 실행
- 5. model 순전파
- 6. loss 구하기
- 7. loss.backward() : 손실함수 기울기 계산
- 8. optimizer.step() / scheduler.step() : 기울기 기반 가중치 업데이트 / 학습률 조정 업데이트
