# BERT(Bidirectional Encoder Representations from Transformers)
- 사전 훈련된 워드임베딩과 사전 훈련된 모델을 사용한 트랜스포머

### gensim의 word2vec의 우리가 학습하는거
### 물론 다른 이미 사전 학습된 임베딩들도 존재
### 또한 데이터들을 가지고 이미 사전 학습된 모델들도 존재

### 초기에는 LSTM으로 자연어 학습-> 트랜스포머로 학습
### GPT는 only 트랜스포머 디코더를 여러층 쌓아 학습시킨것
### masked 언어모델도 존재
- 입력 텍스트의 단어 집합의 15%의 단어를 랜덤으로 마스킹 -> 모델이 예측하도록 함

# - Fine tuning 
- 이미 사전훈련된 모델에 추가훈련과 하이퍼파라미터를 재조정 하는것
![image.png](attachment:38080fe8-a72c-48e3-acfe-cba70d3af7c5.png)
# - bert 구조
- BERT-Base : transformer_encoder=12, Dmodel=768, self attention head=12 : 1억 1천만개의 파라미터(가중치와 편향들)
- BERT-Large : transformer_encoder=24, Dmodel=1024, self attention head=16 : 3억4천만M개의 파라미터
## 입력 토큰을 임베딩하는 임베딩층(Word embedding + Position embedding)과 여러 층의 Transformer 인코더 (Self-Attention + Feed Forward)로 구성된 깊은 신경망

![image.png](attachment:1c7c4745-7ade-4b84-a9b8-156fdf70c3cc.png)
- bert의 입력은 임베딩 층을 지난 임베딩 벡터들 (sample수,time_step,dmodel:768)
- cls: BERT 입력 시 문장 맨 앞에 항상 붙이는 특수 토큰 -> [CLS] 토큰의 출력 임베딩 벡터를 주로 문장 전체 의미를 대표하는 벡터로 사용
- 출력 또한 (sample수,time_step,dmodel:768)의 크기
- 각 단어는 모든 단어 벡터들을 모두 참고한 후에 문맥 정보를 가진 벡터가 됨(self attention에 의해)
![image.png](attachment:a033d297-4f25-4236-965f-14ba4d3c5dfa.png)
- 두번째 층의 입력 임베딩은 첫번째 층의 출력 임베딩 값

# - 그렇다면 임베딩 층은?
![image.png](attachment:7f127259-bc45-4708-95e5-5221e9b935ec.png)
- WordPiece Embedding + Position Embedding + Segment Embedding의 3층구조

### 1. BERT의 서브워드 토크나이저 : WordPiece -> 단어보다 더 작은 단위로 쪼갬
- 이미 훈련된 데이터로부터 만들어진 단어 집합에 대해  
토큰이 단어집합에 존재 -> 토큰을 분리하지 않음  
토큰이 단어 집합에 존재하지 않음 -> 해당 토큰을 서브워드로 분리-> 첫번째 서브워드를 제외한 나머지 서브워드들은 앞에 "##"를 붙인것을 토큰으로  
-> ex) embedding단어가 단어집합에 존재하지않음 -> OOV처리하지 않고 em, ##bed, ##ding, ##s라는 서브 워드들로  
-> 얘네들은 단어집합에 존재 -> ##은 이 서브워드들은 단어의 중간부터 등장하는 서브워드라는 것을 알려줌

In [None]:
# 학습된 데이터 단어집합 보기
from transformers import BertTokenizer #bert전용 토크나이저 불러옴

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") # 이미 학습된 Bert-base의 토크나이저
result = tokenizer.tokenize('Here is the sentence I want embeddings for.') # 이 텍스트를 bert-base-uncased로 토크나이징
print(result) # ['here', 'is', 'the', 'sentence', 'i', 'want', 'em', '##bed', '##ding', '##s', 'for', '.']

# 어떤 단어가 들어있는지 확인하기
print(tokenizer.vocab['here']) # 2182 -> 이 숫자로 매핑되어있음
print(tokenizer.vocab['embeddings']) # KeyError: 'embeddings' -> 에러뜸

# 하지만 
tokenizer.vocab['em'], tokenizer.vocab['##bed'], tokenizer.vocab['##ding'], tokenizer.vocab['##s'] # 은 모두 존재

#### 의미들
- [PAD] : 길이 맞추기용 "빈 자리" 토큰
- [UNK] : 어휘에 없는 단어 (Out-of-vocab), Unknown Token
- [CLS] : 문장 전체를 대표하는 토큰 (BERT에서 분류용), classification
- [SEP] : 문장 구분자 (ex. 문장1 [SEP] 문장2)
- [MASK] : 마스킹된 단어 자리 (MLM 학습용)

### 2. BERT의 포지션 임베딩(Position Embedding)
- 트랜스포머의 포지셔널 인코딩은 사인 or 코사인 값을 더해준것
- 하지만 bert는 학습을 통해서 얻는 포지션 임베딩을 사용!!!!!
![image.png](attachment:1fe5d9bb-422a-4812-82a7-ec7a371e3be7.png)
- 위치정보를 위한 임베딩 층 하나 더 사용
- bert는 최대 512개단어가 들어오므로 포지션 임베딩 벡터 512개가 사용
### 최종적으로 WordPiece Embedding벡터 + Position Embedding벡터

### 3. BERT의 Segment Embedding
![image.png](attachment:04128604-726a-4d0e-9705-3124b89440ac.png)
- 문장 구분을 위한 임베딩 층
- [SEP]으로 구분하며 문장수 별로 벡터 개수 존재
- 만약 문장이 하나만 들어가면 segment embedding으로 sentence0만 들어가게 파인튜닝 !!!!!

### 4. 추가로 어텐션 마스크(Attention Mask)
![image.png](attachment:cafeb10a-c499-4bb2-b001-875708a8a81f.png)
- 불필요한 패딩 토큰에 대해서 어텐션을 하지 않도록 실제 단어와 패딩 토큰을 구분할 수 있도록 알려주는 입력
- 숫자 1은 해당 토큰은 실제 단어이므로 마스킹을 하지 않는다
- 숫자 0은 해당 토큰은 패딩 토큰이므로 마스킹을 한다  
-> 따로 어텐션 마스크 시퀀스 만들어 BERT의 또 다른 입력으로 사용

# - BERT의 사전 훈련(Pre-training)
### 1. 마스크드 언어 모델(Masked Language Model, MLM)
- 사전 훈련을 위해서 인공 신경망의 입력으로 들어가는 입력 텍스트의 15%의 단어를 랜덤으로 마스킹(Masking)  
이때 이 15퍼의 단어는 80퍼는 마스킹[MASK], 10퍼는 다른 랜덤 단어로, 10퍼는 그대로 -> 튜닝단계에서 불일치 문제를 해결하기 위해
- 그리고 12개의 bert층을 지나!!!!  MLM classifier (Dense + Softmax)에서 가려진 단어들을 예측하도록 함
![image.png](attachment:3c60de43-3bfc-4b95-bcd1-32166163ca57.png)
- 모델은 어디가 마스킹되고 어디에 MLM classifier가 존재해야하는지 알고있어 이를 예측

In [None]:
# TFBertForMaskedLM: 마스킹된 단어 예측하는 BERT모델
from transformers import TFBertForMaskedLM # [MASK]라고 되어있는 단어를 맞추기 위한 마스크드 언어 모델링을 위한 구조로 BERT를 로드
from transformers import AutoTokenizer # bert뿐만아니라 모든 모델을 자동으로 감지해서 알맞은 토크나이저를 선택 !!!!!

model = TFBertForMaskedLM.from_pretrained('bert-large-uncased') # 영어 버전 -> 'klue/bert-base'사용하면 한글버전
tokenizer = AutoTokenizer.from_pretrained("bert-large-uncased")

# 입력
inputs = tokenizer('Soccer is a really fun [MASK].', return_tensors='tf')
inputs['input_ids'] # 정수인코딩 결과 확인 가능
inputs['token_type_ids'] # segment embedding값 알려줌
inputs['attention_mask'] # 어텐션 마스킹값 -> 패딩된 토큰은 0으로

#지정한 모델과 토크나이저로 마스크 토큰 예측하는 함수
from transformers import FillMaskPipeline
pip = FillMaskPipeline(model=model, tokenizer=tokenizer)

pip('Soccer is a really fun [MASK].') # 하면 [MASK]에 들어올 값 보여줌

### 2. 다음 문장 예측(Next Sentence Prediction, NSP)
![image.png](attachment:4e39a68a-2ba2-4e03-96eb-bfbe30adacbe.png)
- 두 개의 문장을 준 후에 이 문장의 의미가 이어지는 문장인지 아닌지를 정답을 주고 이진분류를 맞추는 방식으로 훈련
- 문장 끝에 [SEP]토큰을 붙이고 두 문장이 실제 이어지는 문장인지 아닌지를 [CLS] 토큰의 위치의 출력층에서 이진 분류 문제를 풀도록 함

In [None]:
# TFBertForNextSentencePrediction으로 두 문장 이어지는지 예측
import tensorflow as tf
from transformers import TFBertForNextSentencePrediction
from transformers import AutoTokenizer

model = TFBertForNextSentencePrediction.from_pretrained('bert-base-uncased')
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')

# 이어지는 문장에 대해선 tokenizer(a,b)가 유일하게 가능 -> [CLS] a [SEP] b [SEP]
encoding = tokenizer(prompt, next_sentence, return_tensors='tf') # [CLS] A [SEP] B [SEP]
# 원래는 tokenizer([a,b,c,d,...])으로 -> [CLS] A [SEP], [CLS] B [SEP],...
# tokenizer.decode(encoding['input_ids'][0]))로 원래 단어로 변환 가능

# 만들어진 모델에 인코딩 값과 segment embedding값 넣어줌
logits = model(encoding['input_ids'], token_type_ids=encoding['token_type_ids'])[0] # 마지막 층의 z값이 출력
softmax = tf.keras.layers.Softmax()
probs = softmax(logits)
print(probs) # 0이면 두 문장 이어진다, 1이면 두 문장 아무관계없다 

# - 학습에 사용한 정보
- 옵티마이저 : 아담(Adam)
- 학습률(learning rate) : 
- 가중치 감소(Weight Decay) : L2 정규화로 0.01 적용
- 드롭 아웃 : 모든 레이어에 대해서 0.1 적용
- 활성화 함수 : relu 함수가 아닌 gelu 함수
- 배치 크기(Batch size) : 256

# - Fine-Tuning예시들

### 1) 하나의 텍스트에 대한 텍스트 분류 유형(Single Text Classification)
![image.png](attachment:b940d535-28bc-4a5b-bd06-ec1de132c0d5.png)
- [CLS] 토큰은 BERT가 분류 문제를 풀기위한 특별 토큰으로 문서의 시작에 [CLS]토큰 입력
- [CLS] 토큰의 위치의 출력층에서 밀집층등을 더해 분류에 대한 예측을 진행

### 2) 하나의 텍스트에 대한 태깅 작업(Tagging)
![image.png](attachment:e653cdcf-77a5-41a5-aef0-3b08d3418b05.png)
- 품사 태깅이나 개체명 인식

### 3) 텍스트의 쌍에 대한 분류 또는 회귀 문제(Text Pair Classification or Regression)
![image.png](attachment:cc4afc75-5746-4a4c-b889-dd5c82d53174.png)
- 두 문장이 주어졌을 때, 하나의 문장이 다른 문장과 논리적으로 어떤 관계에 있는지를 분류
- [SEP]토큰을 사이로 Sentence 0 임베딩과 Sentence 1 임베딩

### 4) 질의 응답(Question Answering)
![image.png](attachment:a485054b-188c-438e-b576-fed7694916bd.png)
- 질문+ 본문을 입력해 본문의 일부분을 추출해 답변하게함

In [None]:
import torch
from torch import nn
from transformers import AutoModel, AutoTokenizer

class DnaBertWindowClassifier(nn.Module):
    def __init__(self, model_name, num_labels=2):
        super().__init__()
        self.bert = AutoModel.from_pretrained(model_name)
        hidden_size = self.bert.config.hidden_size
        self.classifier = nn.Linear(hidden_size, num_labels)

    def forward(self, input_ids, attention_mask, seq_window_counts):
        """
        input_ids: (total_windows, seq_len)
        attention_mask: (total_windows, seq_len)
        seq_window_counts: list or tensor, 윈도우가 몇 개씩 묶이는지 (batch_size 길이)
        """

        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        # last_hidden_state: (total_windows, seq_len, hidden_size)
        # 여기서 CLS 토큰 임베딩 사용
        cls_embeddings = outputs.last_hidden_state[:, 0, :]  # (total_windows, hidden_size)

        # 윈도우별 CLS 임베딩을 시퀀스별로 묶어서 평균내기
        embeddings_list = []
        start = 0
        for count in seq_window_counts:
            end = start + count
            seq_embeds = cls_embeddings[start:end]
            seq_mean = seq_embeds.mean(dim=0)  # (hidden_size,)
            embeddings_list.append(seq_mean)
            start = end
        pooled_embeds = torch.stack(embeddings_list, dim=0)  # (batch_size, hidden_size)

        logits = self.classifier(pooled_embeds)  # (batch_size, num_labels)
        return logits

# --- 사용 예시 ---

model_name = "zhihan1996/DNA_bert_6"
model = DnaBertWindowClassifier(model_name, num_labels=2)

tokenizer = AutoTokenizer.from_pretrained(model_name)

# 긴 시퀀스 2개 예시
sequences = ["ACGT" * 400, "TGCA" * 400]
labels = torch.tensor([0,1])

window_size = 512
stride = 256

# 슬라이딩 윈도우 자르기 + 토크나이징 묶기
all_input_ids = []
all_attention_mask = []
window_counts = []

for seq in sequences:
    windows = [seq[i:i+window_size] for i in range(0, len(seq)-window_size+1, stride)]
    window_counts.append(len(windows))
    encoded = tokenizer(windows, padding='max_length', truncation=True, max_length=window_size, return_tensors='pt')
    all_input_ids.append(encoded['input_ids'])
    all_attention_mask.append(encoded['attention_mask'])

input_ids = torch.cat(all_input_ids, dim=0)           # (total_windows, seq_len)
attention_mask = torch.cat(all_attention_mask, dim=0) # (total_windows, seq_len)

# 예측
logits = model(input_ids, attention_mask, window_counts)
print(logits.shape)  # (batch_size, num_labels)

# 손실 계산 예시
criterion = nn.CrossEntropyLoss()
loss = criterion(logits, labels)
loss.backward()


In [None]:
# 결과내고 다시 트랜스포머에 집어넣기
import torch
from torch import nn
from transformers import AutoModel, AutoTokenizer

class HierarchicalDnaBertClassifier(nn.Module):
    def __init__(self, model_name, num_labels=2, transformer_layers=2, transformer_heads=8, transformer_dim=768):
        super().__init__()
        # DNABERT 임베딩용 모델 (출력 임베딩 추출)
        self.bert = AutoModel.from_pretrained(model_name)
        self.hidden_size = self.bert.config.hidden_size
        
        # 윈도우 임베딩을 종합할 Transformer Encoder
        encoder_layer = nn.TransformerEncoderLayer(d_model=transformer_dim, nhead=transformer_heads)
        self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=transformer_layers)
        
        # 분류용 레이어
        self.classifier = nn.Linear(transformer_dim, num_labels)
        
    def forward(self, input_ids, attention_mask, seq_window_counts):
        """
        input_ids: (total_windows, seq_len)
        attention_mask: (total_windows, seq_len)
        seq_window_counts: list or tensor, 각 시퀀스별 윈도우 개수
        """
        # DNABERT로 윈도우 임베딩 추출 (CLS 토큰 임베딩)
        bert_outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        cls_embeddings = bert_outputs.last_hidden_state[:, 0, :]  # (total_windows, hidden_size)
        
        # 윈도우 임베딩들을 시퀀스별로 나누기
        window_embeds_list = []
        start = 0
        for count in seq_window_counts:
            end = start + count
            seq_embeds = cls_embeddings[start:end]  # (윈도우 개수, hidden_size)
            window_embeds_list.append(seq_embeds)
            start = end
        
        # 패딩해서 배치 텐서로 변환 (윈도우 개수 다를 때)
        max_windows = max(seq_window_counts)
        batch_size = len(seq_window_counts)
        
        # 패딩 마스크 생성 (윈도우가 없는 패딩 위치 True)
        pad_mask = torch.ones(batch_size, max_windows).bool().to(input_ids.device)
        padded_embeddings = torch.zeros(batch_size, max_windows, self.hidden_size).to(input_ids.device)
        
        for i, embeds in enumerate(window_embeds_list):
            length = embeds.size(0)
            padded_embeddings[i, :length, :] = embeds
            pad_mask[i, :length] = False  # 실제 윈도우 위치는 False
        
        # Transformer 입력은 (seq_len, batch, feature) 형태여야 하므로 차원 변환
        transformer_input = padded_embeddings.transpose(0,1)  # (max_windows, batch_size, hidden_size)
        
        # Transformer Encoder에 패딩 마스크 넣고 통과
        transformer_output = self.transformer_encoder(transformer_input, src_key_padding_mask=pad_mask)  # (max_windows, batch, hidden)
        
        # Transformer 출력도 (seq_len, batch, hidden) → (batch, seq_len, hidden)
        transformer_output = transformer_output.transpose(0,1)  # (batch_size, max_windows, hidden_size)
        
        # 윈도우 임베딩 시퀀스 차원 평균 (마스크 제외)
        lengths = torch.tensor(seq_window_counts, dtype=torch.float32).unsqueeze(1).to(input_ids.device)
        summed = torch.sum(transformer_output * (~pad_mask).unsqueeze(2), dim=1)
        mean_pooled = summed / lengths
        
        # 분류기 통과
        logits = self.classifier(mean_pooled)  # (batch_size, num_labels)
        
        return logits

# --- 사용 예시 ---

model_name = "zhihan1996/DNA_bert_6"
model = HierarchicalDnaBertClassifier(model_name, num_labels=2)

tokenizer = AutoTokenizer.from_pretrained(model_name)

# 긴 시퀀스 2개 예시
sequences = ["ACGT" * 400, "TGCA" * 400]
labels = torch.tensor([0,1])

window_size = 512
stride = 256

all_input_ids = []
all_attention_mask = []
window_counts = []

for seq in sequences:
    windows = [seq[i:i+window_size] for i in range(0, len(seq)-window_size+1, stride)]
    window_counts.append(len(windows))
    encoded = tokenizer(windows, padding='max_length', truncation=True, max_length=window_size, return_tensors='pt')
    all_input_ids.append(encoded['input_ids'])
    all_attention_mask.append(encoded['attention_mask'])

input_ids = torch.cat(all_input_ids, dim=0)
attention_mask = torch.cat(all_attention_mask, dim=0)

logits = model(input_ids, attention_mask, window_counts)
print(logits.shape)  # (batch_size, num_labels)

