# Text Classificaiton: BERT

**텍스트 분류(Text classificaiton)** 는 입력 테스트를 미리 정의된 범주나 레이블로 할당하는 과제를 의미한다.

**BERT(Bidirectional Encoder Representations form Transformers)** 

## BertTokenizer

BERT는 워드피스 토크나이저를 사용한다.
- 워드피스 : 단어를 더 작은 서브워드 단위로 나누는 방식
    - OOV 문제 완화
    - 데이터 기반으로 토큰 집합 생성 -> 도메인 적응성 향상

**Tokenization using BERT Tokenizer**

In [1]:
from transformers import BertTokenizer

In [2]:
tokenizer = BertTokenizer.from_pretrained("google-bert/bert-base-multilingual-uncased")

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.72M [00:00<?, ?B/s]



config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

In [3]:
text = "Transformers Is so COOL"

In [4]:
encoded = tokenizer(text)
print(encoded)

{'input_ids': [101, 58263, 10127, 10297, 26462, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1]}


- `input_ids` : 입력 텍스트를 정수 인코딩으로 변환한 값
- `token_type_ids` : 입력이 여러 세그먼트로 구성된 경우 각 세그먼트를 구분하는 값
- `attention_mask` : 트랜스포머 인코더의 셀프 어텐션에 사용되는 마스크 값, 모델이 어떤 토큰을 무시해야 하는지를 지정하는 역할

In [5]:
input_ids = encoded["input_ids"]
decoded = tokenizer.decode(input_ids)
print(decoded)

2024-11-03 23:27:47.670046: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX_VNNI FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2024-11-03 23:27:47.772344: I tensorflow/core/util/util.cc:169] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-11-03 23:27:47.776119: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2024-11-03 23:27:47.776129: I tensorflow/stream_executor/cuda

[CLS] transformers is so cool [SEP]


- 전처리 단계에서 모든 문자를 소문자로 변환
    - 동일한 단어가 대소문자로 인해 다르게 표기되는 문제 해결 -> 데이터 일관성 확보
    - 대소문자를 구분하지 않으므로 어휘 사전의 크기 감소 -> 계산 효율성 향상
    - 개체명 인식 등 대소문자 구분이 중요한 과제에서는 성능이 떨어질 수 있음

## BertModel

1. 임베딩 계층
    - 입력 텍스트를 벡터 형태로 변환하는 역할
2. 인코더 계층
    - 12개의 트랜스포머 인코더 계층으로 구성
3. 풀러 계층
    - 인코더 계층의 최종 출력을 받아 [CLS] 토큰의 벡터를 추출하고 이를 요약벡터로 변환

**Structure of BERT model**

In [7]:
from transformers import BertModel

In [8]:
model = BertModel.from_pretrained("google-bert/bert-base-multilingual-uncased")

model.safetensors:   0%|          | 0.00/672M [00:00<?, ?B/s]

In [11]:
for main_name, main_module in model.named_children():
    print("Main name = ", main_name)
    for sub_name, sub_module in main_module.named_children():
        print("L", sub_name)
        for ssub_name, ssub_module in sub_module.named_children():
            print("| L", ssub_name)
            for sssub_name, sssub_module in ssub_module.named_children():
                print("| | L", sssub_name)

Main name =  embeddings
L word_embeddings
L position_embeddings
L token_type_embeddings
L LayerNorm
L dropout
Main name =  encoder
L layer
| L 0
| | L attention
| | L intermediate
| | L output
| L 1
| | L attention
| | L intermediate
| | L output
| L 2
| | L attention
| | L intermediate
| | L output
| L 3
| | L attention
| | L intermediate
| | L output
| L 4
| | L attention
| | L intermediate
| | L output
| L 5
| | L attention
| | L intermediate
| | L output
| L 6
| | L attention
| | L intermediate
| | L output
| L 7
| | L attention
| | L intermediate
| | L output
| L 8
| | L attention
| | L intermediate
| | L output
| L 9
| | L attention
| | L intermediate
| | L output
| L 10
| | L attention
| | L intermediate
| | L output
| L 11
| | L attention
| | L intermediate
| | L output
Main name =  pooler
L dense
L activation
