In [None]:
!python -m pip install transformers

In [None]:
# 2. BERT 개요 및 설치

In [None]:
# 2-1 설치 및 개념 요약

# BERT - Bidirectional Encoder Representations from Transformers
# 사전 학습(pretraining) - 대규모 코퍼스로 미리 학습된 언어 모델
# 파인튜닝(fine-tuning) - 다운스트림 태스크에 맞게 추가 학습
# Hugging Face - 사전학습된 모델과 토크나이저 제공 라이브러리

In [None]:
# 2-2 실습

from transformers import TFBertModel, BertTokenizer

# Hugging Face 에서 제공하는 TensorFlow 용 BERT 모델과 토크나이저 불러오기
model_name = 'bert-base-uncased' # 영어용 모델
# 만약 한국어라면 'klue/bert-base' 또는 'skt/kobert-base-v1' 사용 가능

# 텍스트를 BERT 입력 형태로 바꿔주는 토크나이저
tokenizer = BertTokenizer.from_pretrained(model_name)

# 사전 학습된 BERT 모델 로딩
# 정수 시퀀스 → 의미가 담긴 벡트(임베딩)으로 변환하는데 사용됨
model = TFBertModel.from_pretrained(model_name)
print("모델과 토크나이저 로딩 완료")

In [None]:
# 2-3 과제

# 과제1
'''
다른 BERT 모델 불러오기
'bert-base-cased', 'distilbert-base-uncased' 등 사용해보기
주요 함수: from_pretrained()
'''

# 과제2
'''
내 이름을 BERT에 넣어보기
tokenizer.encode("My name is Hwan.") 결과 분석
주요 함수: tokenize(), encode()
'''

# 과제3
'''
한국어 모델 로딩
'klue/bert-base', 'monologg/kobert' 등 한글 모델 로딩해보기
주요 함수: from_pretrained() 값에 klue/bert-base 모델 사용
'''

In [None]:
# 2-3

# 과제1
# 'bert-base-uncased' 외 다른 사전학습된 BERT 모델을 로딩해보기, ex) 'bert-base-cased', ...

from transformers import BertTokenizer

# from_pretrained()와 같은 함수 안에 넣는 값은 Hugging Face 에서 직접 찾아서 쓰는 것
# 모델의 이름은 Hugging Face 모델 허브에서 검색 가능
model_name = 'bert-base-cased'

# 토크나이저와 모델 로드
tokenizer = BertTokenizer.from_pretrained(model_name)

# 확인
print("모델 이름:", model_name)
print("예시 토큰화:", tokenizer.tokenize("Hello, my name is BERT."))

In [None]:
# 2-3

# 과제2
# "My name is Hwan" 문장을 tokenizer.encode()로 처리하고 결과를 출력

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

text = "My name is Hwan"

# 인코딩: 토큰 → 정수ID
tokens = tokenizer.tokenize(text)
encoded_tokens = tokenizer.convert_tokens_to_ids(tokens)
# 토큰 리스트를 정수ID로 변환하고 싶다면 convert_tokens_to_ids 함수를 사용

encoded = tokenizer.encode(text)
# encode()는 내부에서 자동으로 tokenize()를 먼저 실행함
# 즉 encode 함수엔 이미 토큰화가 진행된 토큰 리스트를 넣으면 오류가 발생함
# 또한 encode는 특수 토큰 [CLS], [SEP] 자동 추가

print("입력 문장:", text)
print("토큰화 결과:", tokens)
print("토큰 인코딩 결과:", encoded_tokens)
print("문장 인코딩 결과:", encoded)

In [None]:
# 2-3

# 과제3
# 한국어 지원 BERT 모델 중 하나를 선택하여 불러오고 간단한 문장을 토크나이즈

from transformers import BertTokenizer

model_name = "klue/bert-base"

# 한국어 모델 로딩
tokenizer = BertTokenizer.from_pretrained(model_name)

text = "안녕하세요, 저는 인공지능을 공부합니다."
tokens = tokenizer.tokenize(text)
ids = tokenizer.encode(text)

print("입력 문장:", text)
print("토큰화 결과:", tokens)
print("문장 인코딩 결과:", ids)

In [None]:
# 3. BERT 토크나이저 이해와 실습

In [None]:
# 3-1 WordPiece & 특수 토큰
'''
개념 - 설명

WordPiece - 희귀 단어를 서브워드로 분해 → 어휘집 크기 작아짐, OOV 문제 완화

[CLS] - 문장 맨 앞에 추가 ↔ 문장 전체 표현을 담는 분류 토큰

[SEP] - 문장 경계 구분, 문장쌍 입력 시 중간·끝에 삽입

[PAD] - 길이 맞추기용 패딩 토큰(0)

input_ids - 토큰 → 정수 ID 배열

attention_mask - 실제 토큰(1) / 패딩(0) 구분

token_type_ids - 문장 A(0) / 문장 B(1) 구분 (NSP·문장쌍 분류용)

tokenize, encode - 텍스트 → 토큰/ID 변환
'''

In [None]:
# 3-2 실습

from transformers import BertTokenizer

model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)

# 1) 단일 문장 토큰화
sentence = "Transformers are amazing"
enc = tokenizer(
  sentence,
  max_length=12,
  padding='max_length',
  truncation=True,
  return_tensors='tf'
)
print("1) 단일 문장 토큰화")
print(f"{enc}\n")
print(f"input_ids: {enc["input_ids"][0].numpy()}")
print(f"attention_mask: {enc["attention_mask"][0].numpy()}")

# 2) 배치(batch_size == 샘플수) 인코딩
sentences = ["Hello BERT", "I love NLP with Transformers"]
batch = tokenizer(
  sentences,
  padding=True, # 가장 긴 문장에 맞춰 패딩
  return_tensors='tf'
)
print("\n2) 배치(batch_size == 샘플수) 인코딩")
print(f"{batch}\n")
print(f"배치 input_ids shape: {batch["input_ids"].shape}")

# 3) 문장쌍 인코딩
q = "What is BERT?"
a = "BERT is a language model."
pair = tokenizer(
  q, a,
  padding="max_length",
  max_length=20,
  truncation=True,
  return_tensors="tf"
)
print("\n3) 문장쌍 인코딩")
print(f"token_type_ids: {pair["token_type_ids"][0].numpy()}")

In [None]:
# 3-3 과제

# 과제1
'''
한글 문장 "안녕 BERT"의 토큰화 결과, 인코딩 결과, 어텐션 마스크 출력
'''

# 과제2
'''
문장 3개 리스트를 길이 16으로 padding, truncation 하여 input_ids 텐서 shape 확인
'''

# 과제3
'''
문장쌍("A is faster.", "B is cheaper.") 인코딩 후 token_type_ids 에서 0,1 비율 출력
'''

In [None]:
# 3-3
# 과제1

from transformers import BertTokenizer

tok_ko = BertTokenizer.from_pretrained("klue/bert-base")

text = "안녕 BERT"

enc_ko = tok_ko(text, return_tensors="tf")

print(f"토큰화 결과: {tok_ko.tokenize(text)}")
print(f"token indices: {enc_ko["input_ids"][0].numpy()}")
print(f"mask: {enc_ko["attention_mask"][0].numpy()}")

In [None]:
# 3-3
# 과제2

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

sentences = ["Quick test", "Tokenizer padding demo", "BERT & Transformers"]

batch_p16 = tokenizer(
  sentences,
  padding="max_length",
  max_length=16,
  truncation=True,
  return_tensors="tf"
)
print(f"{batch_p16}\n")
print(f"shape: {batch_p16["input_ids"].shape}")

In [None]:
# 3-3
# 과제3

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

pair = tokenizer(
  "A is faster", "B is cheaper",
  padding="max_length",
  max_length=20,
  return_tensors="tf"
)

print(f"{pair}\n")

ttids = pair["token_type_ids"][0].numpy()
mask = pair["attention_mask"][0].numpy()
pct_0 = ((ttids == 0) & (mask == 1)).mean() * 100
pct_1 = (ttids == 1).mean() * 100
print(f"0 비율: {pct_0:.1f}% | 1 비율: {pct_1:.1f}%")

In [None]:
# 4. BERT 입력 포맷 완전 이해 & 수동 생성

In [None]:
# 4-1 BERT 입력 포맷 3가지

# 입력값 / 설명 / 예시
'''
input_ids / 토큰을 숫자ID로 변환한 배열 / [101, 2023, 2003, 1037, 2742, 102]

attention_mask / 실제 토큰(1), 패딩(0) / [1,1,1,1,1,1,0,0]

token_type_ids / 문장1(0), 문장2(1) / [0,0,0,0,1,1,1,1,1]
'''

# <포인트>
# [CLS]: 문장 시작 - 항상 맨 앞에
# [SEP]: 문장 끝 or 문장 사이 - 문장마다 1개
# 최대 길이에 맞춰 패딩(0) 추가

In [None]:
# 4-2 수동 생성 vs 자동 생성 비교

from transformers import BertTokenizer
import numpy as np

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

sentence1 = "This is a good example."
sentence2 = "This example is great."

# 자동 생성
auto = tokenizer(
  sentence1, sentence2,
  padding='max_length',
  max_length=16,
  truncation=True,
  return_tensors='tf'
)
print("[Auto]")
print(f"auto input_ids: {auto["input_ids"][0].numpy()}")
print(f"auto attention_mask: {auto["attention_mask"][0].numpy()}")
print(f"auto token_type_ids: {auto["token_type_ids"][0].numpy()}")

# 수동 생성
tokens1 = tokenizer.tokenize(sentence1)
tokens2 = tokenizer.tokenize(sentence2)

# WordPiece 토큰 리스트
tokens = ['[CLS]'] + tokens1 + ['[SEP]'] + tokens2 + ['[SEP]']
manual_input_ids = tokenizer.convert_tokens_to_ids(tokens)

# attention_mask: 전부 1
manual_attention_mask = [1]*len(manual_input_ids)

# token_type_ids: 문장1은 0, 문장2는 1, +2(cls, sep), +1(sep)
manual_token_type_ids = [0]*(len(tokens1)+2) + [1]*(len(tokens2)+1)

# 패딩 처리 (길이 16 맞추기)
max_len = 16
while len(manual_input_ids) < max_len:
  manual_input_ids.append(0)
  manual_attention_mask.append(0)
  manual_token_type_ids.append(0)
  
print("\n[Manual]")
print(f"manual input_ids: {np.array(manual_input_ids)}")
print(f"manual attention_mask: {np.array(manual_attention_mask)}")
print(f"manual token_type_ids: {np.array(manual_token_type_ids)}")

In [None]:
# 4-3 과제

# 과제1
'''
"I like AI." 문장을 수동으로 토큰화하고 input_ids 출력
'''

# 과제2
'''
"A"와 "B" 문장쌍에 대해 token_type_ids 수동 생성
'''

# 과제3
'''
자동 인코딩 결과와 수동 생성 결과 비교
'''

In [None]:
# 4-3
# 과제1

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

sentence = "I like AI."

tokens = ['[CLS]'] + tokenizer.tokenize(sentence) + ['[SEP]']
inputs_ids = tokenizer.convert_tokens_to_ids(tokens)

print(f"수동 토큰화: {tokens}\n")
print(f"수동 토큰화 후 인코딩 결과:\n{inputs_ids}")

In [None]:
# 4-3
# 과제2

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

tokens_A = tokenizer.tokenize("A")
tokens_B = tokenizer.tokenize("B")

# [CLS] A [SEP] B [SEP]
tokens = ['[CLS]'] + tokens_A + ['[SEP]'] + tokens_B + ['[SEP]']

token_type_ids = [0]*(len(tokens_A)+2) + [1]*(len(tokens_B)+1)

print("token_type_ids:", token_type_ids)

In [None]:
# 4-3
# 과제3

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

auto = tokenizer("I like AI.", return_tensors='tf')
auto_ids = auto["input_ids"][0].numpy().tolist()

tokens = ['[CLS]'] + tokenizer.tokenize("I like AI.") + ['[SEP]']
manual_ids = tokenizer.convert_tokens_to_ids(tokens)

print(f"자동 인코딩 결과: {auto_ids}")
print(f"수동 인코딩 결과: {manual_ids}")
print(f"두 결과는 동일한가? {auto_ids == manual_ids}")

In [None]:
# 5. 사전학습 BERT 임베딩

In [None]:
# 5-1 개요

# BERT 출력 / shape(배치, 토큰수, 차원) / 특징
'''
last_hidden_state / (B, L, 768) / 각 토큰별 768-D 벡터

pooler_output / (B, 768) / [CLS] 벡터 → 분류용

hidden_states / tuple(layer) / 모든 층의 출력(옵션)
'''