개체명 인식 : NER
  - 텍스트에서 특정 의미를 가진 단어나 구절을 찾아내고 분류하는 작업

In [None]:
# 홍길동은 2025년 11월 19일 서울시청에서 삼성전자 직원을 만났다
# 홍길동 - [인명]
# 2024년 1월 15일 - [날자]
# 서울시청 - [지명]
# 삼성전자 -[기관명]

# 활용분야
  # 뉴스기사 : 기사에서 인물, 장소, 기관 자동추출
  # 의료문서 : 병명, 약물명, 증상
  # 계약서 : 회사명, 날자 , 금액
  # 쳇봇 : 사용자 질문에 핵심정보 파악

# BIO 태깅
# B(Begin)   개체 시작
# I(Inside)  개체 내부
# O(Outside) 개체가 아님

In [None]:
import torch
import torch.nn as nn
from transformers import AutoTokenizer, AutoModel

In [None]:
# Bio 태깅
tokens = ["김철수는", "2024년", "1월", "15일", "서울시청에서", "삼성전자", "직원을", "만났다"]
bio_tags = ["B-PER", "B-DAT", "I-DAT", "I-DAT", "B-LOC", "B-ORG", "O", "O"]
for token, tag in zip(tokens, bio_tags):
  if tag.startswith('B-'):
    desc = f"'{tag[2:]}' 개체의 시작"
  elif tag.startswith('I-'):
    desc = f"'{tag[2:]}' 개체의 내부"
  else:
    desc = "개체가 아님"
  print(f"{token:12} | {tag:8} | {desc}")

In [None]:
# 학습데이터
train_sentences = [
    ["김철수는", "서울에", "산다"],
    ["이영희는", "2024년에", "부산으로", "이사했다"],
    ["삼성전자는", "대한민국의", "대기업이다"],
    ["박지성은", "축구선수다"],
    ["2025년", "1월", "1일은", "새해다"],
]

train_labels = [
    ["B-PER", "B-LOC", "O"],
    ["B-PER", "B-DAT", "B-LOC", "O"],
    ["B-ORG", "B-LOC", "O"],
    ["B-PER", "O"],
    ["B-DAT", "I-DAT", "I-DAT", "O"],
]

In [None]:
from ast import mod
# 토크나이져
MODEL_NAME = 'skt/kobert-base-v1'
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
text = '김철수는 서울에 산다'
#토크나이져
tokens = tokenizer.tokenize(text)
# 인코딩
encoded = tokenizer(text,return_tensors='pt')
encoded

In [None]:
# NER 모델 4단계로 구성
# 1 입력 텍스트
# 2. koBERT 인코더   문장의 의미를 이해
# 3. 분류기(Linear)  예측
# 4. 출력 라벨  B-PER O B-LOC


In [None]:
import torch.nn as nn
import numpy as np
class SimpleNERModel(nn.Module):
  def __init__(self, num_labels) -> None:
    super(SimpleNERModel, self).__init__()
    self.num_labels = num_labels
    self.bert = AutoModel.from_pretrained(MODEL_NAME)
    self.dropout = nn.Dropout(0.1)
    self.clf = nn.Linear(self.bert.config.hidden_size,  self.num_labels)
  def forward(self, input_ids, attention_maks):
    # kobert로 문자 인코딩
    outputs = self.bert(input_ids, attention_mask=attention_maks)
    # 마지막 은닉상태 추출
    sequence_output =  outputs.last_hidden_state
    # Dropout 적용
    sequence_output = self.dropout(sequence_output)
    # 분류기
    logits = self.clf(sequence_output)
    return logits
# 라벨의 개수
label_list = set([data for i in train_labels for data in i])
label_list
model = SimpleNERModel(num_labels=len(label_list))
