Named Entity Recognition (NER)은 텍스트에서 사람, 장소, 조직 같은 명명된 엔티티들을 식별하고 분류하는 자연어 처리(NLP)의 한 과제입니다. NER 시스템은 텍스트 데이터에서 중요한 정보를 추출하는 데 도움이 되어 다양한 응용 분야에서 사용됩니다. 예를 들어, 뉴스 기사에서 인물 이름, 위치, 날짜 등을 식별하거나 의료 기록에서 질병명, 약물 이름을 찾아내는 데 사용될 수 있습니다.

NER 작업은 크게 세 가지 단계로 나눌 수 있습니다:

- 1. 토큰화(Tokenization): 텍스트를 개별 단어나 구(phrase)로 나누는 과정입니다. 이 단계는 엔티티를 식별하기 위한 전처리 단계로 볼 수 있습니다.

- 2. 엔티티 식별(Entity Recognition): 토큰화된 텍스트에서 엔티티를 식별하는 단계입니다. 이 때, 사전에 정의된 엔티티 유형(예: 사람, 장소, 조직 등)을 기반으로 각 토큰이 해당하는지 여부를 판단합니다.

- 3. 엔티티 분류(Entity Classification): 식별된 엔티티를 사전에 정의된 카테고리(예: 사람 이름, 위치, 조직명 등)에 분류하는 과정입니다.

NER 시스템은 다양한 기계학습 모델과 딥러닝 모델을 사용하여 구현할 수 있으며, 이들 모델은 대량의 텍스트 데이터에서 패턴을 학습하여 엔티티를 정확하게 식별하고 분류하는 데 도움을 줍니다. 최근에는 BERT, GPT와 같은 사전학습된 언어 모델이 NER 작업에 매우 효과적임이 밝혀져, 이 분야의 발전에 큰 기여를 하고 있습니다.

In [None]:
!pip install ratsnlp
# 다운하고 꼭 세션 다시 시작 해야함



# 구글 드라이브 연동하기
모델 체크포인트 등을 저장해 둘 구글 드라이브를 연결합니다. 자신의 구글 계정에 적용됩니다.

In [None]:
from google.colab import drive
drive.mount('/gdrive', force_remount=True)

Mounted at /gdrive


NER(Named Entity Recognition) 모델 파인튜닝 데이터셋을 만들 때, 주어진 문장 "United Nations, Geneva 에서 중요한 회담을 주최한다."에 대한 태깅을 다음과 같이 진행할 수 있습니다. 이 과정에서 BIO (Beginning, Inside, Outside) 태깅 스키마를 사용하여 각 토큰(단어)에 대한 엔티티 유형과 위치를 명시합니다:

- B-ORG (Beginning of an Organization): "United"는 조직 이름의 시작 부분이므로 B-ORG 태그를 사용합니다.
- I-ORG (Inside an Organization): "Nations"는 "United Nations" 조직 이름의 일부이지만 시작 토큰이 아니므로 I-ORG 태그를 사용하여 조직 이름의 내부 부분임을 나타냅니다.
- B-LOC (Beginning of a Location): "Geneva"는 위치의 이름이며, 이 경우 독립적인 위치 엔티티이므로 B-LOC 태그를 사용합니다.
- O (Outside): "에서", "중요한", "회담을", "주최한다."는 어떤 엔티티에도 속하지 않으므로 O 태그를 사용합니다.

United Nations, Geneva 에서 중요한 회담을 주최한다.␞
United(B-ORG) Nations(I-ORG), Geneva(B-LOC) 에서(O) 중요한(O) 회담을(O) 주최한다.(O)

문장: "손흥민은 토트넘에서 활약한다."
- 공백으로 구분<br>
태그된 데이터셋 예시 (공백으로 구분):<br>
손흥민은 B-PER<br>
토트넘에서 B-ORG<br>
활약한다 O<br>
. O
- 탭으로 구분<br>
손흥민은    B-PER<br>
토트넘에서    B-ORG<br>
활약한다    O<br>
.    O

### Named Entity Recognition(NER) 태스크를 위한 데이터셋
[ 원본 문장과 태깅 정보를 포함한 문장을 구분 ]

원본 문장: "손흥민은 토트넘에서 뛰고 있다."<br>
태깅 정보: "손흥민은 \<PER> 토트넘에서 \<ORG> 뛰고 있다."

[ ␞를 사용하여 하나의 라인으로 표현 ]

손흥민은 토트넘에서 뛰고 있다.␞손흥민은 \<PER> 토트넘에서 \<ORG> 뛰고 있다.

[ CSV 파일 ]

sentence,tags<br>
"서울은 대한민국의 수도입니다.","B-LOC O B-GPE O O O"<br>
"리오넬 메시는 축구 선수입니다.","B-PER I-PER O O O"

[ JSON 형식 ]

[<br>
  {<br>
    "sentence": "서울은 대한민국의 수도입니다.",<br>
    "tags": ["B-LOC", "O", "B-GPE", "O", "O", "O"]<br>
  },<br>
  {<br>
    "sentence": "리오넬 메시는 축구 선수입니다.",<br>
    "tags": ["B-PER", "I-PER", "O", "O", "O"]<br>
  }<br>
]

[ 인라인 형식 ]

서울은[B-LOC] 대한민국의[B-GPE] 수도입니다.<br>
리오넬[B-PER] 메시[I-PER]는 축구 선수입니다.

원본 문장을 포함하는 경우
- 장점: 문장의 원래 의도와 맥락을 더 잘 이해하고 다양한 타입의 nlp 작업에 유연하게 재사용 가능
- 단점: 데이터셋의 크기가 커질 수 있으므로 저장 공간과 처리 시간에 영향을 줄 수 있다.

원본 문장을 포함하지 않는 경우
- 장점: 저장 공간을 절약하고 데이터 처리 속도를 향상시킬 수 있으며 특정 작업에만 초점을 맞추어 데이터 셋을 간결하게 유지할 수 있다.
- 단점: 유연성이 부족하며 문장의 의미나 맥락을 완전히 이해하는데 제한을 받을 수 있다.

In [None]:
# 먼저 파일을 다운로드하고 저장하는 코드를 작성합니다.
import requests

# Google Drive 공유 링크에서 파일 ID를 추출합니다.
file_id = '1RP764owqs1kZeHcjFnCX7zXt2EcjGY1i'
url = f'https://drive.google.com/uc?id={file_id}'

# 파일을 다운로드합니다.
r = requests.get(url)

# 다운로드한 파일을 로컬 시스템에 저장합니다.
file_path = './train.txt'
with open(file_path, 'wb') as file:
    file.write(r.content)

# 파일 열기 및 내용 읽기
with open(file_path, 'r') as file:
    content = file.read()

# 파일 내용 출력
print(content[:1000])

이어 옆으로 움직여 김일성의 오른쪽에서 한 차례씩 두 번 상체를 굽혀 조문했으며 이윽고 안경을 벗고 손수건으로 눈주위를 닦기도 했다.␞이어 옆으로 움직여 <김일성:PER>의 오른쪽에서 <한 차례:NOH>씩 <두 번:NOH> 상체를 굽혀 조문했으며 이윽고 안경을 벗고 손수건으로 눈주위를 닦기도 했다.
제철과일리코타치즈샐러드는 직접 만든 쫀쫀한 치즈도 맛있지만, 영귤청드레싱이 상큼함을 더한다.␞<제철과일리코타치즈샐러드:POH>는 직접 만든 쫀쫀한 치즈도 맛있지만, 영귤청드레싱이 상큼함을 더한다.
정씨는 “사고 예측을 위한 빅데이터나 전자 항해 등 그동안 알지 못했던 분야에 대해 배울 수 있는 기회였다”며 “새로운 교육이 재취업에 많은 도움이 됐다”고 말했다.␞<정:PER>씨는 “사고 예측을 위한 빅데이터나 전자 항해 등 그동안 알지 못했던 분야에 대해 배울 수 있는 기회였다”며 “새로운 교육이 재취업에 많은 도움이 됐다”고 말했다.
―효진 역의 김환희(14)가 특히 인상적이었다.␞―<효진:PER> 역의 <김환희:PER>(<14:NOH>)가 특히 인상적이었다.
전문가들은 미국 증시의 상승세가 유지되고 ‘트럼프노믹스’에 대한 불확실성이 걷히면 국내 증시도 박스권 탈출을 시도할 수 있다는 분석을 내놓았다.␞전문가들은 <미국:ORG> 증시의 상승세가 유지되고 ‘<트럼프노믹스:POH>’에 대한 불확실성이 걷히면 국내 증시도 박스권 탈출을 시도할 수 있다는 분석을 내놓았다.
‘어깨동무’와 ‘쩨쩨한 로맨스’를 연출한 김정훈 감독의 신작 ‘탐정: 더 비기닝’은 오는 9월 24일 추석에 개봉할 예정이다.␞‘<어깨동무:POH>’와 ‘<쩨쩨한 로맨스:POH>’를 연출한 <김정훈:PER> 감독의 신작 ‘<탐정: 더 비기닝:POH>’은 오는 <9월 24일 추석:DAT>에 개봉할 예정이다.
22일 마주친 상대는 진황도에 연고한 하북화하. 세르비아 출신으로 한 때 한국대표팀에 관심을 보인 ‘명장’ 라도미르 안티치(세르비아) 감독이 이끄는 하북화하는 객관적인 전력상 옌벤보다 한 수 위로 평가

In [None]:
!mkdir /gdrive/MyDrive/hjh_kita_directory/Github/kita_231026/m7_npl응용/ner_train

In [None]:
%cd /gdrive/MyDrive/hjh_kita_directory/Github/kita_231026/m7_npl응용/ner_train

/gdrive/MyDrive/hjh_kita_directory/Github/kita_231026/m7_npl응용/ner_train


https://github.com/ratsgo/ratsnlp/blob/master/ratsnlp/nlpbook/utils.py

- utils.py 에 30번째줄쯤에 구글드라이브 id 있음. 이 id를 가지고 코드로 불러 올 수 있음! 아래의 드라이브 링크 누르면 다운로드 할수 있음(train.txt, valid.txt)

https://drive.google.com/uc?id=1RP764owqs1kZeHcjFnCX7zXt2EcjGY1i

https://drive.google.com/uc?id=1bEPNWT5952rD3xjg0LfJBy3hLHry3yUL

 ### Named Entity Recognition (NER) 모델을 파인튜닝하기 위한 데이터 형태
- NER은 텍스트 데이터로부터 사람 이름, 조직명, 위치, 시간 표현, 수량, 통화 등과 같은 특정 정보를 자동으로 인식하고 분류하는 과정입니다.
- 제시된 데이터는 "원본 문장␞태그가 적용된 문장" 형태로 구성되어 있습니다. "␞"는 원본 문장과 태그가 적용된 문장을 구분하는 특별한 기호로 사용되며, 이를 통해 모델은 동일한 문장에서 정보를 인식하고, 해당 정보에 대한 카테고리(예: 인물, 조직, 시간, 수량 등)를 학습할 수 있습니다.
- 각 태그는 <내용:카테고리> 형식으로 적용되며, 여기서 내용은 식별하고자 하는 특정 엔티티를 나타내고, 카테고리는 그 엔티티의 유형을 지정합니다. 예를 들어, <김일성:PER>는 "김일성"이라는 인물 이름을 "PER"(Person의 약자) 카테고리로 분류하는 것을 나타냅니다.
- 이러한 데이터 형태를 통해 NER 모델은 텍스트에서 엔티티를 인식하고, 각 엔티티가 속하는 카테고리를 올바르게 분류하는 방법을 학습합니다.

# 각종 설정
모델 하이퍼파라메터(hyperparameter)와 저장 위치 등 설정 정보를 선언합니다.

In [None]:
import torch
from ratsnlp.nlpbook.ner import NERTrainArguments
args = NERTrainArguments(
    pretrained_model_name="beomi/kcbert-base",
    downstream_corpus_name="ner",
    downstream_model_dir="/gdrive/My Drive/nlpbook/checkpoint-ner1",
    # downstream_model_dir="/gdrive/My Drive/nlpbook/checkpoint-ner",
    batch_size=32 if torch.cuda.is_available() else 4,
    learning_rate=5e-5,
    max_seq_length=64,
    epochs=1,
    tpu_cores=0 if torch.cuda.is_available() else 8,
    # tpu 는 구글에서 딥러닝 개발할 수 있게끔 만든 것. GPU보다 좋다고 하는데 비슷한듯
    seed=7,
)

# 랜덤 시드 고정
학습 재현을 위해 랜덤 시드를 고정합니다.

In [None]:
# from ratsnlp import nlpbook
# nlpbook.set_seed(args)

# nlpbook. 안쓰고 해보기
from utils import set_seed
set_seed(args)

set seed: 7


# 로거 설정
메세지 출력 등을 위한 logger를 설정합니다.

In [None]:
# nlpbook.set_logger(args)
# https://github.com/ratsgo/ratsnlp/blob/master/ratsnlp/nlpbook/utils.py
# 210번째줄쯤부터 logger 함수 있음

from utils import set_logger
set_logger(args)

INFO:ratsnlp:Training/evaluation parameters NERTrainArguments(pretrained_model_name='beomi/kcbert-base', downstream_task_name='named-entity-recognition', downstream_corpus_name='ner', downstream_corpus_root_dir='/content/Korpora', downstream_model_dir='/gdrive/My Drive/nlpbook/checkpoint-ner', max_seq_length=64, save_top_k=1, monitor='min val_loss', seed=7, overwrite_cache=False, force_download=False, test_mode=False, learning_rate=5e-05, epochs=1, batch_size=32, cpu_workers=12, fp16=False, tpu_cores=0)
INFO:ratsnlp:Training/evaluation parameters NERTrainArguments(pretrained_model_name='beomi/kcbert-base', downstream_task_name='named-entity-recognition', downstream_corpus_name='ner', downstream_corpus_root_dir='/content/Korpora', downstream_model_dir='/gdrive/My Drive/nlpbook/checkpoint-ner', max_seq_length=64, save_top_k=1, monitor='min val_loss', seed=7, overwrite_cache=False, force_download=False, test_mode=False, learning_rate=5e-05, epochs=1, batch_size=32, cpu_workers=12, fp16=Fa

# 말뭉치 다운로드
실습에 사용할 말뭉치(NER)를 다운로드합니다.

In [None]:
# nlpbook.download_downstream_dataset(args)

from utils import download_downstream_dataset
download_downstream_dataset(args)

Downloading: 100%|██████████| 17.9M/17.9M [00:00<00:00, 79.5MB/s]
Downloading: 100%|██████████| 1.13M/1.13M [00:00<00:00, 61.9MB/s]


In [None]:
def download_downstream_dataset(args):
    data_name = args.downstream_corpus_name.lower()
    if data_name in REMOTE_DATA_MAP.keys():
        cache_dir = os.path.join(args.downstream_corpus_root_dir, data_name)
        for value in REMOTE_DATA_MAP[data_name].values():
            if "web_url" in value.keys():
                web_download(
                    url=value["web_url"],
                    save_fname=value["fname"],
                    cache_dir=cache_dir,
                    force_download=args.force_download,
                )
            else:
                google_download(
                    file_id=value["googledrive_file_id"],
                    save_fname=value["fname"],
                    cache_dir=cache_dir,
                    force_download=args.force_download
                )
    else:
        raise ValueError(f"not valid data name({data_name}), cannot download resources")

In [None]:
from utils import download_downstream_dataset
download_downstream_dataset(args)

INFO:ratsnlp:cache file(/content/Korpora/ner/train.txt) exists, using cache!
INFO:ratsnlp:cache file(/content/Korpora/ner/train.txt) exists, using cache!
INFO:ratsnlp:cache file(/content/Korpora/ner/val.txt) exists, using cache!
INFO:ratsnlp:cache file(/content/Korpora/ner/val.txt) exists, using cache!


# 토크나이저 준비
토큰화를 수행하는 토크나이저를 선언합니다

In [None]:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained(
    args.pretrained_model_name,
    do_lower_case=False,
)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


vocab.txt:   0%|          | 0.00/250k [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/619 [00:00<?, ?B/s]

# 학습데이터 구축
학습데이터를 만듭니다.

https://github.com/ratsgo/ratsnlp/blob/master/ratsnlp/nlpbook/ner/corpus.py
- 여기에서 말뭉치 처리하는 과정 볼수 있음(import NERCorpus)

In [None]:
from ratsnlp.nlpbook.ner import NERCorpus, NERDataset
from data_utils import data_collator
from torch.utils.data import DataLoader, SequentialSampler, RandomSampler
corpus = NERCorpus(args)
train_dataset = NERDataset(
    args=args,
    corpus=corpus,
    tokenizer=tokenizer,
    mode="train",
)
train_dataloader = DataLoader(
    train_dataset,
    batch_size=args.batch_size,
    sampler=RandomSampler(train_dataset, replacement=False),
    # collate_fn=nlpbook.data_collator,
    collate_fn=data_collator,
    drop_last=False,
    num_workers=args.cpu_workers,
)

INFO:ratsnlp:Loading features from cached file /content/Korpora/ner/cached_train_BertTokenizer_64_ner_named-entity-recognition [took 1.615 s]
INFO:ratsnlp:Loading features from cached file /content/Korpora/ner/cached_train_BertTokenizer_64_ner_named-entity-recognition [took 1.615 s]


# 테스트 데이터 구축
학습 중에 평가할 테스트 데이터를 구축합니다.

In [None]:
val_dataset = NERDataset(
    args=args,
    corpus=corpus,
    tokenizer=tokenizer,
    mode="val",
)
val_dataloader = DataLoader(
    val_dataset,
    batch_size=args.batch_size,
    sampler=SequentialSampler(val_dataset),
    collate_fn=data_collator,
    # collate_fn=nlpbook.data_collator,
    drop_last=False,
    num_workers=args.cpu_workers,
)


INFO:ratsnlp:Loading features from cached file /content/Korpora/ner/cached_val_BertTokenizer_64_ner_named-entity-recognition [took 0.074 s]
INFO:ratsnlp:Loading features from cached file /content/Korpora/ner/cached_val_BertTokenizer_64_ner_named-entity-recognition [took 0.074 s]


# 모델 초기화
프리트레인이 완료된 BERT 모델을 읽고, 개체명 인식 수행할 모델을 초기화합니다.

In [None]:
from transformers import BertConfig
pretrained_model_config = BertConfig.from_pretrained(
    args.pretrained_model_name,
    num_labels=corpus.num_labels,
)

In [None]:
from transformers import BertForTokenClassification
model = BertForTokenClassification.from_pretrained(
        args.pretrained_model_name,
        config=pretrained_model_config,
)

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertForTokenClassification: ['cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.bias']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForTokenClassification were not initialized from the model checkpoint at beomi/kcbert-base and are newly initialized: 

# 학습 준비
Task와 Trainer를 준비합니다.

In [None]:
from ratsnlp.nlpbook.ner import NERTask
task = NERTask(model, args)

In [None]:
trainer = nlpbook.get_trainer(args)

NameError: name 'nlpbook' is not defined

# 학습
준비한 데이터와 모델로 학습을 시작합니다. 학습 결과물(체크포인트)은 미리 연동해둔 구글 드라이브의 준비된 위치(`/gdrive/My Drive/nlpbook/checkpoint-ner`)에 저장됩니다.

In [None]:
trainer.fit(
    task,
    train_dataloaders=train_dataloader,
    val_dataloaders=val_dataloader,
)

  rank_zero_warn(f"Checkpoint directory {dirpath} exists and is not empty.")
INFO:pytorch_lightning.accelerators.gpu:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]
  rank_zero_warn(
INFO:pytorch_lightning.callbacks.model_summary:
  | Name  | Type                       | Params
-----------------------------------------------------
0 | model | BertForTokenClassification | 108 M 
-----------------------------------------------------
108 M     Trainable params
0         Non-trainable params
108 M     Total params
433.389   Total estimated model params size (MB)


Training: 0it [00:00, ?it/s]

Validation: 0it [00:00, ?it/s]