In [None]:
import random

# 주민등록번호와 휴대번호 데이터가 기존 데이터셋에 부재
# 가상의 주민등록번호와 휴대번호 데이터셋 생성
def generate_fake_data(num_samples):
    names = ["홍길동", "김철수", "이영희"]
    places = ["서울", "부산", "대구"]
    organizations = ["삼성", "LG", "현대"]
    phone_prefixes = ["010", "011", "016"]
    rrn_prefixes = ["990101", "850505", "770303"]

    data = []
    for _ in range(num_samples):
        name = random.choice(names)
        place = random.choice(places)
        org = random.choice(organizations)
        phone = f"{random.choice(phone_prefixes)}-{random.randint(1000, 9999)}-{random.randint(1000, 9999)}"
        rrn = f"{random.choice(rrn_prefixes)}-{random.randint(1000000, 9999999)}"

        sample = f"{name}은 {place}에 사는 {org} 직원입니다. 연락처는 {phone}이고, 주민등록번호는 {rrn}입니다."
        data.append(sample)
    return data

# 데이터셋 토큰화 및 레이블링
def tokenize_and_label(text):
    tokens = []
    labels = []
    words = text.split()
    for word in words:
        if "-" in word and word.count("-") == 2 and word.split("-")[0] in ["010", "011", "016"]:
            for i, part in enumerate(word.split("-")):
                if i == 0:
                    tokens.append(part)
                    labels.append("B-PH")
                else:
                    tokens.append(part)
                    labels.append("I-PH")
        elif "-" in word and word.count("-") == 1 and word.split("-")[0].isdigit() and len(word.split("-")[0]) == 6:
            for i, part in enumerate(word.split("-")):
                if i == 0:
                    tokens.append(part)
                    labels.append("B-RRN")
                else:
                    tokens.append(part)
                    labels.append("I-RRN")
        else:
            for char in word:
                tokens.append(char)
                labels.append("O")
    return tokens, labels

# 가상의 데이터셋 생성 및 레이블링
fake_data = generate_fake_data(2000)
tokenized_data = [tokenize_and_label(sample) for sample in fake_data]


In [None]:
fake_data

['홍길동은 부산에 사는 LG 직원입니다. 연락처는 010-4308-8150이고, 주민등록번호는 990101-7451148입니다.',
 '김철수은 서울에 사는 삼성 직원입니다. 연락처는 011-8256-8593이고, 주민등록번호는 990101-2191342입니다.',
 '김철수은 대구에 사는 현대 직원입니다. 연락처는 010-8657-2581이고, 주민등록번호는 770303-6044718입니다.',
 '김철수은 서울에 사는 LG 직원입니다. 연락처는 010-8584-8460이고, 주민등록번호는 990101-2106666입니다.',
 '이영희은 서울에 사는 현대 직원입니다. 연락처는 016-5508-6701이고, 주민등록번호는 990101-8760928입니다.',
 '홍길동은 부산에 사는 LG 직원입니다. 연락처는 016-4934-1390이고, 주민등록번호는 850505-9753780입니다.',
 '홍길동은 대구에 사는 삼성 직원입니다. 연락처는 010-2041-4652이고, 주민등록번호는 770303-1491280입니다.',
 '이영희은 대구에 사는 LG 직원입니다. 연락처는 011-9625-6517이고, 주민등록번호는 850505-2642537입니다.',
 '김철수은 서울에 사는 삼성 직원입니다. 연락처는 011-6706-7223이고, 주민등록번호는 850505-7818963입니다.',
 '이영희은 서울에 사는 삼성 직원입니다. 연락처는 011-8408-9870이고, 주민등록번호는 990101-7876736입니다.',
 '이영희은 서울에 사는 삼성 직원입니다. 연락처는 010-7042-3308이고, 주민등록번호는 770303-7245944입니다.',
 '홍길동은 부산에 사는 LG 직원입니다. 연락처는 010-8017-3781이고, 주민등록번호는 770303-9178076입니다.',
 '이영희은 부산에 사는 현대 직원입니다. 연락처는 011-2766-5103이고, 주민등록번호는 990101-8679254입니다.',
 '이영희은 부산에 사는 현대 직원입니다. 연

In [None]:
tokenized_data

[(['홍',
   '길',
   '동',
   '은',
   '부',
   '산',
   '에',
   '사',
   '는',
   'L',
   'G',
   '직',
   '원',
   '입',
   '니',
   '다',
   '.',
   '연',
   '락',
   '처',
   '는',
   '010',
   '4308',
   '8150이고,',
   '주',
   '민',
   '등',
   '록',
   '번',
   '호',
   '는',
   '990101',
   '7451148입니다.'],
  ['O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'B-PH',
   'I-PH',
   'I-PH',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'B-RRN',
   'I-RRN']),
 (['김',
   '철',
   '수',
   '은',
   '서',
   '울',
   '에',
   '사',
   '는',
   '삼',
   '성',
   '직',
   '원',
   '입',
   '니',
   '다',
   '.',
   '연',
   '락',
   '처',
   '는',
   '011',
   '8256',
   '8593이고,',
   '주',
   '민',
   '등',
   '록',
   '번',
   '호',
   '는',
   '990101',
   '2191342입니다.'],
  ['O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',
   'O',

In [None]:
# 기존 데이터 로드 및 새로운 레이블 추가 함수
def load_data_with_new_labels(file_path, new_data):
    texts, labels = [], []
    label_map = {
        'O': 0, 'B-PS': 1, 'I-PS': 2, 'B-LC': 3, 'I-LC': 4,
        'B-OG': 5, 'I-OG': 6, 'B-QT': 7, 'I-QT': 8, 'B-DT': 9,
        'I-DT': 10, 'B-TI': 11, 'I-TI': 12, 'B-LT': 13, 'I-LT': 14,
        'B-PO': 15, 'I-PO': 16, 'B-PH': 17, 'I-PH': 18, 'B-RRN': 19, 'I-RRN': 20
    }
    # 기존 데이터 로드
    with open(file_path, 'r', encoding='utf-8') as file:
        text, label = [], []
        for line in file:
            if line.startswith('##') or not line.strip():
                if text:
                    texts.append(" ".join(text))
                    labels.append([label_map[l] for l in label])
                    text, label = [], []
                continue
            parts = line.strip().split('\t')
            if len(parts) != 2:
                continue
            char, tag = parts
            text.append(char)
            label.append(tag)

    # 새로운 가상 주민등록번호 및 휴대번호 데이터셋 추가
    for tokens, tags in new_data:
        texts.append(" ".join(tokens))
        labels.append([label_map[tag] for tag in tags])

    return texts, labels

# 새로운 데이터셋 로드 및 추가
train_texts, train_labels = load_data_with_new_labels('klue-ner-v1.1_train (2).tsv', tokenized_data)
dev_texts, dev_labels = load_data_with_new_labels('klue-ner-v1.1_dev (3).tsv', tokenized_data)


In [None]:
import torch
from transformers import BertTokenizer, BertForTokenClassification
from torch.utils.data import Dataset, DataLoader

class PIIDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_len):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, item):
        text = str(self.texts[item])
        labels = self.labels[item]

        encoding = self.tokenizer.encode_plus(
            text,
            add_special_tokens=True,
            max_length=self.max_len,
            return_token_type_ids=False,
            padding='max_length',
            truncation=True,
            return_attention_mask=True,
            return_tensors='pt',
        )

        tokens = self.tokenizer.convert_ids_to_tokens(encoding['input_ids'][0])
        aligned_labels = [0] * len(tokens)
        j = 0

        for i, token in enumerate(tokens):
            if token.startswith("##"):
                continue
            if token in ["[CLS]", "[SEP]", "[PAD]"]:
                aligned_labels[i] = 0
            elif j < len(labels):
                aligned_labels[i] = labels[j]
                j += 1

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(aligned_labels, dtype=torch.long)
        }

# 토크나이저 및 데이터셋 준비
tokenizer = BertTokenizer.from_pretrained('klue/bert-base')
model = BertForTokenClassification.from_pretrained('klue/bert-base', num_labels=21)

max_len = 128
train_dataset = PIIDataset(train_texts, train_labels, tokenizer, max_len)
dev_dataset = PIIDataset(dev_texts, dev_labels, tokenizer, max_len)

train_dataloader = DataLoader(train_dataset, batch_size=32, shuffle=True)
dev_dataloader = DataLoader(dev_dataset, batch_size=32, shuffle=False)

# GPU 설정(L4 GPU 사용)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# 학습 및 평가
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir='./results',
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=32,
    per_device_eval_batch_size=32,
    num_train_epochs=5,
    weight_decay=0.01,
    logging_dir='./logs',
    logging_steps=10,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=dev_dataset
)

trainer.train()
trainer.evaluate()


Some weights of BertForTokenClassification were not initialized from the model checkpoint at klue/bert-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Epoch,Training Loss,Validation Loss
1,0.0499,0.049121
2,0.0392,0.04019
3,0.0309,0.039557
4,0.0259,0.039124
5,0.0199,0.040152


{'eval_loss': 0.04015155881643295,
 'eval_runtime': 24.7733,
 'eval_samples_per_second': 282.563,
 'eval_steps_per_second': 8.84,
 'epoch': 5.0}

In [None]:
def detect_and_mask_pii(text, model, tokenizer, device):
    model.eval()
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
    inputs = inputs.to(device)
    with torch.no_grad():
        outputs = model(**inputs)

    predictions = torch.argmax(outputs.logits, dim=2)
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])

    label_map = {
        0: 'O', 1: 'B-PS', 2: 'I-PS', 3: 'B-LC', 4: 'I-LC',
        5: 'B-OG', 6: 'I-OG', 7: 'B-QT', 8: 'I-QT', 9: 'B-DT',
        10: 'I-DT', 11: 'B-TI', 12: 'I-TI', 13: 'B-LT', 14: 'I-LT',
        15: 'B-PO', 16: 'I-PO', 17: 'B-PH', 18: 'I-PH', 19: 'B-RRN', 20: 'I-RRN'
    }
    masked_text = []
    current_mask = None
    for token, pred in zip(tokens, predictions[0]):
        if token in ["[CLS]", "[SEP]", "[PAD]"]:
            continue
        label = label_map[pred.item()]
        if label != 'O':
            if current_mask != label:
                current_mask = label
                masked_text.append(f'[MASK-{label}]')
        else:
            masked_text.append(token)
            current_mask = None

    masked_text = " ".join(masked_text)
    masked_text = masked_text.replace(" ##", "").replace(" .", ".")
    return masked_text

In [None]:
test_text = "강감찬 장군은 고려시대 인물로 , 현재 서울시 관악구 봉천동 1234번지에 그의 동상이 있습니다 . 그의 생년은 948년으로 알려져 있습니다 ."
masked_text = detect_and_mask_pii(test_text, model, tokenizer, device)
print(masked_text)

[MASK-B-PS] [MASK-I-PS] 장군은 고려시대 인물로 , 현재 [MASK-B-LC] [MASK-I-LC]4번지에 그의 동상이 있습니다. 그의 생년은 [MASK-B-DT] [MASK-I-DT]으로 알려져 있습니다.


In [None]:
test_text = "이순신의 전화번호는 010-3318-3994이다. 그의 주민등록번호는 000908-2133434이다."
masked_text = detect_and_mask_pii(test_text, model, tokenizer, device)
print(masked_text)

이순신의 전화번호 [MASK-B-RRN] [MASK-B-PH] [MASK-I-PH]18 [MASK-I-PH]94이다. 그의 주민등록번호 [MASK-B-RRN] [MASK-I-RRN]908 - 2133434이다.


In [None]:
test_text = "이순신의 전화번호는 01033183994이다. 그의 주민등록번호는 000908-2133434이다."
masked_text = detect_and_mask_pii(test_text, model, tokenizer, device)
print(masked_text)

이순신의 전화번호 [MASK-B-RRN] [MASK-B-PH]33183994이다. 그의 주민등록번호 [MASK-B-RRN] [MASK-I-RRN]908 - 2133434이다.


In [None]:
test_text = "김지민은 현재 경희대학교 근처에서 일을 하고 있으며, 의사로 일하고 있다. 그녀는 현재 이사를 고려 중이며 이사갈 곳은 서울시 동대문구 이문동 회기로이다. 그녀는 1995년 6월 29일에 태어났으며, 태어난 곳은 부산이다."
masked_text = detect_and_mask_pii(test_text, model, tokenizer, device)
print(masked_text)

[MASK-B-PS] [MASK-I-PS]은 현재 경희대학교 근처에서 일을 하고 있으며 , 의사로 일하고 있다. 그녀는 현재 이사를 고려 중이며 이사갈 곳은 [MASK-B-LC] [MASK-I-LC]로이다. 그녀는 [MASK-B-DT]년 [MASK-I-DT]에 태어났으며 , 태어난 곳은 부산이다.


In [None]:
test_text = "하진우는 지금은 부산시 금정구에 살고있는데 그의 취미는 종합격투기와 잠자기이며 그는 2000년에 태어났다."
masked_text = detect_and_mask_pii(test_text, model, tokenizer, device)
print(masked_text)

[MASK-B-PS] [MASK-I-PS]는 지금은 [MASK-B-LC] [MASK-I-LC]에 살고있는데 그의 취미는 종합격투기와 잠자기이며 그는 [MASK-B-DT]년에 태어났다.
