In [1]:
data = ['채널A 노조, 임금협상 결렬에 “쟁의조정 신청할 것”',
 '채널A 노동조합과 사측이 2020년도 임금협상안을 두고 서로 합의하지 못했다.',
 '지난 18일 채널A 노조는 사측과 마지막으로 2020년도 임금협상을 진행했으나 최종 결렬됐다.',
 '채널A 노조는 다음주 중 관련 서류를 준비해 관할 노동위원회에 노동쟁의조정신청서를 제출할 계획이다.',
 '노동쟁의 조정신청은 노조와 사측이 원만한 교섭을 통해 합의를 이루지 못하는 경우 노동위원회를 통해 구성된 조정위원회의 도움을 받아 다시 교섭 절차에 들어가는 행위다.',
 '만일 조정위원회에서도 노사 협상이 결렬되면 노조는 합법적인 쟁의(파업권)행위에 돌입할 수 있다.',
 '이날 저녁 노조는 조합원들에게 “2020년 임금협상이 오늘 2월18일자로 최종 결렬됐다.',
 '노조 집행부는 오늘 오후 긴급 중앙위원회를 열고 결렬을 선언하고 쟁의조정 신청을 결의했다 노사는 지난달 28일 이후 2주간 추가협상 기간을 가졌지만 최종 합의에 이르지 못했다”고 밝혔다.',
 '이어 노조는 “조합은 다음주 중 관련 서류를 준비해 관할 노동위원회에 조정신청서를 제출할 계획”이라고 덧붙였다.',
 '사측은 ‘임금인상률 2.2%와 일시성과급 0.3%’ 안을 제시했다.']

In [None]:
from konlpy.tag import Komoran
from transformers import AutoTokenizer, AutoModel
import torch

# 한국어 형태소 분석기 초기화
komoran = Komoran()

In [39]:
komoran.tagset

{'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ETM': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JKB': '부사격 조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JKV': '호격 조사',
 'JX': '보조사',
 'MAG': '일반 부사',
 'MAJ': '접속 부사',
 'MM': '관형사',
 'NA': '분석불능범주',
 'NF': '명사추정범주',
 'NNB': '의존 명사',
 'NNG': '일반 명사',
 'NNP': '고유 명사',
 'NP': '대명사',
 'NR': '수사',
 'NV': '용언추정범주',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SH': '한자',
 'SL': '외국어',
 'SN': '숫자',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'VA': '형용사',
 'VCN': '부정 지정사',
 'VCP': '긍정 지정사',
 'VV': '동사',
 'VX': '보조 용언',
 'XPN': '체언 접두사',
 'XR': '어근',
 'XSA': '형용사 파생 접미사',
 'XSN': '명사파생 접미사',
 'XSV': '동사 파생 접미사'}

In [40]:
pos_tags = {
    'EC': 0, 'EF': 1, 'EP': 2, 'ETM': 3, 'ETN': 4, 'IC': 5, 'JC': 6, 'JKB': 7, 'JKC': 8, 'JKG': 9,
    'JKO': 10, 'JKQ': 11, 'JKS': 12, 'JKV': 13, 'JX': 14, 'MAG': 15, 'MAJ': 16, 'MM': 17, 'NA': 18,
    'NF': 19, 'NNB': 20, 'NNG': 21, 'NNP': 22, 'NP': 23, 'NR': 24, 'NV': 25, 'SE': 26, 'SF': 27,
    'SH': 28, 'SL': 29, 'SN': 30, 'SO': 31, 'SP': 32, 'SS': 33, 'SW': 34, 'VA': 35, 'VCN': 36,
    'VCP': 37, 'VV': 38, 'VX': 39, 'XPN': 40, 'XR': 41, 'XSA': 42, 'XSN': 43, 'XSV': 44
}

def encode_pos_tags(tags):
    encoded_tags = []
    
    for tag in tags:
        if tag in pos_tags:
            encoded_tags.append(pos_tags[tag])
        else:
            encoded_tags.append(-1)
    
    return encoded_tags

# 예시 품사 태그
tags = ['NNG', 'JKB', 'VV', 'EF']

# 품사 태그를 숫자로 인코딩
encoded_tags = encode_pos_tags(tags)

print("Encoded Tags:", encoded_tags)

Encoded Tags: [21, 7, 38, 1]


In [123]:
from konlpy.tag import Komoran
from transformers import AutoTokenizer, AutoModel
import torch

# 한국어 형태소 분석기 초기화
komoran = Komoran()

# transformers 라이브러리에서 사전 학습된 한국어 BERT 모델 로드
model_name = "beomi/kcbert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

pos_tags = {
    'EC': 0, 'EF': 1, 'EP': 2, 'ETM': 3, 'ETN': 4, 'IC': 5, 'JC': 6, 'JKB': 7, 'JKC': 8, 'JKG': 9,
    'JKO': 10, 'JKQ': 11, 'JKS': 12, 'JKV': 13, 'JX': 14, 'MAG': 15, 'MAJ': 16, 'MM': 17, 'NA': 18,
    'NF': 19, 'NNB': 20, 'NNG': 21, 'NNP': 22, 'NP': 23, 'NR': 24, 'NV': 25, 'SE': 26, 'SF': 27,
    'SH': 28, 'SL': 29, 'SN': 30, 'SO': 31, 'SP': 32, 'SS': 33, 'SW': 34, 'VA': 35, 'VCN': 36,
    'VCP': 37, 'VV': 38, 'VX': 39, 'XPN': 40, 'XR': 41, 'XSA': 42, 'XSN': 43, 'XSV': 44
}

def encode_pos_tags(tags):
    encoded_tags = []
    
    for tag in tags:
        if tag in pos_tags:
            encoded_tags.append(pos_tags[tag])
        else:
            encoded_tags.append(-1)
    
    return encoded_tags

def tokenize_embed_pos_tag(sentences):
    result_list = []
    
    for sentence in sentences:
        tokens = tokenizer.tokenize(sentence)  # Tokenize the sentence
        tags = [tag for _, tag in komoran.pos(sentence)]  # Perform POS tagging
        encoded_tags = encode_pos_tags(tags)  # Encode POS tags into numeric values
        positions = [[start, end] for start, end in tokenizer.encode_plus(sentence, add_special_tokens=False, return_offsets_mapping=True)['offset_mapping']]
        # Convert positions from tuples to lists
        
        inputs = tokenizer.encode_plus(
            sentence,
            add_special_tokens=True,
            padding='max_length',
            max_length=300,
            truncation=True,
            return_tensors='pt'
        )
        outputs = model(**inputs)
        last_hidden_state = outputs.last_hidden_state.squeeze(0)
        embeddings = last_hidden_state[-1].squeeze(0)
        
        result = [embeddings, encoded_tags, positions]
        result_list.append(result)
        
    return result_list


# 문장별로 토큰화, 임베딩 벡터, 품사 태깅, 포지셔닝 추출
results = tokenize_embed_pos_tag(data)

Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertModel: ['cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'cls.predictions.decoder.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Embeddings: tensor([ 3.7576e-01, -1.3215e+00,  8.4224e-01, -1.5782e+00, -1.0149e+00,
        -2.3170e+00, -1.5906e+00, -9.3881e-01,  9.8922e-01, -2.9066e-01,
         4.9658e-02, -3.0366e-01, -3.2836e-01, -6.2521e-01,  3.3490e-01,
        -1.1752e+00,  9.8044e-01, -1.5165e+00, -5.9421e-02,  3.7111e-01,
        -2.0793e+00, -3.2911e-01, -6.1690e-01,  6.0604e-01, -1.0831e+00,
         5.1590e-01, -5.9286e-01,  1.0115e-01, -1.3634e+00, -7.1556e-01,
        -8.0782e-03,  5.6078e-01, -3.9622e-01, -1.5240e+00, -2.9132e-01,
         1.2530e+00, -7.5457e-01,  3.7362e-01, -1.0444e+00, -2.6120e+00,
        -1.2054e+00, -9.4945e-02,  5.6688e-01,  2.8198e+00,  4.5207e-01,
        -1.1342e+00, -1.2728e+00, -8.1267e-01, -4.7946e-02,  6.8568e-01,
         8.6661e-01,  7.6983e-01,  4.5389e-01, -5.5675e-02, -1.2010e+00,
        -6.9925e-01, -1.6714e-01, -6.7262e-01,  2.7782e-01, -5.2898e-01,
         1.3209e+00, -1.7948e+00, -2.4117e-02, -4.3010e-01, -1.7154e-01,
        -5.5764e-02,  1.0061e-01, -2.44

In [120]:
print(len(results))
print(len(results[0]))
print(len(results[0][0]))

10
3
768


In [121]:
print(results[0])

[tensor([ 3.7576e-01, -1.3215e+00,  8.4224e-01, -1.5782e+00, -1.0149e+00,
        -2.3170e+00, -1.5906e+00, -9.3881e-01,  9.8922e-01, -2.9066e-01,
         4.9658e-02, -3.0366e-01, -3.2836e-01, -6.2521e-01,  3.3490e-01,
        -1.1752e+00,  9.8044e-01, -1.5165e+00, -5.9421e-02,  3.7111e-01,
        -2.0793e+00, -3.2911e-01, -6.1690e-01,  6.0604e-01, -1.0831e+00,
         5.1590e-01, -5.9286e-01,  1.0115e-01, -1.3634e+00, -7.1556e-01,
        -8.0782e-03,  5.6078e-01, -3.9622e-01, -1.5240e+00, -2.9132e-01,
         1.2530e+00, -7.5457e-01,  3.7362e-01, -1.0444e+00, -2.6120e+00,
        -1.2054e+00, -9.4945e-02,  5.6688e-01,  2.8198e+00,  4.5207e-01,
        -1.1342e+00, -1.2728e+00, -8.1267e-01, -4.7946e-02,  6.8568e-01,
         8.6661e-01,  7.6983e-01,  4.5389e-01, -5.5675e-02, -1.2010e+00,
        -6.9925e-01, -1.6714e-01, -6.7262e-01,  2.7782e-01, -5.2898e-01,
         1.3209e+00, -1.7948e+00, -2.4117e-02, -4.3010e-01, -1.7154e-01,
        -5.5764e-02,  1.0061e-01, -2.4480e-01,  1.

In [126]:
results

[[tensor([ 3.7576e-01, -1.3215e+00,  8.4224e-01, -1.5782e+00, -1.0149e+00,
          -2.3170e+00, -1.5906e+00, -9.3881e-01,  9.8922e-01, -2.9066e-01,
           4.9658e-02, -3.0366e-01, -3.2836e-01, -6.2521e-01,  3.3490e-01,
          -1.1752e+00,  9.8044e-01, -1.5165e+00, -5.9421e-02,  3.7111e-01,
          -2.0793e+00, -3.2911e-01, -6.1690e-01,  6.0604e-01, -1.0831e+00,
           5.1590e-01, -5.9286e-01,  1.0115e-01, -1.3634e+00, -7.1556e-01,
          -8.0782e-03,  5.6078e-01, -3.9622e-01, -1.5240e+00, -2.9132e-01,
           1.2530e+00, -7.5457e-01,  3.7362e-01, -1.0444e+00, -2.6120e+00,
          -1.2054e+00, -9.4945e-02,  5.6688e-01,  2.8198e+00,  4.5207e-01,
          -1.1342e+00, -1.2728e+00, -8.1267e-01, -4.7946e-02,  6.8568e-01,
           8.6661e-01,  7.6983e-01,  4.5389e-01, -5.5675e-02, -1.2010e+00,
          -6.9925e-01, -1.6714e-01, -6.7262e-01,  2.7782e-01, -5.2898e-01,
           1.3209e+00, -1.7948e+00, -2.4117e-02, -4.3010e-01, -1.7154e-01,
          -5.5764e-02,  1

In [125]:
import torch
import torch.nn as nn
from transformers import AutoModel

class RelationExtractor(nn.Module):
    def __init__(self, input_size, num_relations):
        super(RelationExtractor, self).__init__()
        self.bert = AutoModel.from_pretrained("beomi/kcbert-base")
        self.fc_subject = nn.Linear(input_size, 1)
        self.fc_object = nn.Linear(input_size, 1)
        self.fc_relation = nn.Linear(input_size * 2, num_relations)

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        embeddings = outputs.last_hidden_state[:, 0, :]  # CLS token embeddings
        subject_logits = self.fc_subject(embeddings)
        object_logits = self.fc_object(embeddings)

        subject = embeddings * torch.sigmoid(subject_logits)
        object = embeddings * torch.sigmoid(object_logits)

        concat = torch.cat([subject, object], dim=-1)
        relation_logits = self.fc_relation(concat)

        return subject, object, relation_logits

# 관계 추출을 위한 모델 초기화
num_relations = 1  # subject-object 관계 하나만 추출
relation_model = RelationExtractor(768, num_relations)  # KcBERT base 모델의 hidden_size는 768입니다.

# 문장별로 관계 추출
for result in results:
    embeddings, encoded_tags, positions = result

    # 관계 추출을 위한 입력 생성
    sentence = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(positions[0][0:positions[-1][1]]))
    inputs = tokenizer.encode_plus(
        sentence,
        add_special_tokens=True,
        padding='max_length',
        max_length=300,  # Set the maximum length according to your requirements
        truncation=True,
        return_tensors='pt'
    )
    input_ids = inputs['input_ids']
    attention_mask = inputs['attention_mask']

    subject, object, relation_logits = relation_model(input_ids, attention_mask)

    # 후처리를 위해 확률값으로 변환
    subject_prob = torch.sigmoid(subject)
    object_prob = torch.sigmoid(object)
    relation_prob = torch.sigmoid(relation_logits)

    # 확률값에 해당하는 토큰을 문자열로 변환
    subject_token = tokenizer.decode(input_ids[0][subject_prob.argmax().item()], skip_special_tokens=True)
    object_token = tokenizer.decode(input_ids[0][object_prob.argmax().item()], skip_special_tokens=True)
    relation_token = tokenizer.decode(input_ids[0][relation_prob.argmax().item()], skip_special_tokens=True)

    print("Subject:", subject_token)
    print("Object:", object_token)
    print("Relation:", relation_token)
    print()

Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertModel: ['cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'cls.predictions.decoder.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 



# 최종(출력만 됨)

In [127]:
data = ['채널A 노조, 임금협상 결렬에 “쟁의조정 신청할 것”',
 '채널A 노동조합과 사측이 2020년도 임금협상안을 두고 서로 합의하지 못했다.',
 '지난 18일 채널A 노조는 사측과 마지막으로 2020년도 임금협상을 진행했으나 최종 결렬됐다.',
 '채널A 노조는 다음주 중 관련 서류를 준비해 관할 노동위원회에 노동쟁의조정신청서를 제출할 계획이다.',
 '노동쟁의 조정신청은 노조와 사측이 원만한 교섭을 통해 합의를 이루지 못하는 경우 노동위원회를 통해 구성된 조정위원회의 도움을 받아 다시 교섭 절차에 들어가는 행위다.',
 '만일 조정위원회에서도 노사 협상이 결렬되면 노조는 합법적인 쟁의(파업권)행위에 돌입할 수 있다.',
 '이날 저녁 노조는 조합원들에게 “2020년 임금협상이 오늘 2월18일자로 최종 결렬됐다.',
 '노조 집행부는 오늘 오후 긴급 중앙위원회를 열고 결렬을 선언하고 쟁의조정 신청을 결의했다 노사는 지난달 28일 이후 2주간 추가협상 기간을 가졌지만 최종 합의에 이르지 못했다”고 밝혔다.',
 '이어 노조는 “조합은 다음주 중 관련 서류를 준비해 관할 노동위원회에 조정신청서를 제출할 계획”이라고 덧붙였다.',
 '사측은 ‘임금인상률 2.2%와 일시성과급 0.3%’ 안을 제시했다.']

from konlpy.tag import Komoran
from transformers import AutoTokenizer, AutoModel
import torch

# 한국어 형태소 분석기 초기화
komoran = Komoran()

# transformers 라이브러리에서 사전 학습된 한국어 BERT 모델 로드
model_name = "beomi/kcbert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

pos_tags = {
    'EC': 0, 'EF': 1, 'EP': 2, 'ETM': 3, 'ETN': 4, 'IC': 5, 'JC': 6, 'JKB': 7, 'JKC': 8, 'JKG': 9,
    'JKO': 10, 'JKQ': 11, 'JKS': 12, 'JKV': 13, 'JX': 14, 'MAG': 15, 'MAJ': 16, 'MM': 17, 'NA': 18,
    'NF': 19, 'NNB': 20, 'NNG': 21, 'NNP': 22, 'NP': 23, 'NR': 24, 'NV': 25, 'SE': 26, 'SF': 27,
    'SH': 28, 'SL': 29, 'SN': 30, 'SO': 31, 'SP': 32, 'SS': 33, 'SW': 34, 'VA': 35, 'VCN': 36,
    'VCP': 37, 'VV': 38, 'VX': 39, 'XPN': 40, 'XR': 41, 'XSA': 42, 'XSN': 43, 'XSV': 44
}

def encode_pos_tags(tags):
    encoded_tags = []
    
    for tag in tags:
        if tag in pos_tags:
            encoded_tags.append(pos_tags[tag])
        else:
            encoded_tags.append(-1)
    
    return encoded_tags

def tokenize_embed_pos_tag(sentences):
    result_list = []
    
    for sentence in sentences:
        tokens = tokenizer.tokenize(sentence)  # Tokenize the sentence
        tags = [tag for _, tag in komoran.pos(sentence)]  # Perform POS tagging
        encoded_tags = encode_pos_tags(tags)  # Encode POS tags into numeric values
        positions = [[start, end] for start, end in tokenizer.encode_plus(sentence, add_special_tokens=False, return_offsets_mapping=True)['offset_mapping']]
        # Convert positions from tuples to lists
        
        inputs = tokenizer.encode_plus(
            sentence,
            add_special_tokens=True,
            padding='max_length',
            max_length=300,
            truncation=True,
            return_tensors='pt'
        )
        outputs = model(**inputs)
        last_hidden_state = outputs.last_hidden_state.squeeze(0)
        embeddings = last_hidden_state[-1].squeeze(0)
        
        result = [embeddings, encoded_tags, positions]
        result_list.append(result)
        
    return result_list


# 문장별로 토큰화, 임베딩 벡터, 품사 태깅, 포지셔닝 추출
results = tokenize_embed_pos_tag(data)

import torch
import torch.nn as nn
from transformers import AutoModel

class RelationExtractor(nn.Module):
    def __init__(self, input_size, num_relations):
        super(RelationExtractor, self).__init__()
        self.bert = AutoModel.from_pretrained("beomi/kcbert-base")
        self.fc_subject = nn.Linear(input_size, 1)
        self.fc_object = nn.Linear(input_size, 1)
        self.fc_relation = nn.Linear(input_size * 2, num_relations)

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        embeddings = outputs.last_hidden_state[:, 0, :]  # CLS token embeddings
        subject_logits = self.fc_subject(embeddings)
        object_logits = self.fc_object(embeddings)

        subject = embeddings * torch.sigmoid(subject_logits)
        object = embeddings * torch.sigmoid(object_logits)

        concat = torch.cat([subject, object], dim=-1)
        relation_logits = self.fc_relation(concat)

        return subject, object, relation_logits

# 관계 추출을 위한 모델 초기화
num_relations = 1  # subject-object 관계 하나만 추출
relation_model = RelationExtractor(768, num_relations)  # KcBERT base 모델의 hidden_size는 768입니다.

# 문장별로 관계 추출
for result in results:
    embeddings, encoded_tags, positions = result

    # 관계 추출을 위한 입력 생성
    sentence = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(positions[0][0:positions[-1][1]]))
    inputs = tokenizer.encode_plus(
        sentence,
        add_special_tokens=True,
        padding='max_length',
        max_length=300,  # Set the maximum length according to your requirements
        truncation=True,
        return_tensors='pt'
    )
    input_ids = inputs['input_ids']
    attention_mask = inputs['attention_mask']

    subject, object, relation_logits = relation_model(input_ids, attention_mask)

    # 후처리를 위해 확률값으로 변환
    subject_prob = torch.sigmoid(subject)
    object_prob = torch.sigmoid(object)
    relation_prob = torch.sigmoid(relation_logits)

    # 확률값에 해당하는 토큰을 문자열로 변환
    subject_token = tokenizer.decode(input_ids[0][subject_prob.argmax().item()], skip_special_tokens=True)
    object_token = tokenizer.decode(input_ids[0][object_prob.argmax().item()], skip_special_tokens=True)
    relation_token = tokenizer.decode(input_ids[0][relation_prob.argmax().item()], skip_special_tokens=True)

    print("Subject:", subject_token)
    print("Object:", object_token)
    print("Relation:", relation_token)
    print()

Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertModel: ['cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'cls.predictions.decoder.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertModel: ['cls.predictions.bias

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 

Subject: 
Object: 
Relation: 



# 수정본

In [129]:
from konlpy.tag import Komoran
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn as nn
from transformers import AutoModel

# 한국어 형태소 분석기 초기화
komoran = Komoran()

# transformers 라이브러리에서 사전 학습된 한국어 BERT 모델 로드
model_name = "beomi/kcbert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)  # 모델의 구조 정보만 가져오기 위해 add_pooling_layer=False 사용

pos_tags = {
    'EC': 0, 'EF': 1, 'EP': 2, 'ETM': 3, 'ETN': 4, 'IC': 5, 'JC': 6, 'JKB': 7, 'JKC': 8, 'JKG': 9,
    'JKO': 10, 'JKQ': 11, 'JKS': 12, 'JKV': 13, 'JX': 14, 'MAG': 15, 'MAJ': 16, 'MM': 17, 'NA': 18,
    'NF': 19, 'NNB': 20, 'NNG': 21, 'NNP': 22, 'NP': 23, 'NR': 24, 'NV': 25, 'SE': 26, 'SF': 27,
    'SH': 28, 'SL': 29, 'SN': 30, 'SO': 31, 'SP': 32, 'SS': 33, 'SW': 34, 'VA': 35, 'VCN': 36,
    'VCP': 37, 'VV': 38, 'VX': 39, 'XPN': 40, 'XR': 41, 'XSA': 42, 'XSN': 43, 'XSV': 44
}

def encode_pos_tags(tags):
    encoded_tags = []
    
    for tag in tags:
        if tag in pos_tags:
            encoded_tags.append(pos_tags[tag])
        else:
            encoded_tags.append(-1)
    
    return encoded_tags

def tokenize_embed_pos_tag(sentences):
    result_list = []
    
    for sentence in sentences:
        tokens = tokenizer.tokenize(sentence)  # Tokenize the sentence
        tags = [tag for _, tag in komoran.pos(sentence)]  # Perform POS tagging
        encoded_tags = encode_pos_tags(tags)  # Encode POS tags into numeric values
        positions = [[start, end] for start, end in tokenizer.encode_plus(sentence, add_special_tokens=False, return_offsets_mapping=True)['offset_mapping']]
        # Convert positions from tuples to lists
        
        inputs = tokenizer.encode_plus(
            sentence,
            add_special_tokens=True,
            padding='max_length',
            max_length=300,
            truncation=True,
            return_tensors='pt'
        )
        outputs = model(**inputs)
        last_hidden_state = outputs.last_hidden_state.squeeze(0)
        embeddings = last_hidden_state[-1].squeeze(0)
        
        result = [embeddings, encoded_tags, positions]
        result_list.append(result)
        
    return result_list

class RelationExtractor(nn.Module):
    def __init__(self, input_size, num_relations):
        super(RelationExtractor, self).__init__()
        self.bert = AutoModel.from_pretrained("beomi/kcbert-base", add_pooling_layer=False)  # add_pooling_layer=False 추가
        self.fc_subject = nn.Linear(input_size, 1)
        self.fc_object = nn.Linear(input_size, 1)
        self.fc_relation = nn.Linear(input_size * 2, num_relations)

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        embeddings = outputs.last_hidden_state[:, 0, :]  # CLS token embeddings
        subject_logits = self.fc_subject(embeddings)
        object_logits = self.fc_object(embeddings)

        subject = embeddings * torch.sigmoid(subject_logits)  # 시그모이드 함수 적용
        object = embeddings * torch.sigmoid(object_logits)  # 시그모이드 함수 적용

        concat = torch.cat([subject, object], dim=-1)
        relation_logits = self.fc_relation(concat)

        return subject, object, relation_logits

# 문장별로 토큰화, 임베딩 벡터, 품사 태깅, 포지셔닝 추출
results = tokenize_embed_pos_tag(data)

class_name = ['관계 없음', '관계 있음']  # 관계 분류에 대한 클래스명을 지정

# 관계 추출을 위한 모델 초기화
num_relations = len(class_name)  # 관계 분류 클래스 수에 따라 num_relations 값 설정
relation_model = RelationExtractor(768, num_relations)  # KcBERT base 모델의 hidden_size는 768입니다.

# 문장별로 관계 추출
for result in results:
    embeddings, encoded_tags, positions = result

    # 관계 추출을 위한 입력 생성
    sentence = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(positions[0][0:positions[-1][1]]))
    inputs = tokenizer.encode_plus(
        sentence,
        add_special_tokens=True,
        padding='max_length',
        max_length=300,
        truncation=True,
        return_attention_mask=True
    )
    input_ids = torch.tensor(inputs['input_ids']).unsqueeze(0)  # Convert to tensor and unsqueeze
    attention_mask = torch.tensor(inputs['attention_mask']).unsqueeze(0)  # Convert to tensor and unsqueeze

    subject, object, relation_logits = relation_model(input_ids, attention_mask)

    # 후처리를 위해 확률값으로 변환
    subject_prob = torch.sigmoid(subject)
    object_prob = torch.sigmoid(object)
    relation_prob = torch.sigmoid(relation_logits)

    # 확률값에 해당하는 토큰을 문자열로 변환
    subject_token = tokenizer.decode(input_ids[0][subject_prob.argmax().item()].item(), skip_special_tokens=True)
    object_token = tokenizer.decode(input_ids[0][object_prob.argmax().item()].item(), skip_special_tokens=True)
    relation_token = class_name[relation_prob.argmax().item()]

    print("Subject:", subject_token)
    print("Object:", object_token)
    print("Relation:", relation_token)
    print()


Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertModel: ['cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'bert.pooler.dense.bias', 'cls.predictions.decoder.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'bert.pooler.dense.weight', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at beomi/kcbert-base were not us

Subject: 
Object: 
Relation: 관계 없음

Subject: 
Object: 
Relation: 관계 없음

Subject: 
Object: 
Relation: 관계 있음

Subject: 
Object: 
Relation: 관계 없음

Subject: 
Object: 
Relation: 관계 있음

Subject: 
Object: 
Relation: 관계 있음

Subject: 
Object: 
Relation: 관계 없음

Subject: 
Object: 
Relation: 관계 있음

Subject: 
Object: 
Relation: 관계 있음

Subject: 
Object: 
Relation: 관계 없음



In [132]:
from konlpy.tag import Komoran
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn as nn
from transformers import AutoModel

data = ['채널A 노조, 임금협상 결렬에 “쟁의조정 신청할 것”',
 '채널A 노동조합과 사측이 2020년도 임금협상안을 두고 서로 합의하지 못했다.',
 '지난 18일 채널A 노조는 사측과 마지막으로 2020년도 임금협상을 진행했으나 최종 결렬됐다.',
 '채널A 노조는 다음주 중 관련 서류를 준비해 관할 노동위원회에 노동쟁의조정신청서를 제출할 계획이다.',
 '노동쟁의 조정신청은 노조와 사측이 원만한 교섭을 통해 합의를 이루지 못하는 경우 노동위원회를 통해 구성된 조정위원회의 도움을 받아 다시 교섭 절차에 들어가는 행위다.',
 '만일 조정위원회에서도 노사 협상이 결렬되면 노조는 합법적인 쟁의(파업권)행위에 돌입할 수 있다.',
 '이날 저녁 노조는 조합원들에게 “2020년 임금협상이 오늘 2월18일자로 최종 결렬됐다.',
 '노조 집행부는 오늘 오후 긴급 중앙위원회를 열고 결렬을 선언하고 쟁의조정 신청을 결의했다 노사는 지난달 28일 이후 2주간 추가협상 기간을 가졌지만 최종 합의에 이르지 못했다”고 밝혔다.',
 '이어 노조는 “조합은 다음주 중 관련 서류를 준비해 관할 노동위원회에 조정신청서를 제출할 계획”이라고 덧붙였다.',
 '사측은 ‘임금인상률 2.2%와 일시성과급 0.3%’ 안을 제시했다.']

# 한국어 형태소 분석기 초기화
komoran = Komoran()

# transformers 라이브러리에서 사전 학습된 한국어 BERT 모델 로드
model_name = "beomi/kcbert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)

pos_tags = {
    'EC': 0, 'EF': 1, 'EP': 2, 'ETM': 3, 'ETN': 4, 'IC': 5, 'JC': 6, 'JKB': 7, 'JKC': 8, 'JKG': 9,
    'JKO': 10, 'JKQ': 11, 'JKS': 12, 'JKV': 13, 'JX': 14, 'MAG': 15, 'MAJ': 16, 'MM': 17, 'NA': 18,
    'NF': 19, 'NNB': 20, 'NNG': 21, 'NNP': 22, 'NP': 23, 'NR': 24, 'NV': 25, 'SE': 26, 'SF': 27,
    'SH': 28, 'SL': 29, 'SN': 30, 'SO': 31, 'SP': 32, 'SS': 33, 'SW': 34, 'VA': 35, 'VCN': 36,
    'VCP': 37, 'VV': 38, 'VX': 39, 'XPN': 40, 'XR': 41, 'XSA': 42, 'XSN': 43, 'XSV': 44
}

def encode_pos_tags(tags):
    encoded_tags = []
    for tag in tags:
        if tag in pos_tags:
            encoded_tags.append(pos_tags[tag])
        else:
            encoded_tags.append(-1)
    return encoded_tags

def tokenize_embed_pos_tag(sentences):
    result_list = []
    for sentence in sentences:
        tokens = tokenizer.tokenize(sentence)
        tags = [tag for _, tag in komoran.pos(sentence)]
        encoded_tags = encode_pos_tags(tags)
        positions = [[start, end] for start, end in tokenizer.encode_plus(sentence, add_special_tokens=False, return_offsets_mapping=True)['offset_mapping']]
        
        inputs = tokenizer.encode_plus(
            sentence,
            add_special_tokens=True,
            padding='max_length',
            max_length=300,
            truncation=True,
            return_tensors='pt'
        )
        outputs = model(**inputs)
        last_hidden_state = outputs.last_hidden_state.squeeze(0)
        embeddings = last_hidden_state[-1].squeeze(0)
        
        result = [embeddings, encoded_tags, positions]
        result_list.append(result)
        
    return result_list

class RelationExtractor(nn.Module):
    def __init__(self, input_size):
        super(RelationExtractor, self).__init__()
        self.bert = AutoModel.from_pretrained("beomi/kcbert-base", add_pooling_layer=False)
        self.fc_subject = nn.Linear(input_size, 1)
        self.fc_object = nn.Linear(input_size, 1)
        self.fc_predicate = nn.Linear(input_size, 1)

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        embeddings = outputs.last_hidden_state[:, 0, :]
        subject_logits = self.fc_subject(embeddings)
        object_logits = self.fc_object(embeddings)
        predicate_logits = self.fc_predicate(embeddings)

        subject = embeddings * torch.sigmoid(subject_logits)
        object = embeddings * torch.sigmoid(object_logits)
        predicate = embeddings * torch.sigmoid(predicate_logits)

        return subject, object, predicate


# 문장별로 토큰화, 임베딩 벡터, 품사 태깅, 포지셔닝 추출
results = tokenize_embed_pos_tag(data)

class_name = ['관계 없음', '관계 있음']

# 관계 추출을 위한 모델 초기화
relation_model = RelationExtractor(768)

# 문장별로 관계 추출
for result in results:
    embeddings, encoded_tags, positions = result

    # 관계 추출을 위한 입력 생성
    sentence = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(positions[0][0:positions[-1][1]]))
    inputs = tokenizer.encode_plus(
        sentence,
        add_special_tokens=True,
        padding='max_length',
        max_length=300,
        truncation=True,
        return_attention_mask=True
    )
    input_ids = torch.tensor(inputs['input_ids']).unsqueeze(0)
    attention_mask = torch.tensor(inputs['attention_mask']).unsqueeze(0)

    subject, object, predicate = relation_model(input_ids, attention_mask)

    subject_prob = torch.sigmoid(subject)
    object_prob = torch.sigmoid(object)
    predicate_prob = torch.sigmoid(predicate)

    subject_token = tokenizer.decode(input_ids[0][subject_prob.argmax().item()].item(), skip_special_tokens=True)
    object_token = tokenizer.decode(input_ids[0][object_prob.argmax().item()].item(), skip_special_tokens=True)
    predicate_token = tokenizer.decode(input_ids[0][predicate_prob.argmax().item()].item(), skip_special_tokens=True)

    print("Subject:", subject_token)
    print("Object:", object_token)
    print("Predicate:", predicate_token)
    print()


Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertModel: ['cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'bert.pooler.dense.bias', 'cls.predictions.decoder.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'bert.pooler.dense.weight', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at beomi/kcbert-base were not us

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 



In [133]:
from konlpy.tag import Komoran
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn as nn

data = ['채널A 노조, 임금협상 결렬에 “쟁의조정 신청할 것”',
 '채널A 노동조합과 사측이 2020년도 임금협상안을 두고 서로 합의하지 못했다.',
 '지난 18일 채널A 노조는 사측과 마지막으로 2020년도 임금협상을 진행했으나 최종 결렬됐다.',
 '채널A 노조는 다음주 중 관련 서류를 준비해 관할 노동위원회에 노동쟁의조정신청서를 제출할 계획이다.',
 '노동쟁의 조정신청은 노조와 사측이 원만한 교섭을 통해 합의를 이루지 못하는 경우 노동위원회를 통해 구성된 조정위원회의 도움을 받아 다시 교섭 절차에 들어가는 행위다.',
 '만일 조정위원회에서도 노사 협상이 결렬되면 노조는 합법적인 쟁의(파업권)행위에 돌입할 수 있다.',
 '이날 저녁 노조는 조합원들에게 “2020년 임금협상이 오늘 2월18일자로 최종 결렬됐다.',
 '노조 집행부는 오늘 오후 긴급 중앙위원회를 열고 결렬을 선언하고 쟁의조정 신청을 결의했다 노사는 지난달 28일 이후 2주간 추가협상 기간을 가졌지만 최종 합의에 이르지 못했다”고 밝혔다.',
 '이어 노조는 “조합은 다음주 중 관련 서류를 준비해 관할 노동위원회에 조정신청서를 제출할 계획”이라고 덧붙였다.',
 '사측은 ‘임금인상률 2.2%와 일시성과급 0.3%’ 안을 제시했다.']

# 한국어 형태소 분석기 초기화
komoran = Komoran()

# transformers 라이브러리에서 사전 학습된 한국어 BERT 모델 로드
model_name = "beomi/kcbert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)

pos_tags = {
    'EC': 0, 'EF': 1, 'EP': 2, 'ETM': 3, 'ETN': 4, 'IC': 5, 'JC': 6, 'JKB': 7, 'JKC': 8, 'JKG': 9,
    'JKO': 10, 'JKQ': 11, 'JKS': 12, 'JKV': 13, 'JX': 14, 'MAG': 15, 'MAJ': 16, 'MM': 17, 'NA': 18,
    'NF': 19, 'NNB': 20, 'NNG': 21, 'NNP': 22, 'NP': 23, 'NR': 24, 'NV': 25, 'SE': 26, 'SF': 27,
    'SH': 28, 'SL': 29, 'SN': 30, 'SO': 31, 'SP': 32, 'SS': 33, 'SW': 34, 'VA': 35, 'VCN': 36,
    'VCP': 37, 'VV': 38, 'VX': 39, 'XPN': 40, 'XR': 41, 'XSA': 42, 'XSN': 43, 'XSV': 44
}

def encode_pos_tags(tags):
    encoded_tags = []
    for tag in tags:
        if tag in pos_tags:
            encoded_tags.append(pos_tags[tag])
        else:
            encoded_tags.append(-1)
    return encoded_tags

def tokenize_embed_pos_tag(sentences):
    result_list = []
    for sentence in sentences:
        tokens = tokenizer.tokenize(sentence)
        tags = [tag for _, tag in komoran.pos(sentence)]
        encoded_tags = encode_pos_tags(tags)
        positions = [[start, end] for start, end in tokenizer.encode_plus(sentence, add_special_tokens=False, return_offsets_mapping=True)['offset_mapping']]
        
        inputs = tokenizer.encode_plus(
            sentence,
            add_special_tokens=True,
            padding='max_length',
            max_length=300,
            truncation=True,
            return_tensors='pt'
        )
        outputs = model(**inputs)
        last_hidden_state = outputs.last_hidden_state.squeeze(0)
        embeddings = last_hidden_state[-1].squeeze(0)
        
        result = [embeddings, encoded_tags, positions]
        result_list.append(result)
        
    return result_list

class RelationExtractor(nn.Module):
    def __init__(self, input_size):
        super(RelationExtractor, self).__init__()
        self.bert = AutoModel.from_pretrained("beomi/kcbert-base", add_pooling_layer=False)
        self.fc_subject = nn.Linear(input_size, 1)
        self.fc_object = nn.Linear(input_size, 1)
        self.fc_predicate = nn.Linear(input_size, 1)

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        embeddings = outputs.last_hidden_state[:, 0, :]
        subject_logits = self.fc_subject(embeddings)
        object_logits = self.fc_object(embeddings)
        predicate_logits = self.fc_predicate(embeddings)

        subject = embeddings * torch.sigmoid(subject_logits)
        object = embeddings * torch.sigmoid(object_logits)
        predicate = embeddings * torch.sigmoid(predicate_logits)

        return subject, object, predicate
    

# 문장별로 토큰화, 임베딩 벡터, 품사 태깅, 포지셔닝 추출
results = tokenize_embed_pos_tag(data)

# 관계 추출을 위한 모델 초기화
relation_model = RelationExtractor(768)

# 문장별로 관계 추출
for result in results:
    embeddings, encoded_tags, positions = result

    # 관계 추출을 위한 입력 생성
    sentence = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(positions[0][0:positions[-1][1]]))
    inputs = tokenizer.encode_plus(
        sentence,
        add_special_tokens=True,
        padding='max_length',
        max_length=300,
        truncation=True,
        return_attention_mask=True
    )
    input_ids = torch.tensor(inputs['input_ids']).unsqueeze(0)
    attention_mask = torch.tensor(inputs['attention_mask']).unsqueeze(0)

    subject, object, predicate = relation_model(input_ids, attention_mask)

    subject_prob = torch.sigmoid(subject)
    object_prob = torch.sigmoid(object)
    predicate_prob = torch.sigmoid(predicate)

    subject_token = tokenizer.decode(input_ids[0][subject_prob.argmax().item()].item(), skip_special_tokens=True)
    object_token = tokenizer.decode(input_ids[0][object_prob.argmax().item()].item(), skip_special_tokens=True)
    predicate_token = tokenizer.decode(input_ids[0][predicate_prob.argmax().item()].item(), skip_special_tokens=True)

    print("Subject:", subject_token)
    print("Object:", object_token)
    print("Predicate:", predicate_token)
    print()

Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertModel: ['cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'bert.pooler.dense.bias', 'cls.predictions.decoder.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'bert.pooler.dense.weight', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at beomi/kcbert-base were not us

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 



In [134]:
from konlpy.tag import Komoran
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn as nn

data = ['채널A 노조, 임금협상 결렬에 “쟁의조정 신청할 것”',
 '채널A 노동조합과 사측이 2020년도 임금협상안을 두고 서로 합의하지 못했다.',
 '지난 18일 채널A 노조는 사측과 마지막으로 2020년도 임금협상을 진행했으나 최종 결렬됐다.',
 '채널A 노조는 다음주 중 관련 서류를 준비해 관할 노동위원회에 노동쟁의조정신청서를 제출할 계획이다.',
 '노동쟁의 조정신청은 노조와 사측이 원만한 교섭을 통해 합의를 이루지 못하는 경우 노동위원회를 통해 구성된 조정위원회의 도움을 받아 다시 교섭 절차에 들어가는 행위다.',
 '만일 조정위원회에서도 노사 협상이 결렬되면 노조는 합법적인 쟁의(파업권)행위에 돌입할 수 있다.',
 '이날 저녁 노조는 조합원들에게 “2020년 임금협상이 오늘 2월18일자로 최종 결렬됐다.',
 '노조 집행부는 오늘 오후 긴급 중앙위원회를 열고 결렬을 선언하고 쟁의조정 신청을 결의했다 노사는 지난달 28일 이후 2주간 추가협상 기간을 가졌지만 최종 합의에 이르지 못했다”고 밝혔다.',
 '이어 노조는 “조합은 다음주 중 관련 서류를 준비해 관할 노동위원회에 조정신청서를 제출할 계획”이라고 덧붙였다.',
 '사측은 ‘임금인상률 2.2%와 일시성과급 0.3%’ 안을 제시했다.']

# 한국어 형태소 분석기 초기화
komoran = Komoran()

# transformers 라이브러리에서 사전 학습된 한국어 BERT 모델 로드
model_name = "beomi/kcbert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name, add_pooling_layer=False)

pos_tags = {
    'EC': 0, 'EF': 1, 'EP': 2, 'ETM': 3, 'ETN': 4, 'IC': 5, 'JC': 6, 'JKB': 7, 'JKC': 8, 'JKG': 9,
    'JKO': 10, 'JKQ': 11, 'JKS': 12, 'JKV': 13, 'JX': 14, 'MAG': 15, 'MAJ': 16, 'MM': 17, 'NA': 18,
    'NF': 19, 'NNB': 20, 'NNG': 21, 'NNP': 22, 'NP': 23, 'NR': 24, 'NV': 25, 'SE': 26, 'SF': 27,
    'SH': 28, 'SL': 29, 'SN': 30, 'SO': 31, 'SP': 32, 'SS': 33, 'SW': 34, 'VA': 35, 'VCN': 36,
    'VCP': 37, 'VV': 38, 'VX': 39, 'XPN': 40, 'XR': 41, 'XSA': 42, 'XSN': 43, 'XSV': 44
}

def encode_pos_tags(tags):
    encoded_tags = []
    for tag in tags:
        if tag in pos_tags:
            encoded_tags.append(pos_tags[tag])
        else:
            encoded_tags.append(-1)
    return encoded_tags

def tokenize_embed_pos_tag(sentences):
    result_list = []
    for sentence in sentences:
        tokens = tokenizer.tokenize(sentence)
        tags = [tag for _, tag in komoran.pos(sentence)]
        encoded_tags = encode_pos_tags(tags)
        positions = [[start, end] for start, end in tokenizer.encode_plus(sentence, add_special_tokens=False, return_offsets_mapping=True)['offset_mapping']]
        
        inputs = tokenizer.encode_plus(
            sentence,
            add_special_tokens=True,
            padding='max_length',
            max_length=300,
            truncation=True,
            return_tensors='pt'
        )
        outputs = model(**inputs)
        last_hidden_state = outputs.last_hidden_state.squeeze(0)
        embeddings = last_hidden_state[-1].squeeze(0)
        
        result = [embeddings, encoded_tags, positions]
        result_list.append(result)
        
    return result_list

class RelationExtractor(nn.Module):
    def __init__(self, input_size):
        super(RelationExtractor, self).__init__()
        self.bert = AutoModel.from_pretrained("beomi/kcbert-base", add_pooling_layer=False)
        self.fc_subject = nn.Linear(input_size, 1)
        self.fc_object = nn.Linear(input_size, 1)
        self.fc_predicate = nn.Linear(input_size, 1)

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        embeddings = outputs.last_hidden_state[:, 0, :]
        subject_logits = self.fc_subject(embeddings)
        object_logits = self.fc_object(embeddings)
        predicate_logits = self.fc_predicate(embeddings)

        subject = embeddings * torch.sigmoid(subject_logits)
        object = embeddings * torch.sigmoid(object_logits)
        predicate = embeddings * torch.sigmoid(predicate_logits)

        return subject, object, predicate
    

# 문장별로 토큰화, 임베딩 벡터, 품사 태깅, 포지셔닝 추출
results = tokenize_embed_pos_tag(data)

# 관계 추출을 위한 모델 초기화
relation_model = RelationExtractor(768)

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
relation_model.to(device)

# 문장별로 관계 추출
for result in results:
    embeddings, encoded_tags, positions = result

    # 관계 추출을 위한 입력 생성
    sentence = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(positions[0][0:positions[-1][1]]))
    inputs = tokenizer.encode_plus(
        sentence,
        add_special_tokens=True,
        padding='max_length',
        max_length=300,
        truncation=True,
        return_attention_mask=True
    )
    input_ids = torch.tensor(inputs['input_ids']).unsqueeze(0).to(device)
    attention_mask = torch.tensor(inputs['attention_mask']).unsqueeze(0).to(device)

    subject, object, predicate = relation_model(input_ids, attention_mask)

    subject_prob = torch.sigmoid(subject)
    object_prob = torch.sigmoid(object)
    predicate_prob = torch.sigmoid(predicate)

    subject_token = tokenizer.decode(input_ids[0][subject_prob.argmax().item()].item(), skip_special_tokens=True)
    object_token = tokenizer.decode(input_ids[0][object_prob.argmax().item()].item(), skip_special_tokens=True)
    predicate_token = tokenizer.decode(input_ids[0][predicate_prob.argmax().item()].item(), skip_special_tokens=True)

    print("Subject:", subject_token)
    print("Object:", object_token)
    print("Predicate:", predicate_token)
    print()


Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertModel: ['cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'bert.pooler.dense.bias', 'cls.predictions.decoder.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'bert.pooler.dense.weight', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at beomi/kcbert-base were not us

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

Subject: 
Object: 
Predicate: 

