In [48]:
import pandas as pd
import numpy as np
from ast import literal_eval

In [52]:
def preprocessing_dataset(dataset):
    """ 처음 불러온 csv 파일을 원하는 형태의 DataFrame으로 변경 시켜줍니다."""
    subject_entities = []
    subject_idx = []
    object_entities = []
    object_idx = []
    for subject_entity, object_entity in zip(dataset['subject_entity'], dataset['object_entity']):
        subject_entity = literal_eval(subject_entity)
        object_entity = literal_eval(object_entity)

        subject_word = subject_entity['word']
        object_word = object_entity['word']

        subject_s_idx = int(subject_entity['start_idx'])
        subject_e_idx = int(subject_entity['end_idx'])

        object_s_idx = int(object_entity['start_idx'])
        object_e_idx = int(object_entity['end_idx'])

        subject_entities.append(subject_word)
        subject_idx.append([subject_s_idx, subject_e_idx])
        object_entities.append(object_word)
        object_idx.append([object_s_idx, object_e_idx])

    out_dataset = pd.DataFrame({'id':dataset['id'], 'sentence':dataset['sentence'],'subject_entity':subject_entities, 'subject_entity_idx': subject_idx,
        'object_entity':object_entities, 'object_entity_idx': object_idx,'label':dataset['label'],})
    return out_dataset

def load_data(dataset_dir):
    """ csv 파일을 경로에 맡게 불러 옵니다. """
    pd_dataset = pd.read_csv(dataset_dir)
    dataset = preprocessing_dataset(pd_dataset)
    return dataset

def print_data(data):
    print("sentence \n",data.sentence)
    print("subject :",data.subject_entity,"// object :",data.object_entity)
    print("label : ",data.label)
    print(data.subject_idx, data.object_idx)


In [53]:
train_data = load_data("../dataset/train/train.csv")

In [None]:
idx = np.random.randint(32470)
idx = 32400
# train_data

Unnamed: 0,id,sentence,subject_entity,subject_entity_idx,object_entity,object_entity_idx,label
0,0,〈Something〉는 조지 해리슨이 쓰고 비틀즈가 1969년 앨범 《Abbey R...,비틀즈,"[24, 26]",조지 해리슨,"[13, 18]",no_relation
1,1,호남이 기반인 바른미래당·대안신당·민주평화당이 우여곡절 끝에 합당해 민생당(가칭)으...,민주평화당,"[19, 23]",대안신당,"[14, 17]",no_relation
2,2,K리그2에서 성적 1위를 달리고 있는 광주FC는 지난 26일 한국프로축구연맹으로부터...,광주FC,"[21, 24]",한국프로축구연맹,"[34, 41]",org:member_of
3,3,균일가 생활용품점 (주)아성다이소(대표 박정부)는 코로나19 바이러스로 어려움을 겪...,아성다이소,"[13, 17]",박정부,"[22, 24]",org:top_members/employees
4,4,1967년 프로 야구 드래프트 1순위로 요미우리 자이언츠에게 입단하면서 등번호는 8...,요미우리 자이언츠,"[22, 30]",1967,"[0, 3]",no_relation
...,...,...,...,...,...,...,...
32465,32465,한국당은 7일 오전 9시부터 오후 5시까지 진행된 원내대표 및 정책위의장 후보자 등...,유기준,"[93, 95]",부산 서구·동구,"[100, 107]",per:employee_of
32466,32466,"법포는 다시 최시형, 서병학, 손병희 직계인 북접과 다시 서장옥, 전봉준, 김개남을...",최시형,"[7, 9]",손병희,"[17, 19]",per:colleagues
32467,32467,완도군(군수 신우철)이 국토교통부에서 실시한 '2019 교통문화지수 실태조사'에서 ...,완도군,"[0, 2]",신우철,"[7, 9]",org:top_members/employees
32468,32468,"중앙일보, JTBC 회장을 지낸 이후 중앙홀딩스 회장, 재단법인 한반도평화만들기 이...",JTBC,"[6, 9]",중앙홀딩스,"[21, 25]",no_relation


In [None]:
train_data.head()

Unnamed: 0,id,sentence,subject_entity,object_entity,label,source
0,0,〈Something〉는 조지 해리슨이 쓰고 비틀즈가 1969년 앨범 《Abbey R...,'비틀즈','조지 해리슨',no_relation,wikipedia
1,1,호남이 기반인 바른미래당·대안신당·민주평화당이 우여곡절 끝에 합당해 민생당(가칭)으...,'민주평화당','대안신당',no_relation,wikitree
2,2,K리그2에서 성적 1위를 달리고 있는 광주FC는 지난 26일 한국프로축구연맹으로부터...,'광주FC','한국프로축구연맹',org:member_of,wikitree
3,3,균일가 생활용품점 (주)아성다이소(대표 박정부)는 코로나19 바이러스로 어려움을 겪...,'아성다이소','박정부',org:top_members/employees,wikitree
4,4,1967년 프로 야구 드래프트 1순위로 요미우리 자이언츠에게 입단하면서 등번호는 8...,'요미우리 자이언츠','1967',no_relation,wikipedia


In [None]:
a = pd.crosstab(train_data.label,train_data.source,margins=True)
a.loc[a.sum(axis=1) < 200,:]

source,policy_briefing,wikipedia,wikitree,All
label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
org:dissolved,0,65,1,66
org:number_of_employees/members,3,25,20,48
org:political/religious_affiliation,0,96,2,98
per:place_of_death,0,39,1,40
per:religion,0,94,2,96
per:schools_attended,0,72,10,82


In [60]:

# custom
from tokenizers import BertWordPieceTokenizer
from Korpora import Korpora
import json
corpus = Korpora.load("kcbert")
limit_alphabet = 22000
vocab_size = 10000




    Korpora 는 다른 분들이 연구 목적으로 공유해주신 말뭉치들을
    손쉽게 다운로드, 사용할 수 있는 기능만을 제공합니다.

    말뭉치들을 공유해 주신 분들에게 감사드리며, 각 말뭉치 별 설명과 라이센스를 공유 드립니다.
    해당 말뭉치에 대해 자세히 알고 싶으신 분은 아래의 description 을 참고,
    해당 말뭉치를 연구/상용의 목적으로 이용하실 때에는 아래의 라이센스를 참고해 주시기 바랍니다.

    # Description
    Author : beomi@github
    Repository : https://github.com/Beomi/KcBERT/
    References :

    공개된 한국어 BERT는 대부분 한국어 위키, 뉴스 기사, 책 등 잘 정제된 데이터를 기반으로 학습한 모델입니다.

    한편, 실제로 NSMC와 같은 댓글형 데이터셋은 정제되지 않았고 구어체 특징에 신조어가 많으며,
    오탈자 등 공식적인 글쓰기에서 나타나지 않는 표현들이 빈번하게 등장합니다.

    KcBERT는 위와 같은 특성의 데이터셋에 적용하기 위해, 네이버 뉴스에서 댓글과 대댓글을 수집해,
    토크나이저와 BERT모델을 처음부터 학습한 Pretrained BERT 모델입니다.

    KcBERT는 Huggingface의 Transformers 라이브러리를 통해 간편히 불러와 사용할 수 있습니다.
    (별도의 파일 다운로드가 필요하지 않습니다.)

    # License
    MIT License

[Korpora] Corpus `kcbert` is already installed at /opt/ml/Korpora/kcbert/kcbert-train.tar.gzaa
[Korpora] Corpus `kcbert` is already installed at /opt/ml/Korpora/kcbert/kcbert-train.tar.gzab
[Korpora] Corpus `kcbert` is already in

TypeError: __init__() got an unexpected keyword argument 'wordpeices_prefix'

In [65]:
tokenizer = BertWordPieceTokenizer(
    clean_text = True,
    handle_chinese_chars = True,
    strip_accents = False,
    lowercase = False,
)

tokenizer.train(
    files = corpus,
    limit_alphabet = limit_alphabet, # default
    vocab_size = vocab_size # default
)
tokenizer.save("./vocab/ch-{}-wpm-{}-pretty".format(limit_alphabet, vocab_size),True)


TypeError: Can't convert <Korpora.korpus_kcbert.KcBERTKorpus object at 0x7f45f5271220> to Sequence

In [64]:
import json # import json module

vocab_path = "./vocab/ch-6000-wpm-22000-pretty"

vocab_file = './vocab/wpm-vocab-all.txt'
f = open(vocab_file,'w',encoding='utf-8')
with open(vocab_path) as json_file:
    json_data = json.load(json_file)
    for item in json_data["model"]["vocab"].keys():
        f.write(item+'\n')

    f.close()

TypeError: 'KcBERTKorpus' object is not iterable

In [None]:

test_str = ' [CLS] 나는 워드피스 토크나이저를 써요. 성능이 좋은지 테스트 해보려 합니다. [SEP]'
print('테스트 문장: ',test_str)

encoded_str = tokenizer.encode(test_str,add_special_tokens=False)
print('문장 인코딩: ',encoded_str)

decoded_str = tokenizer.decode(encoded_str)
print('문장 디코딩: ',decoded_str)

In [70]:
dev_json_path = "./klue-re-v1.1_dev.json"
from collections import defaultdict
def json_to_df(json_path):
    with open(json_path) as f:
        json_object = json.load(f)
    data = defaultdict(list)
    for dict in json_object:
        for key, value in dict.items():
            data[key].append(value) 

    df = pd.DataFrame(data)
    for key in df["subject_entity"][0].keys():
        df["subject_" + key] =  df["subject_entity"].apply(lambda x : x[key])
        df["object_" + key] =  df["object_entity"].apply(lambda x : x[key])  

    return df

In [71]:
a = json_to_df(dev_json_path)

In [73]:
a.to_csv('./eval.csv',index=False)