## 전처리된 wikipedia corpus 불러오기

In [1]:
import json

with open("../data/wikipedia/processed_sentences.json", 'r') as f:
    sentences = json.load(f)

In [2]:
sentences.keys()

dict_keys(['data'])

In [3]:
len(sentences['data'])

3862545

In [4]:
sentences['data'][:10]

[{'sentence': '제임스 얼 카터 주니어는 민주당 출신 미국 39대 대통령 이다.'},
 {'sentence': '지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다.'},
 {'sentence': '그의 별명이 땅콩 농부 로 알려졌다.'},
 {'sentence': '1962년 조지아 주 상원 의원 선거에서 낙선하나 그 선거가 부정선거 였음을 입증하게 되어 당선되고, 1966년 조지아 주지사 선거에 낙선하지만, 1970년 조지아 주지사를 역임했다.'},
 {'sentence': '대통령이 되기 전 조지아주 상원의원을 두번 연임했으며, 1971년부터 1975년까지 조지아 지사로 근무했다.'},
 {'sentence': '조지아 주지사로 지내면서, 미국에 사는 흑인 등용법을 내세웠다.'},
 {'sentence': '1976년 미합중국 제39대 대통령 선거에 민주당 후보로 출마하여 도덕주의 정책으로 내세워서, 많은 지지를 받고 제럴드 포드 대통령을 누르고 당선되었다.'},
 {'sentence': '카터 대통령은 에너지 개발을 촉구했으나 공화당의 반대로 무산되었다.'},
 {'sentence': '카터는 이집트와 이스라엘을 조정하여 캠프 데이비드에서 안와르 사다트 대통령과 메나헴 베긴 수상과 함께 중동 평화를 위한 캠프데이비드 협정을 체결했다.'},
 {'sentence': '이것은 공화당과 미국의 유대인 단체의 반발을 일으켰다.'}]

In [5]:
def get_sent(idx, json_data=sentences):
    return json_data['data'][idx]['sentence']

In [6]:
print(get_sent(0))
print(get_sent(1))

제임스 얼 카터 주니어는 민주당 출신 미국 39대 대통령 이다.
지미 카터는 조지아주 섬터 카운티 플레인스 마을에서 태어났다.


## Pororo를 사용한 NER 수행 예시

In [7]:
from pororo import Pororo
ner = Pororo(task='ner', lang='ko')

In [8]:
ner

[TASK]: NER
[LANG]: KO
[MODEL]: charbert.base.ko.ner

In [9]:
get_sent(0)

'제임스 얼 카터 주니어는 민주당 출신 미국 39대 대통령 이다.'

In [10]:
ner(get_sent(0))

[('제임스 얼 카터', 'PERSON'),
 (' ', 'O'),
 ('주니어', 'CIVILIZATION'),
 ('는', 'O'),
 (' ', 'O'),
 ('민주당', 'ORGANIZATION'),
 (' ', 'O'),
 ('출신', 'O'),
 (' ', 'O'),
 ('미국', 'COUNTRY'),
 (' ', 'O'),
 ('39대', 'QUANTITY'),
 (' ', 'O'),
 ('대통령', 'CIVILIZATION'),
 (' ', 'O'),
 ('이다.', 'O')]

In [11]:
ner(get_sent(1))

[('지미 카터', 'PERSON'),
 ('는', 'O'),
 (' ', 'O'),
 ('조지아주', 'LOCATION'),
 (' ', 'O'),
 ('섬터 카운티', 'LOCATION'),
 (' ', 'O'),
 ('플레인스 마을', 'LOCATION'),
 ('에서', 'O'),
 (' ', 'O'),
 ('태어났다.', 'O')]

In [12]:
for i in range(5):
    print(ner(get_sent(i)))
    print('\n')

[('제임스 얼 카터', 'PERSON'), (' ', 'O'), ('주니어', 'CIVILIZATION'), ('는', 'O'), (' ', 'O'), ('민주당', 'ORGANIZATION'), (' ', 'O'), ('출신', 'O'), (' ', 'O'), ('미국', 'COUNTRY'), (' ', 'O'), ('39대', 'QUANTITY'), (' ', 'O'), ('대통령', 'CIVILIZATION'), (' ', 'O'), ('이다.', 'O')]


[('지미 카터', 'PERSON'), ('는', 'O'), (' ', 'O'), ('조지아주', 'LOCATION'), (' ', 'O'), ('섬터 카운티', 'LOCATION'), (' ', 'O'), ('플레인스 마을', 'LOCATION'), ('에서', 'O'), (' ', 'O'), ('태어났다.', 'O')]


[('그의', 'O'), (' ', 'O'), ('별명이', 'O'), (' ', 'O'), ('땅콩', 'PLANT'), (' ', 'O'), ('농부', 'OCCUPATION'), (' ', 'O'), ('로', 'O'), (' ', 'O'), ('알려졌다.', 'O')]


[('1962년', 'DATE'), (' ', 'O'), ('조지아 주 상원 의원 선거', 'EVENT'), ('에서', 'O'), (' ', 'O'), ('낙선하나', 'O'), (' ', 'O'), ('그', 'O'), (' ', 'O'), ('선거가', 'O'), (' ', 'O'), ('부정선거', 'O'), (' ', 'O'), ('였음을', 'O'), (' ', 'O'), ('입증하게', 'O'), (' ', 'O'), ('되어', 'O'), (' ', 'O'), ('당선되고,', 'O'), (' ', 'O'), ('1966년', 'DATE'), (' ', 'O'), ('조지아 주지사 선거', 'EVENT'), ('에', 'O'), (' ', 'O'), ('낙선하지만,', 'O'), (

## Entity type 종류 확인

In [13]:
len(sentences['data'])

3862545

In [14]:
import copy

tmp = copy.deepcopy(sentences['data'][0])
tmp

{'sentence': '제임스 얼 카터 주니어는 민주당 출신 미국 39대 대통령 이다.'}

In [15]:
ner(tmp['sentence'])

[('제임스 얼 카터', 'PERSON'),
 (' ', 'O'),
 ('주니어', 'CIVILIZATION'),
 ('는', 'O'),
 (' ', 'O'),
 ('민주당', 'ORGANIZATION'),
 (' ', 'O'),
 ('출신', 'O'),
 (' ', 'O'),
 ('미국', 'COUNTRY'),
 (' ', 'O'),
 ('39대', 'QUANTITY'),
 (' ', 'O'),
 ('대통령', 'CIVILIZATION'),
 (' ', 'O'),
 ('이다.', 'O')]

In [16]:
len(ner(tmp['sentence']))

16

In [17]:
from tqdm import tqdm

type_dict = {}

for idx in tqdm(range(3000)):
    ner_result = ner(get_sent(idx))
    for item in ner_result:
        if item[1] not in type_dict:
            type_dict[item[1]] = True
        

100%|██████████| 3000/3000 [03:05<00:00, 16.14it/s]


In [18]:
type_dict

{'PERSON': True,
 'O': True,
 'CIVILIZATION': True,
 'ORGANIZATION': True,
 'COUNTRY': True,
 'QUANTITY': True,
 'LOCATION': True,
 'PLANT': True,
 'OCCUPATION': True,
 'DATE': True,
 'EVENT': True,
 'THEORY': True,
 'ARTIFACT': True,
 'ANIMAL': True,
 'TERM': True,
 'STUDY_FIELD': True,
 'MATERIAL': True,
 'CITY': True,
 'TIME': True,
 'DISEASE': True}

## ent2id.json 파일 쓰기
개체명이 주어졌을 때 그 개체에 해당하는 위키데이터 id를 대응시키는 json 파일 저장

In [19]:
from glob import glob

file_list = glob('../data/wikidata/*')
file_list[:10]

['../data/wikidata/wikidata_84.json',
 '../data/wikidata/wikidata_92.json',
 '../data/wikidata/wikidata_51.json',
 '../data/wikidata/wikidata_10.json',
 '../data/wikidata/wikidata_47.json',
 '../data/wikidata/wikidata_30.json',
 '../data/wikidata/wikidata_88.json',
 '../data/wikidata/wikidata_67.json',
 '../data/wikidata/wikidata_71.json',
 '../data/wikidata/wikidata_26.json']

In [20]:
file_list[0][26:-5]

'84'

In [21]:
'../data/wikidata/wikidata_1.json'[26:-5]

'1'

In [26]:
file_list.sort(key=lambda x: int(x[26:-5]))
file_list[:10]

['../data/wikidata/wikidata_1.json',
 '../data/wikidata/wikidata_2.json',
 '../data/wikidata/wikidata_3.json',
 '../data/wikidata/wikidata_4.json',
 '../data/wikidata/wikidata_5.json',
 '../data/wikidata/wikidata_6.json',
 '../data/wikidata/wikidata_7.json',
 '../data/wikidata/wikidata_8.json',
 '../data/wikidata/wikidata_9.json',
 '../data/wikidata/wikidata_10.json']

In [27]:
from glob import glob
import json
from tqdm import tqdm

file_list = glob('../data/wikidata/*')
file_list.sort(key=lambda x: int(x[26:-5]))

result_dict = {}
for filename in tqdm(file_list):
    with open(filename, 'r') as f:
        json_data = json.load(f)
        for ent in json_data['entities']:
            try: result_dict[ent['labels']['ko']] = ent['id']
            except: pass
            
            try:
                for alias in ent['aliases']['ko']:
                    result_dict[alias] = ent['id']
            except: pass


100%|██████████| 92/92 [20:51<00:00, 13.60s/it]


In [28]:
result_dict

{'벨기에': 'Q31',
 '벨기에 왕국': 'Q31',
 '벨기에왕국': 'Q31',
 '행복': 'Q5652293',
 '조지 워싱턴': 'Q586680',
 '잭 바우어': 'Q24',
 '더글러스 애덤스': 'Q42',
 '더글라스 애덤스': 'Q42',
 '더글러스 노엘 애덤스': 'Q42',
 '위키데이터': 'Q2013',
 '위키데이타': 'Q2013',
 '포르투갈': 'Q45',
 '남극': 'Q51',
 '음경': 'Q8124',
 '컴퓨터': 'Q68',
 '콤퓨타': 'Q68',
 '전자계산기': 'Q31087',
 '계산기': 'Q31087',
 '인터넷': 'Q5368234',
 '인터네트': 'Q75',
 '누리망': 'Q75',
 '세계망': 'Q75',
 '지구망': 'Q75',
 '뉴모노울트라마이크로스코픽실리코볼케이노코니오시스': 'Q102',
 'Supercalifragilisticexpialidocious': 'Q103',
 '11월': 'Q125',
 '사자': 'Q29383673',
 '개': 'Q16102273',
 '멍멍이': 'Q144',
 '새끼 고양이': 'Q147',
 '중화인민공화국': 'Q148',
 '중국': 'Q69512774',
 '중화': 'Q10872642',
 '브라질': 'Q2923981',
 '요크셔': 'Q1363458',
 '피자': 'Q398355',
 '파스타': 'Q496290',
 '독일': 'Q183',
 '도이칠란트': 'Q183',
 '독일연방공화국': 'Q713750',
 '조지 W. 부시': 'Q207',
 '부시': 'Q247949',
 '조지 워커 부시': 'Q207',
 '직각': 'Q16190108',
 '몰타': 'Q1518045',
 '투르': 'Q65303983',
 '디에고 벨라스케스': 'Q297',
 '칠레': 'Q298',
 '독재': 'Q317',
 '영어 위키백과': 'Q328',
 '영위백': 'Q328',
 '영어위백': 'Q328',
 '영어

In [29]:
len(result_dict)

1598195

In [30]:
result_dict['제임스 얼 카터']

'Q23685'

In [31]:
with open('../data/processed_data/ent2id.json', 'w', encoding='utf-8') as f:
    json.dump(result_dict, f, indent=4)

## entid2rel.json 파일 쓰기
개체 id가 주어졌을 때 그 개체가 가지는 모든 관계 정보를 대응시키는 json 파일 저장

In [32]:
from glob import glob
import json
from tqdm import tqdm

file_list = glob('../data/wikidata/*')
file_list.sort(key=lambda x: int(x[26:-5]))

result_dict = {}

for filename in tqdm(file_list):
    with open(filename, 'r') as f:
        json_data = json.load(f)
        
        for ent in json_data['entities']:
            tmp_rel_dict = {}
            
            for key in ent['relations']:                    
                for ent_id in ent['relations'][key]:
                    tmp_rel_dict[ent_id] = key
                    
            result_dict[ent['id']] = tmp_rel_dict


100%|██████████| 92/92 [12:57:36<00:00, 507.13s/it]   


In [33]:
len(result_dict)

92000000

In [None]:
result_dict

In [36]:
result_dict['Q31']

{'Q1088364': 'P1344',
 'Q3247091': 'P1151',
 'Q1308013': 'P1546',
 'Q7112200': 'P5125',
 'Q4916': 'P38',
 'Q232415': 'P38',
 'Q7021332': 'P1792',
 'Q1061257': 'P2852',
 'Q25648793': 'P2852',
 'Q25648794': 'P2852',
 'Q25648798': 'P2852',
 'Q1378312': 'P2853',
 'Q2335536': 'P2853',
 'Q1115035': 'P2633',
 'Q213107': 'P1313',
 'Q128267': 'P417',
 'Q31': 'P17',
 'Q25929919': 'P2959',
 'Q42311082': 'P2959',
 'Q52884026': 'P2959',
 'Q41614': 'P122',
 'Q3330103': 'P122',
 'Q3174312': 'P1552',
 'Q223933': 'P793',
 'Q1160895': 'P793',
 'Q32': 'P47',
 'Q38': 'P530',
 'Q183': 'P47',
 'Q347': 'P530',
 'Q408': 'P530',
 'Q212': 'P530',
 'Q1246': 'P530',
 'Q142': 'P47',
 'Q145': 'P530',
 'Q16': 'P530',
 'Q252': 'P530',
 'Q35': 'P530',
 'Q43': 'P530',
 'Q55': 'P47',
 'Q77': 'P530',
 'Q833': 'P530',
 'Q843': 'P530',
 'Q865': 'P530',
 'Q96': 'P530',
 'Q974': 'P530',
 'Q30': 'P530',
 'Q159': 'P530',
 'Q668': 'P530',
 'Q41': 'P530',
 'Q148': 'P530',
 'Q230': 'P530',
 'Q801': 'P530',
 'Q29999': 'P47',
 'Q28

In [37]:
with open('../data/processed_data/entid2rel.json', 'w', encoding='utf-8') as f:
    json.dump(result_dict, f, indent=4)

In [38]:
import sys

sys.getsizeof(result_dict)

5368709208

## 위키데이터(지식 그래프) id 얻는 함수 작성

In [39]:
with open('../data/processed_data/ent2id.json', 'r') as f:
    ent2id = json.load(f)

def get_entity_id(entity_name: str, ent2id=ent2id) -> str:
    """ 주어진 개체명의 위키데이터 id를 얻는 함수.
    """
    return ent2id[entity_name] if entity_name in ent2id else None


In [41]:
get_entity_id('제임스 얼 카터')

'Q23685'

## Entity가 가지는 관계 정보를 얻는 함수 작성

In [42]:
# with open('../data/processed_data/entid2rel.json', 'r') as f:
#     entid2rel = json.load(f)
    
def get_rel_info(entity_id: str, entid2rel=result_dict) -> dict:
    """ 주어진 개체 id가 가지는 관계 정보를 담은 딕셔너리를 반환하는 함수.
    """
    return entid2rel[entity_id] if entity_id in entid2rel else None

In [43]:
get_rel_info(get_entity_id('제임스 얼 카터'))

{'Q677191': 'P735',
 'Q8933847': 'P735',
 'Q4166211': 'P735',
 'Q35637': 'P166',
 'Q17144': 'P166',
 'Q27028': 'P166',
 'Q1479435': 'P166',
 'Q1126046': 'P166',
 'Q3241794': 'P166',
 'Q20203866': 'P166',
 'Q7182737': 'P166',
 'Q4744661': 'P166',
 'Q5254719': 'P166',
 'Q20745818': 'P166',
 'Q4770571': 'P166',
 'Q211692': 'P166',
 'Q6565314': 'P166',
 'Q17132005': 'P166',
 'Q4711197': 'P166',
 'Q5365910': 'P166',
 'Q2611552': 'P166',
 'Q2338107': 'P166',
 'Q2079534': 'P166',
 'Q1783222': 'P166',
 'Q3885425': 'P166',
 'Q2803223': 'P166',
 'Q1068636': 'P166',
 'Q1783970': 'P166',
 'Q47009634': 'P166',
 'Q41254': 'P166',
 'Q1542342': 'P166',
 'Q20891849': 'P166',
 'Q41977694': 'P166',
 'Q73216561': 'P166',
 'Q42591771': 'P166',
 'Q30': 'P27',
 'Q608527': 'P551',
 'Q6548118': 'P19',
 'Q11696': 'P39',
 'Q880198': 'P39',
 'Q1467287': 'P39',
 'Q20065663': 'P39',
 'Q219353': 'P26',
 'Q6111597': 'P40',
 'Q4216197': 'P40',
 'Q75766267': 'P40',
 'Q75766268': 'P40',
 'Q11220': 'P241',
 'Q10669499': 

## 문장으로부터 관계 트리플을 얻는 함수 작성

In [243]:
from itertools import permutations
import random

def sent2triple(sent: str) -> list:
    """ 문장으로부터 가능한 관계 트리플의 리스트를 얻는 함수.
    
    ex) sent = '제임스 얼 카터 주니어는 민주당 출신 미국 39대 대통령 이다.'
        
        Return:
            [
                {"sentence": "제임스 얼 카터 주니어는 민주당 출신 미국 39대 대통령 이다.",
                "subj_name": "제임스 얼 카터",
                "subj_start_pos": 0,
                "subj_end_pos": 8,
                "subj_type": "PERSON",
                "obj_name": "대통령",
                "obj_start_pos": 28,
                "obj_end_pos": 31,
                "obj_type": "CIVILIZATION",
                "relation": "~",
                
                { ...
                }
            ]
    """
    # 너무 긴 문장의 경우 제외
    if len(sent) >= 500:
        return []
    
    ner_result = ner(sent)
    
    # 인식된 각 개체명의 range 계산
    ner_result = [(item[0], item[1], len(item[0])) for item in ner_result]
    
    modified_list = []
    tmp_cnt = 0
    
    for item in ner_result:
        modified_list.append((item[0], item[1], [tmp_cnt, tmp_cnt + item[2]]))
        tmp_cnt += item[2]       
    
    # NER
    ent_list = [item for item in modified_list if item[1] != 'O']
    
    # wikidata id가 존재하는 것만 선택
    ent_list = [(item[0], get_entity_id(item[0]), item[1], item[2]) for item in ent_list if get_entity_id(item[0])]

    result_list = []
    
    # 같은 문장에 대한 관계 트리플이 너무 많아지는 것을 방지하기 위해 랜덤 샘플링
    if len(ent_list) >= 6:
        sampled_pairs = random.sample(list(permutations(ent_list, 2)), 10)
    
    else:
        sampled_pairs = list(permutations(ent_list, 2))
        
    for ent_subj, ent_obj in sampled_pairs:
        tmp_dict = {}
        tmp_rel = ""
        
        if ent_obj[1] in get_rel_info(ent_subj[1]):
            tmp_rel = get_rel_info(ent_subj[1])[ent_obj[1]]
            
            if tmp_rel:
                subj_pos = ent_subj[3]
                obj_pos = ent_obj[3]
                tmp_dict["sentence"] = sent
                
                tmp_dict["subj_name"] = ent_subj[0]
                tmp_dict["subj_start_pos"], tmp_dict["subj_end_pos"] = subj_pos[0], subj_pos[1]
                tmp_dict["subj_type"] = ent_subj[2]
                
                tmp_dict["obj_name"] = ent_obj[0]
                tmp_dict["obj_start_pos"], tmp_dict["obj_end_pos"] = obj_pos[0], obj_pos[1]
                tmp_dict["obj_type"] = ent_obj[2]
                
                tmp_dict["relation"] = tmp_rel
        
                result_list.append(tmp_dict)
            
    if len(result_list) >= 3:
        sampled_result = random.sample(result_list, 2)
    else:
        sampled_result = result_list
        
    return sampled_result


In [245]:
sent2triple(get_sent(0))

[{'sentence': '제임스 얼 카터 주니어는 민주당 출신 미국 39대 대통령 이다.',
  'subj_name': '제임스 얼 카터',
  'subj_start_pos': 0,
  'subj_end_pos': 8,
  'subj_type': 'PERSON',
  'obj_name': '미국',
  'obj_start_pos': 21,
  'obj_end_pos': 23,
  'obj_type': 'COUNTRY',
  'relation': 'P27'},
 {'sentence': '제임스 얼 카터 주니어는 민주당 출신 미국 39대 대통령 이다.',
  'subj_name': '미국',
  'subj_start_pos': 21,
  'subj_end_pos': 23,
  'subj_type': 'COUNTRY',
  'obj_name': '제임스 얼 카터',
  'obj_start_pos': 0,
  'obj_end_pos': 8,
  'obj_type': 'PERSON',
  'relation': 'P6'}]

In [246]:
sent2triple(get_sent(4))

[{'sentence': '대통령이 되기 전 조지아주 상원의원을 두번 연임했으며, 1971년부터 1975년까지 조지아 지사로 근무했다.',
  'subj_name': '조지아',
  'subj_start_pos': 47,
  'subj_end_pos': 50,
  'subj_type': 'COUNTRY',
  'obj_name': '조지아주',
  'obj_start_pos': 10,
  'obj_end_pos': 14,
  'obj_type': 'LOCATION',
  'relation': 'P1889'}]

## 전체 위키피디아 코퍼스의 문장에서 관계 트리플 추출하여 csv 파일로 저장

In [248]:
len(sentences['data'])

3862545

In [257]:
import random
random.shuffle(sentences['data'])
sentences['data'][0]

{'sentence': '모토로라 레이저 M는 모토로라 모빌리티에서 제조/판매하는 안드로이드 스마트폰이다.'}

In [258]:
sentences['data'][1]

{'sentence': '잔디로 식생된 지표지역을 잔디밭이라고 하며, 잔디나 잔디의 뿌리로 차 있는 토양표층이나, 이식 또는 증식의 목적으로 떼어낸 토양표층의 일부를 떼라고 한다.'}

In [259]:
import csv
from tqdm import tqdm
from itertools import permutations

result_csv_file = open('../data/processed_data/relation_triples.csv', 'w')
writer = csv.writer(result_csv_file, delimiter='\t')
writer.writerow(['sentence', 'subj_name', 'subj_start_pos', 'subj_end_pos', 'subj_type',
                'obj_name', 'obj_start_pos', 'obj_end_pos', 'obj_type', 'relation'])

for idx, sentence_item in enumerate(tqdm(sentences['data'])):
    tmp_result_list = sent2triple(get_sent(idx))
    
    for item in tmp_result_list:
        writer.writerow([item['sentence'], item['subj_name'], item['subj_start_pos'], item['subj_end_pos'],
                        item['subj_type'], item['obj_name'], item['obj_start_pos'], item['obj_end_pos'],
                        item['obj_type'], item['relation']])
        
result_csv_file.close()

100%|██████████| 3862545/3862545 [57:49:52<00:00, 18.55it/s]    


In [255]:
result_csv_file.close()