# NIKL_SUMMARIZATION (국립국어원 문서 요약 말뭉치)

In [1]:
import json
import os, glob

## 0. 데이터가 있는 경로로 접근

In [2]:
data_path = 'data/NIKL/NIKL_SUMMARIZATION/*'

In [3]:
file_list = glob.glob(data_path)
file_list[:5]

['data/NIKL/NIKL_SUMMARIZATION\\NIKL_SC.json']

## 1. json 파일 읽기 (테스트)

In [4]:
with open('data/NIKL/NIKL_SUMMARIZATION/NIKL_SC.json', 'r', encoding='utf8') as json_file:
    load_json = json.load(json_file)

In [5]:
load_json.keys()

dict_keys(['id', 'metadata', 'data'])

In [6]:
load_json['id']

'NIKL_SC'

In [7]:
load_json['metadata']

{'title': '국립국어원 문서 요약 말뭉치',
 'creator': '국립국어원',
 'distributor': '국립국어원',
 'year': '2019',
 'sampling': '부분 추출 - 임의 추출'}

In [8]:
load_json['data'][0]

{'document_id': 'NWRW1800000021.6',
 'subclass': 'NA',
 'head': '與, 쟁점법안 대폭후퇴 끝 타결',
 'subhead': '',
 'topic_sentences': ['여야가 6일 임시국회 종료 이틀을 남기고 주요 쟁점법안 처리 문제를 일괄 타결했다.',
  '이로써 지난해 12월 10일 개회 이래 4주 동안 야당의 본회의장 불법 점거와 국회의장의 질서유지권 발동 등으로 가파르게 대치했던 정국이 정상화됐다.',
  '여야는 최대 쟁점이었던 미디어 관계 법안 8건 중 언론중재법 등 여야 간 이견이 없는 법안 2건만 이번 임시국회에서 협의 처리하고 신문·방송 겸영 허용과 대기업 방송 진출 허용 등 여야가 맞서는 6개 법안은 이른 시일 안에 합의 처리하도록 노력하기로 했다.'],
 'summary_sentences': ['한나라당 홍준표, 민주당 원혜영, 선진과 창조의 모임 문국현 원내대표는 6일 임시국회 종료 이틀을 남기고 미디어 관계 법 등 쟁점 법안 처리 방안 10개 항에 합의했다.',
  '여야는 여야 간 이견이 없는 언론중재법 등 2건만 이번에 협의 처리하고 신문·방송 겸영과 대기업 방송 진출 허용 등과 관련한 6개 쟁점 법안은 가능한 한 빨리 합의 처리하기로 했다.',
  '이로써 지난해 12월 10일 개회한 후 4주 동안 야당의 본회의장 불법 점거와 국회의장의 질서유지권 발동 등으로 대치했던 정국이 정상화됐다.']}

In [9]:
len(load_json['data'])

4389

In [10]:
document_test_topic_list = []
document_test_summary_list = []

In [11]:
for idx, value in enumerate(load_json['data']):
    topic_sentences = value['topic_sentences']
    summary_sentences = value['summary_sentences']
    concat_topic = ''
    concat_summary = ''
    
    for content in topic_sentences:
        concat_topic = concat_topic + content + " "
        
    for content in summary_sentences:
        concat_summary = concat_summary + content + " "

    document_test_topic_list.append(concat_topic)
    document_test_summary_list.append(concat_summary)

In [12]:
document_test_topic_list[0]

'여야가 6일 임시국회 종료 이틀을 남기고 주요 쟁점법안 처리 문제를 일괄 타결했다. 이로써 지난해 12월 10일 개회 이래 4주 동안 야당의 본회의장 불법 점거와 국회의장의 질서유지권 발동 등으로 가파르게 대치했던 정국이 정상화됐다. 여야는 최대 쟁점이었던 미디어 관계 법안 8건 중 언론중재법 등 여야 간 이견이 없는 법안 2건만 이번 임시국회에서 협의 처리하고 신문·방송 겸영 허용과 대기업 방송 진출 허용 등 여야가 맞서는 6개 법안은 이른 시일 안에 합의 처리하도록 노력하기로 했다. '

In [13]:
document_test_summary_list[0]

'한나라당 홍준표, 민주당 원혜영, 선진과 창조의 모임 문국현 원내대표는 6일 임시국회 종료 이틀을 남기고 미디어 관계 법 등 쟁점 법안 처리 방안 10개 항에 합의했다. 여야는 여야 간 이견이 없는 언론중재법 등 2건만 이번에 협의 처리하고 신문·방송 겸영과 대기업 방송 진출 허용 등과 관련한 6개 쟁점 법안은 가능한 한 빨리 합의 처리하기로 했다. 이로써 지난해 12월 10일 개회한 후 4주 동안 야당의 본회의장 불법 점거와 국회의장의 질서유지권 발동 등으로 대치했던 정국이 정상화됐다. '

## 2. json 파일을 하나의 리스트에 담는 함수 생성

In [14]:
# 최종적으로 원문-요약 말뭉치를 각각 담을 리스트 생성
document_topic_list = []
document_summary_list = []

In [15]:
def json_to_list(file_list):
    json_file = [file for file in file_list if file.endswith('.json')]

    for file in json_file: # 364개의 json파일
        print(file)

        with open(file, 'r', encoding='utf8') as f:
            f = json.load(f)

            for idx, value in enumerate(f['data']):
                topic_sentences = value['topic_sentences']
                summary_sentences = value['summary_sentences']
                concat_topic = ''
                concat_summary = ''

                for content in topic_sentences:
                    concat_topic = concat_topic + content + " "

                for content in summary_sentences:
                    concat_summary = concat_summary + content + " "

                document_topic_list.append(concat_topic)
                document_summary_list.append(concat_summary)

In [16]:
json_to_list(file_list)

data/NIKL/NIKL_SUMMARIZATION\NIKL_SC.json


In [17]:
len(document_topic_list)

4389

In [18]:
len(document_summary_list)

4389

In [19]:
document_topic_list[0]

'여야가 6일 임시국회 종료 이틀을 남기고 주요 쟁점법안 처리 문제를 일괄 타결했다. 이로써 지난해 12월 10일 개회 이래 4주 동안 야당의 본회의장 불법 점거와 국회의장의 질서유지권 발동 등으로 가파르게 대치했던 정국이 정상화됐다. 여야는 최대 쟁점이었던 미디어 관계 법안 8건 중 언론중재법 등 여야 간 이견이 없는 법안 2건만 이번 임시국회에서 협의 처리하고 신문·방송 겸영 허용과 대기업 방송 진출 허용 등 여야가 맞서는 6개 법안은 이른 시일 안에 합의 처리하도록 노력하기로 했다. '

In [20]:
document_summary_list[0]

'한나라당 홍준표, 민주당 원혜영, 선진과 창조의 모임 문국현 원내대표는 6일 임시국회 종료 이틀을 남기고 미디어 관계 법 등 쟁점 법안 처리 방안 10개 항에 합의했다. 여야는 여야 간 이견이 없는 언론중재법 등 2건만 이번에 협의 처리하고 신문·방송 겸영과 대기업 방송 진출 허용 등과 관련한 6개 쟁점 법안은 가능한 한 빨리 합의 처리하기로 했다. 이로써 지난해 12월 10일 개회한 후 4주 동안 야당의 본회의장 불법 점거와 국회의장의 질서유지권 발동 등으로 대치했던 정국이 정상화됐다. '