In [1]:
import os
import json
import pandas as pd
from tqdm import tqdm

In [39]:
allowed_topics = ['경제', '사회', '정치', '기술']

In [40]:
def read_and_combine_paragraphs(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)

    documents = data['document']
    doc_data = []

    for document in documents:
        doc_id = document['id']
        topic = document['metadata']['topic']
        
        if 'IT' in topic or '과학' in topic : 
            topic = '기술'
        
        paragraphs = document['paragraph']
        combined_text = ' '.join(paragraph['form'] for paragraph in paragraphs)
        doc_data.append({
            'id': doc_id,
            'topic': topic,
            'text': combined_text
        })

        
    df = pd.DataFrame(doc_data)
    
    return df[df['topic'].isin(allowed_topics)]

In [19]:
json_file_path = '/home/osung/data/korean/modu/json/NZRW1900000001.json'

In [41]:
df = read_and_combine_paragraphs(json_file_path)

In [42]:
df['topic']

0       경제
1       사회
2       경제
3       정치
4       기술
        ..
2107    사회
2108    사회
2109    기술
2110    기술
2120    사회
Name: topic, Length: 1134, dtype: object

In [43]:
df.topic.unique()

array(['경제', '사회', '정치', '기술'], dtype=object)

In [44]:
df.iloc[0]

id                                      NWRW1900000055.467
topic                                                   경제
text     차명계좌 관련 주요 사건 개요   차명계좌 관련 내용 진행상황 이건희삼성전자 회장 ...
Name: 0, dtype: object

In [46]:
directory_path = '/home/osung/data/korean/modu/json'

In [52]:
combined_df = pd.DataFrame()

json_files = [f for f in os.listdir(directory_path) if f.endswith('.json')]
    
for filename in tqdm(json_files, desc="Processing JSON files"):
    if filename.endswith('.json'):
        file_path = os.path.join(directory_path, filename)
        df = read_and_combine_paragraphs(file_path)
        combined_df = pd.concat([combined_df, df], ignore_index=True)

Processing JSON files: 100%|██████████████████| 468/468 [05:39<00:00,  1.38it/s]


In [53]:
len(combined_df)

3611424

In [54]:
combined_df.shape

(3611424, 3)

In [55]:
combined_df['topic'].unique()

array(['사회', '기술', '경제', '정치'], dtype=object)

In [58]:
combined_df.to_csv(directory_path + '/combined_news.tsv', sep='\t', index=False)

In [59]:
combined_df['topic'].value_counts()

사회    1808896
경제     864427
정치     555588
기술     382513
Name: topic, dtype: int64

In [62]:
from gensim.summarization import keywords

ModuleNotFoundError: No module named 'gensim.summarization'

In [64]:
!pip install gensim.summarization

/bin/bash: /home/osung/anaconda3/envs/diffusion/lib/libtinfo.so.6: no version information available (required by /bin/bash)
[31mERROR: Could not find a version that satisfies the requirement gensim.summarization (from versions: none)[0m[31m
[0m[31mERROR: No matching distribution found for gensim.summarization[0m[31m
[0m

In [63]:
from gensim.summarization import keywords

ModuleNotFoundError: No module named 'gensim.summarization'

In [68]:
df.iloc[2].text

'윤호중 “인력 전혀 안줄여 놀라” 검찰 개혁 비협조 비판 검찰이 검경 수사권 조정이 됐는데도 기소권 중심의 조직으로 개편하거나 수사권 인력을 전혀 조정하지 않고 있다는 지적이 제기돼 주목된다. 특히 이것이 검찰이 수사권 조정을 흔쾌히 받아들이지 않고 있고, 검찰개혁에 협조하지 않으려는 것 아니냐는 목소리도 나왔다. 윤호중 국회 법제사법위원장은 7일 더불어민주당 당대표 회의실에서 열린 ‘더불어민주당 검찰개혁특위 3차회의’에서 이같이 전했다. 윤 위원장은 특위 출범 후 엊그제 2차회의에서 검경 수사권 조정후 검찰의 이행 상황 현황을 점검한 결과 “검찰개혁특위를 즉각 가동해 중단없는 2단계 검찰개혁에 착수한 일을 정말 잘했구나라고 확인했다”고 지적했다. 그 이유를 두고 윤 위원장은 “검찰이 직접 수사해오던 범위가 대폭 축소돼 6대 범죄 중에서도 중대 규모 범죄에 대해서만 수사하게 돼 있고 검찰의 직접 수사건수도 4분의 1 이하로 줄어들게 됐는데도 검찰은 그동안 운영해왔던 검찰 수사 인력을 전혀 조정하지 않고 있었다”며 “수사권이 줄었으니 기소권을 중심으로 운영하려면 기소권 중심으로 개편해야 하는데, 이 또한 전혀 이뤄지지 않고 있었다”고 전했다. 윤 위원장은 위원들이 다들 굉장히 놀랐다며 “검찰은 지금도 검찰 수사권 조정을 흔쾌히 받아들이고 있지 않은 상황이었다”고 평가했다. 윤 위원장은 “국회가 법 개정으로 검찰개혁을 추진해왔고 앞으로 해나갈텐데 검찰이 적극 협조하려는 의사 있는지 의심하지 않을 수 없다”며 “더욱더 검찰개혁에 매진해야겠다는 그런 사실을 확인했다”고 강조했다. 윤 위원장은 향후 검찰개혁 특위가 입법과제를 발굴해 오는 2월 초까지 입법안을 마련해 국회에 제출할 예정이라고 덧붙였다. 이낙연 더불어민주당 대표는 지난해 검경수사권 조정을 통해 6대 범죄만 검찰이 직접 수사하도록 하는 형사소송법 개정한 것을 들어 “개정 형사소송법이 1일부터 이미 시행되고 있다”고 전했다. 이 대표는 이와 함께 공수처 출범이 검찰의 기소독점에 예외를 만드는 70년 형사사법

In [70]:
df.iloc[0].text

'이낙연 측근이 말하는 ‘치밀한’ 사면론 카드 “결국 문재인 대통령이 어떤 판단을 하느냐에 달렸다. 대통령이 사면을 결정하면 지지층의 반발도 어느 정도 잦아들 가능성이 있다.” 이낙연 더불어민주당 대표가 새해 첫 메시지로 던진 이명박·박근혜 두 전직 대통령 사면 관련 논란에 대한 이 대표 측 한 인사의 말이다. 정치권에선 이 대표 사면론에 대해 비판 일색이었다. 여권 내부에선 ‘사과도 없는 범죄자들을 어떻게 사면하느냐’, ‘특히 박근혜씨는 형사범죄뿐 아니라 국민들의 판단(탄핵)도 있었다’ 등의 의견이 있고, 야권에서도 ‘이낙연 지지율 반등 카드’라는 지적과 함께 김종인 국민의힘 비상대책위원장의 두 전직 대통령 범죄 관련 사과로 환영만 할수 없다는 분위기도 있다. 해당 관계자는 미디어오늘에 “당장은 비난이 많을 수밖에 없고 나도 원론적 입장만 따지면 사면 반대입장이지만 이 대표 입장에선 정치적으로 고려한 결정 아니겠느냐”고 했다. 여기서 ‘정치적 고려’란 문 대통령이 느끼는 정치적 부담과 이 대표 대권 행보를 뜻한다. 문 대통령 입장에선 자신의 임기 직전 두 전직 대통령이 모두 옥에 갇혔고, 박근혜씨의 경우 전직 대통령 중 최장기간(약 3년10개월) 수감 중인데 이는 법적인 문제를 떠나 문 대통령에게 정치적 부담으로 느껴진 게 사실이라고 전했다. 또한 호남 인사로 분류되는 이 대표가 향후 대권행보에서 영남권 지지를 얻을 돌파구이기도 하다는 게 해당 관계자의 설명이다. 이런 가운데 6일 리얼미터·오마이뉴스 여론조사를 보면 두 전직 대통령 사면에 대해 찬성(47.7%)과 반대(48%) 의견은 팽팽했다. 정치권과 언론에서 사면론에 비판적 의견이 지배했던 것과 다른 분위기다. 민주당 지지층에선 반대(88.8%), 국민의힘 지지층에선 찬성(81.4%)이 압도적으로 나타난 것을 봐도 ‘표계산’의 관점에서 볼 때 사면론 카드를 실패했다고 단정하긴 어렵다. 또한 7일 조선일보는 “박근혜는 사면, 이명박은 보류 검토”란 기사에서 ‘여권 핵심 관계자’의 말을 인용해 박근혜씨 사면