# 전처리 수행 후, 명사 단어 추출

In [1]:
# 키위 형태소 분석기 사용
import re
from kiwipiepy import Kiwi
from kiwipiepy.utils import Stopwords
kiwi = Kiwi()
stopwords = Stopwords()

# 사용자 정의 불용어를 키위 형태소 분석기의 불용어 사전에 추가하기
customized_stopwords = ['재테크','배포','금지', '기자', '페이스북']
for word in customized_stopwords:
    stopwords.add((word, 'NNG'))
    
# 전처리를 통해 명사 단어들 추출
def Kr_preprocessing(text):
    filtered_content = re.sub(r'[^\s\d\w]','',text)
    kiwi_tokens = kiwi.tokenize(filtered_content, stopwords=stopwords)
    Noun_words = []
    for token in kiwi_tokens:
        if 'NN' in token.tag:
            Noun_words.append(token.form)
    # 길이가 1인 단어 제거 하기
    final_Noun_words = []
    for word in Noun_words:
        if len(word)>1:
            final_Noun_words.append(word)
    return final_Noun_words

In [2]:
# 신문기사 내용 불러오기
with open('Korean_news.txt', 'r', encoding='utf8') as f:
    content = f.read()

In [3]:
content

'아셈 계기 영국·독일·태국 정상회담…대북제재 완화 설득 가속화문재인 대통령이 18일 오후(현지시간) 바티칸 교황청을 방문해 프란치스코 교황과 악수하고 있다. (청와대 페이스북) 2018.10.18/뉴스1(바티칸=뉴스1) 조소영 기자 = 프란치스코 교황이 18일(현지시간) 문재인 대통령과의 만남에서 사실상 방북(訪北)의사를 밝힘에 따라 문 대통령의 \'한반도 평화프로세스\' 추진에 상당한 힘이 실리게 됐다. 문 대통령은 교황의 지지를 기반으로 제2차 북미정상회담의 신속한 개최를 촉구하고 국제사회에 북한의 비핵화를 촉진하기 위해선 대북제재 완화가 일정 정도 필요하다는 주장을 이어갈 것으로 보인다.문 대통령은 이날 오후 12시5분 바티칸 교황궁 내 교황서재에서 40분 동안 프란치스코 교황을 단독 예방했다. 교황과의 만남은 원활한 의사소통을 위한 통역 외에 배석자 없이 \'비밀\'로 이뤄진다는 원칙에 따라 이날 예방도 통역을 위해 자리한 한현택 신부 외 누구도 배석하지 않은 것으로 전해졌다.다만 사전에 청와대와 바티칸 사이 협의를 거쳐 이례적으로 면담의 주요내용이 공개됐다. 이에 따라 윤영찬 청와대 국민소통수석이 밝힌 데 따르면 교황은 문 대통령이 김정은 북한 국무위원장의 방북 초청 의사를 전하면서 "김 위원장이 초청장을 보내도 좋겠느냐"고 하자 "공식 초청장을 보내주면 좋겠다"고 했다.교황은 이어 "초청장이 오면 무조건 응답을 줄 것이고 나는 갈 수 있다"고 했다. \'북한을 갈 수 있다\'고 완벽히 언급하지는 않았지만 문맥상 이는 북한 땅을 밟겠다는 뜻으로 해석됐다. 교황은 그러면서 "한반도에서 평화프로세스를 추진 중인 한국정부의 노력을 강력히 지지한다"며 "멈추지 말고 앞으로 나아가라. 두려워하지 말라"고 하면서 이 해석에 힘을 보탰다.윤 수석은 \'교황이 방북시점에 대한 언급은 없었느냐\'는 데에 "시점에 대해선 말이 없었다"고 전했다. 이에 따라 한편에선 교황의 답이 원론적 의미가 아니냐는 풀이도 나오지만 교황이 방북 자체에 문을 열어뒀다는 데에 의의가 있

In [4]:
# 전처리를 수행하여 불용어가 제거된 명사 단어들 추출
final_nouns = Kr_preprocessing(content)

In [5]:
print(final_nouns)

['아셈', '계기', '영국', '독일', '태국', '정상', '회담', '대북', '제재', '완화', '설득', '가속', '문재인', '대통령', '오후', '현지', '시간', '바티칸', '교황청', '방문', '프란치스코', '교황', '악수', '청와대', '페이스북', '뉴스1', '바티칸', '뉴스', '소영', '프란치스코', '교황', '현지', '시간', '문재인', '대통령', '만남', '사실', '방북', '의사', '대통령', '한반도', '평화', '프로세스', '추진', '상당', '대통령', '교황', '지지', '기반', '북미', '정상', '회담', '신속', '개최', '촉구', '국제', '사회', '북한', '비핵', '촉진', '대북', '제재', '완화', '일정', '정도', '필요', '주장', '대통령', '이날', '오후', '바티칸', '교황', '교황', '서재', '동안', '프란치스코', '교황', '단독', '예방', '교황', '만남', '원활', '의사소통', '통역', '배석자', '비밀', '원칙', '이날', '예방', '통역', '자리', '한현택', '신부', '배석', '사전', '청와대', '바티칸', '사이', '협의', '이례', '면담', '주요', '내용', '공개', '윤영', '청와대', '국민', '소통', '수석', '교황', '대통령', '김정은', '북한', '국무', '위원장', '방북', '초청', '의사', '위원장', '초청장', '공식', '초청장', '교황', '초청장', '응답', '북한', '언급', '문맥', '북한', '해석', '교황', '한반도', '평화', '프로세스', '추진', '한국', '정부', '노력', '지지', '해석', '수석', '교황', '방북', '시점', '언급', '시점', '한편', '교황', '원론', '의미', '풀이', '교황', '방북', '자체', '의의', '대통령', '추진', '유럽', '한반도',

# 단어 선택하기

In [5]:
from collections import Counter
c = Counter(final_nouns)

In [6]:
# 빈도 기준 상위 10개 단어들
c.most_common(10)

[('교황', 16),
 ('대통령', 12),
 ('한반도', 6),
 ('평화', 6),
 ('바티칸', 5),
 ('방북', 5),
 ('프로세스', 5),
 ('북한', 5),
 ('영국', 4),
 ('독일', 4)]

In [7]:
# Counter 클래스를 이용한 빈도 분석 결과물로부터 10개 단어 추출
def get_words(counter_results):
    words = []
    for word, fre in counter_results:
        words.append(word)
    return words

In [8]:
# 빈도 분석 결과물로부터 단어들만 추출
selected_words = get_words(c.most_common(10))

In [9]:
selected_words

['교황', '대통령', '한반도', '평화', '바티칸', '방북', '프로세스', '북한', '영국', '독일']

In [12]:
#selected_words = ['교황', '한반도', '북한', '영국', '독일'] # You can select a list of words based on other criterion

# 네트워크 생성

In [10]:
# 네트워크 생성
import networkx as nx
from Kr_na import do_na

In [11]:
g = do_na(content, selected_words)

In [12]:
g.nodes()

NodeView(('교황', '대통령', '한반도', '평화', '바티칸', '방북', '프로세스', '북한', '영국', '독일'))

In [16]:
g['북한']

AtlasView({'교황': {'weight': 3}, '대통령': {'weight': 2}, '방북': {'weight': 2}})

In [16]:
g['대통령']

AtlasView({'바티칸': {'weight': 4}, '영국': {'weight': 2}, '독일': {'weight': 2}, '교황': {'weight': 6}, '평화': {'weight': 3}, '프로세스': {'weight': 3}, '방북': {'weight': 2}, '한반도': {'weight': 3}, '북한': {'weight': 2}})

In [13]:
nx.write_graphml(g, 'Kr_test.graphml')