# 의미 연결망 분석 (Semenatic Network Analysis)


## 연결망 분석(Network Analysis)
[연결망 분석이란 무엇인가](https://towardsdatascience.com/network-analysis-d734cd7270f8)
연결망(network)이란 사물 또는 사람 집단의 연결을 표현한 것을 말함  
* 노드(node): 연결망에서 사물 또는 사람을 나타냄  
* 엣지(edge): 노드 간의 연결을 표현. 엣지에는 방향성이 있을 수도 있고 없을 수도 있습니다.  
* 연결망 분석을 하는 이유: 사물 또는 사람 사이 관계를 쉽게 이해함으로써 집단에 대한 유용한 통찰을 끌어낼 수 있음  
* 활용 사례: 사회, 정치뿐 아니라 자연 현상이나 생물에 대한 연구 등 다양한 분야에서 쓰임
    + 집단에서 가장 중요한 사람 찾아내기(정치 분야)
    + 집단의 특징을 파악하기
    + 특정 사람, 사물에게 필요한 요소를 찾아내기

## 실습
Python의 대표적인 연결망(Network)분석 라이브러리인 [NetworkX](https://networkx.org/documentation/stable/index.html) 활용.  
[NetworkX Tutorial](https://networkx.org/documentation/stable/tutorial.html)  
  
본 코드는 [한림대학교 웹진 블로그](https://m.blog.naver.com/hallym_adpr/221614800313)의 예시 코드를 바탕으로 재구성.  

In [None]:
import re
import networkx as nx #네트워크 분석을 위한 라이브러리. 아나콘다에 포함
import pandas as pd

## 데이터
2_Word_Cloud에서 사용한 **빅카인즈** 데이터를 사용합니다.

In [None]:
File='data\\NewsResult_20211126-20220226.xlsx' #다운로드 받은 자신의 실제 파일이름을 입력

df = pd.read_excel(File)

In [None]:
df.head()

In [None]:
articles = df.get('제목')+"."+df.get('본문')
dates = df.get('일자')

In [None]:
from konlpy.tag import Okt
okt=Okt()

stop_words = ['이', '것', '날', '등', '윤', '고', '전']

In [None]:
all_nouns = []
for arti in articles:
    for noun in okt.nouns(arti):
        if noun not in stop_words:
            all_nouns.append(noun)
all_nouns[0:10]

In [None]:
from collections import Counter
num_top_nouns = 20
nouns_counter = Counter(all_nouns)
top_nouns = dict(nouns_counter.most_common(num_top_nouns))

In [None]:
sentences = []
for article in articles:
    sentences.extend(re.split('; |\.|\?|\!', article))
sentences[:10]

In [None]:
sentences_nouns = []
for sentence in sentences:
    sent_nouns = okt.nouns(sentence)
    sentences_nouns.append(sent_nouns)
sentences_nouns[:10]

In [None]:
word2id = {w: i for i, w in enumerate(top_nouns.keys())}
word2id

In [None]:
id2word = {i: w for i, w in enumerate(top_nouns.keys())}
id2word

In [None]:
import numpy as np
adjacent_matrix = np.zeros((num_top_nouns, num_top_nouns), int)
for sent in sentences_nouns:
    for wi, i in word2id.items():
        if wi in sent:
            for wj, j in word2id.items():
                if i != j and wj in sent:
                    adjacent_matrix[i][j] += 1
adjacent_matrix

In [None]:
network = nx.from_numpy_matrix(adjacent_matrix)
list(network.adjacency())

## 시각화

In [None]:
import matplotlib.pyplot as plt
from matplotlib import font_manager as fm
from matplotlib import rc

font_path="C:\\Windows\\Fonts\\malgun.TTF" #실제 자신이 사용하고자 하는 폰트 파일 위치와 이름
font_name = fm.FontProperties(fname=font_path).get_name()
rc('font', family=font_name)

fig = plt.figure()
fig.set_size_inches(20, 20)
ax = fig.add_subplot(1, 1, 1)
ax.axis("off")
option = {
    'node_color' : 'lightblue',
    'node_size' : 2000,
}
nx.draw(network, labels=id2word, font_family=font_name, ax=ax, **option)

### 다양한 레이아웃
아래 4개 사례 외에도 더 많은 [레이아웃](https://networkx.org/documentation/stable/reference/drawing.html#module-networkx.drawing.layout)이 있음

In [None]:
fig = plt.figure()
fig.set_size_inches(20, 20)
option = {
    'node_color' : 'lightblue',
    'node_size' : 500
}

plt.subplot(221)
plt.title('Random Layout', fontsize=20)
nx.draw_random(network, labels=id2word, font_family=font_name, **option)
plt.subplot(222)
plt.title('Circular Layout', fontsize=20)
nx.draw_circular(network, labels=id2word, font_family=font_name, **option)
plt.subplot(223)
plt.title('Spectral Layout',fontsize=20)
nx.draw_spectral(network, labels=id2word, font_family=font_name, **option)
plt.subplot(224)
plt.title('Spring Layout',fontsize=20)
nx.draw_spring(network, labels=id2word, font_family=font_name, **option)

## 중심성 분석
중심성은 각 노드가 얼마나 중요한지를 살피는 방법입니다.  
다음과 같은 중심성 지표가 많이 쓰입니다.

In [None]:
'''
Degree Centrality 연결 중심성: 
가장 단순한 중심성입니다.
해당 노드가 다른 노드와 얼마나 연결되어 있는지 봅니다.
'''
nx.degree_centrality(network)

In [None]:
'''
Eigenvector Centralrity 고유벡터 중심성:
노드와 많이 연결되어 있다고 해서 반드시 중요한 것은 아닙니다.
유명 노드와 많이 연결되어 있을 때 더 중요하다고 볼 수도 있습니다.
고유벡터 중심성은 연결된 다른 노드의 중심성을 감안해서 중심성을 계산합니다.
'''

nx.eigenvector_centrality(network, weight='weight')

In [None]:
'''
Betweenness Centrality 매개 중심성:
매개 중심성은 A 노드의 중심성을
한 노드로부터 다른 노드로 최단 경로로 가고자 할 때 A를 얼마나 거쳐야 하는지로 계산하는 것입니다.
현재 사례 경우 두 노드 간 엣지가 바로 정의되어 있으므로 모든 매개 중심성이 0인 것을 알 수 있습니다.
'''
nx.betweenness_centrality(network)

In [None]:
'''
Closeness 근접 중심성:
근접 중심성은 다른 도시까지 도달하는 거리가 짧을수록 중요할 것이라고 보고 산출한 지표입니다.
A 도시로부터 전국 도시로 갈 때 거리가
B 도시로부터 갈 때 보다 짧다면
A가 B 보다 중요한 도시라는 것이죠.
'''
nx.closeness_centrality(network, distance='weight')