# 제5장 빅데이터 시각화와 분석

* 오래전에 공부한 내용을 ipynb형식으로 변경한 것임.

### 한글 형태소 분석
* KoNLPy 패키지는 형태소 분석에 적합하다.

In [None]:
from konlpy.tag import Kkma

kkma = Kkma()
print(kkma.pos('한국어 형태소 분석은 재미있다.'))

from collections import Counter
pos = kkma.pos('한국어 형태소')
count = Counter(pos)


* Kkma를 계승한 것이 kkma이다.

In [None]:
from collections import Counter

pos = kkma.pos('한국어 형태소 분석은 재미습니다')
count = Counter(pos)
print(count)

* 맥 환경은 utf-8이 기본 인코딩 방식이지만, 한글 윈도우는 기본 인코딩이 cp949라 utf-8 변환이 필요하다.
* KoNLPy에는 Twitter 형태소 분석기를 내장하고 있다. `from knolpy.tag import Twitter`

### 워드클라우드
* 데이터 시각화에는 Word Cloud / Semantic Analysis(의미망 분석) / ML, DL 등의 기법이 있다.
* 워드클라우드 사용 시 한글 글꼴이 깨지는 경우가 있다. 이럴 경우, 구글이 개발한 NotoSansCJKkrDemiLight와 같이 깨지지 않는 폰트를 사용하면 된다.

### 의미망 분석
* 의미망 분석은 관계망 분석(Network Analysis)의 한 유형이다.
* 관계망이란 행위자를 기본 단위로 연결된 관계를 의미한다.
* 관계망을 통해, 관계의 속성, 대표성 등을 파악할 수 있다.
* 관계망 분석은 사회 연결망 분석Social Network Analysis과 의미망 분석Semantic Analysis로 구분된다. 전자의 행위자는 사람, 단체, 사회 후자의 행위자는 단어, 문구, 문장 등이 된다.

### 관계망
* 관계망에서의 행위자를 노드라 한다.
* 노드와 노드의 관계를 에지edge라 한다.
* 한 노드가 다른 노드를 일방적으로 좇는 경우를 일방향적 관계directional relation, 서로 상호 연결되어 있는 경우 양방향적 관계unidirectional relation라 한다.
* 노드 간의 관계가 밀접하지 않은 Random network / 소수의 중심 노드에서 다른 소규모 노드들이 연결되어 있는 scalefree network / 모든 노드가 서로 연관된 밀접한 small world network 등이 있다.

In [None]:
import networkx as nx
import matplotlib.pyplot as plot

g2 = nx.Graph()

paths = [(1,2), (1,3), (3,4), (4,5), (4,1)]
for p in paths:
    g2.add_edge(p[0], p[1])

pos = nx.spring_layout(g2)
nx.draw_networkx_nodes(g2, pos)
nx.draw_networkx_edges(g2, pos)

nx.draw_networkx_labels(g2, pos)

edgeLabels = {pair: x for x, pair in enumerate(paths)}
nx.draw_networkx_edge_labels(g2, pos, edge_labels = edgeLabels)

plot.savefig('network_eg01.png')
plot.axis('off')
plot.close