<a href="https://colab.research.google.com/github/ibk25244/su-ai/blob/master/10_3(colab)_Korean_text_analysis_visualization_3_movie_data_exploration.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

- - -

<font size=6 color='tomato'>한글 텍스트 분석 및 시각화 - <font color='royalblue'>3 단계 : 데이터 탐색</font>   
<font size=5 color='purple'>Korean Text Analysis & Visualization - <font color='forestgreen'>Step 3: Data Exploration</font>

* * *

**<font size=4>박 진 수</font>** 교수  
Intelligent Data Semantics Lab  
Seoul National University

- - -

>[텍스트 분석 절차](#scrollTo=IZPdlBpJO2wQ)

>[저장한 파일을 불러온다.](#scrollTo=jtGf6Uk9itCj)

>>[(방법 1) 로컬 파일 업로드 하여 열기](#scrollTo=D0uivRGO6l5V)

>>[(방법 2) 데이터 파일 내려받아 열기](#scrollTo=PjAWBCyc69Yj)

>[자주 출현하는 단어 추출하기](#scrollTo=B7Nft3hQO2wY)

>[워드클라우드 그리기](#scrollTo=3nN_XDHFO2wd)

>>[wordcloud](#scrollTo=_QnYMdsTO2we)

>>[pytagcloud](#scrollTo=OMOyBBkMO2wq)

>[THE END](#scrollTo=7np3U1BPO2wu)



# 텍스트 분석 절차

**1** 단계 - **데이터 수집**
- 웹, SNS 등에서 분석에 필요한 데이터를 수집한다.
- 이미 데이터가 있으면 이 단계는 생략할 수 있다.

**2** 단계 - **데이터 전처리**
- 자연어를 기계가 이해할 수 있는 인공어(artificial language)로 번역한다.
- Tokenization, POS Tagging(형태소 분석), Pruning 등 

**<font size='+3'>3 단계 - 데이터 탐색</font>**
- 분석의 방향성을 제시하기 위해 전처리한 데이터를 탐색한다.
- 일반적으로는 단어의 출현 빈도(frequency)를 기반으로 탐색한다.

**4** 단계 - **데이터 분석**
- 텍스트 데이터를 통해 유의미한 정보를 추출하는 분석을 수행한다.
- 감성분석, 토픽모델, 머신러닝 등

**5** 단계 - **인사이트 도출**
- 경영 환경에서 효과적인 의사 결정에 도움을 줄 수 있는 인사이트를 도출한다.

# 저장한 파일을 불러온다.

## (방법 1) 로컬 파일 업로드 하여 열기




In [None]:
# ===== 만약 파일을 로컬 파일로 저장했다면 =============================================
# --- Importing a local file
from google.colab import files

# 앞서 전처리한 파일('movie-reviews-A-corpus.txt')을 업로드 한다.
# movie-reviews-begin-again-corpus.txt 파일을 업로드한다.
uploaded = files.upload()

# 업로드한 파일을 읽어서 메모리에 저장한다.
text = uploaded[tuple(uploaded)[0]].decode('utf-8').splitlines()

## (방법 2) 데이터 파일 내려받아 열기

실습을 위해 저장해둔 파일을 내려받도록 한다.

In [None]:
!wget -q --show-progress --no-check-certificate https://raw.githubusercontent.com/snu-ds/data/master/movie-reviews-begin-again-corpus.txt

# 파일을 읽어서 메모리에 저장한다.
text = open('movie-reviews-begin-again-corpus.txt', mode='r', 
            encoding='utf-8').read().splitlines()

# 자주 출현하는 단어 추출하기

In [None]:
text[:5]

In [None]:
# ======= 형태소 분석을 위해 한글 분석 모듈 konlpy를 설치한다. =============
!python -m pip install konlpy

In [None]:
import konlpy 
print('KoNLPy version...:', konlpy.__version__)

In [None]:
# 한국어 텍스트 분석에 필요한 모듈(konlpy)의 
# Open Korean Text 형태소 분석기를 불러온다.
from konlpy.tag import Okt 
okt = Okt()

In [None]:
# 전체 텍스트를 형태소(Part-of-Speech) 분석을 한다.
# 토큰을 정규화하고 어간 단위로 구분한다.
# 형태소 분석 결과는 ('단어', '품사 태그')의 튜플로 반환한다.
pos_tags = __TODO__

In [None]:
pos_tags[:5]

In [None]:
# 전체 텍스트에서 명사(Noun)와 형용사(Adjective)만 걸러낸다.
noun_adj_list = __TODO__

In [None]:
noun_adj_list[:5]

In [None]:
# 리뷰에서 사용한 고유한 명사와 형용사 개수를 확인한다. 
len(__TODO__)

In [None]:
# collections 패키지에서 Counter(등장 횟수를 세주는 역할)를 불러온다.
from collections import Counter	

# Counter에 noun_adj_list list를 넣어 서로 다른 명사와 형용사가 얼마나 많이 쓰였는지를 셈한다.
counts = __TODO__

In [None]:
# 전체 텍스트에서 가장 많이 사용된 명사와 형용사만 출력한다.
__TODO__

# 워드클라우드 그리기

## wordcloud

In [None]:
from konlpy.tag import Okt  # 한국어 텍스트 분석에 필요한 모듈(konlpy)의 Open Korean Text 형태소 분석기를 불러온다.

# Open Korean Text 형태소 분석기 객체를 생성한다.
okt = Okt() 
    
# text의 각 문장을 꺼낸 후 형태소 붆석기를 통해 
# 명사만 추려내 리스트에 담는다.
nouns = __TODO__

In [None]:
from collections import Counter

# nouns 리스트에 있는 서로 다른 명사의 개수 구한다. 
count = __TODO__

In [None]:
count

In [None]:
# 가장 자주 출현하는 명사 100개를 추출한다.
data = __TODO__

In [None]:
# --- 한글 워드 클라우드를 그리기 위해 한글 폰트를 설치한다.
# 한글 폰트를 설치한다.
!apt -qq -y install fonts-nanum
 
# 나눔바른고딕(NanumBarunGothic)을 사용하기 위해 경로를 포함시킨다.
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf' 

In [None]:
from wordcloud import WordCloud

wordcloud = WordCloud(
  font_path=__TODO__,
  relative_scaling=0.2,
  background_color='white',
).generate_from_frequencies(__TODO__)

wordcloud

In [None]:
from matplotlib import pyplot

pyplot.figure(figsize=(16, 10))  # width, height in inches
pyplot.imshow(__TODO__)
pyplot.axis('off')
pyplot.show()

## pytagcloud

&#9658; <font color='red'>[참고] 아래 코드를 실행하기 위해서는 pycloudtag와 관련 한글 폰트 'Noto Sans CJK'가 사전에 설치되어 있어야 한다.</font>

In [None]:
# --- 워드클라우드 관련 모듈 설치 --------------------------------- #
# pygame과 simplejson 설치
!python -m pip install --upgrade pygame 
!python -m pip install --upgrade simplejson 

# pytagcloud에 한국어 폰트가 추가된 버전을 설치
!pip install git+https://github.com/e9t/PyTagCloud.git

In [None]:
from konlpy.tag import Okt  
from collections import Counter
import random

# --- wordcloud 생성에 필요한 함수 정의를 정의한다.
def get_tags(text, ntags=100, multiplier=1):
  '''워드클라우드를 그리기 위한 명사 태그와 그 빈도수, 그리고 색깔을 생성한다.
  
  Args:
    text (list | tuple): 텍스트를 담고 있는 리스트나 튜플
    ntags (int): 생성할 태그의 개수(기본값은 100)
    multiplier (int): 상대적인 크기 상수(기본값은 1)
  Returns:
      list[dict]: 색, 총 태그 개수, 사이즈의 딕셔너리를 담고 있는 리스트
  '''
  okt = Okt() # Open Korean Text 형태소 분석기 객체를 생성한다.
  
  # 리스트 또는 튜플 자료형인 text의 각 문장을 꺼낸 후 
  # 형태소 붆석기를 통해 명사만 추려내 리스트에 담는다.
  nouns = [noun for sent in text 
                  for noun in okt.nouns(sent)]
  
  # nouns 리스트에 있는 서로 다른 명사의 개수 구한다. 
  count = Counter(nouns)    

  # --- 워드 클라우드에 사용할 단어들의 색깔을 무작위로 구성한다.
  # 람다 함수로 0부터 254 사이의 임이의 정수를 추출한다.
  rgb = lambda: random.randint(0, 255)
  # 람다 함수 rgb 3개를 합쳐 RGB 색을 지정하는 새로운 람다 함수를 생성한다.
  color = lambda: (rgb(), rgb(), rgb())

  return [{'color': color(), 'tag': n, 'size': c * multiplier}
            for n, c in count.most_common(ntags)]

In [None]:
# 위에서 정의한 get_tags() 이용해 가장 많이 사용한 명사 100개를 추출한다.
tags = get_tags(text)
len(tags)

In [None]:
tags[:5]

[pytagcloud](https://pypi.org/project/pytagcloud/)

- PyTagCloud allows us to create simple tag clouds.

In [None]:
import pytagcloud

filename = 'wordcloud.png'
size = 1200, 1000   # width, height
fontname = 'Noto Sans CJK'

# pytagcloud 모듈의 함수로 워드클라우드 이미지를 생성한다(png 형식)
pytagcloud.create_tag_image(__TODO__)

In [None]:
# 가장 자주 출현한 단어 2개('영화', '음악')을 제외한 워드 클라우드를 그린다.
del tags[:2]

filename2 = 'wordcloud2.png'
size = 1000, 600   # width, height
fontname = 'Noto Sans CJK'

# pytagcloud 모듈의 함수로 워드클라우드 이미지를 생성한다(png 형식)
pytagcloud.create_tag_image(__TODO__)

In [None]:
# ======= For Google Colaboratory ===============================
# --- 수집한 데이터와 전처리한 데이터를 로컬 파일로 내려받기를 한다.
from google.colab import files
files.download(filename)
files.download(filename2)

- - -
# <font color='red'>THE END</font>