<a href="https://colab.research.google.com/github/ibk25244/su-ai/blob/master/10_2(colab)_Korean_text_analysis_visualization_2_movie_data_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

- - -

<font size=6 color='tomato'>한글 텍스트 분석 및 시각화 - <font color='royalblue'>2 단계 : 데이터 전처리</font>   
<font size=5 color='purple'>Korean Text Analysis & Visualization - <font color='forestgreen'>Step 2: Data Preprocessing</font>

* * *

**<font size=4>박 진 수</font>** 교수  
Intelligent Data Semantics Lab  
Seoul National University

- - -

>[텍스트 분석 절차](#scrollTo=8fXwjm1TO1k5)

>[저장한 파일을 불러온다.](#scrollTo=EeDZ93w4JKIS)

>>[(방법 1) 로컬 파일 업로드 하여 열기](#scrollTo=D0uivRGO6l5V)

>>[(방법 2) 데이터 파일 내려받아 열기](#scrollTo=PjAWBCyc69Yj)

>[전처리](#scrollTo=4nvPn1GNhdWO)

>[한글 형태소 분석 맛보기](#scrollTo=mqZRWl0ohpVf)

>[THE END](#scrollTo=xAaLs81RO1lV)



# 텍스트 분석 절차

**1** 단계 - **데이터 수집**
- 웹, SNS 등에서 분석에 필요한 데이터를 수집한다.
- 이미 데이터가 있으면 이 단계는 생략할 수 있다.

**<font size='+3'>2 단계 - 데이터 전처리</font>**
- 자연어를 기계가 이해할 수 있는 인공어(artificial language)로 번역한다.
- Tokenization, POS Tagging(형태소 분석), Pruning 등 

**3** 단계 - **데이터 탐색**
- 분석의 방향성을 제시하기 위해 전처리한 데이터를 탐색한다.
- 일반적으로는 단어의 출현 빈도(frequency)를 기반으로 탐색한다.

**4** 단계 - **데이터 분석**
- 텍스트 데이터를 통해 유의미한 정보를 추출하는 분석을 수행한다.
- 감성분석, 토픽모델, 머신러닝 등

**5** 단계 - **인사이트 도출**
- 경영 환경에서 효과적인 의사 결정에 도움을 줄 수 있는 인사이트를 도출한다.

# 저장한 파일을 불러온다.

## (방법 1) 로컬 파일 업로드 하여 열기




In [None]:
# ===== 만약 파일을 로컬 파일로 저장했다면 =============================================
# --- Importing a local file
from google.colab import files

# 앞서 수집한 영화 리뷰 파일('movie-reviews-A.txt')을 업로드한다.
uploaded = files.upload()

# 업로드한 파일을 읽어서 메모리에 저장한다.
text = uploaded[tuple(uploaded)[0]].decode('utf-8').splitlines()

## (방법 2) 데이터 파일 내려받아 열기

실습을 위해 저장해둔 파일을 내려받도록 한다.

In [None]:
!wget -q --show-progress --no-check-certificate https://raw.githubusercontent.com/snu-ds/data/master/movie-reviews-begin-again.txt

# 파일을 읽어서 메모리에 저장한다.
text = open('movie-reviews-begin-again.txt', mode='r', 
            encoding='utf-8').read().splitlines()

# 전처리

In [None]:
# 리뷰가 몇 개인지 확인한다.
len(text)

In [None]:
# 첫 다섯 개 리뷰를 열람한다.
text[:5]

In [None]:
# 마지막 다섯 개 리뷰를 열람한다.
text[-5:]

In [None]:
# 평점을 제외한 리뷰 내용만으로 구성된 리스트를 생성한다.
reviews = __TODO__

In [None]:
# 첫 다섯 개 리뷰를 열람한다.
reviews[:5]

In [None]:
# 마지막 다섯 개 리뷰를 열람한다.
reviews[-5:]

In [None]:
corpus = '\n'.join(reviews)
corpus[:100]

In [None]:
# --- 지금까지 처리한 내용을 파일로 저장한다.
path = 'movie-reviews-A-corpus.txt'

# 텍스트 파일을 쓰기 모드로 연다.
# 이 때 빈 리뷰와 평점은 파일로 저장하지 않는다.
with open(path, mode='w', encoding='utf-8') as file:
    __TODO__

print(f"'{path}'로 저장하였습니다.")    

In [None]:
# ======= For Google Colaboratory ===============================
# --- 수집한 데이터와 전처리한 데이터를 로컬 파일로 내려받기를 한다.
from google.colab import files
files.download(path)

# 한글 형태소 분석 맛보기

In [None]:
# ======= 형태소 분석을 위해 한글 분석 모듈 konlpy를 설치한다. =============
!python -m pip install konlpy

In [None]:
import konlpy 
print('KoNLPy version...:', konlpy.__version__)

In [None]:
# Open Korean Text
from konlpy.tag import Okt 
okt = Okt()

In [None]:
# 분석을 위해 각 리뷰 마지막에 붙인 새줄바꿈 문자를 모두 제거한다. 
corpus = corpus.replace('\n', '')

In [None]:
# 형태소(Part-of-Speech)별로 추출한다. 즉, 모든 형태소를 리스트로 반환한다.
words = __TODO__

In [None]:
# 말뭉치에 사용한 전체 단어(문장 부호를 포함한 토큰)의 수를 확인한다.
len(words)

In [None]:
# [참고] 한글 형태소 분석기를 사용하지 않을 때의 단어(토큰) 수를 확인한다.
# 공백을 기준으로 분리하기 때문에 조사 등을 따로 구분하지 않고 한 단어로 취급한다.
raw_words = corpus.split()
len(raw_words)

In [None]:
raw_words[:10]

In [None]:
# 말뭉치에 사용한 전체 어휘(vocabulary) 수를 확인한다.
vocab = __TODO__

In [None]:
# Lexical diversity
# 각 단어가 평균 몇 번 정도 사용되었는지 확인한다.
len(words) / len(vocab)

In [None]:
# Measuring the lexical richness of the text
# 전체 단어 중 고유한 단어가 사용된 비율
len(vocab) / len(words)

In [None]:
# 형태소(Part-of-Speech) 분석을 한다.
pos = __TODO__

In [None]:
pos[:20]

In [None]:
# 형태소(Part-of-Speech) 분석을 한다.
# 토큰을 정규화하고 어간 단위로 구분한다.
pos = __TODO__
pos[:20]

- - -
# <font color='red'>THE END</font>