<a href="https://colab.research.google.com/github/insightcampus/202008-youth-bigdata/blob/master/hnjoo/text_mining/text_mining_2_kor_processing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 코렙에서 Konlpy, Mecab 설치하기 
! sudo apt-get install g++ openjdk-7-jdk #Install Java 1.7+ 
#!sudo apt-get install python-dev; pip install konlpy # Python 2.x 
!sudo apt-get install python3-dev; pip3 install konlpy # Python 3.x 
!sudo apt-get install curl 
! bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

# 텍스트 전처리 (Text Preprocessing)
- 텍스트를 자연어 처리를 위해 용도에 맞도록 사전에 표준화 하는 작업
- 텍스트 내 정보를 유지하고, 중복을 제거하여 분석 효율성을 높이기 위해 전처리를 수행

## 1. 토큰화 (Tokenizing)
- 텍스트를 자연어 처리를 위해 분리하는 것
- 토큰화는 단어별로 분리하는 "단어 토큰화(Word Tokenization)"와 문장별로 분리하는 "문장 토큰화 (Sentence Tokenization)"로 구분
  + (이후 실습에서는 단어 토큰화를 "토큰화"로 통일하여 칭하도록 한다)


- 참고: https://konlpy.org/en/latest/api/konlpy.tag/(https://konlpy.org/en/latest/api/konlpy.tag/)


In [2]:
# 모든 형태소 분석기 한 번에 호출
# from konlpy.tag import *

In [3]:
text='인생은 모두가 함께하는 여행이다. 매일매일 사는 동안 우리가 할 수 있는 건 최선을 다해 이 멋진 여행을 만끽하는 것이다.'
print(text.split(' '))

['인생은', '모두가', '함께하는', '여행이다.', '매일매일', '사는', '동안', '우리가', '할', '수', '있는', '건', '최선을', '다해', '이', '멋진', '여행을', '만끽하는', '것이다.']


### 1.1. Komoran (코모란)

In [4]:
# 코모란
from konlpy.tag import Komoran
# 선언
komoran = Komoran()
# 토큰화 : morphs
komoran_tokens = komoran.morphs(text)
print(komoran_tokens)

['인생', '은', '모두', '가', '함께', '하', '는', '여행', '이', '다', '.', '매일', '매일', '살', '는', '동안', '우리', '가', '하', 'ㄹ', '수', '있', '는', '건', '최선', '을', '다', '하', '아', '이', '멋지', 'ㄴ', '여행', '을', '만끽', '하', '는', '것', '이', '다', '.']


### 1.2. Hannanum (한나눔)

In [5]:
from konlpy.tag import Hannanum
hannanum = Hannanum()
hannanum_tokens = hannanum.morphs(text)
print(hannanum_tokens)

['인생', '은', '모두', '가', '함께하', '는', '여행', '이', '다', '.', '매일매일', '사', '는', '동안', '우리', '가', '하', 'ㄹ', '수', '있', '는', '거', '은', '최선', '을', '다하', '어', '이', '멋지', 'ㄴ', '여행', '을', '만끽', '하', '는', '것', '이', '다', '.']


### 1.3. Okt
- Twitter tokenizer 가 v0.5.0.부터 Okt로 변경
- 이모티콘 구분 가능

In [6]:
#Okt (Twitter tokenizer가 v0.5.0.부터 Okt로 변경) 
from konlpy.tag import Okt 
okt= Okt() 
okt_tokens = okt.morphs (text)
print(okt_tokens)

['인생', '은', '모두', '가', '함께', '하는', '여행', '이다', '.', '매', '일', '매일', '사는', '동안', '우리', '가', '할', '수', '있는', '건', '최선', '을', '다해', '이', '멋진', '여행', '을', '만끽', '하는', '것', '이다', '.']


### 1.4. Kkma (꼬꼬마)

In [7]:
# Kkma 
from konlpy.tag import Kkma
kkma= Kkma()
kkma_tokens = kkma.morphs(text)
print(kkma_tokens)

['인생', '은', '모두', '가', '함께', '하', '는', '여행', '이', '다', '.', '매일', '매일', '살', '는', '동안', '우리', '가', '하', 'ㄹ', '수', '있', '는', '것', '은', '최선', '을', '다하', '어', '이', '멋지', 'ㄴ', '여행', '을', '만끽', '하', '는', '것', '이', '다', '.']


## 2. 품사 부착 (PoS Tagging)
- 각 토큰에 품사 정보를 추가
- 부석시에 불필요한 품사를 제거하거나 (예: 조사, 접속사 등) 필요한 품사를 필터링 하기 위해 사용
- 필수 참고: https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0

In [8]:
# 코모란
komoranTag = [] 
for token in komoran_tokens:
  komoranTag += komoran.pos(token) 
print(komoranTag)

[('인생', 'NNG'), ('은', 'NNP'), ('모두', 'MAG'), ('가', 'VV'), ('아', 'EC'), ('함께', 'MAG'), ('하', 'NNG'), ('늘', 'VV'), ('ㄴ', 'ETM'), ('여행', 'NNG'), ('이', 'MM'), ('다', 'MAG'), ('.', 'SF'), ('매일', 'MAG'), ('매일', 'MAG'), ('살', 'VV'), ('ㄹ', 'ETM'), ('늘', 'VV'), ('ㄴ', 'ETM'), ('동안', 'NNG'), ('우리', 'NP'), ('가', 'VV'), ('아', 'EC'), ('하', 'NNG'), ('ㄹ', 'NA'), ('수', 'NNB'), ('있', 'VV'), ('늘', 'VV'), ('ㄴ', 'ETM'), ('건', 'NNB'), ('최선', 'NNP'), ('을', 'NNG'), ('다', 'MAG'), ('하', 'NNG'), ('아', 'IC'), ('이', 'MM'), ('멋', 'NNG'), ('지', 'NNB'), ('ㄴ', 'JX'), ('여행', 'NNG'), ('을', 'NNG'), ('만끽', 'NNP'), ('하', 'NNG'), ('늘', 'VV'), ('ㄴ', 'ETM'), ('것', 'NNB'), ('이', 'MM'), ('다', 'MAG'), ('.', 'SF')]


In [9]:
# 한나눔
hannanumTag = [] 
for token in hannanum_tokens:
  hannanumTag += hannanum.pos(token)
print(hannanumTag)

[('인생', 'N'), ('은', 'N'), ('모두', 'M'), ('가', 'J'), ('함께하', 'P'), ('어', 'E'), ('늘', 'P'), ('ㄴ', 'E'), ('여행', 'N'), ('이', 'M'), ('다', 'M'), ('.', 'S'), ('매일매일', 'M'), ('사', 'N'), ('늘', 'P'), ('ㄴ', 'E'), ('동안', 'N'), ('우리', 'N'), ('가', 'J'), ('하', 'I'), ('ㄹ', 'N'), ('수', 'N'), ('있', 'N'), ('늘', 'P'), ('ㄴ', 'E'), ('것', 'N'), ('은', 'N'), ('최선', 'N'), ('을', 'N'), ('다하', 'P'), ('어', 'E'), ('어', 'N'), ('이', 'M'), ('멋지', 'N'), ('ㄴ', 'N'), ('여행', 'N'), ('을', 'N'), ('만끽', 'N'), ('하', 'I'), ('늘', 'P'), ('ㄴ', 'E'), ('것', 'N'), ('이', 'M'), ('다', 'M'), ('.', 'S')]


In [10]:
# Okt
oktTag = []
for token in okt_tokens:
  oktTag += okt.pos(token)
print(oktTag)

[('인생', 'Noun'), ('은', 'Noun'), ('모두', 'Noun'), ('가', 'Verb'), ('함께', 'Adverb'), ('하는', 'Verb'), ('여행', 'Noun'), ('이다', 'Josa'), ('.', 'Punctuation'), ('매', 'Noun'), ('일', 'Noun'), ('매일', 'Noun'), ('사는', 'Verb'), ('동안', 'Noun'), ('우리', 'Noun'), ('가', 'Verb'), ('할', 'Verb'), ('수', 'Noun'), ('있는', 'Adjective'), ('건', 'Noun'), ('최선', 'Noun'), ('을', 'Josa'), ('다해', 'Noun'), ('이', 'Noun'), ('멋진', 'Adjective'), ('여행', 'Noun'), ('을', 'Josa'), ('만끽', 'Noun'), ('하는', 'Verb'), ('것', 'Noun'), ('이다', 'Josa'), ('.', 'Punctuation')]


In [11]:
# Kkma
kkmaTag = []
for token in kkma_tokens:
  kkmaTag += kkma.pos(token)
print(kkmaTag)

[('인생', 'NNG'), ('은', 'NNG'), ('모두', 'MAG'), ('가', 'NNG'), ('함께', 'MAG'), ('하', 'NNG'), ('늘', 'VA'), ('ㄴ', 'ETD'), ('여행', 'NNG'), ('이', 'NNG'), ('다', 'NNG'), ('.', 'SF'), ('매일', 'MAG'), ('매일', 'MAG'), ('살', 'NNG'), ('늘', 'VA'), ('ㄴ', 'ETD'), ('동안', 'NNG'), ('우리', 'NP'), ('가', 'NNG'), ('하', 'NNG'), ('ㄹ', 'NNG'), ('수', 'NNG'), ('있', 'VA'), ('늘', 'VA'), ('ㄴ', 'ETD'), ('것', 'NNB'), ('은', 'NNG'), ('최선', 'NNG'), ('을', 'NNG'), ('다하', 'VV'), ('어', 'NNG'), ('이', 'NNG'), ('멋지', 'VA'), ('ㄴ', 'NNG'), ('여행', 'NNG'), ('을', 'NNG'), ('만끽', 'NNG'), ('하', 'NNG'), ('늘', 'VA'), ('ㄴ', 'ETD'), ('것', 'NNB'), ('이', 'NNG'), ('다', 'NNG'), ('.', 'SF')]


## 3.불용어 처리(Stopword)¶
- 자연어 처리를 위해 불필요한 요소를 제거하는 작업
- 불필요한 품사를 제거하는 작업과 불필요한 단어를 제거하는 작업으로 구성
- 불필요한 토큰을 제거함으로써 연산의 효율성을 높임

- 참고 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph/ (https://konlpy-ko.readthedocs.io/ko/v0.4.3/morph)

In [12]:
# Okt
# 최빈어 조회. 최빈어를 조회하여 불용어 제거 대상을 선정
from collections import Counter
Counter(oktTag).most_common()

[(('가', 'Verb'), 2),
 (('하는', 'Verb'), 2),
 (('여행', 'Noun'), 2),
 (('이다', 'Josa'), 2),
 (('.', 'Punctuation'), 2),
 (('을', 'Josa'), 2),
 (('인생', 'Noun'), 1),
 (('은', 'Noun'), 1),
 (('모두', 'Noun'), 1),
 (('함께', 'Adverb'), 1),
 (('매', 'Noun'), 1),
 (('일', 'Noun'), 1),
 (('매일', 'Noun'), 1),
 (('사는', 'Verb'), 1),
 (('동안', 'Noun'), 1),
 (('우리', 'Noun'), 1),
 (('할', 'Verb'), 1),
 (('수', 'Noun'), 1),
 (('있는', 'Adjective'), 1),
 (('건', 'Noun'), 1),
 (('최선', 'Noun'), 1),
 (('다해', 'Noun'), 1),
 (('이', 'Noun'), 1),
 (('멋진', 'Adjective'), 1),
 (('만끽', 'Noun'), 1),
 (('것', 'Noun'), 1)]

In [13]:
# 불용어 처리 
stopPos = ['Determiner', 'Adverb','Conjunction', 'Josa', 'PreEomi', 'Eomi', 'Suffix', 'Punctuation', 'Foreign', 'Alpha', 'Number', 'Unknown']
stopWord = []
word = []
for tag in oktTag:
  if tag[1] not in stopPos:
    if tag[0] not in stopWord:
      word.append(tag [0])
print(word)

['인생', '은', '모두', '가', '하는', '여행', '매', '일', '매일', '사는', '동안', '우리', '가', '할', '수', '있는', '건', '최선', '다해', '이', '멋진', '여행', '만끽', '하는', '것']


In [14]:
print(okt_tokens)

['인생', '은', '모두', '가', '함께', '하는', '여행', '이다', '.', '매', '일', '매일', '사는', '동안', '우리', '가', '할', '수', '있는', '건', '최선', '을', '다해', '이', '멋진', '여행', '을', '만끽', '하는', '것', '이다', '.']


## 4. Mecab으로 총정리
- 에러는 하단 링크 참조
- ref. https://sosomemo.tistory.com/31

In [15]:
# 토큰화
from konlpy.tag import Mecab
mecab = Mecab()
mecab_tokens = mecab.morphs(text)
mecab_tokens[:10]

['인생', '은', '모두', '가', '함께', '하', '는', '여행', '이', '다']

In [16]:
# 품사 부착
mecabTag = []
for token in mecab_tokens:
  mecabTag += mecab.pos(token)
print(mecabTag)

[('인생', 'NNG'), ('은', 'NNG'), ('모두', 'NNG'), ('가', 'VV+EC'), ('함께', 'MAG'), ('하', 'VV'), ('는', 'JX'), ('여행', 'NNG'), ('이', 'MM'), ('다', 'MAG'), ('.', 'SF'), ('매일', 'NNG'), ('매일', 'NNG'), ('사', 'VV+EC'), ('는', 'JX'), ('동안', 'NNG'), ('우리', 'NP'), ('가', 'VV+EC'), ('할', 'VV+ETM'), ('수', 'NNG'), ('있', 'VA'), ('는', 'JX'), ('건', 'NP+JX'), ('최선', 'NNG'), ('을', 'JKO'), ('다', 'MAG'), ('해', 'VV+EC'), ('이', 'MM'), ('멋진', 'VA+ETM'), ('여행', 'NNG'), ('을', 'JKO'), ('만끽', 'NNG'), ('하', 'VV'), ('는', 'JX'), ('것', 'NNB'), ('이', 'MM'), ('다', 'MAG'), ('.', 'SF')]


In [17]:
# 불용어 처리_최빈어 조회
from collections import Counter
Counter(mecabTag).most_common()

[(('는', 'JX'), 4),
 (('이', 'MM'), 3),
 (('다', 'MAG'), 3),
 (('가', 'VV+EC'), 2),
 (('하', 'VV'), 2),
 (('여행', 'NNG'), 2),
 (('.', 'SF'), 2),
 (('매일', 'NNG'), 2),
 (('을', 'JKO'), 2),
 (('인생', 'NNG'), 1),
 (('은', 'NNG'), 1),
 (('모두', 'NNG'), 1),
 (('함께', 'MAG'), 1),
 (('사', 'VV+EC'), 1),
 (('동안', 'NNG'), 1),
 (('우리', 'NP'), 1),
 (('할', 'VV+ETM'), 1),
 (('수', 'NNG'), 1),
 (('있', 'VA'), 1),
 (('건', 'NP+JX'), 1),
 (('최선', 'NNG'), 1),
 (('해', 'VV+EC'), 1),
 (('멋진', 'VA+ETM'), 1),
 (('만끽', 'NNG'), 1),
 (('것', 'NNB'), 1)]

In [18]:
# 불용어 처리_불용어 처리
stopPos = ['Determiner','Adverb','Conjunction','Josa','PreEomi','Eomi','Suffix',
          'Punctuation','Foreign','Alpha','Number','Unknown']
stopWord = ['을','다','는','은','(',')','.']
word = []
for tag in mecabTag:
    if tag[1] not in stopPos:
        if tag[0] not in stopWord:
            word.append(tag[0])
print(word)

['인생', '모두', '가', '함께', '하', '여행', '이', '매일', '매일', '사', '동안', '우리', '가', '할', '수', '있', '건', '최선', '해', '이', '멋진', '여행', '만끽', '하', '것', '이']


In [19]:
Counter(word).most_common()

[('이', 3),
 ('가', 2),
 ('하', 2),
 ('여행', 2),
 ('매일', 2),
 ('인생', 1),
 ('모두', 1),
 ('함께', 1),
 ('사', 1),
 ('동안', 1),
 ('우리', 1),
 ('할', 1),
 ('수', 1),
 ('있', 1),
 ('건', 1),
 ('최선', 1),
 ('해', 1),
 ('멋진', 1),
 ('만끽', 1),
 ('것', 1)]