<a href="https://colab.research.google.com/github/mint-rin/SeSAC/blob/main/text_mining_2_kor_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텍스트 전처리
- 텍스트를 자연어 처리를 위해 용도에 맞도록 사전에 표준화하는 작업
- 텍스트 내 정보를 유지하고, 중복을 제거하여 분석 효율성을 높이기 위해 전처리를 수행

## 토큰화(Tokenizing)
- 텍스트를 자연어 처리를 위해 분리하는 것
- 토큰화는 단어별로 분리하는 "단어 토큰화(Word Tokenization)"와 문장별로 분리하는 "문장 토큰화(Sentence Tokenization)"로 구분
- 이후 실습에서는 단어 토큰화를 "토큰화"로 통일하여 칭하도록 한다.

In [None]:
text = '''인생은 모두가 함께 하는 여행이다. 매일매일 사는 동안 우리가 할 수 있는 건 최선을 다해 이 멋진 여행을 만끽하는 것이다.'''

In [None]:
# 띄어쓰기로 토큰화
print(text.split(' '))

['인생은', '모두가', '함께', '하는', '여행이다.', '매일매일', '사는', '동안', '우리가', '할', '수', '있는', '건', '최선을', '다해', '이', '멋진', '여행을', '만끽하는', '것이다.']


In [None]:
# 한국어 자연어 처리 라이브러리 KoNLPy
# !pip instal/ konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m11.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [None]:
# 한국어 형태소 분석기: Komoran(코모란)
from konlpy.tag import Komoran

# 선언
komoran = Komoran()

# 토큰화: morphs
komoran_tokens = komoran.morphs(text)
print(komoran_tokens)

['인생', '은', '모두', '가', '함께', '하', '는', '여행', '이', '다', '.', '매일', '매일', '살', '는', '동안', '우리', '가', '하', 'ㄹ', '수', '있', '는', '건', '최선', '을', '다', '하', '아', '이', '멋지', 'ㄴ', '여행', '을', '만끽', '하', '는', '것', '이', '다', '.']


In [None]:
# 한국어 형태소 분석기: Hannanum(한나눔)
from konlpy.tag import Hannanum
hannanum = Hannanum()
hannanum_tokens = hannanum.morphs(text)
print(hannanum_tokens)

['인생', '은', '모두', '가', '함께', '하', '는', '여행', '이', '다', '.', '매일매일', '사', '는', '동안', '우리', '가', '하', 'ㄹ', '수', '있', '는', '거', '은', '최선', '을', '다하', '어', '이', '멋지', 'ㄴ', '여행', '을', '만끽', '하', '는', '것', '이', '다', '.']


In [None]:
# SNS 데이터로 학습한 한국어 형태소 분석기: Okt
from konlpy.tag import Okt
okt = Okt()
okt_tokens = okt.morphs(text)
print(okt_tokens)

['인생', '은', '모두', '가', '함께', '하는', '여행', '이다', '.', '매', '일', '매일', '사는', '동안', '우리', '가', '할', '수', '있는', '건', '최선', '을', '다해', '이', '멋진', '여행', '을', '만끽', '하는', '것', '이다', '.']


In [None]:
# 한국어 형태소 분석기: Kkma(꼬꼬마)
# 가장 세밀하게 나뉘어서 구문분석할 때 쓰인다.
from konlpy.tag import Kkma
kkma = Kkma()
kkma_tokens = kkma.morphs(text)
print(kkma_tokens)

['인생', '은', '모두', '가', '함께', '하', '는', '여행', '이', '다', '.', '매일', '매일', '살', '는', '동안', '우리', '가', '하', 'ㄹ', '수', '있', '는', '것', '은', '최선', '을', '다하', '어', '이', '멋지', 'ㄴ', '여행', '을', '만끽', '하', '는', '것', '이', '다', '.']


## 품사 부착(PoS Tagging)
- 각 토큰에 품사 정보를 추가
- 분석시에 불필요한 품사(ex.조사, 접속사)를 제거하거나 필요한 품사를 필터링하기 위해 사용

In [None]:
# Komoran(코모란)
# komoran.pos(text)
komoranTag = []

for token in komoran_tokens:
  komoranTag += komoran.pos(token)
print(komoranTag)

[('인생', 'NNG'), ('은', 'NNP'), ('모두', 'MAG'), ('가', 'VV'), ('아', 'EC'), ('함께', 'MAG'), ('하', 'NNG'), ('늘', 'VV'), ('ㄴ', 'ETM'), ('여행', 'NNG'), ('이', 'MM'), ('다', 'MAG'), ('.', 'SF'), ('매일', 'MAG'), ('매일', 'MAG'), ('살', 'VV'), ('ㄹ', 'ETM'), ('늘', 'VV'), ('ㄴ', 'ETM'), ('동안', 'NNG'), ('우리', 'NP'), ('가', 'VV'), ('아', 'EC'), ('하', 'NNG'), ('ㄹ', 'NA'), ('수', 'NNB'), ('있', 'VV'), ('늘', 'VV'), ('ㄴ', 'ETM'), ('건', 'NNB'), ('최선', 'NNP'), ('을', 'NNG'), ('다', 'MAG'), ('하', 'NNG'), ('아', 'IC'), ('이', 'MM'), ('멋', 'NNG'), ('지', 'NNB'), ('ㄴ', 'JX'), ('여행', 'NNG'), ('을', 'NNG'), ('만끽', 'NNP'), ('하', 'NNG'), ('늘', 'VV'), ('ㄴ', 'ETM'), ('것', 'NNB'), ('이', 'MM'), ('다', 'MAG'), ('.', 'SF')]


In [None]:
# Hannanum(한나눔))
# hannanum.pos(text) 한 줄로 포스태깅 가능
hannanumTag = []
for token in hannanum_tokens:
  hannanumTag += hannanum.pos(token)
print(hannanumTag)

NameError: ignored

In [None]:
# Okt
# okt.pos(text) 한 줄로 포스태깅 가능
oktTag = []
for token in okt_tokens:
  oktTag += okt.pos(token)
print(oktTag)

[('인생', 'Noun'), ('은', 'Noun'), ('모두', 'Noun'), ('가', 'Verb'), ('함께', 'Adverb'), ('하는', 'Verb'), ('여행', 'Noun'), ('이다', 'Josa'), ('.', 'Punctuation'), ('매', 'Noun'), ('일', 'Noun'), ('매일', 'Noun'), ('사는', 'Verb'), ('동안', 'Noun'), ('우리', 'Noun'), ('가', 'Verb'), ('할', 'Verb'), ('수', 'Noun'), ('있는', 'Adjective'), ('건', 'Noun'), ('최선', 'Noun'), ('을', 'Josa'), ('다해', 'Noun'), ('이', 'Noun'), ('멋진', 'Adjective'), ('여행', 'Noun'), ('을', 'Josa'), ('만끽', 'Noun'), ('하는', 'Verb'), ('것', 'Noun'), ('이다', 'Josa'), ('.', 'Punctuation')]


In [None]:
# Kkma
# kkma.pos(text) 한 줄로 포스태깅 가능
kkmaTag = []
for token in kkma_tokens:
  kkmaTag += kkma.pos(token)
print(kkmaTag)

[('인생', 'NNG'), ('은', 'NNG'), ('모두', 'MAG'), ('가', 'NNG'), ('함께', 'MAG'), ('하', 'NNG'), ('늘', 'VA'), ('ㄴ', 'ETD'), ('여행', 'NNG'), ('이', 'NNG'), ('다', 'NNG'), ('.', 'SF'), ('매일', 'MAG'), ('매일', 'MAG'), ('살', 'NNG'), ('늘', 'VA'), ('ㄴ', 'ETD'), ('동안', 'NNG'), ('우리', 'NP'), ('가', 'NNG'), ('하', 'NNG'), ('ㄹ', 'NNG'), ('수', 'NNG'), ('있', 'VA'), ('늘', 'VA'), ('ㄴ', 'ETD'), ('것', 'NNB'), ('은', 'NNG'), ('최선', 'NNG'), ('을', 'NNG'), ('다하', 'VV'), ('어', 'NNG'), ('이', 'NNG'), ('멋지', 'VA'), ('ㄴ', 'NNG'), ('여행', 'NNG'), ('을', 'NNG'), ('만끽', 'NNG'), ('하', 'NNG'), ('늘', 'VA'), ('ㄴ', 'ETD'), ('것', 'NNB'), ('이', 'NNG'), ('다', 'NNG'), ('.', 'SF')]


## 불용어 처리(Stopword)
- 자연어 처리를 위해 불피요한 요소를 제거하는 작업
- 불필요한 품사를 제거하는 작업과 불필요한 단어를 제거하는 작업으로 구성
- 불필요한 토큰을 제거함으로써 연산의 효율성을 높임

In [None]:
# X(구.트위터)
# 최빈어 조회. 최빈어를 조회하여 불용어 제거 대상을 선정
from collections import Counter
Counter(oktTag).most_common()

[(('가', 'Verb'), 2),
 (('하는', 'Verb'), 2),
 (('여행', 'Noun'), 2),
 (('이다', 'Josa'), 2),
 (('.', 'Punctuation'), 2),
 (('을', 'Josa'), 2),
 (('인생', 'Noun'), 1),
 (('은', 'Noun'), 1),
 (('모두', 'Noun'), 1),
 (('함께', 'Adverb'), 1),
 (('매', 'Noun'), 1),
 (('일', 'Noun'), 1),
 (('매일', 'Noun'), 1),
 (('사는', 'Verb'), 1),
 (('동안', 'Noun'), 1),
 (('우리', 'Noun'), 1),
 (('할', 'Verb'), 1),
 (('수', 'Noun'), 1),
 (('있는', 'Adjective'), 1),
 (('건', 'Noun'), 1),
 (('최선', 'Noun'), 1),
 (('다해', 'Noun'), 1),
 (('이', 'Noun'), 1),
 (('멋진', 'Adjective'), 1),
 (('만끽', 'Noun'), 1),
 (('것', 'Noun'), 1)]

In [None]:
# 불용어 처리
stopPos = ['Josa', 'Punctuation', 'Suffix', 'Foreign', 'Alpha', 'Number']
stopWord = ['을', '은', '가']   # 불필요한 단어 별도 처리

word = []
for tag in oktTag:
  if tag[1] not in stopPos:     # stopPos에 없고
    if tag[0] not in stopWord:  # stopWord에도 없는
      word.append(tag[0])       # 단어들만 word 리스트에 추가
print(word)

['인생', '모두', '함께', '하는', '여행', '매', '일', '매일', '사는', '동안', '우리', '할', '수', '있는', '건', '최선', '다해', '이', '멋진', '여행', '만끽', '하는', '것']
