# 튜토리얼 목차 
1. 자연어 처리란? 
### 2. NLP Preprocessing <<
<br>
3. Vectorization
4. Embedding 
5. Modeling 
***

## NLP Preprocessing이란?
- 자연어 전처리(NLP Preprocessing)는 정해진 정답이 없으며 데이터와 목적에 따라 달라진다. 이 과정은 주로 모델의 입력인 단어, 문장, 문서의 vector를 만들기 전에 진행이 되며, 이번 문서에서는 대부분의 NLP에 널리 쓰이는 방법들을 간단한 코드 예제와 함께 다루어보도록 하자. <br>

일반적인 NLP 전처리의 과정을 이번 신문기사 분류 대회에 적용해 보자. 

1. 데이터를 불러온 후 각 신문기사들을 눈으로 확인하며 특수문자, 불용어 그리고 문장 구조에 대한 감을 잡는다.
<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRB6c5FLCKLBrhqCWAUMuw8wx_YCyoVal5Sgw&usqp=CAU" width="5%"><br>
2. 문제의 목적과 분석가의 재량에 따라 불용어를 설정하고 리스트에 저장한다. 이번 대회에서는 특수 문자와 조사만 제거해도 어느 정도 높은 정확도를 얻을 수 있다. <br>
<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRB6c5FLCKLBrhqCWAUMuw8wx_YCyoVal5Sgw&usqp=CAU" width="5%"><br>
3. 불용어 이외의 모든 특수문자를 제거한다. 이번 대회를 위해 필자는 정규표현식 패키지(re)를 사용하여 한글과 영어 소문자를 제외한 모든 글자를 제거하였다.<br>
<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRB6c5FLCKLBrhqCWAUMuw8wx_YCyoVal5Sgw&usqp=CAU" width="5%"><br>
4. 형태소 분석을 통해 문장을 형태소 단위의 토큰으로 분리한다. 이때 본인이 설정한 불용어들을 결과로 반환해주는 형태소 분석기를 사용해야 한다. 예를 들어 조사를 불용어로 설정하였는데 조사를 분리해주지 못하는 형태소 분석기는 후보에서 제외해야 한다. <br>
<img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRB6c5FLCKLBrhqCWAUMuw8wx_YCyoVal5Sgw&usqp=CAU" width="5%"><br>
5. 형태소 단위의 토큰들을 기반으로 리스트에 저장된 불용어들을 제거한다. 
***

## 1. 형태소 분석(Stemming) 
- 형태소 분석이란 단어나 문장의 언어적 속성을 파악하는 것을 의미한다. 보통 품사의 태깅(PoS, 단어와 품사를 묶어 분류)를 통해 이루어지며 한국어 형태소 분석을 위해 Konlpy 패키지에 있는 다양한 함수를 이용하여 진행할 수 있다.
- 형태소 분석을 하는 이유는 주로 **형태소 단위로 의미있는 단어**를 가져가고 싶거나 품사 태깅을 통해 **형용사나 명사를 추출**하고 싶을 때 많이 이용하게 된다.
![image.png](attachment:image.png)

- 문장을 띄어쓰기 단위로 분류하고 vectorization을 하게 되면 "데이콘"이라는 같은 의미의 토큰 세 개가 서로 다른 vector를 갖게 된다. 이렇게 되면 모델이 세 단어를 각각 다른 단어로 이해한다. 하지만 형태소 분석을 통해 "데이콘"이라는 토큰을 추출한다면 앞의 세 단어는 동일한 vector를 갖게 되며 해당 토큰을 더 잘 학습하는 데 도움이 된다.
- **형태소 분석은 어쩌면 모델링보다 성능에 더 중요한 영향을 미치는 아주 중요한 과정이다.** 시간이 허락된다면 다양한 형태소 분석기를 사용해 결과를 비교하는 것을 추천한다.

## 1-1. Kkma()

In [1]:
from konlpy.tag import Kkma
kkma=Kkma()

sentence = "데이콘에서 다양한 컴피티션을 즐기면서 실력있는 데이터 분석가로 성장하세요!!"

print('형태소 단위로 문장 분리')
print('=======================')
print(kkma.morphs(sentence))
print(" ")
print('문장에서 명사 추출')
print('=======================')
print(kkma.nouns(sentence))
print(" ")
print('품사 태깅(PoS)')
print('=======================')
print(kkma.pos(sentence))

형태소 단위로 문장 분리
['데이', '콘', '에서', '다양', '하', 'ㄴ', '컴피티션', '을', '즐기', '면서', '실력', '있', '는', '데이터', '분석가', '로', '성장', '하', '세요', '!!']
 
문장에서 명사 추출
['데이', '데이콘', '콘', '다양', '컴피티션', '실력', '데이터', '분석가', '성장']
 
품사 태깅(PoS)
[('데이', 'NNG'), ('콘', 'NNG'), ('에서', 'JKM'), ('다양', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('컴피티션', 'UN'), ('을', 'JKO'), ('즐기', 'VV'), ('면서', 'ECE'), ('실력', 'NNG'), ('있', 'VV'), ('는', 'ETD'), ('데이터', 'NNG'), ('분석가', 'NNG'), ('로', 'JKM'), ('성장', 'NNG'), ('하', 'XSV'), ('세요', 'EFN'), ('!!', 'SW')]


In [2]:
sentence2 = "너를 본 순간 물고기가 뛰고 장미가 피고 너를 본 순간 아무것도 보이지 않았다 너를 본 순간 그동안 살아온 인생이 갑자기 걸레였고 갑자기 시커먼 밤이었고 너는 하이얀 대낮이었다"

print('형태소 단위로 문장 분리')
print('=======================')
print(kkma.morphs(sentence2))
print(" ")
print('문장에서 명사 추출')
print('=======================')
print(kkma.nouns(sentence2))
print(" ")
print('품사 태깅(PoS)')
print('=======================')
print(kkma.pos(sentence2))

형태소 단위로 문장 분리
['너', '를', '보', 'ㄴ', '순간', '물고기', '가', '뛰', '고', '장미', '가', '피', '고', '너', '를', '보', 'ㄴ', '순간', '아무것', '도', '보이', '지', '않', '았', '다', '너', '를', '보', 'ㄴ', '순간', '그동안', '살아오', 'ㄴ', '인생', '이', '갑자기', '걸레', '이', '었', '고', '갑자기', '시커멓', 'ㄴ', '밤', '이', '었', '고', '너', '는', '하이얗', 'ㄴ', '대낮', '이', '었', '다']
 
문장에서 명사 추출
['너', '순간', '물고기', '장미', '아무것', '그동안', '인생', '걸레', '밤', '대낮']
 
품사 태깅(PoS)
[('너', 'NP'), ('를', 'JKO'), ('보', 'VV'), ('ㄴ', 'ETD'), ('순간', 'NNG'), ('물고기', 'NNG'), ('가', 'JKS'), ('뛰', 'VV'), ('고', 'ECE'), ('장미', 'NNG'), ('가', 'JKS'), ('피', 'VV'), ('고', 'ECE'), ('너', 'NP'), ('를', 'JKO'), ('보', 'VV'), ('ㄴ', 'ETD'), ('순간', 'NNG'), ('아무것', 'NNG'), ('도', 'JX'), ('보이', 'VV'), ('지', 'ECD'), ('않', 'VXV'), ('았', 'EPT'), ('다', 'EFN'), ('너', 'NP'), ('를', 'JKO'), ('보', 'VV'), ('ㄴ', 'ETD'), ('순간', 'NNG'), ('그동안', 'NNG'), ('살아오', 'VV'), ('ㄴ', 'ETD'), ('인생', 'NNG'), ('이', 'JKS'), ('갑자기', 'MAG'), ('걸레', 'NNG'), ('이', 'VCP'), ('었', 'EPT'), ('고', 'ECE'), ('갑자기', 'MAG'), ('시커멓', 'VA'), 

## 1-2. Okt()

In [4]:
from konlpy.tag import Okt
okt = Okt()

sentence = "데이콘에서 다양한 컴피티션을 즐기면서 실력있는 데이터 분석가로 성장하세요!!"

print('형태소 단위로 문장 분리')
print('=======================')
print(okt.morphs(sentence))
print(" ")
print('문장에서 명사 추출')
print('=======================')
print(okt.nouns(sentence))
print(" ")
print('품사 태깅(PoS)')
print('=======================')
print(okt.pos(sentence))

형태소 단위로 문장 분리
['데', '이콘', '에서', '다양한', '컴피티션', '을', '즐기면서', '실력', '있는', '데이터', '분석', '가로', '성장하세요', '!!']
 
문장에서 명사 추출
['데', '이콘', '컴피티션', '실력', '데이터', '분석', '가로']
 
품사 태깅(PoS)
[('데', 'Noun'), ('이콘', 'Noun'), ('에서', 'Josa'), ('다양한', 'Adjective'), ('컴피티션', 'Noun'), ('을', 'Josa'), ('즐기면서', 'Verb'), ('실력', 'Noun'), ('있는', 'Adjective'), ('데이터', 'Noun'), ('분석', 'Noun'), ('가로', 'Noun'), ('성장하세요', 'Adjective'), ('!!', 'Punctuation')]


In [4]:
sentence2 = "너를 본 순간 물고기가 뛰고 장미가 피고 너를 본 순간 아무것도 보이지 않았다 너를 본 순간 그동안 살아온 인생이 갑자기 걸레였고 갑자기 시커먼 밤이었고 너는 하이얀 대낮이었다"

print('형태소 단위로 문장 분리')
print('=======================')
print(okt.morphs(sentence2))
print(" ")
print('문장에서 명사 추출')
print('=======================')
print(okt.nouns(sentence2))
print(" ")
print('품사 태깅(PoS)')
print('=======================')
print(okt.pos(sentence2))

형태소 단위로 문장 분리
['너', '를', '본', '순간', '물고기', '가', '뛰고', '장미', '가', '피고', '너', '를', '본', '순간', '아무', '것', '도', '보이지', '않았다', '너', '를', '본', '순간', '그동안', '살아온', '인생', '이', '갑자기', '걸레', '였고', '갑자기', '시커먼', '밤', '이었고', '너', '는', '하이', '얀', '대낮', '이었다']
 
문장에서 명사 추출
['너', '순간', '물고기', '장미', '피고', '너', '순간', '것', '보이지', '너', '순간', '그동안', '인생', '갑자기', '걸레', '갑자기', '밤', '너', '하이', '얀', '대낮']
 
품사 태깅(PoS)
[('너', 'Noun'), ('를', 'Josa'), ('본', 'Verb'), ('순간', 'Noun'), ('물고기', 'Noun'), ('가', 'Josa'), ('뛰고', 'Verb'), ('장미', 'Noun'), ('가', 'Josa'), ('피고', 'Noun'), ('너', 'Noun'), ('를', 'Josa'), ('본', 'Verb'), ('순간', 'Noun'), ('아무', 'Modifier'), ('것', 'Noun'), ('도', 'Josa'), ('보이지', 'Noun'), ('않았다', 'Verb'), ('너', 'Noun'), ('를', 'Josa'), ('본', 'Verb'), ('순간', 'Noun'), ('그동안', 'Noun'), ('살아온', 'Verb'), ('인생', 'Noun'), ('이', 'Josa'), ('갑자기', 'Noun'), ('걸레', 'Noun'), ('였고', 'Verb'), ('갑자기', 'Noun'), ('시커먼', 'Adjective'), ('밤', 'Noun'), ('이었고', 'Verb'), ('너', 'Noun'), ('는', 'Josa'), ('하이', 'Noun'), ('얀', 'N

## 1-3. Mecab()
이 클래스는 windows에서는 지원되지 않는다. 

In [5]:
# from konlpy.tag import Mecab
# mecab = Mecab()

# sentence = "데이콘에서 다양한 컴피티션을 즐기면서 실력있는 데이터 분석가로 성장하세요!!"

# print('형태소 단위로 문장 분리')
# print('=======================')
# print(mecab.morphs(sentence))
# print(" ")
# print('문장에서 명사 추출')
# print('=======================')
# print(mecab.nouns(sentence))
# print(" ")
# print('품사 태깅(PoS)')
# print('=======================')
# print(mecab.pos(sentence))

## 1-4. Twiter()

In [6]:
from konlpy.tag import Twitter
twitter = Twitter()

print('형태소 단위로 문장 분리')
print('=======================')
print(twitter.morphs(sentence))
print(" ")
print('문장에서 명사 추출')
print('=======================')
print(twitter.nouns(sentence))
print(" ")
print('품사 태깅(PoS)')
print('=======================')
print(twitter.pos(sentence))

형태소 단위로 문장 분리
['데', '이콘', '에서', '다양한', '컴피티션', '을', '즐기면서', '실력', '있는', '데이터', '분석', '가로', '성장하세요', '!!']
 
문장에서 명사 추출
['데', '이콘', '컴피티션', '실력', '데이터', '분석', '가로']
 
품사 태깅(PoS)
[('데', 'Noun'), ('이콘', 'Noun'), ('에서', 'Josa'), ('다양한', 'Adjective'), ('컴피티션', 'Noun'), ('을', 'Josa'), ('즐기면서', 'Verb'), ('실력', 'Noun'), ('있는', 'Adjective'), ('데이터', 'Noun'), ('분석', 'Noun'), ('가로', 'Noun'), ('성장하세요', 'Adjective'), ('!!', 'Punctuation')]


  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [7]:
sentence2 = "너를 본 순간 물고기가 뛰고 장미가 피고 너를 본 순간 아무것도 보이지 않았다 너를 본 순간 그동안 살아온 인생이 갑자기 걸레였고 갑자기 시커먼 밤이었고 너는 하이얀 대낮이었다"

print('형태소 단위로 문장 분리')
print('=======================')
print(twitter.morphs(sentence2))
print(" ")
print('문장에서 명사 추출')
print('=======================')
print(twitter.nouns(sentence2))
print(" ")
print('품사 태깅(PoS)')
print('=======================')
print(twitter.pos(sentence2))

형태소 단위로 문장 분리
['너', '를', '본', '순간', '물고기', '가', '뛰고', '장미', '가', '피고', '너', '를', '본', '순간', '아무', '것', '도', '보이지', '않았다', '너', '를', '본', '순간', '그동안', '살아온', '인생', '이', '갑자기', '걸레', '였고', '갑자기', '시커먼', '밤', '이었고', '너', '는', '하이', '얀', '대낮', '이었다']
 
문장에서 명사 추출
['너', '순간', '물고기', '장미', '피고', '너', '순간', '것', '보이지', '너', '순간', '그동안', '인생', '갑자기', '걸레', '갑자기', '밤', '너', '하이', '얀', '대낮']
 
품사 태깅(PoS)
[('너', 'Noun'), ('를', 'Josa'), ('본', 'Verb'), ('순간', 'Noun'), ('물고기', 'Noun'), ('가', 'Josa'), ('뛰고', 'Verb'), ('장미', 'Noun'), ('가', 'Josa'), ('피고', 'Noun'), ('너', 'Noun'), ('를', 'Josa'), ('본', 'Verb'), ('순간', 'Noun'), ('아무', 'Modifier'), ('것', 'Noun'), ('도', 'Josa'), ('보이지', 'Noun'), ('않았다', 'Verb'), ('너', 'Noun'), ('를', 'Josa'), ('본', 'Verb'), ('순간', 'Noun'), ('그동안', 'Noun'), ('살아온', 'Verb'), ('인생', 'Noun'), ('이', 'Josa'), ('갑자기', 'Noun'), ('걸레', 'Noun'), ('였고', 'Verb'), ('갑자기', 'Noun'), ('시커먼', 'Adjective'), ('밤', 'Noun'), ('이었고', 'Verb'), ('너', 'Noun'), ('는', 'Josa'), ('하이', 'Noun'), ('얀', 'N

## 1-5. Komoran

In [8]:
from konlpy.tag import Komoran
komoran= Komoran()

sentence = "데이콘에서 다양한 컴피티션을 즐기면서 실력있는 데이터 분석가로 성장하세요!!"

print('형태소 단위로 문장 분리')
print('=======================')
print(komoran.morphs(sentence))
print(" ")
print('문장에서 명사 추출')
print('=======================')
print(komoran.nouns(sentence))
print(" ")
print('품사 태깅(PoS)')
print('=======================')
print(komoran.pos(sentence))

형태소 단위로 문장 분리
['데', '이콘', '에서', '다양', '하', 'ㄴ', '컴', '피', '티', '션', '을', '즐기', '면서', '실력', '있', '는', '데이터', '분석가', '로', '성장', '하', '시', '어요', '!', '!']
 
문장에서 명사 추출
['데', '이콘', '컴', '피', '티', '션', '실력', '데이터', '분석가', '성장']
 
품사 태깅(PoS)
[('데', 'NNB'), ('이콘', 'NNP'), ('에서', 'JKB'), ('다양', 'XR'), ('하', 'XSA'), ('ㄴ', 'ETM'), ('컴', 'NNG'), ('피', 'NNG'), ('티', 'NNG'), ('션', 'NNG'), ('을', 'JKO'), ('즐기', 'VV'), ('면서', 'EC'), ('실력', 'NNG'), ('있', 'VV'), ('는', 'ETM'), ('데이터', 'NNG'), ('분석가', 'NNG'), ('로', 'JKB'), ('성장', 'NNG'), ('하', 'XSV'), ('시', 'EP'), ('어요', 'EF'), ('!', 'SF'), ('!', 'SF')]


In [9]:
sentence2 = "너를 본 순간 물고기가 뛰고 장미가 피고 너를 본 순간 아무것도 보이지 않았다 너를 본 순간 그동안 살아온 인생이 갑자기 걸레였고 갑자기 시커먼 밤이었고 너는 하이얀 대낮이었다"

print('형태소 단위로 문장 분리')
print('=======================')
print(komoran.morphs(sentence2))
print(" ")
print('문장에서 명사 추출')
print('=======================')
print(komoran.nouns(sentence2))
print(" ")
print('품사 태깅(PoS)')
print('=======================')
print(komoran.pos(sentence2))

형태소 단위로 문장 분리
['너', '를', '보', 'ㄴ', '순간', '물고기', '가', '뛰', '고', '장미', '가', '피고', '너', '를', '보', 'ㄴ', '순간', '아무것', '도', '보이', '지', '않', '았', '다', '너', '를', '보', 'ㄴ', '순간', '그동안', '살아오', 'ㄴ', '인생', '이', '갑자기', '걸레', '이', '었', '고', '갑자기', '시커멓', 'ㄴ', '밤', '이', '었', '고', '너', '는', '하', '이', '아야', '하', 'ㄴ', '대낮', '이', '었', '다']
 
문장에서 명사 추출
['순간', '물고기', '장미', '피고', '순간', '아무것', '순간', '그동안', '인생', '걸레', '밤', '하', '대낮']
 
품사 태깅(PoS)
[('너', 'NP'), ('를', 'JKO'), ('보', 'VV'), ('ㄴ', 'ETM'), ('순간', 'NNG'), ('물고기', 'NNP'), ('가', 'JKS'), ('뛰', 'VV'), ('고', 'EC'), ('장미', 'NNP'), ('가', 'JKS'), ('피고', 'NNP'), ('너', 'NP'), ('를', 'JKO'), ('보', 'VV'), ('ㄴ', 'ETM'), ('순간', 'NNG'), ('아무것', 'NNG'), ('도', 'JX'), ('보이', 'VV'), ('지', 'EC'), ('않', 'VX'), ('았', 'EP'), ('다', 'EC'), ('너', 'NP'), ('를', 'JKO'), ('보', 'VV'), ('ㄴ', 'ETM'), ('순간', 'NNG'), ('그동안', 'NNG'), ('살아오', 'VV'), ('ㄴ', 'ETM'), ('인생', 'NNG'), ('이', 'JKS'), ('갑자기', 'MAG'), ('걸레', 'NNP'), ('이', 'VCP'), ('었', 'EP'), ('고', 'EC'), ('갑자기', 'MAG'), ('시커멓'

## 1-6. Hannanum

In [10]:
from konlpy.tag import Hannanum
hannanum = Hannanum()

sentence = "데이콘에서 다양한 컴피티션을 즐기면서 실력있는 데이터 분석가로 성장하세요!!"

print('형태소 단위로 문장 분리')
print('=======================')
print(hannanum.morphs(sentence))
print(" ")
print('문장에서 명사 추출')
print('=======================')
print(hannanum.nouns(sentence))
print(" ")
print('품사 태깅(PoS)')
print('=======================')
print(hannanum.pos(sentence))

형태소 단위로 문장 분리
['데이콘', '에서', '다양', '하', 'ㄴ', '컴피티션', '을', '즐기', '면서', '실력', '있', '는', '데이터', '분석가', '로', '성장', '하', '세', '요', '!!']
 
문장에서 명사 추출
['데이콘', '다양', '컴피티션', '실력', '데이터', '분석가', '성장']
 
품사 태깅(PoS)
[('데이콘', 'N'), ('에서', 'J'), ('다양', 'N'), ('하', 'X'), ('ㄴ', 'E'), ('컴피티션', 'N'), ('을', 'J'), ('즐기', 'P'), ('면서', 'E'), ('실력', 'N'), ('있', 'X'), ('는', 'E'), ('데이터', 'N'), ('분석가', 'N'), ('로', 'J'), ('성장', 'N'), ('하', 'X'), ('세', 'E'), ('요', 'J'), ('!!', 'S')]


In [11]:
sentence2 = "너를 본 순간 물고기가 뛰고 장미가 피고 너를 본 순간 아무것도 보이지 않았다 너를 본 순간 그동안 살아온 인생이 갑자기 걸레였고 갑자기 시커먼 밤이었고 너는 하이얀 대낮이었다"

print('형태소 단위로 문장 분리')
print('=======================')
print(hannanum.morphs(sentence2))
print(" ")
print('문장에서 명사 추출')
print('=======================')
print(hannanum.nouns(sentence2))
print(" ")
print('품사 태깅(PoS)')
print('=======================')
print(hannanum.pos(sentence2))

형태소 단위로 문장 분리
['너', '를', '보', 'ㄴ', '순간', '물고기', '가', '뛰', '고', '장미', '가', '피', '고', '너', '를', '보', 'ㄴ', '순간', '아무것', '도', '보이', '지', '않', '아다', '너', '를', '보', 'ㄴ', '순간', '그동안', '살', '아', '오', 'ㄴ', '인생', '이', '갑자기', '걸레', '이', '었고', '갑자기', '시커먼', '밤', '이', '었고', '너', '는', '하이얀', '대낮', '이', '었다']
 
문장에서 명사 추출
['너', '순간', '물고기', '장미', '너', '순간', '아무것', '너', '순간', '그동안', '인생', '걸레', '시커먼', '밤', '너', '하이얀', '대낮']
 
품사 태깅(PoS)
[('너', 'N'), ('를', 'J'), ('보', 'P'), ('ㄴ', 'E'), ('순간', 'N'), ('물고기', 'N'), ('가', 'J'), ('뛰', 'P'), ('고', 'E'), ('장미', 'N'), ('가', 'J'), ('피', 'P'), ('고', 'E'), ('너', 'N'), ('를', 'J'), ('보', 'P'), ('ㄴ', 'E'), ('순간', 'N'), ('아무것', 'N'), ('도', 'J'), ('보이', 'P'), ('지', 'E'), ('않', 'P'), ('아다', 'E'), ('너', 'N'), ('를', 'J'), ('보', 'P'), ('ㄴ', 'E'), ('순간', 'N'), ('그동안', 'N'), ('살', 'P'), ('아', 'E'), ('오', 'P'), ('ㄴ', 'E'), ('인생', 'N'), ('이', 'J'), ('갑자기', 'M'), ('걸레', 'N'), ('이', 'J'), ('었고', 'E'), ('갑자기', 'M'), ('시커먼', 'N'), ('밤', 'N'), ('이', 'J'), ('었고', 'E'), ('너', 'N'), 

이 외에도 여러 형태소 분석기 중 발군의 속도를 자랑하는 Mecab과 최근 카카오에서 공개한 형태소 분석기 khaii가 있다. 대표적인 형태소 분석기 몇 개의 특징을 꼽아보면 다음과 같다. <br>

- Mecab : 굉장히 속도가 빠르며 좋은 분석 결과를 보여준다.
- Komoran : 댓글과 같이 정제되지 않은 글에 대해서 먼저 사용해보면 좋은 편이다.(오탈자를 어느 정도 고려해준다.)
- Kkma : 분석 시간이 오래 걸리기 때문에 선호되지 않는다. 
- Okt : 품사 태깅 결과를 알아보기 쉽게 반환해주어 편리하다.
- khaiii : 최근에 공개된 분석기로 성능이 좋다고 알려져 있으며 다양한 실험이 필요하다. 
***

## 2. 표제어 추출(Lemmatization) 
- 언어학을 전공하지 않은 사람에게 표제어 추출(Lemmatization)과 형태소 분석(Stemming)은 큰 차이가 없다고 생각한다. 모두 단어의 본 모습을 찾아주는 과정으로서 Konlpy에서 공개한 형태소 분석기들을 이용하면 어느 정도 어간 추출이 가능하다. 형태소 분석(Pos Tagging)을 stemming이라고 표기한 이유도 이와 같다. 
- 다음 예시를 보자.

In [1]:
from konlpy.tag import Kkma
kkma = Kkma()

sentence = "성장했었다."

print("품사 태깅(PoS)")
print("===============")
print(kkma.pos(sentence))

품사 태깅(PoS)
[('성장', 'NNG'), ('하', 'XSV'), ('었', 'EPT'), ('었', 'EPT'), ('다', 'EFN'), ('.', 'SF')]


In [2]:
sentence = "성장하였었다."

print("품사 태깅(PoS)")
print("===============")
print(kkma.pos(sentence))

품사 태깅(PoS)
[('성장', 'NNG'), ('하', 'XSV'), ('였', 'EPT'), ('었', 'EPT'), ('다', 'EFN'), ('.', 'SF')]


NLP에 대해 처음 공부할 때는 형태소, 어간, 어미 등 언어학에 대한 이해가 가장 어려운 부분일 수 있다. 이번 튜토리얼에서는 이러한 부분을 상당수 제거하고 코드 위주로 구성하였다. 

## 3. 불용어 제거(Stopwords removing)
- 불용어를 간단히 정의하면 **문장에서 큰 의미가 없다고 생각되는 단어, 글자들**이다. 불용어는 데이터와 문제에 따라 유동적이다. 다음 예시를 보자. 

예시: "이번에 새롭게 개봉한 영화의 배우들은 모두 훌륭한 연기력과 아름다운 목소리를 갖고 있어!!"

- 예시 문장에서 감성분석을 진행할 때는 "훌륭한", "아름다운" 등이 주요 특징으로 사용될 것이다. 하지만 경우에 따라서는 이러한 형용사들을 제외한 배우들의 연기력과 목소리라는 정보에 집중해야 할 때가 있다. 이럴 때 "훌륭한", "아름다운" 등의 형용사는 불용어로 정의될 수 있다. 

In [5]:
import re
tokenizer = Okt()
def text_preprocessing(text, tokenizer):
    stopwords=['을', '를', '이', '가', '은', '는']
    
    txt = re.sub('[^가-힣a-z]', ' ', text)
    token = tokenizer.morphs(txt)
    token = [t for t in token if t not in stopwords]
    
    return token

ex_text = "이번에 새롭게 개봉한 영화의 배우들은 모두 훌륭한 연기력과 아름다운 목소리를 갖고 있어!!"
example_pre = text_preprocessing(ex_text, tokenizer)

위 코드의 설명이다. 

1. 영어 소문자와 한글을 제외한 모든 문자를 제거
2. Okt를 이용해 형태소 분석
3. 형태소 분석기를 거쳐 나온 결과들 중 stopwords 리스트에 포함되지 않는 토큰만 token이라는 리스트에 반환

결과는 다음과 같다.

In [6]:
print(example_pre)

['이번', '에', '새롭게', '개봉', '한', '영화', '의', '배우', '들', '모두', '훌륭한', '연기력', '과', '아름다운', '목소리', '갖고', '있어']


## 4. 대회 적용

아래 코드는 이번 대회에 바로 적용 가능한 전처리 코드이다. 이 코드만 이해하고 사용해도 꽤 높은 수준의 정확도를 얻을 수 있다. 

In [7]:
def text_preprocessing(text_list):
    stopwords = ["을", "를", "이", "가", "은", "는", "null"] # 불용어 설정
    tokenizer = Okt() # 형태소 분석기
    token_list = []
    
    for text in text_list:
        txt = re.sub('[^가-힣a-z]', ' ', text) # 한글과 영어 소문자만 남기고 다른 글자 모두 제거
        token = tokenizer.morphs(txt) # 형태소 분석
        token = [t for t in token if t not in stopwords or type(t) != float] # 형태소 분석
        token_list.append(token)
        
    return token_list, tokenizer

# 형태소 분석기를 따로 저장한 이유는 후에 test 데이터 전처리를 진행할 떄 이용해야 되기 때문이다.
train['new_article'], okt = text_preprocessing(train['content'])

이제 분리한 토큰을 기반으로 모델의 입력인 vectorization을 진행할 차례다!