# Tokenization(토큰화) 이론
텍스트에서 어디까지가 문장이고, 무엇이 단어인지를 알려주는 것을 의미

* 문장 토큰화( Sentence Tokenization )
* 단어 토큰화( Word Tokenization )
* Subword 토큰화

# English Tokenization
띄어쓰기 및 온점을 이용해 단어 및 문장에 대한 토큰화를 손쉽게 진행할 수 있다.(?)

In [1]:
sample_text="I never thought through love we'd be. Making one as lovely as she. But isn't she lovely made from love."

문장 토큰화

In [2]:
tokenized_sentence = sample_text.split('. ')
tokenized_sentence

["I never thought through love we'd be",
 'Making one as lovely as she',
 "But isn't she lovely made from love."]

단어 토큰화

In [3]:
tokenized_word = sample_text.split()
tokenized_word

['I',
 'never',
 'thought',
 'through',
 'love',
 "we'd",
 'be.',
 'Making',
 'one',
 'as',
 'lovely',
 'as',
 'she.',
 'But',
 "isn't",
 'she',
 'lovely',
 'made',
 'from',
 'love.']

## 띄어쓰기(공백)로만 영어 문장 내 단어를 구분할 때의 문제점
* We're Avengers!!
* We are Avengers!!
* We are Avengers

단순하게 공백으로만 토큰화를 수행하면, 사람과 다르게 기계는 위 세 문장을 다른 문장으로 인식

### 특수문자를 제거하면??
* `[We, re, Avengers]`
* `[We, are, Avengers]`
* `[We, are, Avengers]`

특수문자가 중요한 의미를 가지는 경우에도 특수문자를 제거하면?
* `$12.45`
* `Mr.So`
* `Mrs.Kim`
* `192.168.0.1`
특수문자가 중요한 역할을 하는 경우에는 효율적이지 못함

## 미리 준비된 영어단어 토크나이저 준비 하기
* TreebankWordTokenizer 패키지
  * 영어 표준 토큰화 규격을 따라간다
  * Penn Treebank Tokenization 규칙
* TreebankWordTokenizer 규칙
  * 하이픈으로 구성된 단어는 하나로 유지
  * doesn't같이 어퍼스트로피로 '접어'가 함께하는 단어는 따로 분리

## 한국어 토큰화가 어려운 이유
1. 한국어는 교착어이다
2. 한국어는 띄어쓰기가 잘 지켜지지 않는다.
3. 한국어는 주어생략이 가능하고 어순도 중요하지 않다.
4. 한자어라는 특성상 하나의 음절도 다른 의미를 같는다.

### 교착어
실질적인 의미를 가지는 어간에 조사나 어미와 같은 **문법 형태소**가 결합하여 문법적인 기능이 부여되는 언어

> **핸드폰이** 바닥에 떨어져서, **핸드폰을** 새롬게 샀다. **헨드폰은** 다 부서졌다.

### 띄어쓰기 문제

> 이렇게띄어쓰기를하지않아도잘읽을수있다

한국어 띄어쓰기 검색 패키지로 `ko-spacing`이나 `py-hanspell` 패키지를 사용하면 된다.

### 주어 생략 및 어순 문제

> 나는 했어, 운동을 : 도치와 관련된 문제

### 한자어라는 특성 때문에 하나의 음절이 다른 의미를 같는다
* 동음이의어

한국어 형태소 분석을 쉽게 하기 위해 `konlypy`패키지 활용
```
공통적으로 java가 설치 되어있어야 한다.
```

### Mecab
실무에서 가장 많이 쓰이는 형태소 분석기, 맥이나 리눅스에서 잘 되고 잘 돌아가는데, 윈도우즈에서는 정대 안돌아감
```
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh
```

In [None]:
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

### Twitter(Okt), 꼬꼬마(KKma), 코모란(Komoran), 한나눔(Hannanum)
속도가 Mecab이나 카카오에서 개발한 `Khaii`보다 느리기는 하지만 각각의 장점이 있다.

## 영어와 한국어 공통으로 처리해야 할 Cleaning(정제), Normalization(정규화)

### 정제란?
* **불필요한 데이터를 제거하는 것**
* 텍스트 중간중간에 껴있는 숫자, 특수기호를 제거하는 작업
* 한국어 같은 경우에는 은,는, 이, 가 등의 불용어 처리(stopword)를 제거 하는 것
* 영어의 경우에는 at, is, am, the 등을 제거 하는 것
* 텍스트의 인코딩 문제를 해결하는 것
* 길이가 짧은 단어들을 제거하는 것 ( 선택적 )
* 등장 빈도가 적은 단어 제거

## 정규화란?
* **문장의 복잡도를 줄여주는 과정**
* 같은 의미를 가지고 있는 여러 단어를 하나로 통합하는 과정
* 영어의 경우 `lemmatization`
  * am, are, were, was : be
  * has, had : have
  * 10, 12, 100 : number
  * ㅋ, ㅋㅋㅋㅋ, ㅋㅋㅋㅋㅋㅋㅋㅋ : ㅋㅋ
* 대소문자 통합 등

# Tokenization 실습

In [3]:
# 영어는 보통 nltk 패키지에 준비가 되어 있는 것이 많다
# !pip install nltk 로 설치
import nltk
nltk.download('punkt') # 영어 토크나이저 패키지 다운로드
sentence = "Ain't nothin' sweeter, you want this sugar, don't ya?"

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


## [English] 기본 토크나이저

In [4]:
from nltk.tokenize import word_tokenize
print(word_tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


## [English]WordPunctTokenizer 

In [5]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(sentence))

['Ain', "'", 't', 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'don', "'", 't', 'ya', '?']


## [English] TreebankWordTokenizer

In [6]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


In [7]:
# TreebankWordTokenizer는 하이픈이 있는 단어를 하나로 묶을 수 있다.
print(tokenizer.tokenize("I'm Iron-man"))

['I', "'m", 'Iron-man']


## 한국어 토크나이저 사용하기

In [None]:
!pip install konlpy

In [9]:
from konlpy.tag import Hannanum # 한나눔
from konlpy.tag import Kkma # 꼬꼬마
from konlpy.tag import Komoran # 코모란
from konlpy.tag import Okt # 트위터 
from konlpy.tag import Mecab # 거의 대부분 사용하는 토크나이저
hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
mecab = Mecab()

sentence = "좋으니 그 사람 솔직히 견디기 버거워"

In [10]:
def print_tokenization(tokenizer):
  print(tokenizer.nouns(sentence)) # 명사만 추출
  print(tokenizer.morphs(sentence)) # 각 형태소 별로 토큰화
  print(tokenizer.pos(sentence)) # 각 형태소 토큰 믹 형태소 종류를 튜플로 표시

### 트위터(Okt)
* 정확
* 속도가 매우 느림

In [11]:
print_tokenization(okt)

['그', '사람']
['좋으니', '그', '사람', '솔직히', '견디기', '버거워']
[('좋으니', 'Adjective'), ('그', 'Noun'), ('사람', 'Noun'), ('솔직히', 'Adjective'), ('견디기', 'Verb'), ('버거워', 'Adjective')]


### 꼬꼬마(KKma)
* 트위터보다 더 상세한 자료가 필요할 때 사용

In [12]:
print_tokenization(kkma)

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버겁', '어']
[('좋', 'VA'), ('으니', 'ECD'), ('그', 'MDT'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버겁', 'VA'), ('어', 'ECS')]


### 코모란(Komoran)

In [13]:
print_tokenization(komoran)

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'NA')]


### 한나눔(Hannanum)

In [14]:
print_tokenization(hannanum)

['사람', '버거워']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'P'), ('으니', 'E'), ('그', 'M'), ('사람', 'N'), ('솔직히', 'M'), ('견디', 'P'), ('기', 'E'), ('버거워', 'N')]


### Mecab

In [15]:
print_tokenization(mecab)

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'VA+EC')]


* 최근에는 카카오에서 개발한 **`Khaii`**도 많이 사용

## 문장 토크나이징
단순히 물음표나 온점(.), 느낌표 등으로 문장을 잘라내면 문장 토크나이징이 될까?
> 니 아이피가 **192.168.56.21** 맞니?

> looking for **Ph.D** Student

### [English]sent_tokenize

In [16]:
text = "Since I'm actively looking for Ph.D. students. I get the same question a dozen times every year."

In [17]:
from nltk.tokenize import sent_tokenize
print(sent_tokenize(text))

["Since I'm actively looking for Ph.D. students.", 'I get the same question a dozen times every year.']


In [18]:
text = "My IP Address is 192.168.56.51. Hello World!"

In [19]:
print(sent_tokenize(text))

['My IP Address is 192.168.56.51.', 'Hello World!']


###[한국어] kss
```
!pip install kss
```

In [20]:
!pip install kss

Collecting kss
  Downloading https://files.pythonhosted.org/packages/55/52/e3216b68094a73c39dfb037f4f2f5ba21177e8178f334829f985dbf12194/kss-2.2.0.2-py3-none-any.whl
Installing collected packages: kss
Successfully installed kss-2.2.0.2


In [21]:
import kss
text = "제 아이피는 192.168.56.21 이에요. 자연어 처리가 재미있나요?ㅋㅋ 딥러닝 들어가면 뚝배기가 아파와요"

print(kss.split_sentences(text))

['제 아이피는 192.168.56.21 이에요.', '자연어 처리가 재미있나요?ㅋㅋ', '딥러닝 들어가면 뚝배기가 아파와요']


## [한국어]띄어쓰기 및 맞춤법 정리
### KoSpacing
```
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git
```
### Hanspell
```
!pip install git+https://github.com/ssut/py-hanspell.git
```


In [None]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git git+https://github.com/ssut/py-hanspell.git

In [23]:
from hanspell import spell_checker
from pykospacing import spacing

### Kosapcing 사용하기

In [24]:
text = "4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아."
spacing_text = spacing(text)
print(spacing_text)

4번 놀고 있지.4번은 팀워크가 없어.4번은 개인주의야.4번은 혼자 밖에 생각하지 않아.


### Hanspell 사용하기
* 맞춤법 검사 및 교정
* Kospacing 처럼 띄어쓰기 교정도 가능

In [25]:
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

4번 놀고 있지. 4번은 팀워크가 없어. 4번은 개인주의야. 4번은 혼자밖에 생각하지 않아.


In [27]:
text = "맞춤법 틀리면 외 않되?"
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

맞춤법 틀리면 왜 안돼?


## 텍스트 정규화
문장의 복잡도를 낮추는 과정, 복잡도가 낮아지기 때문에 처리할 단어가 줄어든다

### [English] 정규화 - Stemming 과정
어간(stem)을 추출하는 과정 - 영어에서는 사전에 없는 이상한 단어가 나오는 경우가 종종있다
* Allowance : allow
* Medical : medic
* This : thi

In [28]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

porter_stemmer = PorterStemmer()

In [29]:
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [30]:
# stemmer 활용을 위해서는 문장이 단어 토큰화 되어 있어야 한다.
print([porter_stemmer.stem(w) for w in words]) # 배열 안에 있는 단어를 하나씩 꺼내서 stemming

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [31]:
words = ["Serialize", "Allowance", "Medical", "This", "Pretty", "Beautiful"]
print([porter_stemmer.stem(w) for w in words])

['serial', 'allow', 'medic', 'thi', 'pretti', 'beauti']


### [한국어] 정규화 - Okt활용 (Stemming, Normalization)

In [32]:
okt = Okt()

text = "4번 놀고 있지. 4번은 팀워크가 없어. 4번은 개인주의야. 4번은 혼자밖에 생각하지 않아."
print(okt.morphs(text)) # 일반 형태소 분리
print(okt.morphs(text, stem=True)) # 어간이 추출된 형태소 분리

['4', '번', '놀고', '있지', '.', '4', '번은', '팀워크', '가', '없어', '.', '4', '번은', '개인주의', '야', '.', '4', '번은', '혼자', '밖에', '생각', '하지', '않아', '.']
['4', '번', '놀다', '있다', '.', '4', '번은', '팀워크', '가', '없다', '.', '4', '번은', '개인주의', '야', '.', '4', '번은', '혼자', '밖에', '생각', '하다', '않다', '.']


In [33]:
print(okt.pos(text))
print(okt.pos(text, stem=True))

[('4', 'Number'), ('번', 'Noun'), ('놀고', 'Verb'), ('있지', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('팀워크', 'Noun'), ('가', 'Josa'), ('없어', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('개인주의', 'Noun'), ('야', 'Josa'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('혼자', 'Noun'), ('밖에', 'Josa'), ('생각', 'Noun'), ('하지', 'Verb'), ('않아', 'Verb'), ('.', 'Punctuation')]
[('4', 'Number'), ('번', 'Noun'), ('놀다', 'Verb'), ('있다', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('팀워크', 'Noun'), ('가', 'Josa'), ('없다', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('개인주의', 'Noun'), ('야', 'Josa'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('혼자', 'Noun'), ('밖에', 'Josa'), ('생각', 'Noun'), ('하다', 'Verb'), ('않다', 'Verb'), ('.', 'Punctuation')]


In [35]:
text = "웃기는 소리하지마랔ㅋㅋㅋㅋㅋㅋ 알았짛ㅎㅎ"

print(okt.morphs(text))
print(okt.morphs(text, norm=True))

['웃기는', '소리', '하지마', '랔', 'ㅋㅋㅋㅋㅋㅋ', '알았짛', 'ㅎㅎ']
['웃기는', '소리', '하지마라', 'ㅋㅋㅋ', '알았지', 'ㅎㅎ']


In [36]:
print(okt.pos(text))
print(okt.pos(text, stem=True))

[('웃기는', 'Verb'), ('소리', 'Noun'), ('하지마', 'Verb'), ('랔', 'Noun'), ('ㅋㅋㅋㅋㅋㅋ', 'KoreanParticle'), ('알았짛', 'Noun'), ('ㅎㅎ', 'KoreanParticle')]
[('웃기다', 'Verb'), ('소리', 'Noun'), ('하다', 'Verb'), ('랔', 'Noun'), ('ㅋㅋㅋㅋㅋㅋ', 'KoreanParticle'), ('알았짛', 'Noun'), ('ㅎㅎ', 'KoreanParticle')]


In [37]:
print(okt.pos(text, stem=True, norm=True))

[('웃기다', 'Verb'), ('소리', 'Noun'), ('하다', 'Verb'), ('ㅋㅋㅋ', 'KoreanParticle'), ('알다', 'Verb'), ('ㅎㅎ', 'KoreanParticle')]


### [한국어] 이모티콘이나 의미없이 반복되는 문자 정제

In [38]:
!pip install soynlp

Collecting soynlp
[?25l  Downloading https://files.pythonhosted.org/packages/7e/50/6913dc52a86a6b189419e59f9eef1b8d599cffb6f44f7bb91854165fc603/soynlp-0.0.493-py3-none-any.whl (416kB)
[K     |▉                               | 10kB 15.2MB/s eta 0:00:01[K     |█▋                              | 20kB 20.8MB/s eta 0:00:01[K     |██▍                             | 30kB 11.1MB/s eta 0:00:01[K     |███▏                            | 40kB 8.9MB/s eta 0:00:01[K     |████                            | 51kB 5.4MB/s eta 0:00:01[K     |████▊                           | 61kB 5.1MB/s eta 0:00:01[K     |█████▌                          | 71kB 5.7MB/s eta 0:00:01[K     |██████▎                         | 81kB 6.2MB/s eta 0:00:01[K     |███████                         | 92kB 6.2MB/s eta 0:00:01[K     |███████▉                        | 102kB 6.5MB/s eta 0:00:01[K     |████████▋                       | 112kB 6.5MB/s eta 0:00:01[K     |█████████▍                      | 122kB 6.5MB/s eta 

In [40]:
from soynlp.normalizer import emoticon_normalize

print(emoticon_normalize("앜ㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ", num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ


In [41]:
from soynlp.normalizer import repeat_normalize
print(repeat_normalize("와하하하하하핫", num_repeats=2))

와하하핫


## 텍스트 정제(Cleaning)
* 정규식을 이용한 정제 방법
  * 특수기호나 의미없는 공백등을 정규식을 활용해서 제거하는 방법
*  불용어(stopwords) 정제
  * 빈도수가 낮거나 단어를 문장에서 제거하는 작업

In [42]:
import re
eng_sent = "\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"

In [45]:
# sub : replace 와 같은 역할
eng_sent = re.sub("[^a-zA-Z]", " ", eng_sent)
print(eng_sent)

       Yeah  do you expect people to read the FAQ  etc  and actually accept hard atheism   No  you need a little leap of faith  Jimmy   Your logic runs out of steam         Jim   Sorry I can t pity you  Jim   And I m sorry that you have these feelings of denial about the faith you need to get by   Oh well  just pretend that it will all end happily ever after anyway   Maybe if you start a new newsgroup  alt atheist hard  you won t be bummin  so much        Bye Bye  Big Jim   Don t forget your Flintstone s Chewables          Bake Timmons  III


In [52]:
# 4글자 이상인 단어만 추출해서 새롭게 문장을 만들기
eng_sent = ' '.join([w for w in eng_sent.split() if len(w) > 3])
print(eng_sent)

Yeah expect people read actually accept hard atheism need little leap faith Jimmy Your logic runs steam Sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway Maybe start newsgroup atheist hard bummin much forget your Flintstone Chewables Bake Timmons


## 한국어 정규 표현식 정제
한국어 문장에서 한글만 추출하는 정규식 표현 : [ㄱ-ㅎㅏ-ㅣ가-힣]

In [59]:
kor_sent = "와 이런 것도 영화라고....ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔!!"
kor_sent

'와 이런 것도 영화라고....ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔!!'

In [60]:
kor_sent = re.sub("[^ㄱ-ㅎㅏ-ㅣ가-힣]", " ", kor_sent)
kor_sent

'와 이런 것도 영화라고    ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔  '

In [63]:
kor_sent = re.sub("[ ]{2,}", " ", kor_sent)
kor_sent

'와 이런 것도 영화라고 ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔 '

## 불용어(Stopword) 정제

필요 없는 짧은 단어나 의미가 없는 단어들을 제거

### [English] 불용어 정제
* nltk 모듈을 활용

In [64]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [65]:
from nltk.corpus import stopwords
print(stopwords.words('english'))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [67]:
example = "Family is not an important thing. It's everything"

# 불용어 사전 중에 중복이 있을 수 있음 => 중복 제거
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = []

for w in word_tokens:
  if w not in stop_words:
    result.append(w)

print("원문 : ", word_tokens)
print("불용어 제거 후 : ", result)

원문 :  ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything']
불용어 제거 후 :  ['Family', 'important', 'thing', '.', 'It', "'s", 'everything']


### [한국어] 불용어 정제
* 한국어 불용어 사전은 개발자가 직접 정의하는 것이 일반적

In [69]:
example = "와 이런 것도 영화라고 차라리 뮤직비디오를 만드는 게 나을 뻔"
word_tokens = okt.morphs(example)

print(word_tokens)

['와', '이런', '것', '도', '영화', '라고', '차라리', '뮤직비디오', '를', '만드는', '게', '나을', '뻔']


In [70]:
# 개발자가 임의로 불용어를 선정할 수 있다
# 일반적으로 조사나 접속사들이 선정된다.
stop_words = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다', '것']

In [71]:
result = [word for word in word_tokens if not word in stop_words]

print("원문 : ", word_tokens)
print("불용어 제거 후 : ", result)

원문 :  ['와', '이런', '것', '도', '영화', '라고', '차라리', '뮤직비디오', '를', '만드는', '게', '나을', '뻔']
불용어 제거 후 :  ['이런', '영화', '라고', '차라리', '뮤직비디오', '만드는', '게', '나을', '뻔']
