# Tokenization (토큰화) 이론
어떤 텍스트에서 어디까지가 문장, 어디까지가 단어인지 나눠주는 과정
* 문장 토큰화( Sentence Tokenization )
* 단어 토큰화( Word Tokenization )
* 음절 토큰화( Subword Tokenization )

## English Tokenization

In [None]:
sample_text="I never thought through love we'd be. Making one as lovely as she. But isn't she lovely made from love."

문장 토큰화

In [None]:
# 단순하게 온점을 이용해서 잘라내기
tokenized_sentence = sample_text.split(". ")
tokenized_sentence

["I never thought through love we'd be",
 'Making one as lovely as she',
 "But isn't she lovely made from love."]

단어 토큰화

In [None]:
tokenized_word = sample_text.split()
tokenized_word

['I',
 'never',
 'thought',
 'through',
 'love',
 "we'd",
 'be.',
 'Making',
 'one',
 'as',
 'lovely',
 'as',
 'she.',
 'But',
 "isn't",
 'she',
 'lovely',
 'made',
 'from',
 'love.']

## 띄어쓰기(공백)로만 영어 문장 내 단어를 구분할 때의 문제점

* We're Avengers!! : `[We're, Avengers!!]`
* We are Avengers!! : `[We, are, Avengers!!]`
* We are Avengers : `[We, are, Avengers]`

단순하게 공백으로만 토큰화를 수행하면, 사람은 같은 문장이라는 것을 인지할 수 있으나, 하지만 기계는 위 세 문장이 다른 문장이라고 판단.

### 그럼 특수문자를 제거하면?
* `[We, re, Avengers]`
* `[We, are, Avengers]`
* `[We, are, AVengers]`

특수문자가 중요한 의미를 가지는 경우에도 특수문자를 제거하면?
* $12.45 : `[12, 45]`
* Mr. So : `[Mr, So]`
* Mrs. Kim : `[Mrs, Kim]`
* 192.168.0.1 : `[192, 168, 0, 1]`
* Ph.D : `[Ph, D]`

특수문자가 중요한 역할을 하는 경우에는 별로 효용적이지 못한 것 같다.

## 미리 준비된 영어단어 토크나이져 준비 하기
* TreebankWordTokenizer 패키지
 * 영어 표준 토큰화 규격을 따라간다.
 * Penn Treebank Tokenization 규칙

* TreebankWordTokenizer 규칙
 * 하이푼으로 구성된 단어는 하나의 단어로 유지
 * doesn't 같이 어포스트로피로 '접어'가 함께하는 단어는 따로 분리


# English Tokenization 실습
설치 코드
```
Colab 및 Jupyter notebook에서 설치
!pip install nltk

일반 로컬 터미널에서 설치
pip install nltk
```
JVM( Java Virtual Machine )이 설치 되어 있어야 한다!

In [None]:
# 영어에 관련된 패키지는 nltk 패키지에 준비가 많이 되어 있음!
import nltk
nltk.download('punkt') # 영어 토크나이져 패키지 다운로드

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
sentence = "Ain't nothin' sweeter, you want this sugar, don't ya?"

## [English] 기본 토크나이저

In [None]:
print(sentence.split())

["Ain't", "nothin'", 'sweeter,', 'you', 'want', 'this', 'sugar,', "don't", 'ya?']


In [None]:
# nltk의 기본 Tokenizer 사용
from nltk.tokenize import word_tokenize
print(word_tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


## [English] WordPunctTokenizer

In [None]:
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()

print(tokenizer.tokenize(sentence))

['Ain', "'", 't', 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'don', "'", 't', 'ya', '?']


## [English] TreebankWordTokenizer

In [None]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


In [None]:
print(tokenizer.tokenize("I'm Iron-man"))

['I', "'m", 'Iron-man']


# Korean Tokenization 실습
설치 코드
```
Colab 및 Jupyter notebook에서 설치
!pip install konlpy

일반 로컬 터미널에서 설치
pip install konlpy
```
JVM( Java Virtual Machine )이 설치 되어 있어야 한다!

In [None]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.3MB/s 
[?25hCollecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/98/88/f817ef1af6f794e8f11313dcd1549de833f4599abcec82746ab5ed086686/JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448kB)
[K     |████████████████████████████████| 450kB 36.6MB/s 
Collecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 10.1MB/s 
Collecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Installing collected 

## Twitter(Okt), 꼬꼬마(Kkma), 코모란(Komoran), 한나눔(Hannanum)

In [None]:
from konlpy.tag import Hannanum, Kkma, Komoran, Okt

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()

sentence = "좋으니 그 사람 솔직히 견디기 버거워"

In [None]:
# konlpy의 모든 형태소 분리기는 duck typing 기법을 활용하여
# 명사 추출, 각 형태소별 토큰화, 형태소 토큰 및 종류를 튜플로 표시하는 기능이 통일
def print_tokenizer(tokenizer, s):
  print(tokenizer.nouns(s)) # 명사만 추출
  print(tokenizer.morphs(s)) # 각 형태소 별로 토큰화
  print(tokenizer.pos(s)) # 각 형태소 토큰 및 형태소 종류를 튜플로 표현

### 트위터 ( Okt )

In [None]:
print_tokenizer(okt, sentence)

['그', '사람']
['좋으니', '그', '사람', '솔직히', '견디기', '버거워']
[('좋으니', 'Adjective'), ('그', 'Noun'), ('사람', 'Noun'), ('솔직히', 'Adjective'), ('견디기', 'Verb'), ('버거워', 'Adjective')]


### 꼬꼬마(Kkma)

In [None]:
print_tokenizer(kkma, sentence)

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버겁', '어']
[('좋', 'VA'), ('으니', 'ECD'), ('그', 'MDT'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버겁', 'VA'), ('어', 'ECS')]


[꼬꼬마 품사 태그표](http://kkma.snu.ac.kr/documents/?doc=postag)

### 코모란 ( Komoran )


In [None]:
print_tokenizer(komoran, sentence)

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'NA')]


### 한나눔( Hannanum )

In [None]:
print_tokenizer(hannanum, sentence)

['사람', '버거워']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'P'), ('으니', 'E'), ('그', 'M'), ('사람', 'N'), ('솔직히', 'M'), ('견디', 'P'), ('기', 'E'), ('버거워', 'N')]


# Sentence Tokenization
단순히 물음표, 느낌표, 온점(.) 으로만 문장을 잘라내면 문장 토크나이징 일까요??

> 니 아이피가 **192.168.56.21** 맞니?

> looking for **Ph.D.** Students

## [English] sent_tokenize

In [None]:
text = "Since I'm actively looking for Ph.D. students. I get the same question a dozen times every year."

In [None]:
# 온점을 이용해서 문장을 나누면...?
print(text.split("."))

["Since I'm actively looking for Ph", 'D', ' students', ' I get the same question a dozen times every year', '']


In [None]:
from nltk.tokenize import sent_tokenize
print(sent_tokenize(text))

["Since I'm actively looking for Ph.D. students.", 'I get the same question a dozen times every year.']


In [None]:
text = "My IP Address is 192.168.56.51. Hello World!"
print(text.split("."))

['My IP Address is 192', '168', '56', '51', ' Hello World!']


In [None]:
print(sent_tokenize(text))

['My IP Address is 192.168.56.51.', 'Hello World!']


## [Korean] kss

설치 방법
```
!pip install kss
```

In [None]:
!pip install kss

Collecting kss
[?25l  Downloading https://files.pythonhosted.org/packages/ed/ea/3030770642a58a08777dfa324a1b65a2f53f1574de8dd84424851f0c2ec7/kss-2.5.1-py3-none-any.whl (65kB)
[K     |█████                           | 10kB 13.2MB/s eta 0:00:01[K     |██████████                      | 20kB 18.1MB/s eta 0:00:01[K     |███████████████                 | 30kB 22.4MB/s eta 0:00:01[K     |███████████████████▉            | 40kB 24.3MB/s eta 0:00:01[K     |████████████████████████▉       | 51kB 25.5MB/s eta 0:00:01[K     |█████████████████████████████▉  | 61kB 27.6MB/s eta 0:00:01[K     |████████████████████████████████| 71kB 7.4MB/s 
[?25hInstalling collected packages: kss
Successfully installed kss-2.5.1


In [None]:
import kss
text = "제 아이피는 192.168.56.51 이에요. 자연어 처리가 재미있나요?ㅋㅋ 딥러닝 들어가면 뚝배기가 깨집니다.ㅋㅋ"

print(kss.split_sentences(text))

['제 아이피는 192.168.56.51 이에요.', '자연어 처리가 재미있나요?ㅋㅋ', '딥러닝 들어가면 뚝배기가 깨집니다.ㅋㅋ']


## [Korean] 띄어쓰기 및 맞춤법 정리

### KoSpacing
```
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git
```
### Hanspell
```
!pip install git+https://github.com/ssut/py-hanspell.git
```

In [None]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [None]:
!pip install git+https://github.com/ssut/py-hanspell.git

In [None]:
from pykospacing import Spacing # 한국어 띄어쓰기 관리
from hanspell import spell_checker # 한국어 맞춤법 관리

In [None]:
spacing = Spacing() # 띄어쓰기 관리 객체

In [None]:
text = "4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아."

In [None]:
spacing_text = spacing(text)
print(spacing_text)

4번 놀고 있지.4번은 팀워크가 없어.4번은 개인주의야.4번은 혼자 밖에 생각하지 않아.


In [None]:
hanspell_text = spell_checker.check(text)
print(hanspell_text.checked)

4번 놀고 있지. 4번은 팀워크가 없어. 4번은 개인주의야. 4번은 혼자밖에 생각하지 않아.


In [None]:
# 맞춤법 검사
text = "맞춤뻡 틀리면 외 않되?"
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

맞춤법 틀리면 왜 안돼?


# 텍스트 정규화
문장의 복잡도를 낮춰주는 과정. 복잡도가 낮아지기 때문에 **처리할 텍스트가 줄어든다.**

## [English] 정규화 - Stemming 과정
어간(stem)을 추출하는 과정 - 영어는 사전에 없는 이상한 단어가 나오는 경우가 있다.
* Beautiful : beaut(iful), beaut(y)
* Allowance : allow
* Medical : medic
* Books : book
* This : thi

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

porter_stemmer = PorterStemmer()

In [None]:
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

In [None]:
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [None]:
stem_list = [porter_stemmer.stem(w) for w in words]
print(stem_list)

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


* 언어의 단어 모양이 변경되는 형식은 **자연어 생성 모델**을 만들 때는 사용하면 X
* 단순 분류나 회귀문제를 풀 때는 효과가 있을 수도 있다.

In [None]:
words = ["Serialize", "Allowance", "Allowed", "Medical", "This", "Pretty", "Beautiful"]
print([porter_stemmer.stem(w) for w in words])

['serial', 'allow', 'allow', 'medic', 'thi', 'pretti', 'beauti']


## [Korean] 정규화 - Okt 사용( Stemming, Normalization )

In [None]:
okt= Okt()
text = "이것도 모르고 저것도 모르고 아무것도 모르면 뭘 모르는지도 모르더라."

print(okt.morphs(text))
print(okt.morphs(text, stem=True)) # 어간이 추출된 형태소 분리

['이', '것', '도', '모르고', '저', '것', '도', '모르고', '아무', '것', '도', '모르면', '뭘', '모르는지도', '모르더라', '.']
['이', '것', '도', '모르다', '저', '것', '도', '모르다', '아무', '것', '도', '모르다', '뭘', '모르다', '모르다', '.']


In [None]:
print(okt.pos(text))
print(okt.pos(text, stem=True))

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('모르고', 'Verb'), ('저', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('모르고', 'Verb'), ('아무', 'Modifier'), ('것', 'Noun'), ('도', 'Josa'), ('모르면', 'Verb'), ('뭘', 'Noun'), ('모르는지도', 'Verb'), ('모르더라', 'Verb'), ('.', 'Punctuation')]
[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('모르다', 'Verb'), ('저', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('모르다', 'Verb'), ('아무', 'Modifier'), ('것', 'Noun'), ('도', 'Josa'), ('모르다', 'Verb'), ('뭘', 'Noun'), ('모르다', 'Verb'), ('모르다', 'Verb'), ('.', 'Punctuation')]


In [None]:
text = "딥러닝 진짜 어렵닼ㅋㅋㅋㅋㅋ 이렇게 어려울지 몰랐어옄ㅋㅋㅋㅋㅋㅋㅋㅋㅋ"

print(okt.pos(text))
print(okt.pos(text, norm=True)) # 정규화

[('딥', 'Noun'), ('러닝', 'Noun'), ('진짜', 'Noun'), ('어렵닼', 'Noun'), ('ㅋㅋㅋㅋㅋ', 'KoreanParticle'), ('이렇게', 'Adverb'), ('어려울지', 'Verb'), ('몰랐어', 'Verb'), ('옄', 'Noun'), ('ㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'KoreanParticle')]
[('딥', 'Noun'), ('러닝', 'Noun'), ('진짜', 'Noun'), ('어렵다', 'Adjective'), ('ㅋㅋㅋ', 'KoreanParticle'), ('이렇게', 'Adverb'), ('어려울지', 'Verb'), ('몰랐어여', 'Verb'), ('ㅋㅋㅋ', 'KoreanParticle')]


In [None]:
# 어간 추출, 정규화를 동시에
print(okt.pos(text, stem=True, norm=True))

[('딥', 'Noun'), ('러닝', 'Noun'), ('진짜', 'Noun'), ('어렵다', 'Adjective'), ('ㅋㅋㅋ', 'KoreanParticle'), ('이렇게', 'Adverb'), ('어리다', 'Verb'), ('모르다', 'Verb'), ('ㅋㅋㅋ', 'KoreanParticle')]


## [Korean] 이모티콘이나 의미없이 반복되는 문자 정제
* ㅋㅋ, ㅋㅋㅋㅋㅋ, ㅋㅋㅋㅋㅋㅋㅋ
* ㅎㅎㅎㅎㅎㅎㅎ

* 잘한다 ㅠㅠㅠㅠㅠㅠ : 긍정의 표현으로 많이 사용 -> 잘한다 ㅠ
* 잘한다 ㅋㅋㅋㅋㅋㅋ : 긍정 또는 약간의 부정으로도 사용될 거 같다. -> 잘한다 ㅋㅋ

```
!pip install soynlp
```

In [None]:
!pip install soynlp

Collecting soynlp
[?25l  Downloading https://files.pythonhosted.org/packages/7e/50/6913dc52a86a6b189419e59f9eef1b8d599cffb6f44f7bb91854165fc603/soynlp-0.0.493-py3-none-any.whl (416kB)
[K     |▉                               | 10kB 15.5MB/s eta 0:00:01[K     |█▋                              | 20kB 19.2MB/s eta 0:00:01[K     |██▍                             | 30kB 22.4MB/s eta 0:00:01[K     |███▏                            | 40kB 25.2MB/s eta 0:00:01[K     |████                            | 51kB 27.6MB/s eta 0:00:01[K     |████▊                           | 61kB 26.0MB/s eta 0:00:01[K     |█████▌                          | 71kB 23.0MB/s eta 0:00:01[K     |██████▎                         | 81kB 23.5MB/s eta 0:00:01[K     |███████                         | 92kB 24.2MB/s eta 0:00:01[K     |███████▉                        | 102kB 24.1MB/s eta 0:00:01[K     |████████▋                       | 112kB 24.1MB/s eta 0:00:01[K     |█████████▍                      | 122kB 24.1

In [None]:
from soynlp.normalizer import emoticon_normalize

print(emoticon_normalize("앜ㅋㅋㅋㅋㅋ 딥러닝 존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ", num_repeats=2))
print(emoticon_normalize("앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 딥러닝 존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ", num_repeats=2))
print(emoticon_normalize("앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 딥러닝 존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ", num_repeats=2))

아ㅋㅋ 딥러닝 존잼쓰ㅠㅠ
아ㅋㅋ 딥러닝 존잼쓰ㅠㅠ
아ㅋㅋ 딥러닝 존잼쓰ㅠㅠ


In [None]:
# 반복되는 문자를 정규화
from soynlp.normalizer import repeat_normalize

print(repeat_normalize("문을 쿵쿵쿵쿵쿵쿵쿵 두드렸다", num_repeats=2))
print(repeat_normalize("문을 쿵쿵쿵쿵쿵 두드렸다", num_repeats=2))
print(repeat_normalize("문을 쿵쿵쿵쿵 두드렸다", num_repeats=2))

문을 쿵쿵 두드렸다
문을 쿵쿵 두드렸다
문을 쿵쿵 두드렸다


# 텍스트 정제 (Cleaning)
* 정규식을 이용한 정제
  * 특수기호나 의미 없는 공백등을 정규식을 활용하여 제거
* 불용어(stopwords) 정제
  * 빈도수가 낮거나, 짧거나, 의미 없는 단어를 문장에서 제거

In [None]:
import re

eng_sent = "\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"
print(eng_sent)








Yeah, do you expect people to read the FAQ, etc. and actually accept hard
atheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out
of steam!







Jim,

Sorry I can't pity you, Jim.  And I'm sorry that you have these feelings of
denial about the faith you need to get by.  Oh well, just pretend that it will
all end happily ever after anyway.  Maybe if you start a new newsgroup,
alt.atheist.hard, you won't be bummin' so much?






Bye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) 
--
Bake Timmons, III


In [None]:
# 위 문장에서 "영어가 아닌 것"들을 전부다 공백으로 치환
#   sub : replace와 같은 역할
eng_sent = re.sub("[^a-zA-Z]", " ", eng_sent)
print(eng_sent)

       Yeah  do you expect people to read the FAQ  etc  and actually accept hard atheism   No  you need a little leap of faith  Jimmy   Your logic runs out of steam         Jim   Sorry I can t pity you  Jim   And I m sorry that you have these feelings of denial about the faith you need to get by   Oh well  just pretend that it will all end happily ever after anyway   Maybe if you start a new newsgroup  alt atheist hard  you won t be bummin  so much        Bye Bye  Big Jim   Don t forget your Flintstone s Chewables          Bake Timmons  III


In [None]:
# 4글자 이상인 단어만 추출해서 문장을 새롭게 재구성하기
eng_sent = " ".join([ w for w in eng_sent.split() if len(w) > 3])
print(eng_sent)

Yeah expect people read actually accept hard atheism need little leap faith Jimmy Your logic runs steam Sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway Maybe start newsgroup atheist hard bummin much forget your Flintstone Chewables Bake Timmons


## 한국어 정규 표현식 정제
한국어 문장에서 한글만 추출하는 정규식 표현 : `[ㄱ-ㅎㅏ-ㅣ가-힣]`

In [None]:
kor_sent = "느그 서장 남천동 살제?? 내가 임마 느그 서장이랑 으이??? hello world"

In [None]:
kor_sent = re.sub("[^ㄱ-ㅎㅏ-ㅣ가-힣]", " ", kor_sent)
kor_sent

'느그 서장 남천동 살제   내가 임마 느그 서장이랑 으이               '

In [None]:
# 공백이 2개 이상이면 사라지게 하기. 공백 2개 이상을 1개로 치환하기
kor_sent = re.sub("[ ]{2,}", " ", kor_sent)
kor_sent

'느그 서장 남천동 살제 내가 임마 느그 서장이랑 으이 '

In [None]:
kor_sent.strip()

'느그 서장 남천동 살제 내가 임마 느그 서장이랑 으이'

# 불용어(stopwords) 정제
필요 없는 짧은 단어나 의미가 없는 단어들을 제거

## [English] 불용어 정제


In [None]:
import nltk
nltk.download("stopwords") # 불용어 사전 다운로드

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# 불용어도 여러분들의 비즈니스에 맞게 설정할 수 있어야 한다.
from nltk.corpus import stopwords
list(stopwords.words('english'))

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [None]:
example = "Family is not an important thing. It's everything"

# 불용어 사전중에 중복된 것이 있을 수도 있기 때문에 중복을 제거
stop_words = set(stopwords.words("english"))

word_tokens = word_tokenize(example.lower()) # 문장을 소문자로 만든 다음 토큰화

# 불용어 사전에 들어있지 않은 단어면 리스트에 추가
result = [w for w in word_tokens if w not in stop_words]

print("원본 : {}".format(word_tokens))
print("불용어 제거 후 : {}".format(result))

원본 : ['family', 'is', 'not', 'an', 'important', 'thing', '.', 'it', "'s", 'everything']
불용어 제거 후 : ['family', 'important', 'thing', '.', "'s", 'everything']


## [Korean] 불용어 정제
* 한국어 불용어 사전은 직접 만들거나 구글링해서 가져오면 된다.
* 개발자가 직접 정의하는 것이 일반적

In [None]:
example = "내 패와 정마담 패를 밑에서 뺏지. 내가 빙다리 핫바지로 보이냐?"

example_spell_check = spell_checker.check(example).checked

word_tokens = okt.morphs(example_spell_check)

print(word_tokens)

['내', '패', '와', '정마담', '패', '를', '밑', '에서', '뺏지', '.', '내', '가', '비', '에', '다리', '핫바', '지로', '보이냐', '?']


In [None]:
# 개발자가 임의로 불용어를 선정할 수 있다.
# 일반적으로 조사, 접속사들이 불용어로 선정된다.
stop_words = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다', '것', '게', '에서']

In [None]:
result = [w for w in word_tokens if not w in stop_words]

print("원문 : ",word_tokens)
print("불용어 제거 후 : {}".format(result))

원문 :  ['내', '패', '와', '정마담', '패', '를', '밑', '에서', '뺏지', '.', '내', '가', '비', '에', '다리', '핫바', '지로', '보이냐', '?']
불용어 제거 후 : ['내', '패', '정마담', '패', '밑', '뺏지', '.', '내', '비', '다리', '핫바', '지로', '보이냐', '?']
