<a href="https://colab.research.google.com/github/dohyeon-kim012/MachineLearning-DeepLearning/blob/main/DeepLearning/15.%ED%85%8D%EC%8A%A4%ED%8A%B8%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EB%8B%A4%EB%A3%A8%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenization ( 토큰화 ) 이론
어떤 텍스트에서 어디까지가 문장, 어디까지가 단어인지 나눠주는 과정
* 문장 토큰화 ( Sentence Tokenization )
* 단어 토큰화 ( Word Tokenization )
* 음절 토큰화 ( Subword Tokenization )

## English Tokenization

In [None]:
sample_text="I never thought through love we'd be. Making one as lovely as she. But isn't she lovely made from love."

### 문장 토큰화

In [None]:
# 단순하게 온점을 이용해서 잘라내기
tokenized_sentence = sample_text.split(". ")
tokenized_sentence

["I never thought through love we'd be",
 'Making one as lovely as she',
 "But isn't she lovely made from love."]

### 단어 토큰화

In [None]:
tokenized_word = sample_text.split()  # split() <= split(' ')
tokenized_word

['I',
 'never',
 'thought',
 'through',
 'love',
 "we'd",
 'be.',
 'Making',
 'one',
 'as',
 'lovely',
 'as',
 'she.',
 'But',
 "isn't",
 'she',
 'lovely',
 'made',
 'from',
 'love.']

### 띄어쓰기(공백)로만 영어 문장 내 단어를 구분할 때의 문제점

* We're Avengers!! : `[We're, Avengers!!]`
* We are Avengers!! : `[We, are, Avengers!!]`
* We are Avengers : `[We, are, Avengers]`

단순하게 공백으로만 토큰화를 수행하면,   
사람은 같은 문장이라는 것을 인지할 수 있으나 기계는 위 세 문장이 다른 문장이라고 판단

그럼 특수문자를 제거하면?
* `[We, re, Avengers]`
* `[We, are, Avengers]`
* `[We, are, AVengers]`

특수문자가 중요한 의미를 가지는 경우에도 특수문자를 제거하면?
* $12.45 : `[12, 45]`
* Mr. So : `[Mr, So]`
* Mrs. Kim : `[Mrs, Kim]`
* 192.168.0.1 : `[192, 168, 0, 1]`
* Ph.D : `[Ph, D]`

---> 특수문자가 중요한 역할을 하는 경우에는 별로 효용적이지 못한 것 같다.

## **Word Tokenization**

#### 미리 준비된 영어단어 토크나이져 준비 하기
* TreebankWordTokenizer 패키지
 * 영어 표준 토큰화 규격을 따라간다.
 * Penn Treebank Tokenization 규칙

* TreebankWordTokenizer 규칙
 * 하이푼으로 구성된 단어는 하나의 단어로 유지
 * doesn't 같이 어포스트로피로 '접어'가 함께하는 단어는 따로 분리


### English Tockenization 실습

설치 코드  
```
Colab / Jupyter notebook
!pip install nltk

일반 로컬 터미널
pip install nltk
```

! JVM ( Java Virtual Machine ) 이 설치 되어 있어야 함 !

In [None]:
# 영어에 관련된 패키지는 nltk 패키지에 많이 준비 되어 있음!

import nltk
nltk.download('punkt') # 영어 토크나이져 패키지 다운로드

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
sentence = "Ain't nothin' sweeter, you want this sugar, don't ya?"

#### [English] 기본 토크나이저

In [None]:
print(sentence.split())

["Ain't", "nothin'", 'sweeter,', 'you', 'want', 'this', 'sugar,', "don't", 'ya?']


In [None]:
# nltk의 기본 Tokenizer 사용
from nltk.tokenize import word_tokenize
print(word_tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


#### [English] WordPunctTokenizer

In [None]:
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()

print(tokenizer.tokenize(sentence))

['Ain', "'", 't', 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'don', "'", 't', 'ya', '?']


#### [English] TreebankWordTokenizer


In [None]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


In [None]:
print(tokenizer.tokenize("I'm Iron-Man"))

['I', "'m", 'Iron-Man']


### Korean Tokenization 실습

설치 코드
```
Colab 및 Jupyter notebook에서 설치
!pip install konlpy

일반 로컬 터미널에서 설치
pip install konlpy
```

! JVM( Java Virtual Machine )이 설치 되어 있어야 한다!

In [None]:
!pip install konlpy



#### Twitter(Okt), 꼬꼬마(Kkma), 코모란(Komoran), 한나눔(Hannanum)

In [None]:
from konlpy.tag import Hannanum, Kkma, Komoran, Okt

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()

sentence = "좋으니 그 사람 솔직히 견디기 버거워"

In [None]:
# konlpy의 모든 형태소 분리기는 duck typing 기법을 활용하여
# 명사 추출, 각 형태소별 토큰화, 형태소 토큰 및 종류를 "튜플"로 표시하는 기능이 통일
def print_tokenizer(tokenizer, s): # (토크나이저 객체, 센텐스)
    print(tokenizer.nouns(s))  # 명사만 추출
    print(tokenizer.morphs(s))  # 각 형태소 별로 토큰화
    print(tokenizer.pos(s))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표현

트위터 ( Okt )

In [None]:
print_tokenizer(okt, sentence)

['그', '사람']
['좋으니', '그', '사람', '솔직히', '견디기', '버거워']
[('좋으니', 'Adjective'), ('그', 'Noun'), ('사람', 'Noun'), ('솔직히', 'Adjective'), ('견디기', 'Verb'), ('버거워', 'Adjective')]


꼬꼬마 ( Kkma )

--> 트위터보다 더 세세하게 분리됨

In [None]:
print_tokenizer(kkma, sentence)

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버겁', '어']
[('좋', 'VA'), ('으니', 'ECD'), ('그', 'MDT'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버겁', 'VA'), ('어', 'ECS')]


[꼬꼬마 품사 태그표](http://kkma.snu.ac.kr/documents/?doc=postag)

코모란 ( Komoran )

--> 오탈자에 강건함

In [None]:
print_tokenizer(komoran, sentence)

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'NA')]


한나눔 ( Hannanum ) 
 
--> 잘 안 쓰임

In [None]:
print_tokenizer(hannanum, sentence)

['사람', '버거워']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'P'), ('으니', 'E'), ('그', 'M'), ('사람', 'N'), ('솔직히', 'M'), ('견디', 'P'), ('기', 'E'), ('버거워', 'N')]


## **Sentence Tokenization** 

#### [English] sent_tokenize

In [None]:
text = "Since I'm actively looking for Ph.D. students. I get the same question a dozen times every year."

In [None]:
# 온점을 이용해서 문장 나눌 때
print(text.split("."))

["Since I'm actively looking for Ph", 'D', ' students', ' I get the same question a dozen times every year', '']


In [None]:
from nltk.tokenize import sent_tokenize
print(sent_tokenize(text))

["Since I'm actively looking for Ph.D. students.", 'I get the same question a dozen times every year.']


In [None]:
text = "My IP Address is 192.168.56.51. Hello World!"
print(text.split("."))

['My IP Address is 192', '168', '56', '51', ' Hello World!']


In [None]:
print(sent_tokenize(text))

['My IP Address is 192.168.56.51.', 'Hello World!']


#### [Korean] kss

설치 방법
```
!pip install kss
```

In [None]:
!pip install kss



In [None]:
import kss
text = "제 아이피는 192.168.56.51 이에요. 자연어 처리가 재미있나요?ㅋㅋ"

print(kss.split_sentences(text))

['제 아이피는 192.168.56.51 이에요.', '자연어 처리가 재미있나요?ㅋㅋ']


### [Korean] 띄어쓰기 및 맞춤법 정리

### KoSpacing
```
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git
```
### Hanspell
```
!pip install git+https://github.com/ssut/py-hanspell.git
```

In [None]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [None]:
!pip install git+https://github.com/ssut/py-hanspell.git

In [None]:
from pykospacing import Spacing # 한국어 띄어쓰기 관리 패키지
from hanspell import spell_checker

In [None]:
spacing = Spacing()  # 띄어쓰기 관리 객체

In [None]:
text = "4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아."

In [None]:
spacing_text = spacing(text)
print(spacing_text)

딥러닝 진짜 어렵 닼ㅋㅋ 이렇게 어려울지 몰랐어 옄ㅋㅋ


In [None]:
hanspell_text = spell_checker.check(text)
print(hanspell_text.checked)

딥러닝 진짜 어렵다ᄏᄏ 이렇게 어려울지 몰랐어옄ㅋㅋ


In [None]:
|# 맞춤법 검사
text = "맞춤뻡 틀리면 외 않되?"
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

맞춤법 틀리면 왜 안돼?


# 텍스트 정규화 ( normalization )

문장의 복잡도를 낮춰주는 과정  

복잡도가 낮아지기 때문에 **처리할 텍스트 줄어든다**

## [English] Stemming

**어간 ( stem ) 을 추출**하는 과정  
- 영어는 사전에 없는 이상한 단어가 나오는 경우도 있음
    - Beautiful 의 어간 : `beaut`  ->  beaut(iful), beaut(y)
    - Allowance : `allow`
    - Medical : `medic`
    - Books : `book`
    - This : `thi`

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

porter_stemmer = PorterStemmer()

In [None]:
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

In [None]:
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [None]:
stem_list = [porter_stemmer.stem(w) for w in words] # 리스트 컴프리헨션
print(stem_list)

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


언어의 단어 모양이 변경되는 형식은 **자연어 생성 모델**을 만들 때는 사용하면 안 됨  

but , 단순 분류나 회귀문제를 풀 때는 효과가 있을 수 있음

In [None]:
words = ["Serialize", "Allowance", "Allowed", "Medical", "This", "Pretty", "Beautiful"]
print([porter_stemmer.stem(w) for w in words])

['serial', 'allow', 'allow', 'medic', 'thi', 'pretti', 'beauti']


## [Korean] Okt 사용

In [None]:
# Stemming
okt = Okt()
text = "이것도 모르고 저것도 모르고 아무것도 모르면 뭘 모르는지도 모르더라."

print(okt.morphs(text))
print(okt.morphs(text, stem=True))  # 어간이 추출된 형태소 분리 일어남

['이', '것', '도', '모르고', '저', '것', '도', '모르고', '아무', '것', '도', '모르면', '뭘', '모르는지도', '모르더라', '.']
['이', '것', '도', '모르다', '저', '것', '도', '모르다', '아무', '것', '도', '모르다', '뭘', '모르다', '모르다', '.']


In [None]:
print(okt.pos(text))
print(okt.pos(text, stem=True))

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('모르고', 'Verb'), ('저', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('모르고', 'Verb'), ('아무', 'Modifier'), ('것', 'Noun'), ('도', 'Josa'), ('모르면', 'Verb'), ('뭘', 'Noun'), ('모르는지도', 'Verb'), ('모르더라', 'Verb'), ('.', 'Punctuation')]
[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('모르다', 'Verb'), ('저', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('모르다', 'Verb'), ('아무', 'Modifier'), ('것', 'Noun'), ('도', 'Josa'), ('모르다', 'Verb'), ('뭘', 'Noun'), ('모르다', 'Verb'), ('모르다', 'Verb'), ('.', 'Punctuation')]


In [None]:
# Normalization
text = "딥러닝 진짜 어렵닼ㅋㅋ 이렇게 어려울지 몰랐어옄ㅋㅋ"
print(okt.pos(text))
print(okt.pos(text, norm=True))

[('딥', 'Noun'), ('러닝', 'Noun'), ('진짜', 'Noun'), ('어렵닼', 'Noun'), ('ㅋㅋ', 'KoreanParticle'), ('이렇게', 'Adverb'), ('어려울지', 'Verb'), ('몰랐어', 'Verb'), ('옄', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]
[('딥', 'Noun'), ('러닝', 'Noun'), ('진짜', 'Noun'), ('어렵다', 'Adjective'), ('ㅋㅋ', 'KoreanParticle'), ('이렇게', 'Adverb'), ('어려울지', 'Verb'), ('몰랐어여', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]


In [None]:
# 어간 추출, 정규화 동시에
print(okt.pos(text, stem=True, norm=True))

[('딥', 'Noun'), ('러닝', 'Noun'), ('진짜', 'Noun'), ('어렵다', 'Adjective'), ('ㅋㅋ', 'KoreanParticle'), ('이렇게', 'Adverb'), ('어리다', 'Verb'), ('모르다', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]


## [Korean] 이모티콘 / 의미 없이 반복되는 문자 정제

- ㅋㅋ, ㅋㅋㅋㅋㅋㅋ
- ㅎㅎㅎㅎ

- 잘한다 ㅠㅠㅠ : 긍정의 표현으로 많이 사용
- 잘한다 ㅋㅋㅋ : 긍정 또는 약간의 부정(비웃음)으로도 사용될 수 있음
```
!pip install soynlp
```

In [None]:
!pip install soynlp

Collecting soynlp
[?25l  Downloading https://files.pythonhosted.org/packages/7e/50/6913dc52a86a6b189419e59f9eef1b8d599cffb6f44f7bb91854165fc603/soynlp-0.0.493-py3-none-any.whl (416kB)
[K     |▉                               | 10kB 14.6MB/s eta 0:00:01[K     |█▋                              | 20kB 20.0MB/s eta 0:00:01[K     |██▍                             | 30kB 19.6MB/s eta 0:00:01[K     |███▏                            | 40kB 16.4MB/s eta 0:00:01[K     |████                            | 51kB 8.0MB/s eta 0:00:01[K     |████▊                           | 61kB 9.1MB/s eta 0:00:01[K     |█████▌                          | 71kB 8.5MB/s eta 0:00:01[K     |██████▎                         | 81kB 9.4MB/s eta 0:00:01[K     |███████                         | 92kB 10.2MB/s eta 0:00:01[K     |███████▉                        | 102kB 8.4MB/s eta 0:00:01[K     |████████▋                       | 112kB 8.4MB/s eta 0:00:01[K     |█████████▍                      | 122kB 8.4MB/s et

In [None]:
from soynlp.normalizer import emoticon_normalize

print(emoticon_normalize("앜ㅋㅋㅋㅋㅋ 딥러닝 재미쓰ㅠㅠㅠㅠㅠㅠ", num_repeats=2))
print(emoticon_normalize("앜ㅋㅋㅋㅋㅋㅋㅋㅋ 딥러닝 재미쓰ㅠㅠㅠㅠㅠㅠ", num_repeats=2))
a = emoticon_normalize("앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 딥러닝 재미쓰ㅠㅠㅠㅠㅠㅠ", num_repeats=3)
print(a)

아ㅋㅋ 딥러닝 재미쓰ㅠㅠ
아ㅋㅋ 딥러닝 재미쓰ㅠㅠ
아ㅋㅋㅋ 딥러닝 재미쓰ㅠㅠㅠ


In [None]:
# 반복되는 문자를 정규화
from soynlp.normalizer import repeat_normalize

print(repeat_normalize("문을 쿵쿵쿵쿵쿵쿵 두드렸다", num_repeats=2))
print(repeat_normalize("문을 쿵쿵쿵쿵쿵쿵 두드렸다", num_repeats=3))

문을 쿵쿵 두드렸다
문을 쿵쿵쿵 두드렸다


# 텍스트 정제 ( Cleaning )

1. 정규식을 이용한 정제
    - 특수기호나 의미 없는 공백 등을 정규식을 활용하여 제거

2. 불용어 ( stopwords ) 정제
    - 불용어 : 분석에 큰 의미가 없는 단어
    - 빈도수가 낮거나, 짧거나, 의미가 없는 단어를 문장에서 제거
        - ex) the, a, an, is, I 등 문장을 구성하는 필수 요소이나 문맥적으로는 큰 의미가 없는 단어

## [English] 정규 표현식 정제

영어만 추출하는 정규식 표현 : `[a-zA-Z]`

In [None]:
import re

eng_sent = "\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"
print(eng_sent)








Yeah, do you expect people to read the FAQ, etc. and actually accept hard
atheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out
of steam!







Jim,

Sorry I can't pity you, Jim.  And I'm sorry that you have these feelings of
denial about the faith you need to get by.  Oh well, just pretend that it will
all end happily ever after anyway.  Maybe if you start a new newsgroup,
alt.atheist.hard, you won't be bummin' so much?






Bye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) 
--
Bake Timmons, III


In [None]:
# 위 문장에서 영어가 아닌 것들을 전부 다 공백으로 치환
#   sub : replace와 같은 역할
eng_sent = re.sub("[^a-zA-Z]", " ", eng_sent)
# [] : 대괄호 안쪽의 '한 글자' 의미
# [^] 대괄호 안쪽의 글자가 '아닌 것'
#  --> [^a-zA-Z] a-z, A-Z가 아닌 글자

print(eng_sent)

       Yeah  do you expect people to read the FAQ  etc  and actually accept hard atheism   No  you need a little leap of faith  Jimmy   Your logic runs out of steam         Jim   Sorry I can t pity you  Jim   And I m sorry that you have these feelings of denial about the faith you need to get by   Oh well  just pretend that it will all end happily ever after anyway   Maybe if you start a new newsgroup  alt atheist hard  you won t be bummin  so much        Bye Bye  Big Jim   Don t forget your Flintstone s Chewables          Bake Timmons  III


In [None]:
# 4글자 이상인 단어만 추출하여 문장 재구성
eng_sent = " ".join([w for w in eng_sent.split() if len(w) > 3])
print(eng_sent)

Yeah expect people read actually accept hard atheism need little leap faith Jimmy Your logic runs steam Sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway Maybe start newsgroup atheist hard bummin much forget your Flintstone Chewables Bake Timmons


In [None]:
_iter = iter([1,2,3,4,5])
_iter
_list = list([1,2,3,4,5])
_list
len(list(_iter))

5

In [None]:
for i in _list:
    print(i)

1
2
3
4
5


In [None]:
_list

[1, 2, 3, 4, 5]

## [Korean] 정규 표현식 정제

한글만 추출하는 정규식 표현 : `[ㄱ-ㅎㅏ-ㅣ가-힣]`

In [None]:
kor_sent = "느그 서장 남천동 살제? 내가 임마 느그 서장이랑 으이?? in Busan"

In [None]:
# 한글이 아닌 것 제거 -> [^]
kor_sent = re.sub("[^ㄱ-하-ㅣ가-힣]", " ", kor_sent)
kor_sent

'느그 서장 남천동 살제  내가 임마 느그 서장이랑 으이           '

공백이 2개 이상이면 사라지게 하기  
--> 2개 이상의 공백을 1개로 치환하기

In [None]:
kor_sent = re.sub("[ ]{2,}", " ", kor_sent) # [ ] : 공백 '한 글자' , {} : 반복 정규식
# re.sub(2개 이상의 공백을, 한 개의 공백으로 묶어주겠다, kor_sent에서)
kor_sent

'느그 서장 남천동 살제 내가 임마 느그 서장이랑 으이 '

In [None]:
kor_sent.strip()

'느그 서장 남천동 살제 내가 임마 느그 서장이랑 으이'

## [English] 불용어 정제

In [None]:
import nltk
nltk.download("stopwords")  # 불용어 사전 다운로드

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# 불용어를 비즈니스에 맞게 설정할 수 있어야 함
from nltk.corpus import stopwords
list(stopwords.words('english'))

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [None]:
from nltk.corpus import stopwords
list(stopwords.words('german'))

['aber',
 'alle',
 'allem',
 'allen',
 'aller',
 'alles',
 'als',
 'also',
 'am',
 'an',
 'ander',
 'andere',
 'anderem',
 'anderen',
 'anderer',
 'anderes',
 'anderm',
 'andern',
 'anderr',
 'anders',
 'auch',
 'auf',
 'aus',
 'bei',
 'bin',
 'bis',
 'bist',
 'da',
 'damit',
 'dann',
 'der',
 'den',
 'des',
 'dem',
 'die',
 'das',
 'dass',
 'daß',
 'derselbe',
 'derselben',
 'denselben',
 'desselben',
 'demselben',
 'dieselbe',
 'dieselben',
 'dasselbe',
 'dazu',
 'dein',
 'deine',
 'deinem',
 'deinen',
 'deiner',
 'deines',
 'denn',
 'derer',
 'dessen',
 'dich',
 'dir',
 'du',
 'dies',
 'diese',
 'diesem',
 'diesen',
 'dieser',
 'dieses',
 'doch',
 'dort',
 'durch',
 'ein',
 'eine',
 'einem',
 'einen',
 'einer',
 'eines',
 'einig',
 'einige',
 'einigem',
 'einigen',
 'einiger',
 'einiges',
 'einmal',
 'er',
 'ihn',
 'ihm',
 'es',
 'etwas',
 'euer',
 'eure',
 'eurem',
 'euren',
 'eurer',
 'eures',
 'für',
 'gegen',
 'gewesen',
 'hab',
 'habe',
 'haben',
 'hat',
 'hatte',
 'hatten',
 '

In [None]:
example = "Family is not an important thing. It's everything"

# 불용어 사전 중에서 중복된 내용 제거
stop_words = set(stopwords.words("english"))

word_tokens = word_tokenize(example.lower())  # 문장 전체를 소문자로 만든 다음 토큰화

# 불용어 사전에 들어있지 않은 단어면 리스트에 추가
result = [w for w in word_tokens if w not in stop_words]

print("원본 : {}".format(word_tokens))
print("불용어 제거 후 : {}".format(result))

원본 : ['family', 'is', 'not', 'an', 'important', 'thing', '.', 'it', "'s", 'everything']
불용어 제거 후 : ['family', 'important', 'thing', '.', "'s", 'everything']


## [Korean] 불용어 정제

한국어 불용어 사전은 직접 만들거나 구글링해서 가져와야 한다  

--> 개발자가 직접 정의하는 것이 일반적임

In [None]:
example = "내 패와 정마담 패를 밑에서 뺐지. 내가 빙다리 핫바지로 보이냐"
word_tokens = okt.morphs(example)

print(word_tokens)

['내', '패', '와', '정마담', '패', '를', '밑', '에서', '뺐지', '.', '내', '가', '빙', '다리', '핫바', '지로', '보이냐']


개발자가 임의로 불용어를 선정할 수 있다  
일반적으로 조사, 접속사들이 불용어로 선정됨  
그러나 위와 같이 추출된 상태에서는 조사를 잘 구분해낼 수 없음  
따라서, 불용어 정제 전 맞춤법을 한 번 체크해보는 것도 좋다


In [None]:
example_spell_check = spell_checker.check(example).checked
word_tokens = okt.morphs(example_spell_check)
print(word_tokens)

['내', '패', '와', '정마담', '패', '를', '밑', '에서', '뺐지', '.', '내', '가', '비', '에', '다리', '핫바', '지로', '보이냐']


In [None]:
stop_words = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다', '것', '게']

In [None]:
result = [w for w in word_tokens if not w in stop_words]

print("원문 : ", word_tokens)
print("불용어 제거 후 : {}".format(result))

원문 :  ['내', '패', '와', '정마담', '패', '를', '밑', '에서', '뺐지', '.', '내', '가', '비', '에', '다리', '핫바', '지로', '보이냐']
불용어 제거 후 : ['내', '패', '정마담', '패', '밑', '에서', '뺐지', '.', '내', '비', '다리', '핫바', '지로', '보이냐']


In [None]:
divisor_three = [x for x in range(1,51) if x % 3 == 0 if x > 10]
divisor_three

[12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48]

In [None]:
rows = range(1, 4)
cols = range(2, 4)
cells = [(row, col) for row in rows for col in cols if col == 3]
for cell in cells:
    print(cell)

(1, 3)
(2, 3)
(3, 3)


In [None]:
letter_count = {letter : example.count(letter) for letter in set(example)}
letter_count

{' ': 9,
 '.': 1,
 '가': 1,
 '내': 2,
 '냐': 1,
 '다': 1,
 '담': 1,
 '로': 1,
 '를': 1,
 '리': 1,
 '마': 1,
 '밑': 1,
 '바': 1,
 '보': 1,
 '빙': 1,
 '뺐': 1,
 '서': 1,
 '에': 1,
 '와': 1,
 '이': 1,
 '정': 1,
 '지': 2,
 '패': 2,
 '핫': 1}

In [None]:
cells.append((3, 3))

cells

[(1, 3), (2, 3), (3, 3), (3, 3)]

In [None]:
for cell in cells:
    print(cell)

(1, 3)
(2, 3)
(3, 3)
(3, 3)
