# Tokenization 이론
토큰화란 텍스트에서 어디부터 어디까지가 문장이고, 무엇이 단어인지를 알려주는 것을 의미합니다. 보통 다음과 같은 토큰화 종류가 존재합니다.

* 문장 토큰화
* 단어 토큰화
* subword 토큰화
* 등등...

토큰화된 문장을 토대로 여러가지 처리를 통해 기계가 텍스트를 인식할 수 있게 합니다!

## #1. Tokenization for English
영어를 토큰화 시키는 것은 한국어 보다 쉽습니다. 단순하게 띄어쓰기 또는 온점(.)을 기준으로 잘라내기만 하면 됩니다.

스티비원더의 Isn't she Lovely 문장입니다.

In [None]:
sample_text = "I never thought through love we'd be. Making one as lovely as she. But isn't she lovely made from love."

위 문장을 **문장 토큰화(Sentence tokenization)** 시키면 다음과 같겠네요. 😄

In [None]:
tokenized_sentence = sample_text.split(". ")
tokenized_sentence

["I never thought through love we'd be",
 'Making one as lovely as she',
 "But isn't she lovely made from love."]

똑같은 문장을 **단어 토큰화(Word tokenization)** 시켜보겠습니다.


In [None]:
tokenized_word = sample_text.split()
tokenized_word

['I',
 'never',
 'thought',
 'through',
 'love',
 "we'd",
 'be.',
 'Making',
 'one',
 'as',
 'lovely',
 'as',
 'she.',
 'But',
 "isn't",
 'she',
 'lovely',
 'made',
 'from',
 'love.']

단순하게 띄어쓰기 기준으로 나눠보았는데요, 제대로 토큰화를 한다면 온점이나 어퍼스트로피(') 등은 다 제거해 주는게 좋겠죠? 사실 생각보다 토크나이징은 생각할 것이 많습니다 😅

### 1.1 띄어쓰기로 영어 문장 내 단어 구분하기
문장 내에서 단어를 구분하는 여러 방법 중 띄어씌기를 이용해 구분하는 방법에 대해 이야기 해보겠습니다. 다음 **같은 의미**의 세 문장을 띄어쓰기로만 구분한다면 다음과 같습니다.

* We're Genius!! ➡ `["We're", "Genius!!"]`
* We are Genius!! ➡ `["We", "are", "Genius!!"]`
* We are Genius ➡ `["We", "are", "Genius""]`

세 문장은 같은 의미 이지만, 결과가 다릅니다. 이는 우리가 원하는 형식의 토크나이징은 아닙니다😢. 즉 사람이 생각하기에는 세 문장을 모두 봐도 같은 의미라고 생각하지만, 기계는 그렇지 않다는 것이죠. 잘려진 토큰의 텍스트가 다르기 때문에 기계는 다르다고 생각합니다❌.


### 1.2 특수문자 제거를 이용해 단어 구분하기

특수 문자를 모두 제거하면 해결될까요?

* We're Genius!! ➡ `["We", "re", "Genius"]`
* We are Genius!! ➡ `["We", "are", "Genius"]`
* We are Genius ➡ `["We", "are", "Genius""]`

첫 번째 문장이 조금 거슬리긴 하지만 많이 좋아진 것도 같습니다. 하지만 특수 문자를 모두 제거하는 방법 또한 완벽한 방법이 아닙니다. 아래 예시를 보겠습니다.

* $12.67 ➡ `["12", "67"]`
* Mr. So ➡ `["Mr", "So"]`

특수 문자를 제거하는 순간 본래의 의미를 잃어 버리게 됩니다. 단순한 텍스트의 리스트만 만들어 지네요☹️.


### 1.3 TreebankWordTokenizer 사용하기
다행스럽게도 영어 단어 토크나이저 중 하나인 TreebankWordTokenizer라는 라이브러리가 있습니다. 표준 토큰화 규격이라고 할 수 있는 Penn Treebank Tokenization 규칙을 따라갑니다.

TreebankWordTokenizer는 다음과 같은 규칙을 갖습니다.
* 하이푼으로 구성된 단어는 하나로 유지한다.
* doesn't와 같이 어포스트로피로 '접어'가 함께하는 단어는 분리해준다.

다음과 같이 변환됩니다!

* I don't care -> `['I', 'do', "n't", 'care', '!']`
* Iron-Man is my favorite hero. -> `['Iron-Man', 'is', 'my', 'favorite', 'hero', '.']`



## #2. Tokenization for Korean (KoNLPy)
기본적으로 한국어 토큰화가 영어 토큰화보다 난이도가 훨씬 높습니다😢. 띄어쓰기가 틀리거나 맞춤법이 틀려도 쉽게 읽을 수 있기 때문에 약간만 맞춤법이 틀려도 다른 단어로 인식되기가 쉽기 때문입니다.


### 2.1 한국어의 토큰화가 어려운 이유!

한국어의 토큰화가 왜 어려운지 이야기 해보겠습니다😅.

1. 한국어는 교착어이다.
2. 한국어는 띄어쓰기가 잘 지켜지지 않는다.
3. 한국어는 주어 생략은 물론 어순도 중요하지 않다.
4. 한자어라는 특성상 하나의 음절조차도 다른 의미를 가질 수 있다.
5. 그 외...

지금 부터 한국어 토큰화가 왜 어려운지 알아보고, 한국어를 위한 토큰화 패키지는 무엇이 있는지 살펴보겠습니다.


#### 2.1.1 한국어는 교착어이다.
**교착어**란 실질적인 의미를 가지는 어간에 조사나, 어미와 같은 문법 형태소들이 결합하여 **문법적인 기능**이 부여되는 **언어**를 의미합니다.

가령, 한국어에는 영어권에는 없는 `은, 는, 이, 가, 을, 를, 에게, 에서...` 등과 같은 조사가 존재합니다.


> **핸드폰을** 사자마자 **핸드폰에** 액정보호 필름을 붙이려다가 떨어뜨려서 **핸드폰의** 액정이 깨졌습니다. **핸드폰** 액정 수리비용 얼마죠? 눈물이 나네

위 예시문을 단순하게 띄어쓰기 단위로 토큰화를 하게 되면 `핸드폰을`, `핸드폰에`, `핸드폰의`, `핸드폰`이 모두 다른 단어로 간주되어 버립니다.

이를 처리하기 위해 주어나 목적어가 없으면 아무 의미를 가지지 못하는 조사들을 불용어(Stopword) 처리를 하기도 합니다.

#### 2.1.2 한국어는 띄어쓰기가 잘 지켜지지 않는다.
한국어는 띄어쓰기가 어려운 편에 속하며, 띄어쓰기가 지켜지지 않더라도 쉽게 읽을 수 있습니다. 대부분의 데이터에서 띄어쓰기가 잘 지켜지지 않는 경향이 존재합니다.

> 이렇게띄어쓰기를하지않아도일단은읽을수는있잖아요

반면 영어는 띄어쓰기를 하지 않으면 읽기 어려운 언어의 특성으로 인해 띄어쓰기가 꽤나 엄격하게 지켜집니다

> Yousugar,yespleaseWouldyoucomeandputitdownonme?


그래서 보통 `py-hanspell` 패키지를 이용해 맞춤법 확인을 하거나 `ko-spacing` 패키지를 통해 띄어쓰기 교정을 진행합니다.

#### 2.1.3 한국어는 주어 생략은 물론 어순도 중요하지 않다.

이 뜻은 같은 의미의 문장을 자유롭게 어순을 바꿔서 쓸 수 있다는 이야기 입니다.

> 1. 나는 운동을 했어. 체육관에서.
2. 나는 체육관에서 운동을 했어.
3. 체육관에서 운동했어.
4. 나는 운동을 체육관에서 했어.

이번 예시는 한국어를 사용함에 있어 잘못된 예시는 아니지만, 하나의 뜻을 여러 형태로 표현할 수 있다는 것에 주목해 주시면 됩니다😂.

#### 2.1.4 한자어라는 특성상 하나의 음절조차도 다른 의미를 가질 수 있다.

예를 들어 `한국` 이라는 단어를 각각 음절 단위로 생각해 봤을 때 `한`,`국` 이라고 나뉘게 되는데요, `한`은 한자로 韓 으로 표현할 수 있지만 숫자 1이라고도 생각해 볼 수가 있죠, 마찬가지로 `국`도 한자어로 國 이라고 표현할 수 있지만 된장국, 미역국 처럼 우리가 먹는 국으로도 생각을 해버릴 수가 있게 됩니다.

영어를 예시로 들었을 때 `Apple`을 `A, P, P, L, E`로 쪼갰다고 해서 `A`가 별다른 의미를 갖지는 않죠

### 2.2 한국어를 위한 토큰화 도구! 형태소 분석기를 소개합니다😍

다양한 한국어 토크나이징을 위한 형태소 분석기가 존재합니다. 우리의 비즈니스에 맞게 알맞는 형태소 분석기를 사용할 수 있어요! 한국어를 위한 각종 형태소 분석기를 사용하기 위해서는 konlpy 패키지를 설치해야 합니다.

```
!pip install konlpy
```

#### 2.2.1 Mecab
Mecab은 리눅스 시스템에서만 작동합니다. Windows에서는 사용하기가 매우 힘들기 때문에 구글 코랩이나 Mac, Linux에서만 사용해 주세요! Mecab은 다음 명령어를 이용해 설치할 수 있습니다. (코랩 기준)
```
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh
```

Mecab은 실무에서 가장 많이 사용되고 있는 형태소 분석기 입니다


#### 2.2.2 Konlpy 패키지

konlpy는 한글 형태소 분석을 위해 여러 패키지를 통합한 통합패키지 개념입니다.
```
!pip install konlpy
```
Twitter( Okt ), 꼬꼬마 (kkma), 코모란( komoran ), 한나눔( hannanum ) 패키지를 모두 포함하였습니다. 한글 텍스트를 처리 하기 위한 다양한 기능들과 효과등이 있습니다.


각 형태소 분석기는 결과물이 다르게 나옵니다. 따라서 여러분들의 비즈니스에 알맞는 형태소 분석기를 사용하면 될 것 같네요😃 

예를 들어 속도가 중요하면 Mecab, 오탈자에 강건한 형태소 분석기를 원하면 Komoran을 선택할 수 있습니다

## #3. Cleaning(정제) and Normalization(정규화)
**정제**란 불필요한 데이터를 제거하는 작업입니다. 텍스트 중간중간 껴있는 숫자나 필요없는 기호를 제거하거나, 한글의 경우 `은,는,이,가` 등은 비즈니스상 필요가 없을 수도 있습니다. 또는 띄어쓰기나 맞춤법을 확인해 깨끗한 데이터를 만들어 내는 작업도 포함됩니다. 정제 작업이란 다음과 같습니다.

* 정규 표현식을 이용한 노이즈 데이터 제거
 - `Hmm... 포스터보고 초딩영화인줄.....오버연기조차 가볍지 않구나!!` -> `포스터보고 초딩영화인줄오버연기조차 가볍지 않구나`
* 인코딩 문제 해결
 - 텍스트의 인코딩(utf-8, euc-kr 등)이 맞지 않으면 문자들이 깨지는 문제를 해결
* 등장 빈도가 적은 단어 제거 (예 : 등장 빈도가 2회 이하면 단어를 제거해 주기 )
* 길이가 짧은 단어의 제거
 - 영어의 경우 I, by, at 등을 제거
* 불용어 제거
 - 영어의 경우 `the`는 거의 모든 텍스트 데이터에서 등장 빈도수가 많지만 실제 의미를 갖지 않기 때문에 제거
 - 한국어의 경우 `그럼, 위하, 때, 있, 그것, 사실, 경우, 어떤, 은, 는, 을, 를` 등이 존재

**정규화**란 문장의 복잡도를 줄여주는 과정을 의미합니다. 같은 의미를 가지고 있는 여러 단어를 하나로 통합하는 등의 작업을 의미합니다. 형태소 분석의 의미 보다는 사람이 직접 판단을 해주는 일을 뜻합니다. 정규화 예시는 다음과 같습니다.
* lemmatization
 - am, are, were, was --> be
 - has, had --> have 
* 10, 159, 123 -> num ( 숫자가 중요하지 않을 경우 )
* ㅋ, ㅋㅋㅋ, ㅋㅋㅋㅋㅋ --> ㅋㅋ
* Hmm, hmm, Hmmmmm --> hmm
* 대소문자 통합 등

### 3.1 한국어 정제를 위한 띄어쓰기 및 맞춤법 검사 패키지
위에서도 잠시 설명했지만 한국어는 띄어쓰기와 맞춤법이 지켜지지 않는 경우가 꽤나 많기 다음 소개해 드릴 두 패키지를 이용해 한국어 정제 작업을 할 수 있습니다.

#### 3.1.1 띄어쓰기를 보정해주는 KoSpacing 패키지
잘못된 띄어쓰기를 보정해 주는 딥러닝 기반의 패키지 입니다. 다음은 예시입니다. 
```
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git
```
```
4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아.
```
를 다음과 같이 바꿔줍니다
```
4번 놀고 있지.4번은 팀워크가 없어.4번은 개인주의야.4번은 혼자 밖에 생각하지 않아.
```

#### 3.1.2 맞춤법 검사기 hanspell
hanspell은 문장의 띄어쓰기 검사 및 맞춤법 검사를 손쉽게 수행할 수 있게 해줍니다. 설치 방법은 다음과 같습니다.

```
!pip install git+https://github.com/ssut/py-hanspell.git
```

또는

```
!git clone https://github.com/ssut/py-hanspell.git
%cd py-hanspell/
!python setup.py install
```

```
맞춤법틀리면 외않되?
```
같은 엉망진창인 문장을
```
맞춤법 틀리면 왜 안돼?
```
로 예쁘게 바꿔줍니다

# Tokenization 실습

## 영어 토크나이저
1. 영어 기본 토크나이저
2. WordPunctTokenizer
3. TreebankWordTokenizer

In [None]:
import nltk
nltk.download('punkt')
sentence = "Ain't nothin' sweeter, you want this sugar, don't ya?"

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


### 기본 토크나이저

In [None]:
from nltk.tokenize import word_tokenize
print(word_tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


### WordPunkTokenizer
아포스트로피(')가 들어간 상황에서 Ain't, don't 등은 어떻게 토큰화 시킬까요?😁

In [None]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(sentence))

['Ain', "'", 't', 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'don', "'", 't', 'ya', '?']


### TreebankWordTokenizer
Penn Treebank Tokenization 규칙이 적용 되었습니다. 다시 한번 규칙에 대해 알아보죠!
1. 하이푼으로 구성된 단어는 하나로 유지한다.
2. dosen't와 같이 아포스트로피로 접어가 함께하는 단어는 분리해 준다.

In [None]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


In [None]:
sample_text = "I'm Iron-man"
print(tokenizer.tokenize(sample_text))

['I', "'m", 'Iron-man']


어떤 토크나이저를 사용해야 하는지는 중요하지 않습니다. 토크나이저마다 규칙이 다르기 때문에 여러분이 사용하고자 하는 목적에 따라 토크나이저를 선택하는 것이 중요하겠죠? 😀

## 한글 토크나이저
영어의 경우 사실 띄어쓰기로 토큰화를 하더라도 큰 문제가 발생하지 않습니다. 하지만 한국어는 영어보다 훨씬 복잡한 언어이기 때문에 형태소 분석기를 설치하고 이용해 보도록 하죠 😋

In [None]:
# konlpy 패키지 설치하기
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 30.7MB/s 
[?25hCollecting colorama
  Downloading https://files.pythonhosted.org/packages/c9/dc/45cdef1b4d119eb96316b3117e6d5708a08029992b2fee2c143c7a0a5cc5/colorama-0.4.3-py2.py3-none-any.whl
Collecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 9.3MB/s 
Collecting tweepy>=3.7.0
  Downloading https://files.pythonhosted.org/packages/bb/7c/99d51f80f3b77b107ebae2634108717362c059a41384a1810d13e2429a81/tweepy-3.9.0-py2.py3-none-any.whl
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/8b/f7/a368401e630f0e390dd0e62c39fb928e5b23

In [None]:
# Colab에 Mecab 설치하기 ( 시간이 좀 걸려요! )
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 60, done.[K
remote: Counting objects: 100% (60/60), done.[K
remote: Compressing objects: 100% (55/55), done.[K
remote: Total 60 (delta 23), reused 20 (delta 5), pack-reused 0[K
Unpacking objects: 100% (60/60), done.
/content/Mecab-ko-for-Google-Colab
Installing konlpy.....
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2020-10-04 09:11:27--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 18.205.93.0, 18.205.93.1, 18.205.93.2, ...
Connecting to bitbucket.org (bitbucket.org)|18.205.93.0|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?Signature=lfHsN793rXogNJZi7OBaE5zi08k%3D&Expires=16018

### konlpy 패키지 알아보기

In [None]:
from konlpy.tag import Hannanum
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from konlpy.tag import Okt
from konlpy.tag import Mecab

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
mecab = Mecab()

sentence = "좋으니 그 사람 솔직히 견디기 버거워"

#### 트위터( Okt )

In [None]:
print(okt.nouns(sentence))
print(okt.morphs(sentence))
print(okt.pos(sentence))

['그', '사람']
['좋으니', '그', '사람', '솔직히', '견디기', '버거워']
[('좋으니', 'Adjective'), ('그', 'Noun'), ('사람', 'Noun'), ('솔직히', 'Adjective'), ('견디기', 'Verb'), ('버거워', 'Adjective')]


#### 꼬꼬마( KKma )

In [None]:
print(kkma.nouns(sentence))
print(kkma.morphs(sentence))
print(kkma.pos(sentence))

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버겁', '어']
[('좋', 'VA'), ('으니', 'ECD'), ('그', 'MDT'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버겁', 'VA'), ('어', 'ECS')]


#### 코모란( Komoran )

In [None]:
print(komoran.nouns(sentence))
print(komoran.morphs(sentence))
print(komoran.pos(sentence))

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'NA')]


#### 한나눔( Hannanum )

In [None]:
print(hannanum.nouns(sentence))
print(hannanum.morphs(sentence))
print(hannanum.pos(sentence))

['사람', '버거워']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'P'), ('으니', 'E'), ('그', 'M'), ('사람', 'N'), ('솔직히', 'M'), ('견디', 'P'), ('기', 'E'), ('버거워', 'N')]


#### 메캅(Mecab)

In [None]:
print(mecab.nouns(sentence))
print(mecab.morphs(sentence))
print(mecab.pos(sentence))

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'VA+EC')]


## 문장 토크나이징
단순히 물음표, 온점, 느낌표 등으로 문장을 잘라내게 되면 문장을 토크나이징 할 수 있을까요? 꼭 그렇지만은 않습니다. ? 또는 !는 꽤나 정확하게 문장을 나눌 수 있는 기준이 되지만 온점(.)은 그렇지 못합니다.

즉 온점은 문장의 끝이 아니더라도 올 수 있습니다.

> **니 아이피 192.168.56.51 맞지? 거기 다운로드 폴더에 있는 모든 파일 압축해서 mhso.dev@kakao.com으로 보내줘.**

> **Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year.**

### 영어 문장 토크나이징
NLTK에서는 영어 문장의 토큰화를 수행하는 sent_tokenize를 지원하고 있습니다!

In [None]:
text = "Since I'm actively looking for Ph.D. students. I get the same question a dozen times every year."

In [None]:
from nltk.tokenize import sent_tokenize
print(sent_tokenize(text))

["Since I'm actively looking for Ph.D. students.", 'I get the same question a dozen times every year.']


In [None]:
text = "My IP Address Is 192.168.56.51. Send me this mail tommrrow"
print(sent_tokenize(text))

['My IP Address Is 192.168.56.51.', 'Send me this mail tommrrow']


### 한국어 문장 토크나이징
`kss` 패키지를 이용해 한국어 문장도 손쉽게 토크나이징이 가능합니다
```
!pip install kss
```

In [None]:
!pip install kss

Collecting kss
  Downloading https://files.pythonhosted.org/packages/fc/bb/4772901b3b934ac204f32a0bd6fc0567871d8378f9bbc7dd5fd5e16c6ee7/kss-1.3.1.tar.gz
Building wheels for collected packages: kss
  Building wheel for kss (setup.py) ... [?25l[?25hdone
  Created wheel for kss: filename=kss-1.3.1-cp36-cp36m-linux_x86_64.whl size=251529 sha256=cdc013e99588db0418a5f88a0059a303724ccb66bd45a972456b9f16c7bc6efd
  Stored in directory: /root/.cache/pip/wheels/8b/98/d1/53f75f89925cd95779824778725ee3fa36e7aa55ed26ad54a8
Successfully built kss
Installing collected packages: kss
Successfully installed kss-1.3.1


In [None]:
import kss
text = "내 아이피는 192.168.56.131 이에요. 자연어 처리가 재미있으시죠? 딥러닝으로 처리하면 더 재미있기는 합니다. 근데 이거 너무 어려운거 아니냐?"
print(kss.split_sentences(text))

['내 아이피는 192.168.56.131 이에요.', '자연어 처리가 재미있으시죠?', '딥러닝으로 처리하면 더 재미있기는 합니다.', '근데 이거 너무 어려운거 아니냐?']


## 한국어 띄어쓰기 및 맞춤법 정리하기
`kospacing`과 `hanspell`을 이용해 보겠습니다

### KoSpacing 설치 및 활용

In [None]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-504jpnqg
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-504jpnqg
Collecting argparse>=1.4.0
  Downloading https://files.pythonhosted.org/packages/f2/94/3af39d34be01a24a6e65433d19e107099374224905f1e0cc6bbe1fd22a2f/argparse-1.4.0-py2.py3-none-any.whl
Building wheels for collected packages: pykospacing
  Building wheel for pykospacing (setup.py) ... [?25l[?25hdone
  Created wheel for pykospacing: filename=pykospacing-0.3-cp36-none-any.whl size=2255638 sha256=a2cebc2b8d350738f32a25f9856770461e8e5ccf88a6c37c5e89eea0e13a2f64
  Stored in directory: /tmp/pip-ephem-wheel-cache-qbcv2c4p/wheels/4d/45/58/e26cb2b7f6a063d234158c6fd1e5700f6e15b99d67154340ba
Successfully built pykospacing
Installing collected packages: argparse, pykospacing
Successfully installed argparse-1.4.0 pykospacing-0.3


In [None]:
from pykospacing import spacing

text = "4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아."
spacing_text = spacing(text)
print(spacing_text)

4번 놀고 있지.4번은 팀워크가 없어.4번은 개인주의야.4번은 혼자 밖에 생각하지 않아.


### hanspell 설치 및 활용

In [None]:
!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-xz5l1axj
  Running command git clone -q https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-xz5l1axj
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25l[?25hdone
  Created wheel for py-hanspell: filename=py_hanspell-1.1-cp36-none-any.whl size=4854 sha256=33f23a0a50c78827edd452fbfbe52cac7b4fd951b911276aef0eb6dfe05ddac7
  Stored in directory: /tmp/pip-ephem-wheel-cache-qe6szidp/wheels/0a/25/d1/e5e96476dbb1c318cc26c992dd493394fe42b0c204b3e65588
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1


In [None]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되?"
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼?


사실 hanspell은 맞춤법 교정 뿐만이 아닌 띄어쓰기 교정도 해줍니다 😄

In [None]:
text = "4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아."

kospacing_text = spacing(text)
hanspell_text  = spell_checker.check(text).checked

print(kospacing_text)
print(hanspell_text)

4번 놀고 있지.4번은 팀워크가 없어.4번은 개인주의야.4번은 혼자 밖에 생각하지 않아.
4번 놀고 있지. 4번은 팀워크가 없어. 4번은 개인주의야. 4번은 혼자밖에 생각하지 않아.


## 텍스트 정규화
텍스트 정규화(Text Normalization)은 통일 할 수 있는 단어를 하나로 통일하기 위한 전처리 과정입니다. 정규 표현식이나 사용자만의 규칙을 만들어 전처리할 수도 있지만 Stemming이나 Lemmatization도 활용합니다.


### 영어 정규화 - Stemming
어간(Stem)을 추출하는 작업을 어간 추출(stemming)이라고 합니다. 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있습니다. 다시 말해, 이 작업은 섬세한 작업이 아니기 때문에 **어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있습니다.**

가령, 포터 스테머의 포터 알고리즘의 어간 추출은 이러한 규칙들을 가집니다.
* `Serialize` → `serial`
* `Allowance` → `allow`
* `Medical` → `medic`
* `This` → `thi`

In [None]:
from nltk.stem import PorterStemmer
porterstemmer = PorterStemmer()

In [None]:
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [None]:
print([porterstemmer.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [None]:
words=['Serialize', 'Allowance', 'Medical', 'This']
print([porterstemmer.stem(w) for w in words])

['serial', 'allow', 'medic', 'thi']


### 영어 정규화 - Lemmatization
표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단합니다. 예를 들어서 am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be라고 볼 수 있습니다. 이 때, 이 단어들의 표제어는 be라고 합니다.

In [None]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [None]:
from nltk.stem import WordNetLemmatizer
wordnetlemmatizer = WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([wordnetlemmatizer.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


### 한국어 정규화 - Stemming, Normalization
형태소 분리기인 `Okt`에는 특정 단어의 어간을 추출하거나 정규화 시킬 수 있는 매개변수를 모두 제공합니다.

In [None]:
text = "4번 놀고 있지. 4번은 팀워크가 없어. 4번은 개인주의야. 4번은 혼자밖에 생각하지 않아."
print(okt.morphs(text))
print(okt.morphs(text, stem=True))
print(okt.pos(text))
print(okt.pos(text, stem=True))

['4', '번', '놀고', '있지', '.', '4', '번은', '팀워크', '가', '없어', '.', '4', '번은', '개인주의', '야', '.', '4', '번은', '혼자', '밖에', '생각', '하지', '않아', '.']
['4', '번', '놀다', '있다', '.', '4', '번은', '팀워크', '가', '없다', '.', '4', '번은', '개인주의', '야', '.', '4', '번은', '혼자', '밖에', '생각', '하다', '않다', '.']
[('4', 'Number'), ('번', 'Noun'), ('놀고', 'Verb'), ('있지', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('팀워크', 'Noun'), ('가', 'Josa'), ('없어', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('개인주의', 'Noun'), ('야', 'Josa'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('혼자', 'Noun'), ('밖에', 'Josa'), ('생각', 'Noun'), ('하지', 'Verb'), ('않아', 'Verb'), ('.', 'Punctuation')]
[('4', 'Number'), ('번', 'Noun'), ('놀다', 'Verb'), ('있다', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('팀워크', 'Noun'), ('가', 'Josa'), ('없다', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('개인주의', 'Noun'), ('야', 'Josa'), ('.', 'Punctuation'), ('4', 'Number')

In [None]:
text = "웃기는 소리하지마랔ㅋㅋㅋ"
print(okt.morphs(text))
print(okt.morphs(text, norm=True))
print(okt.pos(text))
print(okt.pos(text, norm=True))

['웃기는', '소리', '하지마', '랔', 'ㅋㅋㅋ']
['웃기는', '소리', '하지마라', 'ㅋㅋㅋ']
[('웃기는', 'Verb'), ('소리', 'Noun'), ('하지마', 'Verb'), ('랔', 'Noun'), ('ㅋㅋㅋ', 'KoreanParticle')]
[('웃기는', 'Verb'), ('소리', 'Noun'), ('하지마라', 'Verb'), ('ㅋㅋㅋ', 'KoreanParticle')]


### 한국어 정규화 - 반복되는 문자 정제(soynlp)

In [None]:
!pip install soynlp

Collecting soynlp
[?25l  Downloading https://files.pythonhosted.org/packages/7e/50/6913dc52a86a6b189419e59f9eef1b8d599cffb6f44f7bb91854165fc603/soynlp-0.0.493-py3-none-any.whl (416kB)
[K     |████████████████████████████████| 419kB 4.4MB/s 
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493


ㅋㅋ, ㅎㅎ 등의 이모티콘이 불필요하게 연속되는 경우가 꽤나 많습니다. 예를 들어 ㅋㅋㅋㅋㅋㅋ나 ㅎㅎㅎㅎㅎ 같은 이모티콘을 `soynlp`는 ㅋㅋ, ㅎㅎ 로 정규화 시켜주게 됩니다.

In [None]:
from soynlp.normalizer import *
print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ


이모티콘 뿐만이 아닌 의미없이 반복되는 텍스트도 줄여줄 수 있습니다

In [None]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


## 텍스트 정제

### 영어 정규 표현식 정제
영어 문장에서 알파벳만 추출하는 정규식 표현은 `a-zA-Z` 입니다.

In [None]:
import re

In [None]:
eng_sent = "\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"
eng_sent

"\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"

In [None]:
eng_sent = re.sub("[^a-zA-Z]", " ", eng_sent)
eng_sent

'       Yeah  do you expect people to read the FAQ  etc  and actually accept hard atheism   No  you need a little leap of faith  Jimmy   Your logic runs out of steam         Jim   Sorry I can t pity you  Jim   And I m sorry that you have these feelings of denial about the faith you need to get by   Oh well  just pretend that it will all end happily ever after anyway   Maybe if you start a new newsgroup  alt atheist hard  you won t be bummin  so much        Bye Bye  Big Jim   Don t forget your Flintstone s Chewables          Bake Timmons  III'

In [None]:
# 4글자 이상인 단어만 추출해서 새롭게 문장 만들기
eng_sent = ' '.join([w for w in eng_sent.split() if len(w)>3])
eng_sent

'Yeah expect people read actually accept hard atheism need little leap faith Jimmy Your logic runs steam Sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway Maybe start newsgroup atheist hard bummin much forget your Flintstone Chewables Bake Timmons'

### 한국어 정규 표현식 정제
한국어 문장에서 한글만 추출하는 정규식 표현은 `ㄱ-ㅎㅏ-ㅣ가-힣` 입니다.

In [None]:
kor_sent = "와 이런 것도 영화라고....ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔!!"
kor_sent

'와 이런 것도 영화라고....ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔!!'

In [None]:
kor_sent = re.sub("[^ㄱ-ㅎㅏ-ㅣ가-힣]", " ", kor_sent)
kor_sent

'와 이런 것도 영화라고    ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔  '

In [None]:
# 완성형 한글만 남기는 경우
kor_sent = re.sub("[^가-힣]", " ", kor_sent)
kor_sent

'와 이런 것도 영화라고        차라리 뮤직비디오를 만드는 게 나을 뻔  '

In [None]:
# 띄어쓰기가 반복될 경우 1개로 줄인다.
kor_sent = re.sub("[ ]{2,}", " ", kor_sent)
kor_sent

'와 이런 것도 영화라고 차라리 뮤직비디오를 만드는 게 나을 뻔 '

## Stopwords 설정하기
영어에서의 I, my, me, over, the와 같은 단어들이나 한국어의 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 경우가 있습니다. 이러한 단어들을 불용어(stopword)라고 하며, NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있습니다.

### 영어 stopwords

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
from nltk.corpus import stopwords  
print(stopwords.words('english'))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [None]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example) # 먼저 토크나이징을 하고

result = []
for w in word_tokens: 
    if w not in stop_words: # 불용어 처리를 한다.
        result.append(w) 

print('원문 :', word_tokens) 
print('불용어 제거 후 :', result) 

원문 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


### 한국어 stopwords

In [None]:
!pip install konlpy



In [None]:
from konlpy.tag import Okt
okt = Okt()

In [None]:
example = "와 이런 것도 영화라고 차라리 뮤직비디오를 만드는 게 나을 뻔"
word_tokens = okt.morphs(example)
print(word_tokens)

['와', '이런', '것', '도', '영화', '라고', '차라리', '뮤직비디오', '를', '만드는', '게', '나을', '뻔']


In [None]:
stop_words = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다', '것']
# 위의 불용어는 임의로 선정한 것으로 실제 의미있는 선정 기준이 아니에요!
# 일반적으로 조사나 접속사들이 불용어로 선정됩니다.

result=[word for word in word_tokens if not word in stop_words]

print('원문 :', word_tokens) 
print('불용어 제거 후 :', result) 

원문 : ['와', '이런', '것', '도', '영화', '라고', '차라리', '뮤직비디오', '를', '만드는', '게', '나을', '뻔']
불용어 제거 후 : ['이런', '영화', '라고', '차라리', '뮤직비디오', '만드는', '게', '나을', '뻔']
