# Tokenization(토큰화) 이론
텍스트(문장, 문단, 문서)에서 어디까지가 문장이고, 무엇이 단어인지를 알려주는 것을 의미한다.
- 문장 토큰화
- 단어 토큰화
- subword 토큰화

## English Tokenization
띄어쓰기 및 온점을 이용해 단어 및 문장에 대한 토큰화 손쉽게 진행 가능

In [1]:
sample_text = "I'm another year older. I won't cry about you anymore. Told my friends to come over. To dye my hair, mm."

## 문장 토큰화(Sentence Tokenization)

In [2]:
tokenized_sentence = sample_text.split(". ")
tokenized_sentence

["I'm another year older",
 "I won't cry about you anymore",
 'Told my friends to come over',
 'To dye my hair, mm.']

## 단어 토큰화(Word Tokenization)

In [3]:
tokenized_word = sample_text.split()
tokenized_word

["I'm",
 'another',
 'year',
 'older.',
 'I',
 "won't",
 'cry',
 'about',
 'you',
 'anymore.',
 'Told',
 'my',
 'friends',
 'to',
 'come',
 'over.',
 'To',
 'dye',
 'my',
 'hair,',
 'mm.']

## 띄어쓰기로 영어 문장 내 단어 구분할 때의 문제점
- We're Genius!!
- We are Genius!!
- We are Genius

위 세 문장을 각각 토큰화하면 사람은 세 문장이 전부 다 똑같은 의미라는 것을 알 수 있으나, 기계는 세 문장이 다르다고 판단한다.

- 그렇기 때문에 그냥 잘라내기만 하면 안 됨
- 의미가 달라질 수 있음

## 해결 방법 1. 특수문자 제거를 이용해 단어 구분
- `[We, re, Genius]`
- `[We, are, Genius]`
- `[We, are, Genius]`

문제점 발생 : 특수문자가 중요한 의미를 가지는 경우 존재
- $12.45 -> `[12, 45]`
- Mr.So -> `[Mr, So]`
- Mrs.Kim -> `[Mrs, Kim]`
- 192.168.0.1 -> `[192, 168, 0, 1]`

## 영어 단어 토크나이저 활용하기
- TreebankWordTokenizer 패키지 있음
  - 영어 표준 토큰화 규격을 따라간다.
  - Penn Treebank Tokenization 규칙

- TreebankWordTokenizer의 규칙
  - 하이푼으로 구성된 단어는 하나로 유지
  - doesn't같이 어포스트로피를 '접어'가 함께하는 단어는 따로 분리해준다.

## 한국어의 토큰화가 어려운 이유?

1. 한국어는 교착어이다.
2. 한국어는 띄어쓰기가 잘 지켜지지 않는다.
3. 한국어는 주어생략이 가응하고, 어순도 중요하지 않다.
4. 한자어라는 특성상 하나의 음절도 다른 의미를 가질 수있다.


## 교착어
실질적인 의미를 가지는 어간에 조사나 어미와 같은 문법 형태소가 결합하여 문법적인 기능(각각이 다른 의미를 갖는)이 부여되는 언어

## 띄어쓰기 문제
> 이렇게띄어쓰기를하지않아도일단읽을수는있잖아요


> yousugaryespleasewouldyoucomeandputitdownonme

`py-hanspell` 패키지 또는 `ko-spacing` 패키지를 이용해 문법이나 띄어쓰기 교정을 할 수 있다.

이걸로 SNS 분석 쉽게 할 수 있음.

### 주어 생략 및 어순 문제
1. 나는 운동을 했어. 체육관에서.
2. 나는 체육관에서 운동을 했어.
3. 체육관에서 운동했어.
4. 나는 운동을 체육관에서 했어.

### 한자어특성 때문에 하나의 음절이 다른 의미를 갖는 것
1. 배 - 사람의 배, 타는 배, 먹는 배
2. 한국도 '한'은 한국 한, '국'은 나라 국이지만 각자 다른 의미로 해석될 수도 있다. (된장국 미역국 등...)

한국어의 형태소 분석을 쉽게 하기 위해 konlpy 패키지 활용

```
!pip install konlpy
```

## Mecab

실무에서 가장 많이 사용되고 있는 형태소 분석기
```
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh
```

## Twitter, 꼬꼬마, 코모란, 한나눔
속도가 Mecab이나 khaii 보다 많이 느리지만 각각의 장단점이 있음.

각각 용도가 다름 -> 비즈니스에 맞춰서 사용

- Mecab - 형태소 분석 속도 빠름. 실무에서 빠르게 사용해야 할 때 사용
- Twitter(OKT) - 정제, 스타일링, 정규화, 어근 기능
- 코모란 - 오타

## Cleaning(정제)과 Normalization(정규화)

### 정제란?
- **불필요한 데이터를 제거**하는 것
- 텍스트 중간중간 껴있는 숫자나 특수기호를 제거하는 것
- 한국어의 경우 은, 는, 이, 가 등의 불용어(stopwords)를 제거할 때 사용함
- 영어의 경우는 at, is, am, the 등을 제거한다.
- 텍스트의 인코딩 문제 해결
- 길이가 짧은 단어들 제거
- 등장 빈도가 적은 단어 제거

### 정규화란?
- 문장의 **복잡도를 줄여주는** 과정
- 같은 의미를 가지고 있는 여러 단어를 하나로 통합하는 작업
- 영어의 경우 lemmatization
  - am, are, were, was -> be
  - has, had -> have
  - 10, 12, 100 -> num
  - ㅋ, ㅋㅋㅋㅋ, ㅋㅋㅋㅋㅋ -> ㅋㅋ
- 대소문자 통합 등
- 이모티콘 -> emo



## Tokenization 실습

In [4]:
# 영어부터 실습
import nltk
nltk.download("punkt")  # 영어 토크나이저 활용하기
# 토크나이저도 여러가지 종류가 있음

sentence = "Ain't nothin' sweeter, you want this sugar, don't ya?"

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


## 기본 토크나이저

In [5]:
from nltk.tokenize import word_tokenize
print(word_tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


## WordPunkTokenizer
- 주로 어퍼스트로피 때문에 일어나는 일들 해결

In [6]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(sentence))
# 어퍼스트로피를 기준으로 앞/뒤로 잘라준다.

['Ain', "'", 't', 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'don', "'", 't', 'ya', '?']


## TreebankWordTokenizer

In [7]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()

print(tokenizer.tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


In [8]:
sample_text = "I'm Iron-man"
print(tokenizer.tokenize(sample_text))

['I', "'m", 'Iron-man']


In [9]:
# 셋 중에 좋고 나쁨 없음.
# 특징들 알고 있고, 비즈니스에 맞춰서 활용하면 됨.

## 한글 토크나이저

In [10]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.3MB/s 
[?25hCollecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Collecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 10.4MB/s 
[?25hCollecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/fd/96/1030895dea70855a2e1078e3fe0d6a63dcb7c212309e07dc9ee39d33af54/JPype1-1.1.2-cp36-cp36m-manylinux2010_x86_64.whl (450kB)
[K     |████████████████████████████████| 460kB 44.6MB/s 
Collecting tweepy>=3.7.0
  Downlo

In [11]:
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 72, done.[K
remote: Counting objects: 100% (72/72), done.[K
remote: Compressing objects: 100% (67/67), done.[K
remote: Total 72 (delta 31), reused 20 (delta 5), pack-reused 0[K
Unpacking objects: 100% (72/72), done.
/content/Mecab-ko-for-Google-Colab
Installing konlpy.....
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2020-11-11 00:13:14--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 104.192.141.1, 2406:da00:ff00::22c2:513, 2406:da00:ff00::22cd:e0db, ...
Connecting to bitbucket.org (bitbucket.org)|104.192.141.1|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?Signature=QoJ7c1UX9v7GC

In [12]:
from konlpy.tag import Hannanum  # 한나눔
from konlpy.tag import Kkma  # 꼬꼬마
from konlpy.tag import Komoran  # 코모란
from konlpy.tag import Okt  # 트위터
from konlpy.tag import Mecab

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
mecab = Mecab()

sentence = "좋으니 그 사람 솔직히 견디기 버거워"

## 트위터(Okt)

In [13]:
print(okt.nouns(sentence))  # 명사만 추출
print(okt.morphs(sentence))  # 각 형태소 별로 토큰화
print(okt.pos(sentence))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표시
# 조금 느리지만 스태밍, 노멀라이즈 가능

# 워드클라우드 만들 때 사용하기도 함

['그', '사람']
['좋으니', '그', '사람', '솔직히', '견디기', '버거워']
[('좋으니', 'Adjective'), ('그', 'Noun'), ('사람', 'Noun'), ('솔직히', 'Adjective'), ('견디기', 'Verb'), ('버거워', 'Adjective')]


## 꼬꼬마(Kkma)

In [14]:
print(kkma.nouns(sentence))  # 명사만 추출
print(kkma.morphs(sentence))  # 각 형태소 별로 토큰화
print(kkma.pos(sentence))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표시
# 시간이 좀 걸린다.
# 트위터는 그, 사람을 명사로 판단했지만
# 꼬꼬마에서는 사람만 명사로 판단
# 이렇게 다 다름

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버겁', '어']
[('좋', 'VA'), ('으니', 'ECD'), ('그', 'MDT'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버겁', 'VA'), ('어', 'ECS')]


## 코모란(Komoran)

In [15]:
print(komoran.nouns(sentence))  # 명사만 추출
print(komoran.morphs(sentence))  # 각 형태소 별로 토큰화
print(komoran.pos(sentence))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표시

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'NA')]


In [16]:
# 다른 것들보다 빠름

## 한나눔(Hannanum)

In [17]:
print(hannanum.nouns(sentence))  # 명사만 추출
print(hannanum.morphs(sentence))  # 각 형태소 별로 토큰화
print(hannanum.pos(sentence))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표시

['사람', '버거워']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'P'), ('으니', 'E'), ('그', 'M'), ('사람', 'N'), ('솔직히', 'M'), ('견디', 'P'), ('기', 'E'), ('버거워', 'N')]


In [18]:
# 왜 그런지 모르겠지만 명사에 버거워가 들어가 있음..

## 메캅(Mecab)

In [19]:
print(mecab.nouns(sentence))  # 명사만 추출
print(mecab.morphs(sentence))  # 각 형태소 별로 토큰화
print(mecab.pos(sentence))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표시

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'VA+EC')]


In [20]:
# 속도 엄청 빠름

## 영어 문장 토크나이징
단순히 물음표, 온점(.), 느낌표 등으로 문장을 잘라내면 문장 토크나이징일까?

> 너의 아이피가 192.168.56.51 맞니?

> looking for Ph.D. Students

등과 같이 온점이나 기호가 의미를 갖는 경우가 많다.

In [21]:
text = "Since I'm actively looking for Ph.D. students. I get the same question a dozen times every year."

In [22]:
from nltk.tokenize import sent_tokenize
print(sent_tokenize(text))

["Since I'm actively looking for Ph.D. students.", 'I get the same question a dozen times every year.']


In [24]:
text = "My IP Address is 192.168.56.51. Hello World!"
print(sent_tokenize(text))

['My IP Address is 192.168.56.51.', 'Hello World!']


In [25]:
# IP 가 안 잘린 것 확인
# 영어에서 사용할 수 있는 패키지

## 한국어 문장 토크나이징
```
!pip install kss
```

In [26]:
!pip install kss

Collecting kss
  Downloading https://files.pythonhosted.org/packages/fc/bb/4772901b3b934ac204f32a0bd6fc0567871d8378f9bbc7dd5fd5e16c6ee7/kss-1.3.1.tar.gz
Building wheels for collected packages: kss
  Building wheel for kss (setup.py) ... [?25l[?25hdone
  Created wheel for kss: filename=kss-1.3.1-cp36-cp36m-linux_x86_64.whl size=251554 sha256=5171fad51867f4b2c462c831474da419168ac69853f493c34e280e1ab1e2a035
  Stored in directory: /root/.cache/pip/wheels/8b/98/d1/53f75f89925cd95779824778725ee3fa36e7aa55ed26ad54a8
Successfully built kss
Installing collected packages: kss
Successfully installed kss-1.3.1


In [28]:
import kss
text = "제 아이피는 192.168.56.21이에요. 자연어 처리가 재미있나요?ㅋㅋ 딥러닝 들어가면 머리가 아파와요"
print(kss.split_sentences(text))

['제 아이피는 192.168.56.21이에요.', '자연어 처리가 재미있나요?ㅋㅋ', '딥러닝 들어가면 머리가 아파와요']


In [29]:
# 뉴스, 논문 같은 것 크롤링 할 때
# 문장 토큰화 한 다음에 단어 토큰화할 때 좋을 듯

## 띄어쓰기 및 맞춤법 정리하기

### KoSpacing
```
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git
```

### hanspell
```
!pip install git+https://github.com/ssut/py-hanspell.git
```

In [30]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-wi3wm9y6
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-wi3wm9y6
Collecting argparse>=1.4.0
  Downloading https://files.pythonhosted.org/packages/f2/94/3af39d34be01a24a6e65433d19e107099374224905f1e0cc6bbe1fd22a2f/argparse-1.4.0-py2.py3-none-any.whl
Building wheels for collected packages: pykospacing
  Building wheel for pykospacing (setup.py) ... [?25l[?25hdone
  Created wheel for pykospacing: filename=pykospacing-0.3-cp36-none-any.whl size=2255638 sha256=0955319c763e55e83a281981727741be41e24758b90ecf02817f285782cb19f9
  Stored in directory: /tmp/pip-ephem-wheel-cache-pesb7jq7/wheels/4d/45/58/e26cb2b7f6a063d234158c6fd1e5700f6e15b99d67154340ba
Successfully built pykospacing
Installing collected packages: argparse, pykospacing
Successfully installed argparse-1.4.0 pykospacing-0.3


In [31]:
!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-fd01se4d
  Running command git clone -q https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-fd01se4d
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25l[?25hdone
  Created wheel for py-hanspell: filename=py_hanspell-1.1-cp36-none-any.whl size=4854 sha256=0302a41a8de99dfc70bf86b67cb6e02055733060d16656b410d0281a002f827e
  Stored in directory: /tmp/pip-ephem-wheel-cache-d22jzu__/wheels/0a/25/d1/e5e96476dbb1c318cc26c992dd493394fe42b0c204b3e65588
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1


In [32]:
from hanspell import spell_checker
from pykospacing import spacing

In [39]:
# KoSpacing을 이용한 띄어쓰기 정리
text="4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아."
spacing_text = spacing(text)
print(spacing_text)

4번 놀고 있지.4번은 팀워크가 없어.4번은 개인주의야.4번은 혼자 밖에 생각하지 않아.


In [40]:
# hanspell을 이용한 문법 정리
# 띄어쓰기도 포함되어 있음
text = "4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아."
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

4번 놀고 있지. 4번은 팀워크가 없어. 4번은 개인주의야. 4번은 혼자밖에 생각하지 않아.


In [41]:
text = '오늘오랜만에사람들이다왓네?그것도오전에...감동이에요ㅎㅎ'
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

오늘 오랜만에 사람들이 다 왔네? 그것도 오전에... 감동이에요ᄒᄒ


In [42]:
text = '맞춤뻡 틀리면 외 않되?'
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

맞춤법 틀리면 왜 안돼?


## 텍스트 정규화
문장의 복잡도를 낮추는 과정. 복잡도가 낮아지기 때문에 처리할 단어가 줄어든다.