# Tokenization(토큰화) 이론
텍스트(문장, 문단, 문서)에서 어디까지가 문장이고, 무엇이 단어인지를 알려주는 것을 의미한다.
- 문장 토큰화
- 단어 토큰화
- subword 토큰화

## English Tokenization
띄어쓰기 및 온점을 이용해 단어 및 문장에 대한 토큰화 손쉽게 진행 가능

In [None]:
sample_text = "I'm another year older. I won't cry about you anymore. Told my friends to come over. To dye my hair, mm."

## 문장 토큰화(Sentence Tokenization)

In [None]:
tokenized_sentence = sample_text.split(". ")
tokenized_sentence

["I'm another year older",
 "I won't cry about you anymore",
 'Told my friends to come over',
 'To dye my hair, mm.']

## 단어 토큰화(Word Tokenization)

In [None]:
tokenized_word = sample_text.split()
tokenized_word

["I'm",
 'another',
 'year',
 'older.',
 'I',
 "won't",
 'cry',
 'about',
 'you',
 'anymore.',
 'Told',
 'my',
 'friends',
 'to',
 'come',
 'over.',
 'To',
 'dye',
 'my',
 'hair,',
 'mm.']

## 띄어쓰기로 영어 문장 내 단어 구분할 때의 문제점
- We're Genius!!
- We are Genius!!
- We are Genius

위 세 문장을 각각 토큰화하면 사람은 세 문장이 전부 다 똑같은 의미라는 것을 알 수 있으나, 기계는 세 문장이 다르다고 판단한다.

- 그렇기 때문에 그냥 잘라내기만 하면 안 됨
- 의미가 달라질 수 있음

## 해결 방법 1. 특수문자 제거를 이용해 단어 구분
- `[We, re, Genius]`
- `[We, are, Genius]`
- `[We, are, Genius]`

문제점 발생 : 특수문자가 중요한 의미를 가지는 경우 존재
- $12.45 -> `[12, 45]`
- Mr.So -> `[Mr, So]`
- Mrs.Kim -> `[Mrs, Kim]`
- 192.168.0.1 -> `[192, 168, 0, 1]`

## 영어 단어 토크나이저 활용하기
- TreebankWordTokenizer 패키지 있음
  - 영어 표준 토큰화 규격을 따라간다.
  - Penn Treebank Tokenization 규칙

- TreebankWordTokenizer의 규칙
  - 하이푼으로 구성된 단어는 하나로 유지
  - doesn't같이 어포스트로피를 '접어'가 함께하는 단어는 따로 분리해준다.

## 한국어의 토큰화가 어려운 이유?

1. 한국어는 교착어이다.
2. 한국어는 띄어쓰기가 잘 지켜지지 않는다.
3. 한국어는 주어생략이 가능하고, 어순도 중요하지 않다.
4. 한자어라는 특성상 하나의 음절도 다른 의미를 가질 수있다.


## 교착어
실질적인 의미를 가지는 어간에 조사나 어미와 같은 문법 형태소가 결합하여 문법적인 기능(각각이 다른 의미를 갖는)이 부여되는 언어

## 띄어쓰기 문제
> 이렇게띄어쓰기를하지않아도일단읽을수는있잖아요

> yousugaryespleasewouldyoucomeandputitdownonme

`py-hanspell` 패키지 또는 `ko-spacing` 패키지를 이용해 문법이나 띄어쓰기 교정을 할 수 있다.

이걸로 SNS 분석 쉽게 할 수 있음.

### 주어 생략 및 어순 문제
1. 나는 운동을 했어. 체육관에서.
2. 나는 체육관에서 운동을 했어.
3. 체육관에서 운동했어.
4. 나는 운동을 체육관에서 했어.

### 한자어특성 때문에 하나의 음절이 다른 의미를 갖는 것
1. 배 - 사람의 배, 타는 배, 먹는 배
2. 한국도 '한'은 한국 한, '국'은 나라 국이지만 각자 다른 의미로 해석될 수도 있다. (된장국 미역국 등...)

한국어의 형태소 분석을 쉽게 하기 위해 konlpy 패키지 활용

```
!pip install konlpy
```

## Mecab

실무에서 가장 많이 사용되고 있는 형태소 분석기
```
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh
```

## Twitter, 꼬꼬마, 코모란, 한나눔
속도가 Mecab이나 khaii 보다 많이 느리지만 각각의 장단점이 있음.

각각 용도가 다름 -> 비즈니스에 맞춰서 사용

- Mecab - 형태소 분석 속도 빠름. 실무에서 빠르게 사용해야 할 때 사용
- Twitter(OKT) - 정제, 스타일링, 정규화, 어근 기능
- 코모란 - 오타

## Cleaning(정제)과 Normalization(정규화)

### 정제란?
- **불필요한 데이터를 제거**하는 것
- 텍스트 중간중간 껴있는 숫자나 특수기호를 제거하는 것
- 한국어의 경우 은, 는, 이, 가 등의 불용어(stopwords)를 제거할 때 사용함
- 영어의 경우는 at, is, am, the 등을 제거한다.
- 텍스트의 인코딩 문제 해결
- 길이가 짧은 단어들 제거
- 등장 빈도가 적은 단어 제거

### 정규화란?
- 문장의 **복잡도를 줄여주는** 과정
- 같은 의미를 가지고 있는 여러 단어를 하나로 통합하는 작업
- 영어의 경우 lemmatization
  - am, are, were, was -> be
  - has, had -> have
  - 10, 12, 100 -> num
  - ㅋ, ㅋㅋㅋㅋ, ㅋㅋㅋㅋㅋ -> ㅋㅋ
- 대소문자 통합 등
- 이모티콘 -> emo



## Tokenization 실습

In [None]:
# 영어부터 실습
import nltk
nltk.download("punkt")  # 영어 토크나이저 활용하기
# 토크나이저도 여러가지 종류가 있음

sentence = "Ain't nothin' sweeter, you want this sugar, don't ya?"

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 기본 토크나이저

In [None]:
from nltk.tokenize import word_tokenize
print(word_tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


## WordPunkTokenizer
- 주로 어퍼스트로피 때문에 일어나는 일들 해결

In [None]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(sentence))
# 어퍼스트로피를 기준으로 앞/뒤로 잘라준다.

['Ain', "'", 't', 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'don', "'", 't', 'ya', '?']


## TreebankWordTokenizer

In [None]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()

print(tokenizer.tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


In [None]:
sample_text = "I'm Iron-man"
print(tokenizer.tokenize(sample_text))

['I', "'m", 'Iron-man']


In [None]:
# 셋 중에 좋고 나쁨 없음.
# 특징들 알고 있고, 비즈니스에 맞춰서 활용하면 됨.

## 한글 토크나이저

In [None]:
!pip install konlpy



In [None]:
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 72, done.[K
remote: Counting objects: 100% (72/72), done.[K
remote: Compressing objects: 100% (67/67), done.[K
remote: Total 72 (delta 31), reused 20 (delta 5), pack-reused 0[K
Unpacking objects: 100% (72/72), done.
/content/Mecab-ko-for-Google-Colab/Mecab-ko-for-Google-Colab
Installing konlpy.....
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2020-11-11 04:15:36--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 104.192.141.1, 2406:da00:ff00::22e9:9f55, 2406:da00:ff00::22c2:513, ...
Connecting to bitbucket.org (bitbucket.org)|104.192.141.1|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.

In [None]:
from konlpy.tag import Hannanum  # 한나눔
from konlpy.tag import Kkma  # 꼬꼬마
from konlpy.tag import Komoran  # 코모란
from konlpy.tag import Okt  # 트위터
from konlpy.tag import Mecab

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
mecab = Mecab()

sentence = "좋으니 그 사람 솔직히 견디기 버거워"

## 트위터(Okt)

In [None]:
print(okt.nouns(sentence))  # 명사만 추출
print(okt.morphs(sentence))  # 각 형태소 별로 토큰화
print(okt.pos(sentence))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표시
# 조금 느리지만 스태밍, 노멀라이즈 가능

# 워드클라우드 만들 때 사용하기도 함

['그', '사람']
['좋으니', '그', '사람', '솔직히', '견디기', '버거워']
[('좋으니', 'Adjective'), ('그', 'Noun'), ('사람', 'Noun'), ('솔직히', 'Adjective'), ('견디기', 'Verb'), ('버거워', 'Adjective')]


## 꼬꼬마(Kkma)

In [None]:
print(kkma.nouns(sentence))  # 명사만 추출
print(kkma.morphs(sentence))  # 각 형태소 별로 토큰화
print(kkma.pos(sentence))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표시
# 시간이 좀 걸린다.
# 트위터는 그, 사람을 명사로 판단했지만
# 꼬꼬마에서는 사람만 명사로 판단
# 이렇게 다 다름

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버겁', '어']
[('좋', 'VA'), ('으니', 'ECD'), ('그', 'MDT'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버겁', 'VA'), ('어', 'ECS')]


## 코모란(Komoran)

In [None]:
print(komoran.nouns(sentence))  # 명사만 추출
print(komoran.morphs(sentence))  # 각 형태소 별로 토큰화
print(komoran.pos(sentence))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표시

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'NA')]


In [None]:
# 다른 것들보다 빠름

## 한나눔(Hannanum)

In [None]:
print(hannanum.nouns(sentence))  # 명사만 추출
print(hannanum.morphs(sentence))  # 각 형태소 별로 토큰화
print(hannanum.pos(sentence))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표시

['사람', '버거워']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'P'), ('으니', 'E'), ('그', 'M'), ('사람', 'N'), ('솔직히', 'M'), ('견디', 'P'), ('기', 'E'), ('버거워', 'N')]


In [None]:
# 왜 그런지 모르겠지만 명사에 버거워가 들어가 있음..

## 메캅(Mecab)

In [None]:
print(mecab.nouns(sentence))  # 명사만 추출
print(mecab.morphs(sentence))  # 각 형태소 별로 토큰화
print(mecab.pos(sentence))  # 각 형태소 토큰 및 형태소 종류를 튜플로 표시

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'VA+EC')]


In [None]:
# 속도 엄청 빠름

## 영어 문장 토크나이징
단순히 물음표, 온점(.), 느낌표 등으로 문장을 잘라내면 문장 토크나이징일까?

> 너의 아이피가 192.168.56.51 맞니?

> looking for Ph.D. Students

등과 같이 온점이나 기호가 의미를 갖는 경우가 많다.

In [None]:
text = "Since I'm actively looking for Ph.D. students. I get the same question a dozen times every year."

In [None]:
from nltk.tokenize import sent_tokenize
print(sent_tokenize(text))

["Since I'm actively looking for Ph.D. students.", 'I get the same question a dozen times every year.']


In [None]:
text = "My IP Address is 192.168.56.51. Hello World!"
print(sent_tokenize(text))

['My IP Address is 192.168.56.51.', 'Hello World!']


In [None]:
# IP 가 안 잘린 것 확인
# 영어에서 사용할 수 있는 패키지

## 한국어 문장 토크나이징
```
!pip install kss
```

In [None]:
!pip install kss



In [None]:
import kss
text = "제 아이피는 192.168.56.21이에요. 자연어 처리가 재미있나요?ㅋㅋ 딥러닝 들어가면 머리가 아파와요"
print(kss.split_sentences(text))

['제 아이피는 192.168.56.21이에요.', '자연어 처리가 재미있나요?ㅋㅋ', '딥러닝 들어가면 머리가 아파와요']


In [None]:
# 뉴스, 논문 같은 것 크롤링 할 때
# 문장 토큰화 한 다음에 단어 토큰화할 때 좋을 듯

## 띄어쓰기 및 맞춤법 정리하기

### KoSpacing
```
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git
```

### hanspell
```
!pip install git+https://github.com/ssut/py-hanspell.git
```

In [None]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-b5dx655r
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-b5dx655r
Building wheels for collected packages: pykospacing
  Building wheel for pykospacing (setup.py) ... [?25l[?25hdone
  Created wheel for pykospacing: filename=pykospacing-0.3-cp36-none-any.whl size=2255638 sha256=3032d804baffe6fff44e4499fc90da5c764cd17f48a984a8e371b7d20905c4c7
  Stored in directory: /tmp/pip-ephem-wheel-cache-dtwr6q4l/wheels/4d/45/58/e26cb2b7f6a063d234158c6fd1e5700f6e15b99d67154340ba
Successfully built pykospacing


In [None]:
!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-7apiktcv
  Running command git clone -q https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-7apiktcv
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25l[?25hdone
  Created wheel for py-hanspell: filename=py_hanspell-1.1-cp36-none-any.whl size=4854 sha256=10f1a33a600670dfd1258b974f97778ee2075f53567a2716fedfce6badfe7d21
  Stored in directory: /tmp/pip-ephem-wheel-cache-o06bddm0/wheels/0a/25/d1/e5e96476dbb1c318cc26c992dd493394fe42b0c204b3e65588
Successfully built py-hanspell


In [None]:
from hanspell import spell_checker
from pykospacing import spacing

In [None]:
# KoSpacing을 이용한 띄어쓰기 정리
text="4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아."
spacing_text = spacing(text)
print(spacing_text)

4번 놀고 있지.4번은 팀워크가 없어.4번은 개인주의야.4번은 혼자 밖에 생각하지 않아.


In [None]:
# hanspell을 이용한 문법 정리
# 띄어쓰기도 포함되어 있음
text = "4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아."
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

4번 놀고 있지. 4번은 팀워크가 없어. 4번은 개인주의야. 4번은 혼자밖에 생각하지 않아.


In [None]:
text = '오늘오랜만에사람들이다왓네?그것도오전에...감동이에요ㅎㅎ'
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

오늘 오랜만에 사람들이 다 왔네? 그것도 오전에... 감동이에요ᄒᄒ


In [None]:
text = '맞춤뻡 틀리면 외 않되?'
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

맞춤법 틀리면 왜 안돼?


## 텍스트 정규화
문장의 복잡도를 낮추는 과정. 복잡도가 낮아지기 때문에 처리할 단어가 줄어든다.

### 영어 정규화 - Stemming
어간(stem)을 추출하는 과정 - 영어에서는 사전에 없는 단어가 나오는 경우가 종종 있다.

- `Serialize -> serial`
- `Allowance -> allow`
- `Medical -> medic`
- `This -> thi`

의미 파악을 하는 게 아닌 그냥 형태만 보고 잘라내기 때문에..

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
porter_stemmer = PorterStemmer()

In [None]:
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things—names and heights and soundings—with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things—names', 'and', 'heights', 'and', 'soundings—with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [None]:
# 그냥 토크나이저 같은 것을 활용하면 이렇게 잘림

In [None]:
print([porter_stemmer.stem(w) for w in words])
# PorterStemmer 사용

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'things—nam', 'and', 'height', 'and', 'soundings—with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [None]:
# this -> thi
# billy -> billi
# 이런 식으로 뜸

In [None]:
# 닮은 꼴 벡터를 찾아냄
# 단어의 갯수가 많을 경우 PorterStemmer 사용할 듯
# 의미가 중요한 것이 아님
# 대략적인 인식이 중요 (원 형태를 알고 있다면)

In [None]:
words = ["Serialize", "Allowance", "Medical", "This"]
print([porter_stemmer.stem(w) for w in words])

['serial', 'allow', 'medic', 'thi']


## 영어 정규화 - Lemmatization
표제어 추출 - 복수를 단수로, am, is -> be로 바꿔주는 역할

In [None]:
nltk.download("wordnet")

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [None]:
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([wordnet_lemmatizer.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [None]:
# 복수를 단수로 바꾸는 건 의미의 변화는 없음

## 한국어 정규화 - Stemming, Normalization
형태소 분리기인 Okt에는 특정 단어의 어간(stem) 및 정규화 기능이 있다.

In [None]:
from konlpy.tag import Okt
okt = Okt()
text = "4번 놀고 있지. 4번은 팀워크가 없어. 4번은 개인주의야. 4번은 혼자밖에 생각하지 않아."
print(okt.morphs(text))  # 형태소 분리 후 배열로 리턴
print(okt.morphs(text, stem=True))

['4', '번', '놀고', '있지', '.', '4', '번은', '팀워크', '가', '없어', '.', '4', '번은', '개인주의', '야', '.', '4', '번은', '혼자', '밖에', '생각', '하지', '않아', '.']
['4', '번', '놀다', '있다', '.', '4', '번은', '팀워크', '가', '없다', '.', '4', '번은', '개인주의', '야', '.', '4', '번은', '혼자', '밖에', '생각', '하다', '않다', '.']


In [None]:
# 첫번째는 steming 안 했을 때
# 두번째는 steming 했을 때

# 두번째에 어간이 나온다.
# 형태소 분리 후 어간 추출

In [None]:
print(okt.pos(text))
print(okt.pos(text, stem=True))

[('4', 'Number'), ('번', 'Noun'), ('놀고', 'Verb'), ('있지', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('팀워크', 'Noun'), ('가', 'Josa'), ('없어', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('개인주의', 'Noun'), ('야', 'Josa'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('혼자', 'Noun'), ('밖에', 'Josa'), ('생각', 'Noun'), ('하지', 'Verb'), ('않아', 'Verb'), ('.', 'Punctuation')]
[('4', 'Number'), ('번', 'Noun'), ('놀다', 'Verb'), ('있다', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('팀워크', 'Noun'), ('가', 'Josa'), ('없다', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('개인주의', 'Noun'), ('야', 'Josa'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('혼자', 'Noun'), ('밖에', 'Josa'), ('생각', 'Noun'), ('하다', 'Verb'), ('않다', 'Verb'), ('.', 'Punctuation')]


In [None]:
# 하지마랔ㅋㅋㅋㅋ -> 하지마라ㅋㅋㅋㅋ
text = "웃기는 소리하지마랔ㅋㅋㅋ"

print(okt.morphs(text))
print(okt.morphs(text, norm=True))
print(okt.pos(text))
print(okt.pos(text, norm=True))

['웃기는', '소리', '하지마', '랔', 'ㅋㅋㅋ']
['웃기는', '소리', '하지마라', 'ㅋㅋㅋ']
[('웃기는', 'Verb'), ('소리', 'Noun'), ('하지마', 'Verb'), ('랔', 'Noun'), ('ㅋㅋㅋ', 'KoreanParticle')]
[('웃기는', 'Verb'), ('소리', 'Noun'), ('하지마라', 'Verb'), ('ㅋㅋㅋ', 'KoreanParticle')]


In [None]:
# KoreanParticle : 이모티콘

In [None]:
print(okt.pos(text, norm=True, stem=True))

[('웃기다', 'Verb'), ('소리', 'Noun'), ('하다', 'Verb'), ('ㅋㅋㅋ', 'KoreanParticle')]


## 이모티콘이나 의미없이 반복되는 문자 정제하기

- ex) ㅋㅋ, ㅋㅋㅋㅋ, ㅋㅋㅋㅋㅋㅋ
- ex) 와하하하핫 와하하핫 와하하하하하하핫

```
!pip install soynlp
```

In [None]:
!pip install soynlp



In [None]:
from soynlp.normalizer import emoticon_normalize
print(emoticon_normalize("악ㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ", num_repeats=2))  # num_repeats : 최대 반복횟수 지정
print(emoticon_normalize("악ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ", num_repeats=2))
print(emoticon_normalize("악ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ", num_repeats=2))
print(emoticon_normalize("악ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅌㅌㅌㅌㅌㅋㅋㅋㅋㅌㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠㅠ", num_repeats=2))

ㅋㅋ영화존잼쓰ㅠㅠ
ㅋㅋ영화존잼쓰ㅠㅠ
ㅋㅋ영화존잼쓰ㅠㅠ
ㅋㅋㅌㅌㅋㅋㅌㅋㅋ영화존잼쓰ㅠㅠ


In [None]:
# soynlp 관련 github 자료 많음
# 참고

In [None]:
from soynlp.normalizer import repeat_normalize
print(repeat_normalize("와하하핫", num_repeats=2))
print(repeat_normalize("와하하하하핫", num_repeats=2))
print(repeat_normalize("와하하하하하하하핫", num_repeats=2))

와하하핫
와하하핫
와하하핫


## 텍스트 정제

### 정규식을 이용한 정제
특수기호나 의미없는 공백등을 정규식을 활용해서 제거하는 작업

### 불용어(stopwords) 정제
빈도수가 낮거나, 의미 없는 단어를 문장에서 제거하는 작업

In [None]:
eng_sent = "\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n—\nBake Timmons, III"
print(eng_sent)








Yeah, do you expect people to read the FAQ, etc. and actually accept hard
atheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out
of steam!







Jim,

Sorry I can't pity you, Jim.  And I'm sorry that you have these feelings of
denial about the faith you need to get by.  Oh well, just pretend that it will
all end happily ever after anyway.  Maybe if you start a new newsgroup,
alt.atheist.hard, you won't be bummin' so much?






Bye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) 
—
Bake Timmons, III


영어 알파벳만 뽑아내는 정규식 `[a-zA-Z]`

In [None]:
import re
eng_sent = re.sub("[^a-zA-Z]", " ", eng_sent)
eng_sent

'       Yeah  do you expect people to read the FAQ  etc  and actually accept hard atheism   No  you need a little leap of faith  Jimmy   Your logic runs out of steam         Jim   Sorry I can t pity you  Jim   And I m sorry that you have these feelings of denial about the faith you need to get by   Oh well  just pretend that it will all end happily ever after anyway   Maybe if you start a new newsgroup  alt atheist hard  you won t be bummin  so much        Bye Bye  Big Jim   Don t forget your Flintstone s Chewables         Bake Timmons  III'

In [None]:
aaa = 'a b c'
print(aaa.split(' '))
aaa = 'a  b c'
print(aaa.split(' '))  # ' '로 split하게 되면 발생하는 문제점
aaa = 'a  b c'
print(aaa.split())

['a', 'b', 'c']
['a', '', 'b', 'c']
['a', 'b', 'c']


In [None]:
# 4글자 이상인 단어만 추출해서 새롭게 문장 만들기
eng_sent = ' '.join([w for w in eng_sent.split() if len(w) > 3])
eng_sent

'Yeah expect people read actually accept hard atheism need little leap faith Jimmy Your logic runs steam Sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway Maybe start newsgroup atheist hard bummin much forget your Flintstone Chewables Bake Timmons'

## 한국어 정규 표현식 정제
한국어 문장에서 한글만 추출하는 정규식 표현 `[ㄱ-ㅎㅏ-ㅣ가-힣]`

자음 관련, 모음 관련, 완성형 따로따로 관리

ㅋㅋㅋㅋㅋㅋ 같은 것들도 관리하기 위해

In [None]:
kor_sent = "와 이런 것도 영화라고....ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔!!"
kor_sent

'와 이런 것도 영화라고....ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔!!'

In [None]:
kor_sent = re.sub("[^ㄱ-하-ㅣ가-힣]", " ", kor_sent)
kor_sent

'와 이런 것도 영화라고    ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔  '

In [None]:
# 띄어쓰기 2개가 반복되고 있음

In [None]:
kor_sent = re.sub("[ ]{2,}", " ", kor_sent)
kor_sent

'와 이런 것도 영화라고 ㅋㅋㅋ 차라리 뮤직비디오를 만드는 게 나을 뻔 '

In [None]:
# 띄어쓰기 2개 이상을 띄어쓰기 1개로 만듦

## Stopwords 설정하기
영어의 I, my, me, over, the

In [None]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
# 단어 집합. 단어를 모아놓은 거를 corpus라고 함

In [None]:
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [None]:
# 여기 나온 것들을 사용하지 않겠다고 지정해놓은 것
# 의미가 없기 때문에 사용 X

In [None]:
example = "Family is not an important thing. It's everything"
stop_words = set(stopwords.words('english'))  # 영어 불용어 집합 만들기

word_tokens = word_tokenize(example)  # 먼저 문장에 대한 단어 토큰화 수행

result = []

for w in word_tokens:
  if w not in stop_words:  # 불용어 처리 수행
    result.append(w)

print("원문 : ", word_tokens)
print("불용어 제거 후 : ", result)

원문 :  ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything']
불용어 제거 후 :  ['Family', 'important', 'thing', '.', 'It', "'s", 'everything']


In [None]:
# 불용어 제거 기법임.

In [None]:
example = "와 이런 것도 영화라고 차라리 뮤직비디오를 만드는 게 나을 뻔"
word_tokens = okt.morphs(example)
print(word_tokens)

['와', '이런', '것', '도', '영화', '라고', '차라리', '뮤직비디오', '를', '만드는', '게', '나을', '뻔']


In [None]:
# 개발자가 임의로 불용어를 선정할 수 있다.
# 일반적으로 조사나 접속사들이 불용어로 선정된다.
stop_words = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다', '것']

In [None]:
result = [word for word in word_tokens if not word in stop_words]

print("원문 : ", word_tokens)
print("불용어 제거 후 : ", result)

원문 :  ['와', '이런', '것', '도', '영화', '라고', '차라리', '뮤직비디오', '를', '만드는', '게', '나을', '뻔']
불용어 제거 후 :  ['이런', '영화', '라고', '차라리', '뮤직비디오', '만드는', '게', '나을', '뻔']
