<a href="https://colab.research.google.com/github/koalalovepabro/Deep-Learning/blob/main/12_%ED%85%8D%EC%8A%A4%ED%8A%B8_%EB%8B%A4%EB%A3%A8%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenization(토큰화) 이론
텍스트에서 어디까지가 문장이고, 어디까지가 단어인지 나눠주는(`split`) 과정
* 문장 토큰화( Sentence Tokenization )
* 단어 토큰화( Word Tokenization )

## English Tokenization

In [None]:
sample_text="I never thought through love we'd be. Making one as lovely as she. But isn't she lovely made from love."

문장 토큰화

In [None]:
# 단순하게 온점과 공백을 이용해서 잘라낸다면?
tokenized_sentence = sample_text.split(". ")
tokenized_sentence

["I never thought through love we'd be",
 'Making one as lovely as she',
 "But isn't she lovely made from love."]

단어 토큰화

In [None]:
# split의 비밀
sample = "a b c"
sample.split(" ")

['a', 'b', 'c']

In [None]:
sample2 = "a  b c"
sample2.split(" ")

['a', '', 'b', 'c']

In [None]:
sample2.split()

['a', 'b', 'c']

In [None]:
tokenized_word = sample_text.split()
tokenized_word

['I',
 'never',
 'thought',
 'through',
 'love',
 "we'd",
 'be.',
 'Making',
 'one',
 'as',
 'lovely',
 'as',
 'she.',
 'But',
 "isn't",
 'she',
 'lovely',
 'made',
 'from',
 'love.']

## 띄어쓰기(공백)로만 영어 문장 내 단어를 구분할 때의 문제점
* We're Avengers!! : `[We're, Avengers!!]`
* We are Avengers!! : `[We, are, Avengers!!]`
* We are Avengers : `[We, are, Avengers]`

단순하게 공백으로만 토큰화를 수행하면, 사람은 같은 문장이라고 인지할 수 있지만, 기계는 위 세 문장이 다른 문장이라고 판단

### 특수문자를 제거하면?
* `[We, re, Avengers]`
* `[We, are, Avengers]`
* `[We, are, AVengers]`

단어에 들어가는 특수문자는 종종 중요한 의미를 내포하고 있기 때문에, 함부로 지우면 안된다.

* $12.45 : `[12, 45]`
* Mr. So : `[Mr, So]`
* Mrs. Kim : `[Mrs, Kim]`
* 192.168.0.1 : `[192, 168, 0, 1]`
* Ph.D : `[Ph, D]`

특수문자가 중요한 역할을 하는 경우에는 별로 효용적이지 못한 것 같다.

## 미리 준비된 영어단어 Tokenizer를 사용하자!
* 우리가 비즈니스에 맞게 토큰화를 시킬 수 있는 Tokenizer를 개발할 수도 있다!
* 영어 토큰화를 할 때 일반적인 규칙들이 많이 적용된 이미 만들어진 Tokenizer를 사용하는 것도 방법

* TreebankWordTokenizer 패키지
  * 영어 표준 토큰화 규격을 따라간다.
  * Penn Treebank Tokenization 규칙
* TreebankWordTokenizer 규칙
  * 하이푼으로 구성된 단어는 하나로 유지
  * doesn't 같이 어퍼스트로피로 '접어'가 함께하는 단어는 따로 분리

# Tokenization 실습(영어)
설치 코드
```
!pip install nltk
```

로컬에서 사용하는 경우 자바(JVM)가 미리 설치가 되어 있어야 한다.

In [None]:
!pip install nltk



In [None]:
# nltk는 영문 텍스트에 관련된 여러 토크나이져나 도구들이 한꺼번에 존재하는 패키지
import nltk
nltk.download('punkt') # 영어 토크나이져 패키지 다운로드
sentence = "Ain't nothin' sweeter, you want this sugar, don't ya?"

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


## [English] 기본 토크나이져

In [None]:
# 일반 split()을 활용해서 공백 단위로 단어 토큰화 한 경우
print(sentence.split())

["Ain't", "nothin'", 'sweeter,', 'you', 'want', 'this', 'sugar,', "don't", 'ya?']


In [None]:
# nltk 기본 tokenizer를 활용한 경우
from nltk.tokenize import word_tokenize
print(word_tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


## [English] WordPunctTokenizer

In [None]:
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()

print( tokenizer.tokenize(sentence) )

['Ain', "'", 't', 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'don', "'", 't', 'ya', '?']


## [English] TreebankWordTokenizer

In [None]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
print(tokenizer.tokenize(sentence))

['Ai', "n't", 'nothin', "'", 'sweeter', ',', 'you', 'want', 'this', 'sugar', ',', 'do', "n't", 'ya', '?']


In [None]:
sample = "I'm Iron-man"
print(tokenizer.tokenize(sample))

['I', "'m", 'Iron-man']


## 한국어 토큰화가 어려운 이유
1. 한국어는 교착어이다.
2. 한국어는 띄어쓰기가 잘 지켜지지 않는다.
3. 한국어는 주어생략이 가능하고, 어순도 중요하지 않다.
4. 한자어라는 특성상 하나의 음절도 다른 의미를 가질 수가 있다.

#### 교착어
실질적인 의미를 가지는 어간(단어, 형용사, 동사 등)에 조사나 어미와 같은 **문법 형태소**가 결합하여 문법적인 기능이 부여되는 경우
> **핸드폰이** 바닥에 떨어져서, **핸드폰을** 새롭게 샀다. **핸드폰은** 다 부서졌다.

#### 띄어쓰기 문제
> 이렇게띄어쓰기를하지않아도일단은잘읽을수있어요

> yousugaryespleasewouldyoucomeandputitdownonme

한국어와 다르게 영어는 띄어쓰기가 지켜지지 않으면 읽기가 어렵기 때문에 띄어쓰기에 엄격한 편이다.<br/>한국어 띄어쓰기 검사 패키지로 `ko-spacing`이나 `py-hanspell` 패키지를 사용하면 된다.

#### 주어 생략 및 어순 문제
1. 나는 운동을 했어. 체육관에서
2. 나는 체육관에서 운동을 했어.
3. 체육관에서 운동했어.
4. 나는 운동을 체육관에서 했어.

#### 한자어라는 특성 때문에 하나의 음절이 다른 의미를 갖는다.
1. 배 라는 하나의 단어는 사람의 배, 타는 배, 먹는 배
2. 한국에도 한국 한 / 나라 국 으로 이루어진 한자어 조합이다ㅣ.
 * 한 : 숫자 1, 하나를 의미하는지...
 * 국 : 먹는 국인지, 나라 국인지....

한국어 형태소 분석을 쉽게 하기 위해서 `konlpy`패키지 활용. 마찬가지로 Java 필수

In [None]:
!pip install konlpy

In [None]:
# Mecab 설치 코드 - colab에서 사용하는 자바의 버전이 바뀌면서 강제로 openjdk-8을 설치하고 코랩 노트북에 설정
%%bash
apt-get update
apt-get install g++ openjdk-8-jdk python-dev python3-dev
pip3 install JPype1

In [None]:
%env JAVA_HOME "/usr/lib/jvm/java-8-openjdk-amd64"

env: JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64"


In [None]:
%%bash
bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
pip3 install /tmp/mecab-python-0.996

In [None]:
# konlpy의 모든 형태소 분리기는 명사 추출, 형태소별 토큰화, 형태소 토큰 및 종류를 표기하는 동일 함수가 존재
def print_tokenizer(tokenizer, s):
  print(tokenizer.nouns(s)) # 형태소 분리기에서 명사만 추출
  print(tokenizer.morphs(s)) # 각 형태소 별로 토큰화만 시켜준다.
  print(tokenizer.pos(s)) # 각 형태소 별 토큰 및 형태소 종류를 튜플로 표현

## 한국어 형태소 분리기

### Mecab
실무에서 가장 많이 쓰이는 형태소 분리기. 맥이나 리눅스에서만 작동(windows 는 작동 안됨 ) 설치시간이 상당히 오래 걸린다.

### Twitter(Okt), 꼬꼬마(Kkma), 코모란(Komoran), 한나눔(Hannanum)
속도 자체는 Mecab, 카카오의 Khaii보다 느리지만 각각의 장단점이 있다.
* Okt : Stemming, Normalization 기능을 제공


In [None]:
from konlpy.tag import Hannanum, Kkma, Komoran, Okt, Mecab

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
mecab = Mecab()

sentence="좋으니 그 사람 솔직히 견디기 버거워"

In [None]:
# 트위터 (Okt)
print_tokenizer(okt, sentence)

['그', '사람']
['좋으니', '그', '사람', '솔직히', '견디기', '버거워']
[('좋으니', 'Adjective'), ('그', 'Noun'), ('사람', 'Noun'), ('솔직히', 'Adjective'), ('견디기', 'Verb'), ('버거워', 'Adjective')]


In [None]:
# 꼬꼬마
print_tokenizer(kkma, sentence)

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버겁', '어']
[('좋', 'VA'), ('으니', 'ECD'), ('그', 'MDT'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버겁', 'VA'), ('어', 'ECS')]


In [None]:
# 코모란
print_tokenizer(komoran, sentence)

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'NA')]


In [None]:
# 한나눔
print_tokenizer(hannanum, sentence)

['사람', '버거워']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'P'), ('으니', 'E'), ('그', 'M'), ('사람', 'N'), ('솔직히', 'M'), ('견디', 'P'), ('기', 'E'), ('버거워', 'N')]


In [None]:
# Mecab
print_tokenizer(mecab, sentence)

['사람']
['좋', '으니', '그', '사람', '솔직히', '견디', '기', '버거워']
[('좋', 'VA'), ('으니', 'EC'), ('그', 'MM'), ('사람', 'NNG'), ('솔직히', 'MAG'), ('견디', 'VV'), ('기', 'ETN'), ('버거워', 'VA+EC')]


# 문장 토크나이징
단순하게 물음표, 느낌표, 온점(.)으로만 문장을 잘라내면 될까요?

> 니 아이피가 **192.168.56.21** 맞니?

> looking for **Ph.D.** Students

## [English] sent_tokenize

In [None]:
text = "Since I'm actively looking for Ph.D. students. I get the same question a dozen times every year."

In [None]:
# 단순하게 온점으로만 토크나이징을 한 경우
print(text.split("."))

["Since I'm actively looking for Ph", 'D', ' students', ' I get the same question a dozen times every year', '']


In [None]:
from nltk.tokenize import sent_tokenize
print(sent_tokenize(text))

["Since I'm actively looking for Ph.D. students.", 'I get the same question a dozen times every year.']


In [None]:
text = "My IP Address is 192.168.56.51. Hello World!"
print(text.split("."))

['My IP Address is 192', '168', '56', '51', ' Hello World!']


In [None]:
print(sent_tokenize(text))

['My IP Address is 192.168.56.51.', 'Hello World!']


## [Korean] kss

In [None]:
!pip install kss

Collecting kss
[?25l  Downloading https://files.pythonhosted.org/packages/c9/e2/43ac92280810437a552111db85a0379dfaa5ca8ccd81d27a547e9091e5d5/kss-2.5.0-py3-none-any.whl (68kB)
[K     |████▉                           | 10kB 13.8MB/s eta 0:00:01[K     |█████████▋                      | 20kB 11.5MB/s eta 0:00:01[K     |██████████████▍                 | 30kB 6.0MB/s eta 0:00:01[K     |███████████████████▎            | 40kB 5.6MB/s eta 0:00:01[K     |████████████████████████        | 51kB 2.9MB/s eta 0:00:01[K     |████████████████████████████▉   | 61kB 3.2MB/s eta 0:00:01[K     |████████████████████████████████| 71kB 2.4MB/s 
[?25hInstalling collected packages: kss
Successfully installed kss-2.5.0


In [None]:
import kss
text = "제 아이피는 192.168.56.21 입니다. 자연어 처리가 재미있나요?ㅋㅋㅋ"

print(kss.split_sentences(text))

['제 아이피는 192.168.56.21 입니다.', '자연어 처리가 재미있나요?ㅋㅋㅋ']


## [Korean] 띄어쓰기 및 맞춤법 정리
### KoSpacing
```
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git
```
### Hanspell
```
!pip install git+https://github.com/ssut/py-hanspell.git
```

In [None]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [None]:
!pip install git+https://github.com/ssut/py-hanspell.git

In [None]:
from hanspell import spell_checker # 한국어 맞춤법 관리
from pykospacing import spacing # 한국어 띄어쓰기 관리

## KoSpacing 사용하기

In [None]:
text = "4번놀고있지.4번은팀워크가없어.4번은개인주의야.4번은혼자밖에생각하지않아."

In [None]:
spacing_text = spacing(text)
print(spacing_text)

4번 놀고 있지.4번은 팀워크가 없어.4번은 개인주의야.4번은 혼자 밖에 생각하지 않아.


## Hanspell 사용하기
* 맞춤법 검사 및 교정
* KoSpacing 처럼 띄어쓰기 교정도 가능

In [None]:
# 띄어쓰기 검사 및 교정
hanspell_text = spell_checker.check(text)
print(hanspell_text.checked)

4번 놀고 있지. 4번은 팀워크가 없어. 4번은 개인주의야. 4번은 혼자밖에 생각하지 않아.


In [None]:
# 맞춤법 검사
text = "맞춤뻡 틀리면 외 않되?"
hanspell_text = spell_checker.check(text).checked
print(hanspell_text)

맞춤법 틀리면 왜 안돼?


# 텍스트 정제 및 정규화

## [English] 정규화 - Stemming 정규화 과정
어간(stem)을 추출하는 과정 - 영어는 사전에 없는 이상한 단어가 종종 나온다.

* Beautiful : beaut
* Allowance ; allow
* Medical : medic
* books : book
* this : thi

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

porter_stemmer = PorterStemmer()

In [None]:
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

# Stemming : 단어에 대한 어간을 추출하는 과정이기 때문에 단어 토큰화 부터 수행
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [None]:
stem_list = [ porter_stemmer.stem(w) for w in words ]
print(stem_list)

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


* 언어의 단어 모양이 변경되는 형식은 절대 **자연어 생성 모델**을 만들때는 사용하면 X
* 단순 분류나 회귀문제를 풀어야 할 때는 효과가 있을 수도 있다.

In [None]:
words = ["Serialize", "Allowance", "Allowed", "Medical", "Pretty", "Lovely", "Beautiful"]
print([porter_stemmer.stem(w) for w in words])

['serial', 'allow', 'allow', 'medic', 'pretti', 'love', 'beauti']


## [Korean] 정규화 - Okt 활용 (Stemming, Normalization)

In [None]:
okt = Okt()
text = "4번 놀고 있지. 4번은 팀워크가 없어. 4번은 개인주의야. 4번은 혼자밖에 생각하지 않아."

print(okt.morphs(text)) # 일반적인 형태소 분리
print(okt.morphs(text, stem=True)) # 어간이 추출된 형태소 분리 ( 동사와 형용사에 대한 어간을 추출 )

['4', '번', '놀고', '있지', '.', '4', '번은', '팀워크', '가', '없어', '.', '4', '번은', '개인주의', '야', '.', '4', '번은', '혼자', '밖에', '생각', '하지', '않아', '.']
['4', '번', '놀다', '있다', '.', '4', '번은', '팀워크', '가', '없다', '.', '4', '번은', '개인주의', '야', '.', '4', '번은', '혼자', '밖에', '생각', '하다', '않다', '.']


In [None]:
print(okt.pos(text))
print(okt.pos(text, stem=True))

[('4', 'Number'), ('번', 'Noun'), ('놀고', 'Verb'), ('있지', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('팀워크', 'Noun'), ('가', 'Josa'), ('없어', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('개인주의', 'Noun'), ('야', 'Josa'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('혼자', 'Noun'), ('밖에', 'Josa'), ('생각', 'Noun'), ('하지', 'Verb'), ('않아', 'Verb'), ('.', 'Punctuation')]
[('4', 'Number'), ('번', 'Noun'), ('놀다', 'Verb'), ('있다', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('팀워크', 'Noun'), ('가', 'Josa'), ('없다', 'Adjective'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('개인주의', 'Noun'), ('야', 'Josa'), ('.', 'Punctuation'), ('4', 'Number'), ('번은', 'Noun'), ('혼자', 'Noun'), ('밖에', 'Josa'), ('생각', 'Noun'), ('하다', 'Verb'), ('않다', 'Verb'), ('.', 'Punctuation')]


In [None]:
text = "딥러닝 진짜 어렵닼ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 이렇게 어려울지 몰랐어옄ㅋㅋㅋㅋㅋㅋㅋㅋ"

print(okt.pos(text))
print(okt.pos(text, norm=True)) # 정규화

[('딥', 'Noun'), ('러닝', 'Noun'), ('진짜', 'Noun'), ('어렵닼', 'Noun'), ('ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'KoreanParticle'), ('이렇게', 'Adverb'), ('어려울지', 'Verb'), ('몰랐어', 'Verb'), ('옄', 'Noun'), ('ㅋㅋㅋㅋㅋㅋㅋㅋ', 'KoreanParticle')]
[('딥', 'Noun'), ('러닝', 'Noun'), ('진짜', 'Noun'), ('어렵다', 'Adjective'), ('ㅋㅋㅋ', 'KoreanParticle'), ('이렇게', 'Adverb'), ('어려울지', 'Verb'), ('몰랐어여', 'Verb'), ('ㅋㅋㅋ', 'KoreanParticle')]


In [None]:
# 어간 추출(stem), 정규화를 동시에
print(okt.pos(text, stem=True, norm=True))

[('딥', 'Noun'), ('러닝', 'Noun'), ('진짜', 'Noun'), ('어렵다', 'Adjective'), ('ㅋㅋㅋ', 'KoreanParticle'), ('이렇게', 'Adverb'), ('어리다', 'Verb'), ('모르다', 'Verb'), ('ㅋㅋㅋ', 'KoreanParticle')]


## [Korean] 이모티콘이나 의미없이 반복되는 문자 정제
* ㅋㅋ, ㅋㅋㅋㅋㅋ, ㅋㅋㅋㅋㅋㅋㅋ, ㅎㅎㅎ,ㅎㅎㅎㅎㅎ,ㅎㅎㅎㅎㅎㅎ

* 잘한다ㅠㅠㅠㅠㅠㅠㅠ : 긍정의 표현으로 많이 사용? -> 잘한다 ㅠㅠ
* 잘한다ㅋㅋㅋㅋㅋㅋㅋ : 긍정 또는 부정의 표현으로 많이 사용 -> 잘한다 ㅋㅋ

이모티콘이나 의미없이 반복되는 문자들을 정제하기 위한 패키지

In [None]:
!pip install soynlp

Collecting soynlp
[?25l  Downloading https://files.pythonhosted.org/packages/7e/50/6913dc52a86a6b189419e59f9eef1b8d599cffb6f44f7bb91854165fc603/soynlp-0.0.493-py3-none-any.whl (416kB)
[K     |████████████████████████████████| 419kB 3.9MB/s 
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493


In [None]:
from soynlp.normalizer import emoticon_normalize

print(emoticon_normalize("앜ㅋㅋㅋ 이 게임 존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ", num_repeats=2))
print(emoticon_normalize("앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 이 게임 존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ", num_repeats=2))
print(emoticon_normalize("앜ㅋㅋㅋㅋㅋㅋ 이 게임 존잼쓰ㅠㅠㅠㅠㅠㅠㅠ", num_repeats=2))

아ㅋㅋ 이 게임 존잼쓰ㅠㅠ
아ㅋㅋ 이 게임 존잼쓰ㅠㅠ
아ㅋㅋ 이 게임 존잼쓰ㅠㅠ


In [None]:
# 반복되는 문자를 정규화
from soynlp.normalizer import repeat_normalize

print(repeat_normalize("문을 쿵쿵쿵쿵쿵쿵쿵쿵쿵쿵쿵쿵쿵쿵 두드렸다.", num_repeats=2))
print(repeat_normalize("문을 쿵쿵쿵쿵쿵쿵쿵 두드렸다.", num_repeats=2))
print(repeat_normalize("문을 쿵쿵쿵쿵 두드렸다.", num_repeats=2))

문을 쿵쿵 두드렸다.
문을 쿵쿵 두드렸다.
문을 쿵쿵 두드렸다.


## 텍스트 정제( Cleaning )
* 정규식을 이용한 정제 방법
  * 특수기호나 의미 없는 공백등을 정규식을 활용하여 제거
* 불용어 정제(stopwords)
  * 빈도수가 낮거나, 의미 없는 단어를 문장에서 제거하는 방법

In [None]:
# 정규식을 사용하기 위해 re모듈 임포트
import re

eng_sent = "\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"

print(eng_sent)








Yeah, do you expect people to read the FAQ, etc. and actually accept hard
atheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out
of steam!







Jim,

Sorry I can't pity you, Jim.  And I'm sorry that you have these feelings of
denial about the faith you need to get by.  Oh well, just pretend that it will
all end happily ever after anyway.  Maybe if you start a new newsgroup,
alt.atheist.hard, you won't be bummin' so much?






Bye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) 
--
Bake Timmons, III


In [None]:
# 영문 알파벳이 아닌 것은 모두 공백으로 치환하겠다.
# 위 문장에서 영어가 아닌 것들을 전부다 공백으로 치환
# re 모듈의 sub 함수가 replace의 역할을 한다.

eng_sent = re.sub("[^a-zA-Z]", # [] : 안에 있는 글자 1개, ^ : 시작하는게 아닌 것, a-z : 알파벳 소문자 a~z, A-Z 알파벳 대문자 A ~ Z
                  " ",
                  eng_sent)
print(eng_sent)

       Yeah  do you expect people to read the FAQ  etc  and actually accept hard atheism   No  you need a little leap of faith  Jimmy   Your logic runs out of steam         Jim   Sorry I can t pity you  Jim   And I m sorry that you have these feelings of denial about the faith you need to get by   Oh well  just pretend that it will all end happily ever after anyway   Maybe if you start a new newsgroup  alt atheist hard  you won t be bummin  so much        Bye Bye  Big Jim   Don t forget your Flintstone s Chewables          Bake Timmons  III


In [None]:
# 예를 들어 4글자 이상인 단어만 추출해서 새롭게 문장을 만들기
eng_sent = " ".join([w for w in eng_sent.split() if len(w) > 3])
print(eng_sent)

Yeah expect people read actually accept hard atheism need little leap faith Jimmy Your logic runs steam Sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway Maybe start newsgroup atheist hard bummin much forget your Flintstone Chewables Bake Timmons


## [Korean] 정규표현식 정제
한국어 문장에서 한글만 추출하는 정규식 : `[ㄱ-ㅎㅏ-ㅣ가-힣]`

In [None]:
kor_sent = "와 오늘 날씨 실화냐...ㅋㅋㅋㅋ 엄청 더워서 졸려요.."
kor_sent

'와 오늘 날씨 실화냐...ㅋㅋㅋㅋ 엄청 더워서 졸려요..'

In [None]:
kor_sent = re.sub("[^ㄱ-ㅎㅏ-ㅣ가-힣]", " ", kor_sent)
kor_sent

'와 오늘 날씨 실화냐   ㅋㅋㅋㅋ 엄청 더워서 졸려요  '

In [None]:
# 공백이 2개 이상이면 사라지게 하기
kor_sent = re.sub("[ ]{2,}", " ", kor_sent)
kor_sent

'와 오늘 날씨 실화냐 ㅋㅋㅋㅋ 엄청 더워서 졸려요 '

# 불용어(stopwords) 정제
필요 없는 짧은 단어나 의미가 없는 단어들을 제거

## [English] 불용어 정제
* nltk 모듈

In [None]:
import nltk
nltk.download("stopwords") # 불용어 단어사전 다운로드

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# 불용어도 여러분들의 비즈니스에 맞게 따로 설정할 수 있어야 한다.
from nltk.corpus import stopwords
print(list(stopwords.words('english')))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [None]:
sample_text = "Family is not an important thing. It's everything"

# 사람이 직접 만든 불용어 사전에는 중복이 존재할 수도 있다. 따라서 중복을 제거
stop_words = set(stopwords.words("english"))

word_tokens = word_tokenize(sample_text.lower()) # 문장을 소문자로 만들어서 토큰화 하기

result = [ w for w in word_tokens if w not in stop_words ]

print("원본 : {}".format(word_tokens))
print("불용어 제거 후 : {}".format(result))

원본 : ['family', 'is', 'not', 'an', 'important', 'thing', '.', 'it', "'s", 'everything']
불용어 제거 후 : ['family', 'important', 'thing', '.', "'s", 'everything']


## [Korean] 불용어 정제
* 한국어 불용어 사전은 직접 만들거나 구글링해서 찾으시면 된다.
* 개발자가 직접 정의하는게 일반적

In [None]:
sample_text="와 이런 것도 영화라고 차라리 뮤직비디오를 만드는 게 나을 뻔"
word_tokens = mecab.morphs(sample_text)

print(word_tokens)

['와', '이런', '것', '도', '영화', '라고', '차라리', '뮤직', '비디오', '를', '만드', '는', '게', '나을', '뻔']


In [None]:
# 개발자가 임의로 불용어를 선정할 수 있다.
# 일반적으로 조사나 접속사들이 불용어로 선정된다.
stop_words = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다', '것', '게']

In [None]:
result = [w for w in word_tokens if not w in stop_words]

print("원문 : {}".format(word_tokens))
print("불용어 제거 후 : {}".format(result))

원문 : ['와', '이런', '것', '도', '영화', '라고', '차라리', '뮤직', '비디오', '를', '만드', '는', '게', '나을', '뻔']
불용어 제거 후 : ['이런', '영화', '라고', '차라리', '뮤직', '비디오', '만드', '나을', '뻔']


자연어 처리에서 데이터 정제는 따로 정해진 루틴은 없다. 각자의 비즈니스에 맞게 문자열 편집능력을 활용하는 것