In [1]:
import nltk
#nltk.download()

# 1) 토큰화
: 주어진 코퍼스corpus에서 토큰token이라 불리는 단위로 나누는 작업

## 1. 단어 토큰화
: 단어 기준으로 토큰화  
* 단어 : 단어 + 단어구, 의미를 갖는 문자열
  
  
예)  
input : Time is an illusion. Lunchtime double so!  
output: "Time", "is", "an", "illustion", "Lunchtime", "double", "so"

## 2. 토큰화 중 생기는 선택의 순간
: 토큰화의 기준 생각
* NLTK : 영어 코퍼스 토큰화 위한 도구 제공

In [2]:
# word_tokenize

from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dark sounding name, Mr.Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
# wordPunkTokenizer

from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr.Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [4]:
# using keras

from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr.Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 3. 토큰화에서 고려 사항
1. 구두점 / 특수문자 단순 제외하면 안됨
2. 줄임말 / 단어 내에 띄어쓰기 있는 경우 : 사용 용도에 따라 하나의 토큰으로 봐야할 수도


#### 표준 토큰화 예제: Penn Treebank Tokenization 규칙
1. 하이픈으로 구성된 단어는 하나로 유지
2. apostrophe로 생기는 줄입말(접어) 분리

__input sentence :__  
"Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

In [5]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 4. 문장 토큰화
: 토큰의 단위가 문장일 때  
: 갖고있는 코퍼스 내에서 문장 단위로 구분

In [6]:
# 영어 문장 토큰화

from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."

print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


In [7]:
# 온점이 여러번 등장하는 문장

from nltk.tokenize import sent_tokenize

text="I am actively looking for Ph.D. students. and you are a Ph.D student."

print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


## 5. 이진 분류기
: 예외 사항 발생시키는 온점의 처리를 위해 입력에 따라 2개의 클래스로 분류하는 이진 분류기 사용
1. 온점이 단어의 일부분인 경우 (온점이 약어로 사용)
2. 온점이 정말 문장의 구분자인 경우

## 6. 한국어의 토큰화 어려움
* 어절(띄어쓰기 기준) 토큰화 ≠ 단어 토큰화 → 형태소 토큰화 실행
* 띄어쓰기 어렵고 잘 안지켜짐

## 7. 품사 태깅
: 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분

## 8. NLTK 이용 - 영어 토큰화 실습

In [8]:
# NLTK

from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [9]:
from nltk.tag import pos_tag
x = word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

***


# 2) 정제 cleaning & 정규화normalization
* 토큰화 : 코퍼스에서 용도에 맞게 토큰 분류 - 전/후에 정제 및 정규화
* 정제 :  갖고 있는 코퍼스로부터 노이즈 제거
* 정규화: 표현 방법이 다른 단어 통합, 같은 단어로 만든다 (복잡성 줄이기)
    
    
    
## 1. 표기가 다른 단어들을 하나의 단어로 정규화


## 2. 대소문자 통합 (소문자 변환)
* 구분되어야 하는 경우도 존재
* 일부만 소문자로 변환
    
    
## 3. 불필요한 단어 제거
* 노이즈 데이터
    * 자연어가 아니면서 아무 의미 없는 글자 (예: 특수문자)
    * 분석하고자 하는 목적에 맞지 않는 불필요한 단어

### (1) 등장 빈도 적은 단어

### (2) 길이가 짧은 단어 (영어권 언어)
* 의미 없는 단어 제거 효과
* 짧은 단어 삭제하면 구두점들까지도 한번에 제거

In [10]:
# 길이가 1~2 인 단어들을 정규 표현식을 이용하여 삭제
import re

text = "I was wondering if anyone out there could enlighten me on this car."

shortword = re.compile(r'\W*\b\w{1,2}\b')

# \b : 단어의 경계 (공백,탭, ',', '/' 등)
# \w : 단어를 만들 수 있는 글자 (알파멧 대소문자, 숫자, _ 등)
# \W : not \w

print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


## 4. 정규 표현식
* 코퍼스에서의 노이즈 데이터 특징 찾은 후 정규 표현식 통해 제거
  

***

  
# 3) 어간 추출 stemming & 표제어 추출 lemmatization
: 코퍼스의 단어 갯수 줄일 수 있는 정규화 기법  
: 서로 다른 단어를 하나의 단어로 일반화시켜 문서 내 단어 수 줄이기  
: 단어 빈도수 기반 BoW (Bag of Words) 표현 사용하는 자연어 처리 문제에 사용
  
  
* 표제어 추출: 문맥 고려, 수행 결과는 해당 단어의 폼사 정보 보존
* 어간 추출 : 수행 결과는 품사 정보 보존하지 않음 

## 1. 표제어 추출
* lemma : 표제어. 기본 사전형 단어
* 표제어 추출 : 단어들로부터 표제어 찾기 = 다른 형태 단어들의 갯수 줄이기
    * 형태학적 파싱
        * 형태소 : 의미를 가진 가장 작은 단위
            1. 어간 stem : 단어의 의미를 지닌 핵심 부분
            2. 접사 affix: 단어에 추가적인 의미를 주는 부분
    * 어간 추출과 달리 단어의 형태가 적절히 보존
    * 본래 단어의 품사 정보를 알아야만 정확한 결과 출력

In [11]:
from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [12]:
# 단어의 품사(동사) 알려주어 품사의 정보 보존하면서 정확한 lemma 출력

print(n.lemmatize('dies', 'v'))
print(n.lemmatize('watched','v'))
print(n.lemmatize('has','v'))

die
watch
have


## 2. 어간 추출
: 형태학적 분석을 단순화  
: 정해진 규칙만 보고 단어의 어미를 자르는 작업  
: 어간 추출 후 결과는 사전에 없는 단어일 수도 있다
    
#### 어간 추출 알고리즘 - 포터 알고리즘 예제
__input__ :  
This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes.

In [13]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()

text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [14]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [15]:
# 포터 알고리즘 규칙

words = ['formalize','allowance','electicical']
print([s.stem(w) for w in words])

['formal', 'allow', 'electic']


#### 포터 알고리즘 vs 랭커스터 스테머 알고리즘 - 결과 비교 예제

In [16]:
# 포터 알고리즘

from nltk.stem import PorterStemmer
s = PorterStemmer()

words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [17]:
# 랭커스터

from nltk.stem import LancasterStemmer
l = LancasterStemmer()

words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print([l.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


***

# 4) 불용어 stopwords
* 불용어 : 문장에 자주 등장하지만 실제 의미 분석에는 거의 필요 없음
    * 예) I, my, me, 조사, 접미사
    
## 1. NLTK에서 불용어 확인

In [18]:
from nltk.corpus import stopwords
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

## 2. NLTK 통해 불용어 제거

In [19]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example = "Family is not an important thing. It's everything"
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = []
for w in word_tokens:
    if w not in stop_words:
        result.append(w)
        
print(word_tokens)
print(result)  # 불용어 제외된 결과

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything']


## 3. 한국어에서 불용어 제거

In [20]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든" # 임의로 불용어 정의

stop_words = stop_words.split(' ')
word_tokens = word_tokenize(example)

result = []
for w in word_tokens:
    if w not in stop_words:
        result.append(w)
        
# result = [word for word in word_tokens if not word in stop_words]

print(word_tokens)
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


***
  
  
# 5) 정규 표현식 regular expression

## 1. 정규 표현식 문법과 모듈함수

### (1) 정규 표현식 문법
* . : 임의의 문자 1개
* ? : (앞의 문자가) 0개 또는 1개. 존재할 수도, 안할수도
* \* : (앞의 문자가) 0개 이상
* \+ : (앞의 문자가) 1개 이상
* ^ : 뒤의 문자로 문자열 시작
* $ : 앞의 문자로 문자열 끝


* {숫자} :숫자만큼 반복
* {숫자1,숫자2} :숫자1 이상, 숫자2 이하 만큼 반복
* {숫자, } :숫자 이상만큼 반복


* [　] : 대괄호 안의 문자들 중 한 개의 문자와 매치
    * [a-zA-Z] : 알파벳 전체 범위
* [^문자] : 해당 문자 제외한 문자 매치
* A __|__ B : A 또는 B


* \\\\ : ' \ ' 문자 자체
* \\d : 모든 숫자. [0-9]
* \\D : 숫자 제외한 모든 문자. [^0-9]
* \\s : 공백 [\\t\\n\\r\\f\\v]
* \\S : 공백 제외한 문자
* \\w : 문자 또는 숫자 [a-zA-Z0-9]
* \\W : 문자 또는 숫자 아닌 문자


### (2) 정규표현식 모듈 함수
* re.compile() : 정규 표현식 컴파일. 파이썬에게 전해주는 역할


* re.search() : 문자열 전체에 대해 정규표현식과 매치되는지 검사


* re.match() : 문자열의 처음이 정규표현식과 매치되는지 검사


* re.split() : 정규표현식 기준으로 문자열 분리, 리스트로 리턴


* re.findall() : 문자열에서 정규표현식과 매치되는 모든 경우의 문자열 찾아러 리스트로 리턴 (없으면 빈 리스트)


* re.finditer() : 문자열에서 정규표현식과 매치되는 모든 경우의 문자열에 대한 아이터레이터 객체 리턴


* re.sub() : 문자열에서 정규표현식과 일치하는 부분에 대해 다른 문자열로 대체

## 2. 정규표현식 실습

In [21]:
# . 기호

import re
r = re.compile("a.c")

print(r.search("kkk"))
print(r.search("abc"))

None
<re.Match object; span=(0, 3), match='abc'>


In [22]:
# ? 기호

import re
r = re.compile("ab?c") # b가 1개 있을수도, 없을수도

print(r.search("abbc"))
print(r.search("abc"))
print(r.search("ac"))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 2), match='ac'>


In [23]:
# * 기호

import re
r = re.compile("ab*c") # b가 0개 이상~

print(r.search("a"))
print(r.search("ac"))
print(r.search("abc"))
print(r.search("abbbbbbc"))

None
<re.Match object; span=(0, 2), match='ac'>
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 8), match='abbbbbbc'>


In [24]:
# + 기호

import re
r = re.compile("ab+c") # b가 1개 이상~

print(r.search("abc"))
print(r.search("abbbbbbbbbc"))

<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 11), match='abbbbbbbbbc'>


In [25]:
# ^ 기호 

import re
r = re.compile("^a")  # a로 시작되는 문자열만

print(r.search("bbc"))
print(r.search("ab"))

None
<re.Match object; span=(0, 1), match='a'>


In [26]:
# {숫자}

import re
r = re.compile("ab{2}c") # b가 2개인 경우만

print(r.search("ac"))
print(r.search("abc"))
print(r.search("abbc"))
print(r.search("abbbbbc"))

None
None
<re.Match object; span=(0, 4), match='abbc'>
None


In [27]:
# {숫자1, 숫자2}

import re
r = re.compile("ab{2,8}c") # b가 2개 이상, 8개 이하

print(r.search("ac"))
print(r.search("abc"))
print(r.search("abbc"))
print(r.search("abbbbbbbbc"))
print(r.search("abbbbbbbbbbbbbc"))

None
None
<re.Match object; span=(0, 4), match='abbc'>
<re.Match object; span=(0, 10), match='abbbbbbbbc'>
None


In [28]:
# {숫자,}

import re
r = re.compile("a{2,}bc") # a가 2개 이상인 경우와 매치

print(r.search("bc"))
print(r.search("aa"))
print(r.search("aabc"))
print(r.search("aaaaaaaaaaaaaabc"))

None
None
<re.Match object; span=(0, 4), match='aabc'>
<re.Match object; span=(0, 16), match='aaaaaaaaaaaaaabc'>


In [29]:
# [ ] 기호

import re
r = re.compile("[abc]") # [a-c]

print(r.search("zzz"))
print(r.search("a"))
print(r.search("aaaaaaaa"))
print(r.search("baac"))

None
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='b'>


In [30]:
# 소문자에 대해서만 범위 지정

import re
r = re.compile("[a-z]")

print(r.search("AAA"))
print(r.search("Abc"))
print(r.search("111"))

None
<re.Match object; span=(1, 2), match='b'>
None


In [31]:
# [^ 문자]

import re
r = re.compile("[^abc]") # a 또는 b 또는 c 들어간 문자열 제외한 모든 문자열 매치

print(r.search("a"))
print(r.search("ab"))
print(r.search("b"))
print(r.search("d"))

None
None
None
<re.Match object; span=(0, 1), match='d'>


## 3. 정규표현식 모듈 함수 예제

In [32]:
# re.search()

import re
r = re.compile("ab.")
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [33]:
# re.match() : 문자열 시작에서 패턴이 일치해야 함

import re
r = re.compile("ab.")

print(r.match("kkkabc"))
print(r.match("abckkk"))

None
<re.Match object; span=(0, 3), match='abc'>


In [34]:
# re.split()

import re
text = "apple banana orange pear grape"
re.split(" ", text)

['apple', 'banana', 'orange', 'pear', 'grape']

In [35]:
import re

text = """apple
banana
orange
pear
grape"""

re.split("\n", text)

['apple', 'banana', 'orange', 'pear', 'grape']

In [36]:
import re

text = "apple+banana+orange+pear+grape"

re.split("\+", text)

['apple', 'banana', 'orange', 'pear', 'grape']

In [37]:
# re.findall()

import re

text = """name : Do
phone : 010 - 1111- 1234
age : 25
gender : female"""

re.findall("\d+",text) # 숫자만

['010', '1111', '1234', '25']

In [38]:
re.findall("\d+","list of words") # 문자열에 숫자 없으므로 빈 리스트 반환

[]

In [39]:
# re.sub()

import re
text = text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

re.sub('[^a-zA-Z]',' ',text) # 알파벳이 아닌 특수문자를 공백으로 대체하여 처리

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

## 4. 텍스트 전처리 예제

In [40]:
import re

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

# 공백 1개 이상 찾아서 분리
re.split('\s+', text) 

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [41]:
# 공백 기준으로 구분된 데이터에서 숫자만 찾기
re.findall('\d+', text)

['100', '101', '102']

In [42]:
# 대문자인 행의 값만 가져오기
## 조건 : 대문자가 4번 연속 등장하는 경우
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [43]:
# 대문자 & 소문자 섞여있는 이름 행의 값만 가져오기
## 첫 문자는 대문자, 이후에 소문자 여러번 등장하는 경우
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

In [44]:
# 영문자가 아닌 문자 모두 공백 처리
letters_only = re.sub('[^a-zA-Z]', ' ', text)
letters_only

'    John    PROF     James   STUD     Mac   STUD'

## 5. 정규표현식 이용한 토큰화
__RegexpTokenizer(__ 원하는 정규 표현식 __)__

In [45]:
import nltk
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\w]+") # 문자 또는 숫자 1개 이상 (구두점 제외한 단어만 토큰화)
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [46]:
import nltk
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer("[\s]+", gaps=True) # 1개 이상의 공백 기준으로 문장 토큰화
# gaps=True :해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


***


# 6) 정수 인코딩
: 텍스트를 숫자로 바꾸기 위해 각 단어를 고유한 정수에 매핑시키는 전처리
: 단어에 대한 빈도수 기준으로 정렬한 후 번호 인덱스 부여

## 1. 정수 인코딩
1. 단어를 빈도수 정렬
2. 빈도수 높은 순서부터 정수 부여

### (1) dictionary 사용

In [47]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [48]:
text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [49]:
# 문장 토큰화
text = sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [50]:
# 정제 & 단어 토큰화
vocab = {} # dictionary
sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence = word_tokenize(i) # 단어 토큰화
    result = []
    
    for word in sentence:
        word = word.lower() # 모든 단어 소문자화 = 단어 수 줄이기
        if word not in stop_words: # 불용어 제거
            if len(word) > 2:      # 단어 길이 2 이하이면 제거
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0
                vocab[word] += 1
    sentences.append(result)

print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [51]:
# vocab : 중복 제거된 단어와 각 단어의 빈도수 기록
print(vocab)

{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [52]:
# 단어의 빈도수 출력
print(vocab["barber"])

8


In [53]:
# 높은 빈도수대로 정렬
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [54]:
# 높은 빈도수 단어에 낮은 정수 인덱스 부여
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted:
    if frequency > 1:     # 빈도수(=1) 적은 단어 제외
        i = i + 1
        word_to_index[word] = i
        
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [55]:
# 상위 5개 빈도의 단어만 사용
vocab_size = 5
words_frequency = [w for w,c in word_to_index.items() if c >= vocab_size + 1] # 인덱스 5 초과 단어  제거

for w in words_frequency:
    del word_to_index[w]  # 해당 단어에 대한 인덱스 정보 삭제

In [56]:
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [57]:
# 단어 토큰화가 진행된 sentences의 각 단어를 정수로 인코딩

## OOV (Out-Of-Vocabulary) : word_to_index에 존재하지 않는 단어
# word_to_index 에 'OOV'라는 단어 새로 추가 & 단어 집합에 없는 단어들을 'OOV'의 인덱스로 인코딩
word_to_index['OOV'] = len(word_to_index) + 1

# sentences의 모든 단어들을 정수로 인코딩
encoded = []
for s in sentences:
    temp = []
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
    
print(encoded)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


### (2) counter 사용

In [58]:
from collections import Counter

In [59]:
print(sentences) # 단어 토큰화된 결과 저장

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [60]:
# 단어 집합 생성
# 문장의 경계 [,] 제거 & 단어들을 하나의 리스트로 집합
words = sum(sentences, [])
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [61]:
# Counter : 중복된 단어 제거 & 단어 빈도수 기록
vocab = Counter(words)
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [62]:
# 단어 빈도수 출력
print(vocab["barber"])

8


In [63]:
# 상위 5개 빈도의 단어만 집합으로 저장
vocab_size = 5
vocab = vocab.most_common(vocab_size)
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [64]:
# 높은 빈도의 단어에 낮은 인덱스 부여
word_to_index = {}
i = 0

for (word, frequency) in vocab:
    i = i+1
    word_to_index[word] = i
    
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### (3) NLTK 의 FreqDist 사용

In [65]:
from nltk import FreqDist
import numpy as np

In [66]:
# 문장 구분을 제거하여 입력으로 사용
vocab = FreqDist(np.hstack(sentences))

In [67]:
# 단어의 빈도수 출력
## 단어=key, 빈도수=value로 저장
print(vocab["barber"])

8


In [68]:
# 등장 빈도수 상위 5개 단어를 집합으로 저장
vocab_size = 5

## most_common() : 주어진 상위 빈도수의 단어만을 리턴
vocab = vocab.most_common(vocab_size)
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [69]:
# 높은 빈도수 단어에 낮은 정수 인덱스 부여. enumerate() 사용
word_to_index = {word[0]:index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### (4) enumerate 이해하기
: 순서가 있는 자료형 (list, set, tupe, dictionary, string)을 입력받아 인덱스를 순차적으로 함께 리턴

In [70]:
test = ['a','b','c','d','e']

for index, value in enumerate(test): # 입력 순서대로 0부터 인덱스 부여
    print("value : {}, index : {}".format(value, index))

value : a, index : 0
value : b, index : 1
value : c, index : 2
value : d, index : 3
value : e, index : 4


## 2. 케라스의 텍스트 전처리

In [71]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [72]:
# 단어 토큰화까지 수행된 앞의 텍스트 데이터 사용
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [73]:
tokenizer = Tokenizer()

# fit_on_texts(코퍼스) : 빈도수 기준으로 단어 집합 생성
tokenizer.fit_on_texts(sentences)  


In [74]:
# word_index : 각 단어에 부여된 인덱스 확인
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [75]:
# word_counts : 각 단어 개수 몇개였는지 확인
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [76]:
# text_to_sequences() : 입력 코퍼스에 대해 각 단어를 이미 정해진 인덱스로 변환
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [77]:
# 빈도수 높은 상위 몇 개의 단어만 사용하도록 지정

## 상위 5개 단어만 사용하도록 토크나이저 재정의
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # num_words는 숫자 0 부터 카운트
tokenizer.fit_on_texts(sentences)

In [78]:
print(tokenizer.word_index)  #(상위 5개만이 아닌) 모든 단어 출력됨

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [79]:
print(tokenizer.word_counts) # 모든 단어 출력됨

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [80]:
print(tokenizer.texts_to_sequences(sentences)) # 1~5 순위의 단어만 보존됨

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [81]:
# word_index, word_counts에서도 지정된 순위 단어만 남기고 싶을때

tokenizer = Tokenizer() #num_words 지정 안함
tokenizer.fit_on_texts(sentences)

vocab_size = 5


words_frequency = [w for w,c in tokenizer.word_index.items() if c >= vocab_size + 1] # 인덱스 5 초과하는 단어 제거

for w in words_frequency:
    del tokenizer.word_index[w]  # 해당 단어에 대한 인덱스 정보 삭제
    del tokenizer.word_counts[w] # 해당 단어에 대한 카운트 정보 삭제
    
print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(sentences))

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}
OrderedDict([('barber', 8), ('person', 3), ('huge', 5), ('secret', 6), ('kept', 4)])
[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


* 케라스 토크나이저는 정수 인코딩 과정에서 단어 집합에 없는 단어(OOV)를 제거  
* Tokenizer 인자 __oov_token__ :단어 집합에 없는 단어들을 OOV로 간주하여 보존

In [82]:
# 단어 집합에 없는 단어들 보존

## 빈도수 상위 5개 단어만을 사용
vocab_size=5

## 숫자 0 & OOV 고려해서 단어 집합 크기 +2
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token='OOV') 
tokenizer.fit_on_texts(sentences)

In [83]:
# 'OOV'인덱스 = 1
print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스 : 1


In [84]:
# 코퍼스에 대한 정수 인코딩
print(tokenizer.texts_to_sequences(sentences))

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


***

# 7) 원-핫 인코딩
* __단어 집합 vocabulary__ : 서로 다른 단어들의 집합
    * 텍스트의 모든 단어를 중복을 허용하지 않고 모아놓은 것
    
## 1. 원-핫 인코딩이란?
: 단어의 벡터 표현 방식   
: 단어 집합의 크기를 벡터의 차원(원-핫 벡터)으로 표현  
1. 정수 인코딩 진행
2. 표현하고 싶은 단어의 인덱스=1, 다른 인덱스=0 부여


## 2. 케라스 이용한 원-핫 인코딩
to_categorical() 이용

In [85]:
text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [86]:
# 정수 인코딩

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

t = Tokenizer()
t.fit_on_texts([text])

# 각 단어에 대한 인코딩 결과 출력
print(t.word_index)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [87]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"

# 정수 인코딩
## texts_to_sequences() : 단어 집합으로만 구성된 텍스트를 정수 시퀀스로 변환
encoded = t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [88]:
# 원-핫 인코딩
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


***

# 8) 단어 분리하기
* __단어 집합__ : 기계가 훈련 단계에서 학습한 단어들의 집합
* __OOV / UNK__ : 테스트 단계에서 등장한 기계가 모르는(배우지 못한) 단어
    * __OOV 문제__ : 모르는 단어로 인해 문제를 제대로 풀지 못하는 상황
    
#### 단어 분리
* 하나의 단어를 여러 내부 단어로 분리해서 단어를 이해하려는 전처리 작업
* 단어 분리 토크나이저로 작업
* 기계가 배운적 없는 단어에 대해 어느 정도 대처할 수 있도록 한다

# 9) 데이터 분리
* X, y 분리
* 훈련 데이터, 테스트 데이터 분리