## 토큰화(Tokenization)

In [1]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

### 단어 토큰화
- word_tokenize: Don't를 Do와 n't로 분리, Jone's는 Jone과 's로 분리
- WordPunctTokenizer: 구두점을 별도로 분류 (Don과 '과 t로, Jone과 '와 s로)
- text_to_word_sequence: 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점 제거. 아포스트로피는 보존

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/ryu/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [5]:
# word_tokenize 사용
print('단어 토큰화1: ', word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1:  ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [6]:
# WordPunctTokenizer
print('단어 토큰화2: ', WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2:  ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [7]:
# text_to_word_sequence
print('단어 토큰화3: ', text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3:  ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [8]:
# 표준 토큰화 예제: Penn Treebank Tokenization

from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('트리뱅크 워드 토크나이저: ', tokenizer.tokenize(text))

트리뱅크 워드 토크나이저:  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 문장 토큰화

In [9]:
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."

print('문장 토큰화: ', sent_tokenize(text))

문장 토큰화:  ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [10]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print('문장 토큰화2: ', sent_tokenize(text))

문장 토큰화2:  ['I am actively looking for Ph.D. students.', 'and you are a Ph.D. student.']


NLTK는 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 떄문에 Ph.D.를 문장 내의 단어로 성공적으로 인식한 것 확인 가능

In [11]:
# 한국어 문장 토큰화 (KSS: Korean Sentence Splitter)
!pip install kss

You should consider upgrading via the '/usr/bin/python3 -m pip install --upgrade pip' command.[0m


In [12]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화: ', kss.split_sentences(text))

한국어 문장 토큰화:  ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


### NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습
- NLTK에서는 Penn Treebank POS Tags라는 기준을 사용하여 품사 태깅
     - PRP(인칭대명사), VBP(동사), RB(부사), VBG(현재부사), IN(전치사), NNP(고유명사), NNS(복수형 명사), CC(접속사), DT(관사)

In [13]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/ryu/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [14]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화: ', tokenized_sentence)
print('품사 태깅: ', pos_tag(tokenized_sentence))

단어 토큰화:  ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅:  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


한국어 자연어처리를 위해 KoNLPy (코엔엘파이) 패키지 사용
- 사용할 수 있는 형태소 분석기: Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hananum), 꼬꼬마(Kkma)

In [15]:
# 형태소 토큰화 (Morpheme tokenization)
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

# 형태소 추출
print('OKT 형태소 분석: ', okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
# 품사 태깅
print('OKT 품사 태깅: ', okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
# 명사 추출
print('OKT 명사 추출: ', okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

OKT 형태소 분석:  ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅:  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출:  ['코딩', '당신', '연휴', '여행']


In [16]:
# 꼬꼬마 형태소 분석기
print('꼬꼬마 형태소 분석: ', kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅: ', kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출: ', kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

꼬꼬마 형태소 분석:  ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅:  [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출:  ['코딩', '당신', '연휴', '여행']


## 정제(Cleaning) & 정규화(Normalization)

In [17]:
# 길이가 짧은 단어 제거
import re
text = "I was wondering if anyone out there could enlighten me on this car."

# 길이가 1-2인 단어들을 정규표현식을 이용하여 삭제
shortword = re.compile(r'\w*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering  anyone out there could enlighten   this car.


## 어간 추출(Stemming) & 표제어 추출(Lemmatization)

In [18]:
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /home/ryu/nltk_data...
[nltk_data] Downloading package omw-1.4 to /home/ryu/nltk_data...


True

### 표제어 추출

In [19]:
# 표제어 추출
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전: ', words)
print('표제어 추출 후: ', [lemmatizer.lemmatize(word) for word in words])

표제어 추출 전:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [20]:
# 입력 단어의 품사까지 알려주면 품사의 정보를 보존하면서 정확한 Lemma 출력
lemmatizer.lemmatize('dies', 'v')

'die'

In [21]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [22]:
lemmatizer.lemmatize('has', 'v')

'have'

### 어간 추출

In [23]:
# 포터 알고리즘(Porter Algorithm)

from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print('어간 추출 전: ', tokenized_sentence)
print('어간 추출 후: ', [stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전:  ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후:  ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


- 규칙 기반의 접근을 하고 있으므로 어간 추출 후의 결과에는 사전에 없는 단어들도 포함
    
    (규칙 예: ALIZE → AL, ANCE → 제거, ICAL → IC)

In [24]:
words = ['formalize', 'allowance', 'electricical']

print('어간 추출 전: ', words)
print('어간 추출 후: ', [stemmer.stem(word) for word in words])

어간 추출 전:  ['formalize', 'allowance', 'electricical']
어간 추출 후:  ['formal', 'allow', 'electric']


In [25]:
# 랭커스터 스테머 (Lancaster Stemmer) 알고리즘
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('어간 추출 전: ', words)
print('포터 스테머의 어간 추출 후: ', [porter_stemmer.stem(word) for word in words])
print('랭커스터 스테머의 어간 추출 후: ', [lancaster_stemmer.stem(word) for word in words])

어간 추출 전:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후:  ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후:  ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


## 불용어(Stopwords)

In [26]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 
from konlpy.tag import Okt

In [27]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/ryu/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [28]:
# NLTK에서 불용어 확인하기
stop_words_list = stopwords.words('english')
print('불용어 개수: ', len(stop_words_list))
print('불용어 10개 출력: ', stop_words_list[:10])

불용어 개수:  179
불용어 10개 출력:  ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [29]:
# NLTK를 통해 불용어 제거하기
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = []
for word in word_tokens:
  if word not in stop_words:
    result.append(word)

print('불용어 제거 전: ', word_tokens)
print('불용어 제거 후: ', result)

불용어 제거 전:  ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후:  ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


In [30]:
# 한국어에서 불용어 제거하기
# 토큰화 후에 조사, 접속사 등을 제거
# 불용어 직접 정의하기 (불용어 사전)

okt = Okt()

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

stop_words = set(stop_words.split())
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if not word in stop_words]

print('불용어 제거 전: ', word_tokens)
print('불용어 제거 후: ', result)

불용어 제거 전:  ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후:  ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']


## 정규표현식(Regular Expression)

In [31]:
import re

In [32]:
# .기호 (한 개의 임의의 문자)
r = re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않음

In [33]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [34]:
# ?기호 (?앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있는 경우)
r = re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않음

In [35]:
r.search("abc") # b가 있는 것으로 판단하여 매치

<re.Match object; span=(0, 3), match='abc'>

In [36]:
r.search("ac") # b가 없는 것으로 판단하여 매치

<re.Match object; span=(0, 2), match='ac'>

In [37]:
# *기호 (* 바로 앞의 문자가 0개 이상일 경우)
r = re.compile("ab*c")
r.search("a") # 아무런 결과 X

In [40]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [41]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [42]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

In [43]:
# +기호 (앞의 문자가 최소 1개 이상)
r = re.compile("ab+c")
r.search("ac")

In [44]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [45]:
r.search("abbbbc")

<re.Match object; span=(0, 6), match='abbbbc'>

In [46]:
# ^기호 (시작되는 문자열 지정)
r = re.compile("^ab")
r.search("bbc")
r.search("zab")

In [47]:
r.search("abz")

<re.Match object; span=(0, 2), match='ab'>

In [48]:
# {숫자}기호 (해당 문자를 숫자만큼 반복)
r = re.compile("ab{2}c")
r.search("ac")
r.search("abc")

In [49]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [50]:
# {숫자,} 기호
r = re.compile("a{2,}bc")
r.search("bc")
r.search("aa")

In [51]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [52]:
r.search("aaaaabc")

<re.Match object; span=(0, 7), match='aaaaabc'>

In [53]:
# {숫자1, 숫자2}
r = re.compile("ab{2,8}c")
r.search("ab")
r.search("abc")
r.search("abbbbbbbbbc")

In [54]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [55]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [56]:
# []기호 (문자들 중 한 개의 문자와 매치라는 의미)
r = re.compile("[abc]") # [abc]는 [a-c]와 같음
r.search("zzz")

In [57]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [58]:
r.search("aaaaaa")

<re.Match object; span=(0, 1), match='a'>

In [59]:
r.search("baac")

<re.Match object; span=(0, 1), match='b'>

In [60]:
r = re.compile("[a-z]")
r.search("AAA")
r.search("111")

In [61]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [63]:
# [^문자] 기호 (^ 기호 뒤에 붙은 문자들을 제외하는 모든 문자를 매치하는 역할)
r = re.compile("[^abc]")
r.search("a")
r.search("ab")

In [64]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [65]:
r.search("1")

<re.Match object; span=(0, 1), match='1'>

### 정규 표현식 모듈 함수 예제

In [66]:
# (1) 
# re.search(): 정규표현식 전체에 대해 문자열이 매치하는지 확인
# re.match(): 문자열의 첫 부분(시작)부터 정규표현식과 매치하는 지 확인

r = re.compile("ab.")
r.match("kkkabc")

In [67]:
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [68]:
r.match("abckkk")

<re.Match object; span=(0, 3), match='abc'>

In [69]:
# (2) re.split(): 입력된 정규표현식을 기준으로 문자열들을 분리하여 리스트로 리턴

# 공백 기준 분리
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [71]:
# 줄바꿈 기준 분리
text = """사과
딸기
수박
메론
바나나"""

re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [72]:
# + 기준 분리
text = "사과+딸기+수박+메론+바나나"
re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

In [74]:
# (3) re.findall(): 정규표현식과 매치되는 모든 문자열들을 리스트로 리턴
text = """이름: 김철수
전화번호: 010 - 1234 - 1234
나이: 30
성별: 남"""

re.findall("\d+", text)

['010', '1234', '1234', '30']

In [75]:
re.findall("\d+", "문자열입니다.") # 텍스트에 숫자가 없기 때문에 빈 리스트 리턴

[]

In [76]:
# (4) re.sub(): 일치하는 문자열을 찾아 다른 문자열로 대체 가능
text = "Regular expression: A regular expression, regex or regex[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."

preprocessed_text = re.sub('[^a-zA-Z]', ' ', text)
print(preprocessed_text)

Regular expression  A regular expression  regex or regex     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


### 정규 표현식 텍스트 전처리 예제

In [77]:
text = """100 John   PROF
101 James   STUD
102 Mac   STUD"""

re.split('\s+', text) # 최소 1개 이상의 공백인 패턴 찾음

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [78]:
re.findall('\d+', text)

['100', '101', '102']

In [79]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [80]:
re.findall('[A-Z]{4}',text) 

['PROF', 'STUD', 'STUD']

In [81]:
re.findall('[A-Z][a-z]+',text) # 대문자가 등장한 후 소문자가 여러번 등장하는 경우

['John', 'James', 'Mac']

### 정규 표현식을 이용한 토큰화
- NLTK에서는 정규표현식을 사용해서 단어 토큰화 수행하는 RegexpTokenizer 지원

In [83]:
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dard sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer("[\w]+")             # 문자 또는 숫자가 1개 이상인 경우
tokenizer2 = RegexpTokenizer("\s+", gaps=True)    # 공백 기준. gaps=True 없으면 공백만 반환

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dard', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dard', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 정수 인코딩(Integer Encoding)

#### (1) dictionary 사용하기

In [84]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [85]:
raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [86]:
# 문장 토큰화
sentences = sent_tokenize(raw_text)
print(sentences)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [87]:
# 정제 작업과 정규화 작업 병행하여 단어 토큰화 진행
# 단어들 소문자화하여 단어 개수 통일, 불용어와 짧은 단어(2이하)인 경우 일부 제외

vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = word_tokenize(sentence)
    result = []
    
    for word in tokenized_sentence:
        word = word.lower() # 모든 단어 소문자화
        if word not in stop_words:  # 단어 토큰화 된 결과에 대해서 불용어 제거
            if len(word) > 2:       # 단어 길이가 2 이하인 경우에 대하여 추가로 단어 제거
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0
                vocab[word] += 1
    preprocessed_sentences.append(result)
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [89]:
print('단어 집합: ', vocab)

단어 집합:  {'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [90]:
# 'barber'라는 단어의 빈도수 출력
print(vocab["barber"])

8


In [91]:
# 빈도수 높은 순서대로 정렬
vocab_sorted = sorted(vocab.items(), key=lambda x: x[1], reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [92]:
# 높은 빈도수를 가진 단어일수록 낮은 정수 부여
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted:
    if frequency > 1:     # 빈도수가 작은 단어는 제외
        i = i + 1
        word_to_index[word] = i
        
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [93]:
# 상위 5개 단어
vocab_size = 5

# 인덱스가 5 초과인 단어 제거
words_frequency = [word for word, index in word_to_index.items() if index >= vocab_size + 1]

# 해당 단어에 대한 인덱스 정보를 삭제
for w in words_frequency:
    del word_to_index[w]
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [94]:
# Out-Of-Vocabulary(단어 집합에 없는 단어) 인코딩
word_to_index['OOV'] = len(word_to_index) + 1
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'OOV': 6}


In [95]:
# word_to_index 사용하여 sentences의 모든 단어들을 맵핑되는 정수로 인코딩
encoded_sentences = []
for sentence in preprocessed_sentences:
    encoded_sentence = []
    for word in sentence:
        try:
            # 단어 집합에 있는 단어라면 해당 단어의 정수를 리턴
            encoded_sentence.append(word_to_index[word])
        except KeyError:
            # 만약 단어 집합에 없는 단어라면 'OOV'의 정수를 리턴
            encoded_sentence.append(word_to_index['OOV'])
    encoded_sentences.append(encoded_sentence)
print(encoded_sentences)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


#### (2) Counter 사용하기

In [96]:
from collections import Counter

In [97]:
print(preprocessed_sentences) # 단어 토큰화된 결과

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [98]:
# words = np.hstack(preprocessed_sentences)으로도 수행 가능
all_words_list = sum(preprocessed_sentences, [])
print(all_words_list)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [99]:
# Counter 모듈 이용하여 단어의 빈도수 카운트
vocab = Counter(all_words_list)
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [100]:
# 상위 빈도수 가진 단어 리턴
vocab_size = 5
vocab = vocab.most_common(vocab_size)
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [101]:
# 높은 빈도수일수록 낮은 정수 인덱스 부여
word_to_index = {}
i = 0
for (word, frequency) in vocab:
    i = i + 1
    word_to_index[word] = i
    
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


#### (4) NLTK의 FreqDist 사용

In [102]:
from nltk import FreqDist
import numpy as np

In [103]:
# np.hstack으로 문장 구분 제거
vocab = FreqDist(np.hstack(preprocessed_sentences))

In [104]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
print(vocab)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]


In [105]:
# 높은 빈도수일수록 낮은 정수 인덱스 부여 -> enumerate()을 사용하여 짧게 구현
word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### 케라스(Keras)의 텍스트 전처리

In [106]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [107]:
preprocessed_sentences

[['barber', 'person'],
 ['barber', 'good', 'person'],
 ['barber', 'huge', 'person'],
 ['knew', 'secret'],
 ['secret', 'kept', 'huge', 'secret'],
 ['huge', 'secret'],
 ['barber', 'kept', 'word'],
 ['barber', 'kept', 'word'],
 ['barber', 'kept', 'secret'],
 ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
 ['barber', 'went', 'huge', 'mountain']]

In [108]:
tokenizer = Tokenizer()

# fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합 생성 (정수 인코딩)
tokenizer.fit_on_texts(preprocessed_sentences)

In [109]:
print(tokenizer.word_index) # 단어별 정수 인덱스

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [110]:
print(tokenizer.word_counts) # 단어별 카운트

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [111]:
print(tokenizer.texts_to_sequences(preprocessed_sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [112]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용 (1번-5번 단어 사용)
tokenizer.fit_on_texts(preprocessed_sentences)

In [113]:
print(tokenizer.word_index) # 여전히 13개 단어 모두 출력. 실제 적용은 texts_to_sequences에

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [114]:
print(tokenizer.texts_to_sequences(preprocessed_sentences)) # 1-5번 단어 외엔 제외됨

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [115]:
# 케라스 토크나이저는 OOV에 대해 아예 단어를 제거한다는 특징이 있지만 OOV를 보존하고 싶은 경우
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
tokenizer.fit_on_texts(preprocessed_sentences)

In [116]:
print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스 : 1


In [118]:
# 코퍼스에 대해 정수 인코딩 실행
print(tokenizer.texts_to_sequences(preprocessed_sentences))

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


## 패딩(Padding)
- 데이터에 특정 값을 채워서 데이터의 크기(shape)를 조정하는 것
- 숫자 0을 사용한다면 제로 패딩(zero padding)이라고 함

#### Numpy

In [1]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [3]:
preprocessed_sentences = [['barber', 'person'], ['barber', 'good', 'person'], 
                          ['barber', 'huge', 'person'], ['knew', 'secret'], 
                          ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], 
                          ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], 
                          ['barber', 'kept', 'secret'], 
                          ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], 
                          ['barber', 'went', 'huge', 'mountain']]

In [4]:
# 단어 집합 만들고 정수 인코딩 수행
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [5]:
# 가장 길이가 긴 문장의 길이
max_len = max(len(item) for item in encoded)
print('최대길이: ', max_len)

최대길이:  7


In [6]:
# 'PAD'라는 단어가 있다고 가정하고 0번 단어라고 정의함. 길이가 7보다 짧은 문장에는 숫자 0을 채워서 길이를 7로 맞춰줌
for sentence in encoded:
    while len(sentence) < max_len:
        sentence.append(0)
        
padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

0번 단어는 아무런 의미도 없기 때문에 자연어 처리하는 과정에서 기계는 0번 단어를 무시할 것

#### 케라스

In [7]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [8]:
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [10]:
# 케라스의 pad_sequences 사용하여 패딩
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

케라스의 pad_sequences는 기본적으로 앞에 0으로 채움. 뒤에 0을 채우고 싶다면 padding='post'를 인자로 주면 됨

꼭 가장 긴 문서의 길이를 기준으로 패딩해야 하는 것은 아님. 길이에 제한 두고 패딩 가능. maxlen의 인자로 정수를 주면, 해당 정수로 모든 문서의 길이 동일하게 

In [13]:
padded = pad_sequences(encoded, padding='post', maxlen=5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]], dtype=int32)

길이가 5보다 짧은 문서들은 0으로 패딩되고, 기존에 5보다 길었다면 데이터가 손실됨

In [14]:
# 데이터 손실될 때 앞에 단어가 아니라 뒤에 단어가 삭제되도록 하고 싶을 때 truncating='post'
padded = pad_sequences(encoded, padding='post', truncating='post', maxlen=5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 7,  7,  3,  2, 10],
       [ 1, 12,  3, 13,  0]], dtype=int32)

꼭 0으로 패딩할 필요는 없음

In [17]:
last_value = len(tokenizer.word_index) + 1 # 단어 집합의 크기보다 1 큰 숫자를 사용
print(last_value)

14


In [16]:
padded = pad_sequences(encoded, padding='post', value=last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]], dtype=int32)

### 원-핫 인코딩(One-Hot Encoding)

In [18]:
# Okt 형태소 분석기 통해서 문장에 대해 토큰화 진행
from konlpy.tag import Okt

okt = Okt()
tokens = okt.morphs("나는 자연어 처리를 배운다")
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


In [19]:
word_to_index = {word: index for index, word in enumerate(tokens)}
print('단어 집합: ', word_to_index)

단어 집합:  {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [20]:
# 원핫 벡터 만드는 함수
def one_hot_encoding(word, word_to_index):
    one_hot_vector = [0]*(len(word_to_index))
    index = word_to_index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [21]:
one_hot_encoding("자연어", word_to_index)

[0, 0, 1, 0, 0, 0]

#### 케라스 이용한 원핫 인코딩

In [23]:
# 케라스 토크나이저를 이용한 정수 인코딩
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print('단어 집합: ', tokenizer.word_index)

단어 집합:  {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [25]:
# 단어 집합에 있는 단어들로만 구성된 텍스트가 있다면 정수 시퀀스로 변환 가능
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [26]:
# 정수 인코딩된 결과로부터 원-핫 인코딩을 수행하는 to_categorical()
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


### 한국어 전처리 패키지

#### PyKoSpacing
- 띄어쓰기 한 문장으로 변환해주는 패키지

In [1]:
pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-5levfmg0
  Running command git clone --filter=blob:none --quiet https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-5levfmg0
  Resolved https://github.com/haven-jeon/PyKoSpacing.git to commit e1979f7eeb4fcf1a456521152713482517fba627
  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting tensorflow==2.7.2
  Using cached tensorflow-2.7.2-cp38-cp38-manylinux2010_x86_64.whl (495.5 MB)
Collecting h5py==3.1.0
  Using cached h5py-3.1.0-cp38-cp38-manylinux1_x86_64.whl (4.4 MB)
Collecting argparse>=1.4.0
  Using cached argparse-1.4.0-py2.py3-none-any.whl (23 kB)
Collecting numpy>=1.17.5
  Downloading numpy-1.23.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (17.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m17.1/17.1 MB[0m [31m8.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting google-past

In [2]:
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

In [3]:
new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)

김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.


In [4]:
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent)

print(sent)
print(kospacing_sent)

김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


#### Py-Hanspell
- 네이버 한글 맞춤법 검사기 바탕으로 만든 패키지

In [6]:
pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-_d5lcu0m
  Running command git clone --filter=blob:none --quiet https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-_d5lcu0m
  Resolved https://github.com/ssut/py-hanspell.git to commit 8e993cf46f97f9d665c15633a0fc78ac1b727713
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25ldone
[?25h  Created wheel for py-hanspell: filename=py_hanspell-1.1-py3-none-any.whl size=4868 sha256=aa6009510060aa1758683265fab65f61f95975959317216e1fa5301292b74043
  Stored in directory: /tmp/pip-ephem-wheel-cache-hv26bcp7/wheels/3f/a5/73/e4d2806ae141d274fdddaabf8c0ed79be9357d36bfdc99e4b4
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1
Note: you may need to restart the kernel to use updated packages.


In [7]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지


In [8]:
spelled_sent = spell_checker.check(new_sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)
print(kospacing_sent) # 앞서 사용한 kospacing 패키지에서 얻은 결과

김철수는 극 중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연제(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


#### SOYNLP를 이용한 단어 토큰화
- 품사 태깅, 단어 토큰화 등을 지원하는 단어 토크나이저
- 비지도 학습으로 단엉 토큰화 한다는 특징 갖고 있음
- 내부적으로 단어 점수 표로 동작
    - 응집확률(cohesion probability): 내부 문자열(substring)이 얼마나 응집하여 자주 등장하는지 판단하는 척도
    - 브랜칭 엔트로피(branching entropy): 주어진 문자열에서 얼마나 다음 문자가 등장할 수 있는지 판단하는 척도

In [9]:
pip install soynlp

Collecting soynlp
  Downloading soynlp-0.0.493-py3-none-any.whl (416 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m416.8/416.8 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting scipy>=1.1.0
  Downloading scipy-1.9.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (43.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.4/43.4 MB[0m [31m6.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting scikit-learn>=0.20.0
  Downloading scikit_learn-1.1.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (31.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.2/31.2 MB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting threadpoolctl>=2.0.0
  Downloading threadpoolctl-3.1.0-py3-none-any.whl (14 kB)
Collecting joblib>=1.0.0
  Downloading joblib-1.1.0-py2.py3-none-any.whl (306 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m307.0/307.0 kB[0m [

In [1]:
# 1. 신조어 문제
from konlpy.tag import Okt
tokenizer = Okt()
print(tokenizer.morphs('에이비식스 이대휘 1월 최애돌 기부 요정'))

['에이', '비식스', '이대', '휘', '1월', '최애', '돌', '기부', '요정']


soynlp: 앞뒤로 독립된 단어들이 계속해서 등장한다면 한 단어로 파악하는 학습에 기반한 토크나이저

In [1]:
# 학습하기
import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor

In [2]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt", filename="2016-10-20.txt")

('2016-10-20.txt', <http.client.HTTPMessage at 0x7f163c1ccfa0>)

In [3]:
# 훈련 데이터를 다수의 문서로 분리
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus)

30091

In [4]:
i = 0
for document in corpus:
  if len(document) > 0:
    print(document)
    i = i+1
  if i == 3:
    break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

In [6]:
# WordExtractor.extract()를 통해 전체 코퍼스에 대해 단어 점수표 계산
word_extractor = WordExtractor()
word_extractor.train(corpus)
word_score_table = word_extractor.extract()

training was done. used memory 0.881 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


학습이 완료되었음

#### 응집확률(cohesion probability)

In [7]:
word_score_table["반포한"].cohesion_forward

0.08838002913645132

In [8]:
word_score_table["반포한강"].cohesion_forward

0.19841268168224552

In [9]:
word_score_table["반포한강공"].cohesion_forward

0.2972877884078849

In [15]:
word_score_table["반포한강공원"].cohesion_forward

0.37891487632839754

In [11]:
word_score_table["반포한강공원에"].cohesion_forward

0.33492963377557666

#### 브랜칭 엔트로피 (branching entropy)

In [12]:
word_score_table["디스"].right_branching_entropy

1.6371694761537934

'디스' 다음에는 다양한 문자가 올 수 있으니까 1.63이라는 값을 가짐

In [13]:
word_score_table["디스플"].right_branching_entropy

-0.0

'디스플' 다음에는 '레'가 오는 것이 명백하기 때문에 0이라는 값이 나옴

In [14]:
word_score_table["디스플레이"].right_branching_entropy

3.1400392861792916

하나의 단어가 끝나면 그 경계 부분부터 다시 브랜칭 엔트로피 값이 증가하게 됨을 의미

#### SOYNLP의 L tokenizer

In [16]:
from soynlp.tokenizer import LTokenizer

scores = {word:score.cohesion_forward for word, score in word_score_table.items()}
l_tokenizer = LTokenizer(scores=scores)
l_tokenizer.tokenize("국제사회와 우리의 노력들로 범죄를 척결하자", flatten=False)

[('국제사회', '와'), ('우리', '의'), ('노력', '들로'), ('범죄', '를'), ('척결', '하자')]

#### 최대 점수 토크나이저
- 띄어쓰기가 되지 않는 문장에서 점수가 높은 글자 시퀀스를 순차적으로 찾아냄

In [17]:
from soynlp.tokenizer import MaxScoreTokenizer

maxscore_tokenizer = MaxScoreTokenizer(scores=scores)
maxscore_tokenizer.tokenize("국제사회와우리의노력들로범죄를척결하자")

['국제사회', '와', '우리', '의', '노력', '들로', '범죄', '를', '척결', '하자']

### 반복되는 문자 정제

In [18]:
from soynlp.normalizer import *

In [19]:
print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ


In [20]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


### Customized KoNLPy

In [21]:
pip install customized_konlpy

856.89s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


Collecting customized_konlpy
  Downloading customized_konlpy-0.0.64-py3-none-any.whl (881 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m881.5/881.5 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting Jpype1>=0.6.1
  Downloading JPype1-1.4.0-cp38-cp38-manylinux_2_5_x86_64.manylinux1_x86_64.whl (453 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m453.8/453.8 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting konlpy>=0.4.4
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting lxml>=4.1.0
  Downloading lxml-4.9.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.manylinux_2_24_x86_64.whl (6.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0mm
[?25hIn

In [22]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['은', '경이', '는', '사무실', '로', '갔습니다', '.']

In [23]:
# 사전 추가
twitter.add_dictionary('은경이', 'Noun')

In [24]:
twitter.morphs('은경이는 사무실로 갔습니다.')

['은경이', '는', '사무실', '로', '갔습니다', '.']