In [1]:
# 토큰화: 
#     크롤링으로 얻어낸 데이터를 필요에 맞게 전처리하는 과정중 하나

In [2]:
# 1. 단어 토큰화:
#     토큰의 기준을 단어로 하는 경우 여기서 단어란 단어 외에도
#     단어구, 의미를 갖는 문자열로 간주되기도 함
# 보통의 토큰화 작업은 구두점이나 특수문자를 전부 제거하는 
# 정제(cleaning) 작업으로 해결 x 전부 제거해 버릴시 토큰이 의미를
# 잃기도 함 띄어쓰기 단위로 자르면 단어 토큰이 구분되는 영어와 달리
# 한국어는 띄어쓰기만으로 단어 토큰을 구분하기 어려움

In [1]:
# ' 아포스트로피가 들어간 상황 토큰화
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [6]:
#word_tokenize 사용
print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [7]:
#wordPunctTokenizer 사용
print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [8]:
#WordPunctTokenizer은 구두점을 별도로 분류하는 특성을 가짐 

In [9]:
# keras text_to_word_sequence 사용
print('단어 토큰화3 :',text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [10]:
#. , ! 등의 구두점은 제거하지만 아포스트로피는 보존함 
# 그리고 알파벳을 모두 소문자로 변경함

In [2]:
# 3. 토큰화시 고려해야할 사항:
#     1. 보유한 코퍼스에서 단어를 거를때 구두점 및 특수문자를 
#     제거하는 것은 옳지 않음, 예를 들어 
#     마침표로 문장의 경계를 알수 있기 때문이기도 하고 또한 단어
#     자체에 마침표 ex) ph.D 등의 단어도 있기 때문 등등 다양함
    
#     2.줄임말과 단어내 띄어쓰기가 있는 경우
#     what're 은 what are 의 줄임말이고 이때 re를 접어(clitic) 라고 함
#     New York는 하나의 단어지만 띄어쓰기가 존재 
#     이 점들의 유의해야함

In [3]:
# Peen Treebank Tokenization 규칙
# 1. 하이푼(-)으로 구성된 단어는 하나로 유지
# 2. doesn't 같이 아포스트로피로 접어가 함께하는 단어는 분리

#Ex)

from nltk.tokenize import TreebankWordTokenizer

In [5]:
tokenizer = TreebankWordTokenizer()

text =  "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))
#does 와 n't 분리 확인

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


In [7]:
# 4. 문장 토큰화(Sentence tokenization):
#     이 작업은 코퍼스 내의 문장단위로 구분하는 작업으로 때론
#     문장 분류(Sentence segmentation) 라고도 부름
#     코퍼스가 정제되지 않은 상태면 코퍼스는 문장 단위로 구분 되어
#     있지 않아 용도에 맞게 문장 토큰화가 필요

In [8]:
from nltk.tokenize import sent_tokenize

In [9]:
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [10]:
# 문장들이 토큰화 된것을 볼 수 있음

In [11]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [12]:
# .이 문장의 마침이 아닌데도 성공적으로 토큰화 

In [11]:
pip install kss




In [15]:
import kss

In [16]:
text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화 :',kss.split_sentences(text))

[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://cleancode-ws.tistory.com/97
- konlpy.tag.Mecab: https://uwgdqo.tistory.com/363



한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


In [17]:
#문장별로 토큰화 성공

In [4]:
# 한국어 토큰화의 어려움:
#     영어는 he's같은 줄임말에 대해 예외처리와 띄어쓰기를 기준으로
#     하는 토큰화를 수행해도 단어 토큰화가 잘 작동-> 대부분이 단어
#     단위로 띄어쓰기가 이루어지기 때문에 띄어쓰기 토큰화와 단어
#     토큰화가 비슷함
    
#     한국어의 경우 띄어쓰기 단위를 어절이라고 함 어절 토큰은
#     한국어 NLP 에서 지향되는데 어절 토큰화와 단어 토큰화가 같지
#     않기 때문임 근본적 이유는 한국어와 영어가 다른 형태를 가지는
#     교착어기 때문 교착어란 조사, 어미 등을 붙여 만드는 말

# 1. 교착어의 특성
# 영어와 달리 한국어에는 조사가 존재, 같은 단어임에도 다른조사가 붙어
# 다른 단어로 인식됨. 그래서 대부분 한국어 NLP에서는 조사 분리가 필요

# 형태소(morpheme)란 뜻을 가진 가장 작은 말의 단위를 의미 형태소에는
# 두가지가 있는데.

# 자립 형태소: 접사, 어미, 조사와 상과없이 자립하여 사용할수 있는
#     형태소, 그 자체로 단어가 됨 체언(명사, 대명사, 수사), 수식언
#     (관형사, 부사), 감탄사 등이 있음
    
# 의존 형태소: 다른 형태소와 결합하여 사용되는 형태소, 접사, 어미, 조사,
#     어간을 말함

# 2. 띄어쓰기가 잘 지켜지지 않음: 한국어는 띄어쓰기가 없더라도
#     이해하기가 쉽기 때문에 수많은 코퍼스에서 띄어쓰기가 무시되는
#     경우가 많아 자연어 처리에 어려움을 겪음

In [5]:
# 품사 태깅: 단어는 같지만 품사에 따라서 의미가 달라지기도 함
#     fly라는 단어는 날다 라는 뜻도 있지만 파리라는 의미도 있음
#     따라서 토큰화 과정시 단어가 어떤 품사로 쓰였는지 구분하는 과정을
#     품사 태깅이라고 함 
#     (part of speech tagging)

In [6]:
#품사 태깅
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."

tokenized_sentence = word_tokenize(text)

print('단어 토큰화', tokenized_sentence)
print('품사 태깅', pos_tag(tokenized_sentence))

단어 토큰화 ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


In [7]:
# PRP: 인칭 대명사
# VBP: 동사
# RB: 부사
# VBG: 현재부사
# IN: 전치사
# NNP: 고유 명사
# NNS 복수형 명사
# CC: 접속사
# DT: 관사

In [1]:
pip install konlpy

Note: you may need to restart the kernel to use updated packages.


In [1]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [None]:
# Error 해결 방법
# No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.
# 라고 뜰거임

# 이 링크대로 수행 부탁
# https://default-womyn.tistory.com/entry/konlpy-Okt-%EC%98%A4%EB%A5%98-No-JVM-shared-library-file-jvmdll-fo
    

In [2]:
# 1. morphs: 형태소 추출
# 2. pos: 품사 태깅
# 3. nouns: 명사 추출

In [3]:
print('꼬꼬마 형태소 분석 :',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']
