In [3]:
# 단어 토큰화(Word Tokenization)
# 토큰의 기준으로 단어를 하는 경우를 단어 토큰화라고 함
import nltk
import numpy as np
# nltk.download()


In [4]:
sample = "Don't be fooled by dark sounding name Mr. Jone's Orphanage is as cheery"
from nltk.tokenize import word_tokenize
print(word_tokenize(sample))

['Do', "n't", 'be', 'fooled', 'by', 'dark', 'sounding', 'name', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery']


In [5]:
from nltk import WordPunctTokenizer
print(WordPunctTokenizer().tokenize(sample))

['Don', "'", 't', 'be', 'fooled', 'by', 'dark', 'sounding', 'name', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery']


In [6]:
# KSS(Korean Sentence Splitter)
import kss
text = "딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제해보면 알겁니다."
print(kss.split_sentences(text))

[Korean Sentence Splitter]: Initializing Kss...


['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요.', '이제해보면 알겁니다.']


In [7]:
# 품사(POS) 태깅
from nltk.tag import pos_tag
x = word_tokenize(text)
pos_tag(x)

[('딥', 'JJ'),
 ('러닝', 'NNP'),
 ('자연어', 'NNP'),
 ('처리가', 'NNP'),
 ('재미있기는', 'NNP'),
 ('합니다', 'NNP'),
 ('.', '.'),
 ('그런데', 'VB'),
 ('문제는', 'JJ'),
 ('영어보다', 'NNP'),
 ('한국어로', 'NNP'),
 ('할', 'NNP'),
 ('때', 'NNP'),
 ('너무', 'NNP'),
 ('어려워요', 'NNP'),
 ('.', '.'),
 ('농담아니에요', 'NN'),
 ('.', '.'),
 ('이제해보면', 'JJ'),
 ('알겁니다', 'NN'),
 ('.', '.')]

In [8]:
from konlpy.tag import Okt
text = '열심히 코딩한 당신, 연휴에는 여행을 가봐요'
okt = Okt()

In [9]:
okt.morphs(text) # 형태소 분석

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']

In [10]:
okt.nouns(text)

['코딩', '당신', '연휴', '여행']

In [11]:
# 불용어(stopwords)
from nltk.corpus import stopwords
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [12]:
example = 'Family is not an important thing. It\'s everything.'
stop_words = set(stopwords.words('english'))
stop_words.add("'s")

word_tokens = word_tokenize(example.lower())
result = [w for w in word_tokens if w not in stop_words]

print(word_tokens)
print(result)

['family', 'is', 'not', 'an', 'important', 'thing', '.', 'it', "'s", 'everything', '.']
['family', 'important', 'thing', '.', 'everything', '.']


In [13]:
example = '고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든.'
stop_words = set(stopwords.words('english'))
stop_words.add("'s")

word_tokens = word_tokenize(example.lower())
result = [w for w in word_tokens if w not in stop_words]

print(word_tokens)
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.']
['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.']


In [14]:
# 정규표현식
import re
re.search('a.c', 'kkk')

In [15]:
re.search('a.c', 'abc')

<re.Match object; span=(0, 3), match='abc'>

In [16]:
# ? 기호 : 문자가 0개 또는 1개
r = re.compile('ab?c')
r.search('abbc')

In [17]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [18]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [19]:
# * 기호 : 바로 앞의 문자가 0개 이상일 경우
r = re.compile("ab*c")
r.search('a')

In [20]:
r.search('abbbbc')

<re.Match object; span=(0, 6), match='abbbbc'>

In [21]:
# + 기호 : 앞의 문자가 최소 1개 이상
r = re.compile("ab+c")
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

In [22]:
# ^ 기호 : 시작되는 글자를 지정
re.search('^a', 'bbc')

In [23]:
re.search('^a', 'ab')

<re.Match object; span=(0, 1), match='a'>

In [24]:
r = re.compile("ab{2}c")
r.search('ac')

In [25]:
r.search('abc')

In [26]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

In [27]:
# {숫자1, 숫자2} 기호 : 해당문자를 숫자1 이상 숫자 2이하만큼 반복
r = re.compile('ab{2,8}c')
r.search('ac') # 아무런 결과도 출력되지 않는다.
r.search('abc')

In [28]:
r.search('abbbbbc')

<re.Match object; span=(0, 7), match='abbbbbc'>

In [29]:
# [] 기호 : 문자들 중 한 개의 문자와 매치라는 의미
r = re.compile('[abc]') # [abc]는 [a-c]와 같다.
r.search('baac')

<re.Match object; span=(0, 1), match='b'>

In [30]:
r.search('zzz')

In [31]:
# 소문자
re.search('[a-z]', 'ABC') 

In [32]:
re.search('[a-z]', 'AbC')

<re.Match object; span=(1, 2), match='b'>

In [33]:
# 대문자, 숫자
re.search('[A-Z0-9]', 'AS455')

<re.Match object; span=(0, 1), match='A'>

In [34]:
# [^문자] : ^기호 뒤에 붙은 문자들을 제외한 모든 문자들을 매치
r = re.compile('[^abc]')
r.search('a') # 아무런 결과도 출력되지 않는다.
r.search('ab') # 아무런 결과도 출력되지 않는다.

In [35]:
r.search('d1')

<re.Match object; span=(0, 1), match='d'>

In [36]:
# 문자 또는 숫자
re.search('[0-9A-Za-z]', '$%^&')
re.search('\w', '$%^&')

In [41]:
# 한글과 공백을 제외한 모든 문자를 제거
re.sub('[^ㄱ-하-ㅣ가-힣]', '', '^ 기호 뒤에 붙은 문자.')

'기호뒤에붙은문자'

In [43]:
# re모듈 함수
re.match('ab.', 'kkkabc')

In [46]:
re.search('ab.', 'kkkabc')

<re.Match object; span=(3, 6), match='abc'>

In [48]:
text = '사과 딸기 수박 메론 바나나'
re.split(' ', text)

['사과', '딸기', '수박', '메론', '바나나']

In [50]:
text.split()

['사과', '딸기', '수박', '메론', '바나나']

In [56]:
text = """사과  딸기
  수박
 메론        바나나"""

text.split()

['사과', '딸기', '수박', '메론', '바나나']

In [59]:
re.split('\s+', text)

['사과', '딸기', '수박', '메론', '바나나']

In [61]:
text = '''이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남
'''
re.findall('\d+', '김철수')

[]

In [63]:
re.findall('\d+', text)

['010', '1234', '1234', '30']

In [82]:
text = '''Regular expression : A regular expression, regex or regexp[1]
(sometimes called a rational expression)[2][3]
is, in theoretical computer science and formal language theroy,
a sequence of chracters that define a search pattern.
'''
re.sub('[^a-zA-Z]', '_', text)

'Regular_expression___A_regular_expression__regex_or_regexp_____sometimes_called_a_rational_expression________is__in_theoretical_computer_science_and_formal_language_theroy__a_sequence_of_chracters_that_define_a_search_pattern__'

In [67]:
text = '''100 John PROF
101 James STUD
102 Mac STUD'''
re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [74]:
re.findall('\d+', text)

['100', '101', '102']

In [75]:
re.findall('[A-Z]+', text)

['J', 'PROF', 'J', 'STUD', 'M', 'STUD']

In [77]:
# [A-Z][a-z] : 첫번째 글자는 대문자, 두번째는 소문자
# [A-Za-z] : 대문자 또는 소문자
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']