In [1]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."

In [2]:
shortword = re.compile(r'\w*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering  anyone out there could enlighten   this car.


In [4]:
text1 = " 이 경우 fox, dog, car 등 길이가 3인 명사들이 제거 되기시작하므로 사용하고자 하는 데이터에서 해당 방법을 사용해도 되는지에 대한 고민이 필요합니다."
shortword1 = re.compile(r'\w*\b\w{1}\b')
print(shortword1.sub('', text1))

  경우 fox, dog, car  길이가 3인 명사들이 제거 되기시작하므로 사용하고자 하는 데이터에서 해당 방법을 사용해도 되는지에 대한 고민이 필요합니다.


### 2. 어간 추출(Stemming)과 표제어 추출(Lemmatization)

In [5]:
from nltk.stem import WordNetLemmatizer

In [6]:
lenmmatizer = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

In [7]:
print("표제어 추출전: ", words)
print("표제어 추출후: ", [lenmmatizer.lemmatize(word) for word in words])

표제어 추출전:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출후:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


* 표제어 추출은 어간 추출과는 달리 단어의 형태가 적절히 보존되는 양상을 보임
* 그러나, dy 또는 ha와 같은 의미없는 단어 출력
* 표제어 추출기가 본래 단어의 품사정보를 알아야만 정확한 결과를 얻을 수 있기 때문임
* WordNetLemmatizer 입력단어가 동사 품사라는 사실을 알려줄 수 있음

In [8]:
lenmmatizer.lemmatize('dies', 'v')

'die'

In [11]:
print([lenmmatizer.lemmatize(word, 'v') for word in words])

['policy', 'do', 'organization', 'have', 'go', 'love', 'live', 'fly', 'die', 'watch', 'have', 'start']


* 표제어 추출은 품사정보를 보존하지만, 어간추출 결과는 품사정보가 보존되지 않음
* 따라서 어간 추출 결과는 사전에 존재하지 않는 단어일 경우가 많음

In [12]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

In [13]:
stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

In [14]:
tokenized_sentence = word_tokenize(sentence)

In [15]:
print('어간 추출전:', tokenized_sentence)
print('어간 추출후:', [stemmer.stem(word) for word in tokenized_sentence])

어간 추출전: ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출후: ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [16]:
words = ['formalize', 'allowance', 'electricical']

print('어간 추출전:', words)
print('어간 추출후:', [stemmer.stem(word) for word in words])

어간 추출전: ['formalize', 'allowance', 'electricical']
어간 추출후: ['formal', 'allow', 'electric']


* 어간 추출은 정확도가 떨어지지만 속도가 빠른게 장점. 상황에 따라 선택해서 사용해야 함

In [17]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancester_stemmer = LancasterStemmer()

In [18]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

In [19]:
print('어간 추출전:', words)
print('어간 추출후:', [porter_stemmer.stem(word) for word in words])
print('어간 추출후:', [lancester_stemmer.stem(word) for word in words])

어간 추출전: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
어간 추출후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
어간 추출후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


### 3. 불용어(stopwords)

In [20]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

In [22]:
stop_words_list = stopwords.words('english')
print('불용어 개수: ', len(stop_words_list))
print('불용어 10개 출력:', stop_words_list[:10])

불용어 개수:  179
불용어 10개 출력: ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [23]:
### 불용어 제거
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))
word_tokens = word_tokenize(example)

In [24]:
result = []
for word in word_tokens:
    if word not in stop_words:
        result.append(word)
        
print('불용어 제거전: ', word_tokens)
print("불용어 제거후: ", result)

불용어 제거전:  ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거후:  ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


In [25]:
### 한국어 불용어 제거
okt = Okt()
example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

In [26]:
stop_words = set(stop_words.split(' '))
stop_words

{'같은', '게', '고', '구', '구울', '는', '돼', '때', '를', '아무렇게나', '안', '우려'}

In [27]:
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if not word in stop_words]

In [28]:
print("불용어 제거전: ", word_tokens)
print("불용어 제거후: ", result)

불용어 제거전:  ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거후:  ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']


* 한국어 불용어 참고: https://www.ranks.nl/stopwords/korean

In [31]:
file = open('한국어불용어100.txt', 'r', encoding='utf-8')
text = file.read()

In [52]:
stop_words = []
with open('한국어불용어100.txt', 'r', encoding='utf-8') as file: 
    for text in file:
        stop_words.append(text.split('\t')[0])

In [53]:
len(stop_words)

100

In [54]:
result = [word for word in word_tokens if not word in stop_words]

In [56]:
print("불용어 제거전: ", word_tokens)
print("불용어 제거후: ", result)

불용어 제거전:  ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거후:  ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '는', '중요한', '게', '있지', '.']


### 4. 정규표현식

In [57]:
import re

In [58]:
r = re.compile('a.c')  # a와 c 사이에 어떤 1개의 문자도 올 수가 있음 
r.search('kkk')  # 패턴 매치가 되는지 찾아줌

In [59]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [60]:
r = re.compile('ab?c')  # ?앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있는 경우
r.search('abbc')

In [61]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [62]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [64]:
r.search('acc')

<re.Match object; span=(0, 2), match='ac'>

In [65]:
r = re.compile("ab*c")  # *은 바로 앞의 문자가 0개 이상일 경우를 나타냄.. ac, abc, abbc, abbbc
r.search("a")

In [66]:
r.search('ac')

<re.Match object; span=(0, 2), match='ac'>

In [67]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [68]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

In [69]:
r = re.compile("ab+c") # +은 앞의 문자가 최소 1개 이상이어야 함. ..ab+c --> abc, abbc, abbbc...
r.search('ac')

In [70]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [71]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

In [72]:
r = re.compile('^ab')  # ^은 시작되는 문자열을 지정.. ^ab --> ab로 시작하는 문자열과 매치
r.search('bbc')

In [73]:
r.search('zab')

In [74]:
r.search('abz')

<re.Match object; span=(0, 2), match='ab'>

In [75]:
r = re.compile('ab{2}c')  # 문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복
r.search('ac')

In [76]:
r.search('abc')

In [77]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

In [78]:
r.search('abbbbc')

In [79]:
r = re.compile("ab{2,8}c")  # 숫자2 이상 숫자 8 이하만큼 반복
r.search('ac')

In [80]:
r.search('abc')

In [81]:
r.search('abbc')

<re.Match object; span=(0, 4), match='abbc'>

In [83]:
r.search('abbbbbbbbbc')

In [84]:
r = re.compile('a{2,}bc') # 해당문자를 숫자 이상만큼 반복
r.search('bc')

In [85]:
r.search('aabc')

<re.Match object; span=(0, 4), match='aabc'>

In [86]:
r.search('abc')

In [87]:
r = re.compile("[abc]")  # 문자들을 넢으면 그 문자들 중 한개의 문자와 매치라는 의미를 가짐
r.search("zzz")

In [88]:
r.search('a')

<re.Match object; span=(0, 1), match='a'>

In [89]:
r.search('aaaaa')

<re.Match object; span=(0, 1), match='a'>

In [90]:
r.search('bac')

<re.Match object; span=(0, 1), match='b'>

In [91]:
r = re.compile('[a-z]') # 알파벳 소문자 하나만 있어도 가능
r.search('AAA')

In [92]:
r.search('111')

In [93]:
r.search('aBc')

<re.Match object; span=(0, 1), match='a'>

In [94]:
r = re.compile("[^abc]") # ^ 기호뒤에 붙은 문자들을 제외한 모든 문자 매치
r.search('ab')

In [95]:
r.search('abcd')

<re.Match object; span=(3, 4), match='d'>

In [96]:
r.search('b')

In [97]:
r.search('1')

<re.Match object; span=(0, 1), match='1'>

#### 4-1. 정규모현식 모듈 함수 
* re.match() : 문자열의 첫부분부터 정규표현식과 일치한지 확인
* re.search() : 정규표현식 전체에 대해 문자열이 일치하는지 확인

In [98]:
r = re.compile('ab.')
r.match('kkkabc')

In [99]:
r.search('kkkabc') # 중간부터 같아도 상관없음

<re.Match object; span=(3, 6), match='abc'>

In [100]:
r.match('abc') # 첫부분부터 같아야 함

<re.Match object; span=(0, 3), match='abc'>

In [101]:
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

* re.split() : 정규표현식을 기준으로 문자열 분리

In [102]:
text = "사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [103]:
text = """사과
딸기
수박
메론
바나나"""

re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [105]:
text = "사과+딸기+수박+메론+바나나"
re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

* re.findall() : 정규 표현식과 매치되는 모든 문자열을 리스트로 리턴

In [106]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""

re.findall('\d+', text)  # 숫자 한개이상인 것만 뽑기

['010', '1234', '1234', '30']

In [107]:
re.findall("\d+", "문자열입니다.")

[]

* re.sub() :  정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있음
* 주로 정제작업에 많이 사용

In [108]:
text = "Regular expression : A regular expression, regex or \
        regexp[1] (sometimes called a rational expression)[2][3]\
        is, in theoretical computer science and formal language theory,\
        a sequence of characters that define a search pattern."

In [109]:
preprocessing_text = re.sub("[^a-zA-Z]", ' ', text)
print(preprocessing_text)

Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern 


In [113]:
preprocessing_text = re.sub("[^\d+]", ' ', text)
print(preprocessing_text)

                                                           1                                           2  3                                                                                                                        


#### 4-2. 정규 표현식 텍스트 전처리 예제

In [114]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""
text

'100 John    PROF\n101 James   STUD\n102 Mac   STUD'

In [115]:
re.split("\s+", text)  # 공백을 찾아 분리

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [116]:
re.findall('\d+', text)

['100', '101', '102']

In [117]:
text

'100 John    PROF\n101 James   STUD\n102 Mac   STUD'

In [119]:
re.findall('[A-Z]+', text)

['J', 'PROF', 'J', 'STUD', 'M', 'STUD']

In [120]:
re.findall('[A-Z]', text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [121]:
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [122]:
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

#### 4-3. 정규 표현식을 이용한 토큰화
* RegexpTokenizer() : 

In [123]:
from nltk.tokenize import RegexpTokenizer

In [124]:
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"
tokenizer1 = RegexpTokenizer("[\w]+")  # 문자 또는 숫자 1개 이상인 경우 의미
tokenizer2 = RegexpTokenizer("\s+", gaps=True) # 공백으로 분리

In [125]:
print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
