In [15]:
from konlpy.tag import Okt
from konlpy.tag import Hannanum
from konlpy.tag import Kkma

from collections import Counter

In [12]:
tagger = Okt()
text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
print(tagger.morphs(text))

print(tagger.pos(text))
print(tagger.nouns(text))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
['코딩', '당신', '연휴', '여행']


In [13]:
tagger = Hannanum()
text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
print(tagger.morphs(text))

print(tagger.pos(text))
print(tagger.nouns(text))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에는', '여행', '을', '가', '아', '보', '아']
[('열심히', 'M'), ('코딩', 'N'), ('하', 'X'), ('ㄴ', 'E'), ('당신', 'N'), (',', 'S'), ('연휴', 'N'), ('에는', 'J'), ('여행', 'N'), ('을', 'J'), ('가', 'P'), ('아', 'E'), ('보', 'P'), ('아', 'E')]
['코딩', '당신', '연휴', '여행']


In [14]:
tagger = Kkma()
text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
print(tagger.morphs(text))

print(tagger.pos(text))
print(tagger.nouns(text))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
['코딩', '당신', '연휴', '여행']


### 정제와 정규화

In [17]:
tagger = Hannanum()
text = "대한민국은 민주공화국이다. 대한민국의 주권은 국민에게 있고, 국민은 그 대표자나 국민투표에 의하여 주권을 행사한다."
result = tagger.morphs(text)

c = Counter(result)
print(c.most_common(5))

[('은', 3), ('대한민국', 2), ('.', 2), ('주권', 2), ('국민', 2)]


### 불용어 제거

In [18]:
stop_words = ["은", ".", "이", "다", "의", "에게", "있", "고", "그", "에", "어", "을", "하", "ㄴ다", ","]
result = [x for x in result if x not in stop_words]

In [19]:
result

['대한민국',
 '민주공화국',
 '대한민국',
 '주권',
 '국민',
 '국민',
 '대표자',
 '나',
 '국민투표',
 '의하',
 '주권',
 '행사']

## 어근 동일화

In [20]:
from konlpy.tag import Okt
tagger = Okt()
text = "한글 자연어 처리는 재밌다. 이제부터 열심히 해야지."

print(tagger.morphs(text))
print(tagger.morphs(text, stem=True))

['한글', '자연어', '처리', '는', '재밌다', '.', '이제', '부터', '열심히', '해야지', '.']
['한글', '자연어', '처리', '는', '재밌다', '.', '이제', '부터', '열심히', '하다', '.']


### 어간 추출_전처리 코드

In [21]:
from konlpy.tag import Okt

document = "봄과 함께 찾아온 따뜻한 신제품 소식"
tagger = Okt()

words = tagger.pos(document, stem= True)

clean_words = []
for word in words:
    if word[1] in ["Noun", "Verb", "Adjective"]:
        clean_words.append(word[0])
print(clean_words)

['봄', '찾아오다', '따뜻하다', '신제품', '소식']


#### 명사만 추출

In [None]:
clean_words = tagger.nouns(document) #명사 추출
print(clean_words)

## 정규표현식

In [23]:
from konlpy.tag import Okt
import re

# 분석할 텍스트 읽어오기
with open("./Data/news.txt", "r", encoding="utf-8") as f:
    content = f.read()

# 불필요한 심볼 없애기
p = re.compile("[\Wa-zA-Z0-9_]+")
content = re.sub(p, " ", content)

# 형태소 분석 및 단어 추출
tagger = Okt()
morphs = tagger.pos(content)
print(morphs)

[('독서', 'Noun'), ('의', 'Josa'), ('위기', 'Noun'), ('출판', 'Noun'), ('계', 'Suffix'), ('의', 'Josa'), ('불황', 'Noun'), ('얘기', 'Noun'), ('가', 'Josa'), ('나온', 'Verb'), ('지', 'Verb'), ('오래', 'Adverb'), ('됐지만', 'Verb'), ('사정', 'Noun'), ('이', 'Josa'), ('나아졌다는', 'Verb'), ('소식', 'Noun'), ('은', 'Josa'), ('들리지', 'Verb'), ('않는다', 'Verb'), ('요즘', 'Noun'), ('종이', 'Noun'), ('책', 'Noun'), ('은', 'Josa'), ('만', 'Modifier'), ('권', 'Noun'), ('정도', 'Noun'), ('만', 'Josa'), ('팔리면', 'Verb'), ('베스트셀러', 'Noun'), ('목록', 'Noun'), ('에', 'Josa'), ('오른다고', 'Verb'), ('한다', 'Verb'), ('하지만', 'Conjunction'), ('이', 'Noun'), ('와는', 'Josa'), ('분위기', 'Noun'), ('가', 'Josa'), ('사뭇', 'Noun'), ('다른', 'Noun'), ('곳', 'Noun'), ('이', 'Josa'), ('있다', 'Adjective'), ('스마트폰', 'Noun'), ('이나', 'Josa'), ('로', 'Noun'), ('읽는', 'Verb'), ('웹', 'Noun'), ('소설', 'Noun'), ('이다', 'Josa'), ('인기', 'Noun'), ('웹', 'Noun'), ('소설', 'Noun'), ('은', 'Josa'), ('독자', 'Noun'), ('수가', 'Noun'), ('백만', 'Noun'), ('명', 'Suffix'), ('을', 'Josa'), ('가볍게', 'Adjective'), ('