# KoNLPy 패키지 테스트
* 한나눔(Hannanum), 꼬꼬마(Kkma), 코모란(Komoran),Okt(Open Korea Text)

## Komoran

In [1]:
from konlpy.tag import Komoran
komoran = Komoran()
print(komoran.nouns("게시글이 apple 좋았다면 Dr Hong 쿄쿄쿄 공감을 눌러주세요!!"))

print(komoran.nouns("This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed."))

print(komoran.morphs("아버지가 방에 들어가신다"))
print(komoran.pos('아버지가 방에 들어가신다'))

print(komoran.pos('아버지가방에들어가신다'))

['게시', '글', '공감']
[]
['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('시', 'EP'), ('ㄴ다', 'EC')]
[('아버지', 'NNG'), ('가방', 'NNP'), ('에', 'JKB'), ('들어가', 'VV'), ('시', 'EP'), ('ㄴ다', 'EC')]


## Okt

In [2]:
from konlpy.tag import Okt
okt = Okt()
print(okt.nouns("게시글이 좋았다면 공감을 눌러주세요!!"))

print(okt.pos('아버지가 방에 들어가신다'))
print(okt.pos('아버지가방에들어가신다'))

['게시', '글', '공감']
[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]
[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]


## Kkoma

In [3]:
from konlpy.tag import Kkma
kkma = Kkma()
print(kkma.nouns("게시글이 좋았다면 공감을 눌러주세요!!"))

print(kkma.pos('아버지가 방에 들어가신다'))
print(kkma.pos('아버지가방에들어가신다'))

['게시', '게시글', '글', '공감', '주세']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]
[('아버지', 'NNG'), ('가방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN')]


# 전처리

## 단어 토큰화(tokenization)

In [4]:
# re[a-zA-Z].split(' ')

In [5]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from keras.preprocessing.text import text_to_word_sequence

In [6]:
print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [7]:
print(' keras :',text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

 keras : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [8]:
print(' keras :',text_to_word_sequence("나는 밥을 먹는다."))

 keras : ['나는', '밥을', '먹는다']


## 문장 토큰화(Sentence Tokenization)
* 구두점(.)으로 자른다

In [9]:
from nltk.tokenize import sent_tokenize

text = "Since I'm actively looking. for Ph.D. Mr. students. I get the same question a dozen times every year."
sent_tokenize(text)

["Since I'm actively looking.",
 'for Ph.D. Mr. students.',
 'I get the same question a dozen times every year.']

In [10]:
from nltk.tokenize import sent_tokenize

text = "IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 aaa@gmail.com로 결과 좀. 보내줘. 그 후 점심 먹으러 가자."
sent_tokenize(text)

['IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 aaa@gmail.com로 결과 좀.',
 '보내줘.',
 '그 후 점심 먹으러 가자.']

## 한국어 전용 띄어쓰기 

In [11]:
# ! pip install kss

In [12]:
# import kss
# text = '딥러닝 자연어처리가재미있기는 합니다. 이제 해보면 알걸요?'
# print('한국어 문장 토큰화 :',kss.split_sentences(text))

## 어간 & 표제어 추출
<pre>
Stemming
am → am
the going → the go
having → hav

Lemmatization
am → be
the going → the going
having → have

어간(stem) : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분. 때론 어간의 모양도 바뀔 수 있음(예: 긋다, 긋고, 그어서, 그어라).

어미(ending): 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분이며, 여러 문법적 기능을 수행

## 불용어(Stopword)
* 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들
* ./dataset/ko_stopword_dict.txt

In [14]:
from nltk.tokenize import word_tokenize 
from nltk.corpus import stopwords
stop_words_list = stopwords.words('english')  #--------nltk
print('불용어 개수 :', len(stop_words_list))
print('불용어 10개 출력 :',stop_words_list[:10])

불용어 개수 : 179
불용어 10개 출력 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [53]:
import pandas as pd
import numpy as np
df = pd.read_csv("./dataset/ko_stopword_dict.txt")
df['stop'].values[:5]

array(['아', '휴', '아이구', '아이쿠', '아이고'], dtype=object)

# mecab (은전한닢)

In [13]:
from konlpy.tag import Mecab
mecab = Mecab(r"C:\\mecab\\mecab-ko-dic")
res = mecab.pos('아버지가방에들어가신다')
print(res)

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('신다', 'EP+EC')]


In [52]:
import re
# from konlpy.tag import Okt
from konlpy.tag import Mecab
import pandas as pd
import numpy as np
from nltk.tokenize import sent_tokenize

def my_stopword(text,tokenizer):    
    #stopwords = ['이번','에','을', '를', '이', '가', '은', '는']
    df = pd.read_csv("./dataset/ko_stopword_dict.txt") #------ 기본 header=None
    list1 = df['stop'].values.tolist()
    
    list2 = ['게','한','은', '갖', '고', '있']                           #------ 추가본
    stopwords = list1 + list2
    
    txt = re.sub('[^가-힣a-z]', ' ', text)
    # token = tokenizer.morphs(txt)
    mecab_morphs = mecab.morphs(txt)
    token = [t for t in mecab_morphs if t not in stopwords]
    return token

# tokenizer = Okt()
mecab = Mecab(r"C:\\mecab\\mecab-ko-dic")


text_list = ["이번에 새롭게 개봉한 영화의 배우들은 모두 훌륭한 연기력과 아름다운 목소리를 갖고 있어!!",
             "나는 그 전처리를 아주 많이 베우고 있다. 그래서 나는 기분이 좋다",
             "어제의 최상현은 정말 잘생겼다고 생각하지 않는다."]
print( len(text_list))

for text in text_list:
    for sent in sent_tokenize(text):
        res= my_stopword(sent,mecab)
        print(text, '\n', sent)
        print("품사 태깅:", res)
        print("단어토근화:",mecab.nouns(sent))
    print("----"*20)

3
이번에 새롭게 개봉한 영화의 배우들은 모두 훌륭한 연기력과 아름다운 목소리를 갖고 있어!! 
 이번에 새롭게 개봉한 영화의 배우들은 모두 훌륭한 연기력과 아름다운 목소리를 갖고 있어!
품사 태깅: ['새롭', '개봉', '영화', '배우', '훌륭', '연기력', '아름다운', '목소리']
단어토근화: ['이번', '개봉', '영화', '배우', '연기력', '목소리']
이번에 새롭게 개봉한 영화의 배우들은 모두 훌륭한 연기력과 아름다운 목소리를 갖고 있어!! 
 !
품사 태깅: []
단어토근화: []
--------------------------------------------------------------------------------
나는 그 전처리를 아주 많이 베우고 있다. 그래서 나는 기분이 좋다 
 나는 그 전처리를 아주 많이 베우고 있다.
품사 태깅: ['는', '전처리', '아주', '많이', '베', '우', '다']
단어토근화: ['나', '전처리']
나는 그 전처리를 아주 많이 베우고 있다. 그래서 나는 기분이 좋다 
 그래서 나는 기분이 좋다
품사 태깅: ['는', '기분', '좋', '다']
단어토근화: ['나', '기분']
--------------------------------------------------------------------------------
어제의 최상현은 정말 잘생겼다고 생각하지 않는다. 
 어제의 최상현은 정말 잘생겼다고 생각하지 않는다.
품사 태깅: ['어제', '최상현', '정말', '잘', '생겼', '다고', '생각', '지', '않', '는다']
단어토근화: ['어제', '최상현', '생각']
--------------------------------------------------------------------------------


# [실습] 식수예측(중식메뉴) 
* 중식메뉴 + (워드클라우드)

In [None]:
 & 정제(cleaning) & 정규화(normalization)