## 한국어 형태소 분석기 사용하기

In [21]:
import pandas as pd

from konlpy.tag import Okt, Kkma, Hannanum, Komoran

In [2]:
okt = Okt()
kkma = Kkma()

In [9]:
rating_df = pd.read_csv('./data/ratings_train.csv')

In [12]:
select_str = rating_df['document'].sample(1)
select_str

4838    왜 8점대를 못찍는건지 모르겠다 아쉽다...난 괜찮았는데...
Name: document, dtype: object

In [22]:
print('OKT 형태소 분석 :',okt.morphs(select_str.loc[4838]))
print('꼬꼬마 형태소 분석 :',kkma.morphs(select_str.loc[4838]))

OKT 형태소 분석 : ['왜', '8', '점', '대', '를', '못', '찍는', '건지', '모르겠다', '아쉽다', '...', '난', '괜찮았는데', '...']
꼬꼬마 형태소 분석 : ['왜', '8', '점', '대', '를', '못', '찍', '는', '것', '이', 'ㄴ지', '모르', '겠', '다', '아쉽', '다', '...', '나', '는', '괜찮', '았', '는데', '...']


In [23]:
print('OKT 품사 태깅 :',okt.pos(select_str.loc[4838]))
print('꼬꼬마 품사 태깅 :',kkma.pos(select_str.loc[4838]))

OKT 품사 태깅 : [('왜', 'Noun'), ('8', 'Number'), ('점', 'Noun'), ('대', 'Suffix'), ('를', 'Josa'), ('못', 'VerbPrefix'), ('찍는', 'Verb'), ('건지', 'Verb'), ('모르겠다', 'Verb'), ('아쉽다', 'Adjective'), ('...', 'Punctuation'), ('난', 'Noun'), ('괜찮았는데', 'Adjective'), ('...', 'Punctuation')]
꼬꼬마 품사 태깅 : [('왜', 'MAG'), ('8', 'NR'), ('점', 'NNM'), ('대', 'NNG'), ('를', 'JKO'), ('못', 'MAG'), ('찍', 'VV'), ('는', 'ETD'), ('것', 'NNB'), ('이', 'VCP'), ('ㄴ지', 'ECS'), ('모르', 'VV'), ('겠', 'EPT'), ('다', 'ECS'), ('아쉽', 'VA'), ('다', 'ECS'), ('...', 'SE'), ('나', 'NP'), ('는', 'JX'), ('괜찮', 'VA'), ('았', 'EPT'), ('는데', 'ECD'), ('...', 'SE')]


In [24]:
print('OKT 명사 추출 :',okt.nouns(select_str.loc[4838])) 
print('꼬꼬마 명사 추출 :',kkma.nouns(select_str.loc[4838]))  

OKT 명사 추출 : ['왜', '점', '난']
꼬꼬마 명사 추출 : ['8', '8점대', '점', '대', '나']


### 불용어 적용하기

In [26]:
# 결과 값에서 제외하기
word_tokens = kkma.morphs(select_str.loc[4838])
stop_words = '를'
result = [word for word in word_tokens if not word in stop_words]
result

['왜',
 '8',
 '점',
 '대',
 '못',
 '찍',
 '는',
 '것',
 '이',
 'ㄴ지',
 '모르',
 '겠',
 '다',
 '아쉽',
 '다',
 '...',
 '나',
 '는',
 '괜찮',
 '았',
 '는데',
 '...']

### 사용자 사전 추가하기

In [27]:
!pip install customized_konlpy

[0mCollecting customized_konlpy
  Downloading customized_konlpy-0.0.64-py3-none-any.whl (881 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m881.5/881.5 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Installing collected packages: customized_konlpy
Successfully installed customized_konlpy-0.0.64
[0m

In [29]:
from ckonlpy.tag import Twitter
twitter = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [30]:
twitter.morphs(select_str.loc[4838])

['왜',
 '8',
 '점',
 '대',
 '를',
 '못',
 '찍는',
 '건지',
 '모르겠다',
 '아쉽다',
 '...',
 '난',
 '괜찮았는데',
 '...']

In [31]:
twitter.add_dictionary('8점대', 'Noun')

In [32]:
twitter.morphs(select_str.loc[4838])

['왜', '8점대', '를', '못', '찍는', '건지', '모르겠다', '아쉽다', '...', '난', '괜찮았는데', '...']

## 영어 형태소 분석기 사용하기

##### 영어 데이터 불러오기

In [34]:
import nltk
nltk.download("book", quiet=True)
from nltk.book import *

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


In [35]:
nltk.corpus.gutenberg.fileids()

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

In [38]:
txt_raw = nltk.corpus.gutenberg.raw("shakespeare-hamlet.txt")
print(txt_raw[200:500])

fe

   Bar. Long liue the King

   Fran. Barnardo?
  Bar. He

   Fran. You come most carefully vpon your houre

   Bar. 'Tis now strook twelue, get thee to bed Francisco

   Fran. For this releefe much thankes: 'Tis bitter cold,
And I am sicke at heart

   Barn. Haue you had quiet Guard?
  Fran. Not


##### 문장 분리하기

In [40]:
from nltk.tokenize import sent_tokenize
print(sent_tokenize(txt_raw[:500])[3:10])

['Barnardo.', "Who's there?", 'Fran.', 'Nay answer me: Stand & vnfold\nyour selfe\n\n   Bar.', 'Long liue the King\n\n   Fran.', 'Barnardo?', 'Bar.']


##### 단어 분리하기

In [42]:
from nltk.tokenize import word_tokenize
word_tokenize(txt_raw[:500])[:10]

['[',
 'The',
 'Tragedie',
 'of',
 'Hamlet',
 'by',
 'William',
 'Shakespeare',
 '1599',
 ']']

In [44]:
from nltk.tokenize import RegexpTokenizer
retokenize = RegexpTokenizer("[\w]+")
retokenize.tokenize(txt_raw[:500])[:10]

['The',
 'Tragedie',
 'of',
 'Hamlet',
 'by',
 'William',
 'Shakespeare',
 '1599',
 'Actus',
 'Primus']

## 형태소 분석  

#### 어간 추출(stemming)
- 변화된 단어의 접미사나 어미를 제거하여 같은 의미를 가지는 형태소의 기본형을 찾는 방법

In [45]:
from nltk.stem import PorterStemmer, LancasterStemmer

st1 = PorterStemmer()
st2 =  LancasterStemmer()

words = ["fly", "flies", "flying", "flew", "flown"]

print("Porter Stemmer   :", [st1.stem(w) for w in words])
print("Lancaster Stemmer:", [st2.stem(w) for w in words])

Porter Stemmer   : ['fli', 'fli', 'fli', 'flew', 'flown']
Lancaster Stemmer: ['fly', 'fli', 'fly', 'flew', 'flown']


#### 원형 복원(lemmatizing) 
- 같은 의미를 가지는 여러 단어를 사전형으로 통일하는 작업

In [46]:
from nltk.stem import WordNetLemmatizer

lm = WordNetLemmatizer()

[lm.lemmatize(w, pos="v") for w in words]

['fly', 'fly', 'fly', 'fly', 'fly']

#### 품사 부착(Part-Of-Speech)

NNP: 단수 고유명사  
VB: 동사  
VBP: 동사 현재형  
TO: to 전치사  
NN: 명사(단수형 혹은 집합형)  
DT: 관형사  

In [47]:
from nltk.tag import pos_tag
sentence = "Emma refused to permit us to obtain the refuse permit"
tagged_list = pos_tag(word_tokenize(sentence))
tagged_list

[('Emma', 'NNP'),
 ('refused', 'VBD'),
 ('to', 'TO'),
 ('permit', 'VB'),
 ('us', 'PRP'),
 ('to', 'TO'),
 ('obtain', 'VB'),
 ('the', 'DT'),
 ('refuse', 'NN'),
 ('permit', 'NN')]

In [48]:
nouns_list = [t[0] for t in tagged_list if t[1] == "NN"]
nouns_list

['refuse', 'permit']

In [49]:
from nltk.tag import untag
untag(tagged_list)

['Emma',
 'refused',
 'to',
 'permit',
 'us',
 'to',
 'obtain',
 'the',
 'refuse',
 'permit']

## 한국어와 영어를 같이 사용하는 경우

In [58]:
kor = select_str.loc[4838]
eng = sentence
kor, eng

('왜 8점대를 못찍는건지 모르겠다 아쉽다...난 괜찮았는데...',
 'Emma refused to permit us to obtain the refuse permit')

In [59]:
kor_eng = kor + " " + eng
kor_eng

'왜 8점대를 못찍는건지 모르겠다 아쉽다...난 괜찮았는데... Emma refused to permit us to obtain the refuse permit'

In [60]:
kor_rs = twitter.morphs(kor_eng)
eng_rs = word_tokenize(kor_eng)
print(f"한글 결과입니다. {kor_rs}")
print(f"영어 결과입니다. {eng_rs}") # 기본적으로 영어는 ' ' 으로 나눠질 수 있다.

한글 결과입니다. ['왜', '8점대', '를', '못', '찍는', '건지', '모르겠다', '아쉽다', '...', '난', '괜찮았는데', '...', 'Emma', 'refused', 'to', 'permit', 'us', 'to', 'obtain', 'the', 'refuse', 'permit']
영어 결과입니다. ['왜', '8점대를', '못찍는건지', '모르겠다', '아쉽다', '...', '난', '괜찮았는데', '...', 'Emma', 'refused', 'to', 'permit', 'us', 'to', 'obtain', 'the', 'refuse', 'permit']
