In [None]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [None]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('stopwords')

In [None]:
sample_sentence = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

In [None]:
print(f'단어 토큰화1 : {word_tokenize(sample_sentence)}')

In [None]:
print(f'단어 토큰화2 : {WordPunctTokenizer().tokenize(sample_sentence)}')

In [None]:
print(f'단어 토큰화3 : {text_to_word_sequence(sample_sentence)}')

In [None]:
from nltk.tokenize import sent_tokenize
text1 = '''His barber kept his word. But keeping such a huge secret to himself was driving him crazy.
  Finally, the barber went up a mountain and almost to the edge of a cliff.
  He dug a hole in the midst of some reeds. He looked about, to make sure no one was near.'''
print(f'문장 토큰화1 : {sent_tokenize(text1)}')

In [None]:
text2 = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print(f'문장 토큰화2 : {sent_tokenize(text2)}')

In [None]:
!pip install kss

In [None]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print(f'한국어 문장 토큰화 : {kss.split_sentences(text)}')

In [None]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print(f'단어 토큰화 : {tokenized_sentence}')
print(f'품사 태깅 : {pos_tag(tokenized_sentence)}')

In [None]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

sample_sentence = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"

print(f'OKT 형태소 분석 : {okt.morphs(sample_sentence)}')
print(f'OKT 품사 태깅 : {okt.pos(sample_sentence)}')
print(f'OKT 명사 추출 : {okt.nouns(sample_sentence)}')

In [None]:
print(f'꼬꼬마 형태소 분석 : {kkma.morphs(sample_sentence)}')
print(f'꼬꼬마 품사 태깅 : {kkma.pos(sample_sentence)}')
print(f'꼬꼬마 명사 추출 : {kkma.nouns(sample_sentence)}')

In [None]:
import konlpy.tag
dir(konlpy.tag)

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

In [None]:
print(f'표제어 추출 전 : {words}')
print(f'표제어 추출 후 : {[lemmatizer.lemmatize(word) for word in words]}')

In [None]:
print(lemmatizer.lemmatize('dies', 'v'))
print(lemmatizer.lemmatize('watched', 'v'))
print(lemmatizer.lemmatize('has', 'v'))

In [None]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sample_sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized = word_tokenize(sample_sentence)

print(f'어간 추출 전 : {tokenized}')
print(f'어간 추출 후 : {[stemmer.stem(word) for word in tokenized]}')

In [None]:
words = ['formalize', 'allowance', 'electricical']

print(f'어간 추출 전 : {words}')
print(f'어간 추출 후 : {[stemmer.stem(word) for word in words]}')

In [None]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print(f'어간 추출 전 : {words}')
print(f'포터 스테머의 어간 추출 후: {[porter_stemmer.stem(w) for w in words]}')
print(f'랭커스터 스테머의 어간 추출 후: {[lancaster_stemmer.stem(w) for w in words]}')

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 
from konlpy.tag import Okt

In [None]:
stop_words_list = stopwords.words('english')
print(f'불용어 개수 : {len(stop_words_list)}')
print(f'불용어 10개 출력 : {stop_words_list[:10]}')

In [None]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for word in word_tokens: 
    if word not in stop_words: 
        result.append(word) 

print(f'불용어 제거 전 : {word_tokens}') 
print(f'불용어 제거 후 : {result}')

In [None]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [None]:
raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [None]:
sentences = sent_tokenize(raw_text)
print(sentences)

In [None]:
vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = word_tokenize(sentence)
    result = []

    for word in tokenized_sentence: 
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄인다.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거한다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거한다.
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1
    preprocessed_sentences.append(result) 
print(preprocessed_sentences)

In [None]:
print(vocab)

In [None]:
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print(vocab_sorted)

In [None]:
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 빈도수가 작은 단어는 제외.
        i = i + 1
        word_to_index[word] = i

print(word_to_index)

In [None]:
vocab_size = 5

# 인덱스가 5 초과인 단어만 추출
words_frequency = [word for word, index in word_to_index.items() if index >= vocab_size + 1]

# 추출된 단어에 대한 인덱스 정보를 삭제
for w in words_frequency:
    del word_to_index[w]
print(word_to_index)

In [None]:
word_to_index['OOV'] = len(word_to_index) + 1
print(word_to_index)

In [None]:
encoded_sentences = []
for sentence in preprocessed_sentences:
    encoded_sentence = []
    for word in sentence:
        try:
            # 단어 집합에 있는 단어라면 해당 단어의 정수를 리턴.
            encoded_sentence.append(word_to_index[word])
        except KeyError:
            # 만약 단어 집합에 없는 단어라면 'OOV'의 정수를 리턴.
            encoded_sentence.append(word_to_index['OOV'])
    encoded_sentences.append(encoded_sentence)
print(encoded_sentences)

In [None]:
from collections import Counter

In [None]:
print(preprocessed_sentences)

In [None]:
import numpy as np
words = np.hstack(preprocessed_sentences)
print(words, type(words))

In [None]:
all_words_list = sum(preprocessed_sentences, [])
print(all_words_list)

In [None]:
vocab = Counter(words)
print(vocab)

In [None]:
vocab = Counter(all_words_list)
print(vocab)

In [None]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

In [None]:
word_to_index = {}
i = 0
for word, frequency in vocab:
    i = i + 1
    word_to_index[word] = i

print(word_to_index)

In [None]:
from nltk import FreqDist
import numpy as np

In [None]:
vocab = FreqDist(np.hstack(preprocessed_sentences))
vocab

In [None]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
print(vocab)

In [None]:
word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)
print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(preprocessed_sentences))

In [None]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용
tokenizer.fit_on_texts(preprocessed_sentences)

print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(preprocessed_sentences))

In [None]:
# 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
tokenizer.fit_on_texts(preprocessed_sentences)
print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))
print(tokenizer.texts_to_sequences(preprocessed_sentences))

In [None]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

In [None]:
max_len = max(len(item) for item in encoded)
print(f'최대 길이 : {max_len}')

In [None]:
for sentence in encoded:
    while len(sentence) < max_len:
        sentence.append(0)

padded_np = np.array(encoded)
padded_np

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

In [None]:
padded = pad_sequences(encoded)
padded

In [None]:
padded = pad_sequences(encoded, padding='post')
padded

In [None]:
(padded == padded_np).all()

In [None]:
padded = pad_sequences(encoded, padding='post', maxlen=5)
padded

In [None]:
padded = pad_sequences(encoded, padding='post', truncating='post', maxlen=5)
padded

In [85]:
from konlpy.tag import Okt  

sample_sentence = "나는 자연어 처리를 배운다"

okt = Okt()  
tokens = okt.morphs(sample_sentence)  
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


In [88]:
word_to_index = {word : index for index, word in enumerate(tokens)}
print(f'단어 집합 : {word_to_index}')

단어 집합 : {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [89]:
def one_hot_encoding(word, word_to_index):
  one_hot_vector = [0]*(len(word_to_index))
  index = word_to_index[word]
  one_hot_vector[index] = 1
  return one_hot_vector

In [90]:
one_hot_encoding("자연어", word_to_index)

[0, 0, 1, 0, 0, 0]

In [92]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print(f'단어 집합 : {tokenizer.word_index}')

단어 집합 : {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [93]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [94]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


In [95]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [96]:
X, y = zip(['a', 1], ['b', 2], ['c', 3])
print(f'X 데이터 : {X}')
print(f'y 데이터 : {y}')

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


In [97]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [99]:
X = df['메일 본문']
y = df['스팸 메일 유무']
print(X.to_list())
print(y.to_list())

['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
[1, 0, 0, 1]


In [100]:
np_array = np.arange(0,16).reshape((4,4))
print(np_array)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [102]:
X = np_array[:, :3]
y = np_array[:, 3]
print(X, y)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]] [ 3  7 11 15]


In [119]:
X, y = np.arange(10).reshape((5, 2)), range(5)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print(X_train)
print(X_test)

[[8 9]
 [2 3]
 [6 7]
 [4 5]]
[[0 1]]


In [120]:
X, y = np.arange(0,24).reshape((12,2)), range(12)
num_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
num_of_test = int(len(X) - num_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print(num_of_train, num_of_test)

9 3


In [122]:
# !pip install git+https://github.com/haven-jeon/PyKoSpacing.git
!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /private/var/folders/g9/yt9sks6d6jv692tdz2x24ztc0000gn/T/pip-req-build-mhb0ildg
  Running command git clone --filter=blob:none --quiet https://github.com/ssut/py-hanspell.git /private/var/folders/g9/yt9sks6d6jv692tdz2x24ztc0000gn/T/pip-req-build-mhb0ildg
  Resolved https://github.com/ssut/py-hanspell.git to commit 8e993cf46f97f9d665c15633a0fc78ac1b727713
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25ldone
[?25h  Created wheel for py-hanspell: filename=py_hanspell-1.1-py3-none-any.whl size=4838 sha256=9efe89f297ebd2c67ca4f60e1c399fc957ddf7ac2771f86f8502498312a914bb
  Stored in directory: /private/var/folders/g9/yt9sks6d6jv692tdz2x24ztc0000gn/T/pip-ephem-wheel-cache-v4a8ek89/wheels/2e/43/cc/753c9e1d91affb9ea40e186cea5654fb9231deb454da6724e5
Successfully built py-hanspell
Insta

In [123]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지


In [125]:
!pip install soynlp

Collecting soynlp
  Downloading soynlp-0.0.493-py3-none-any.whl (416 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m416.8/416.8 kB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493


In [126]:
import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor
urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt", filename="2016-10-20.txt")

('2016-10-20.txt', <http.client.HTTPMessage at 0x7fcedd268340>)

In [127]:
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus)

30091

In [128]:
i = 0
for document in corpus:
  if len(document) > 0:
    print(document)
    i = i+1
  if i == 3:
    break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

In [129]:
word_extractor = WordExtractor()
word_extractor.train(corpus)
word_score_table = word_extractor.extract()

training was done. used memory 1.057 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


In [130]:
word_score_table["반포한"].cohesion_forward

0.08838002913645132

In [131]:
word_score_table["반포한강"].cohesion_forward

0.19841268168224552

In [132]:
word_score_table["반포한강공"].cohesion_forward

0.2972877884078849

In [133]:
word_score_table["반포한강공원"].cohesion_forward

0.37891487632839754

In [134]:
word_score_table["반포한강공원에"].cohesion_forward

0.33492963377557666

In [135]:
word_score_table["디스"].right_branching_entropy

1.6371694761537934

In [136]:
word_score_table["디스플"].right_branching_entropy

-0.0

In [137]:
word_score_table["디스플레"].right_branching_entropy

-0.0

In [138]:
word_score_table["디스플레이"].right_branching_entropy

3.1400392861792916

In [139]:
from soynlp.tokenizer import LTokenizer

scores = {word:score.cohesion_forward for word, score in word_score_table.items()}
l_tokenizer = LTokenizer(scores=scores)
l_tokenizer.tokenize("국제사회와 우리의 노력들로 범죄를 척결하자", flatten=False)

[('국제사회', '와'), ('우리', '의'), ('노력', '들로'), ('범죄', '를'), ('척결', '하자')]

In [140]:
from soynlp.tokenizer import MaxScoreTokenizer

maxscore_tokenizer = MaxScoreTokenizer(scores=scores)
maxscore_tokenizer.tokenize("국제사회와우리의노력들로범죄를척결하자")

['국제사회', '와', '우리', '의', '노력', '들로', '범죄', '를', '척결', '하자']

In [141]:
from soynlp.normalizer import *
print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ


In [142]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


In [143]:
!pip install customized_konlpy

Collecting customized_konlpy
  Downloading customized_konlpy-0.0.64-py3-none-any.whl (881 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m881.5/881.5 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: customized_konlpy
Successfully installed customized_konlpy-0.0.64


In [146]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['은', '경이', '는', '사무실', '로', '갔습니다', '.']

In [147]:
twitter.add_dictionary('은경이', 'Noun')

In [148]:
twitter.morphs('은경이는 사무실로 갔습니다.')

['은경이', '는', '사무실', '로', '갔습니다', '.']