In [None]:
import nltk

# 말뭉치 가져오기

In [None]:
nltk.download('book',quiet=True)
from nltk.book import *

In [None]:
nltk.corpus.gutenberg.fileids()

In [None]:
emma_raw = nltk.corpus.gutenberg.raw('austen-emma.txt')
emma_raw[:1000]

# 토큰 생성
- 자연어 문서에서 분석을 위해 긴 문자열을 작은 단위로 나누는 것
- 문장 단위, 단어 단위, 정규표현 식으로 나눌 수 있음

In [None]:
# 문장단위 토큰 생성
from nltk.tokenize import sent_tokenize
print(sent_tokenize(emma_raw[:10000])[1]) #2번째 문장

In [None]:
# 단어단위 토큰 생성
from nltk.tokenize import word_tokenize
print(word_tokenize(emma_raw[50:100]))

In [None]:
# 정규표현 생성
from nltk.tokenize import RegexpTokenizer
retTokenize = RegexpTokenizer("[\w]+")
retTokenize.tokenize(emma_raw[50:100])

# 형태소 분석
- 형태소 : 언어학에서 일정한 의미가 있는 가장 작은 말의 단위
- 보통 자연어 처리에서 토큰을 형태소를 이용
- 형태소 분석 : 단어로부터 어근, 접두사 접미사, 품사 등 다양한 언어적 속성을 파악하고
이를 이용하여 형태소를 찾아내거나 처리하는 작업
- 형태소 분석의 예 
    - 어간 추출 
    - 원형 복원
    - 품사 부착
    

#  어간 추출 
- PorterStemmer, LandcasterStemmer 제공
- 어간 추출은 단순히 어미만 제거함

In [None]:
from nltk.stem import PorterStemmer, LancasterStemmer

st1 = PorterStemmer()
st2 = LancasterStemmer()

words = ['fly','files','flying','flew','flown']
print("Porter stemmer:",[st1.stem(w) for w in words])
print("LancasterStemmer:",[st2.stem(w) for w in words])

In [None]:
list1 = []
for w in words:
    list1.append(st1.stem(w))
print(list1)

In [None]:
list2=[st1.stem(w) for w in words]
print(list1)

# 원형복원
- 같은 의미를 가지는 여러 단어를 사전형으로 통일하는 작업

In [None]:
from nltk.stem import WordNetLemmatizer
nltk.download('omw-1.4')

In [None]:
lm=WordNetLemmatizer()
[lm.lemmatize(w,'v') for w in words]

# 품사부착
- 품사는 낱말을 문법적인 기능이나 형태, 듯에 따라 구분한 것
- 품사의 예
    - NNP : 단순고유명사
    - VB : 동사
    - VBP : 동사현재형
    - NN : 명사
    - DT : 관형사

In [None]:
from nltk.tag import pos_tag
sentence='Emma refused to permit us to obtain the redfuse permit'
tagged_list = pos_tag(word_tokenize(sentence))
tagged_list

In [None]:
noun_list = [t[0] for t in tagged_list if t[1]=="NN"]
noun_list

In [None]:
list1=[]
for t in tagged_list :
    if t[1]=='NN':
        list1.append(t[0])
    else :
        list1.append('_')
list1

In [None]:
noun_list1=[t[0] if t[1]=='NN' else '-' for t in tagged_list]
noun_list1

In [None]:
from nltk.tag import untag
untag_list = untag(tagged_list)
untag_list

# Text 클래스
- 문서 분석에 유용한 메소드 제공

In [None]:
from nltk import Text
text = Text(retTokenize.tokenize(emma_raw))
print(text)

In [None]:
import matplotlib.pyplot as plt
text.plot(10)
plt.show()

In [None]:
text.dispersion_plot(['Emma','Knightley','Frank','Jane','Harriet','Robert'])

In [None]:
#concordance : 단어가 사용된 위치를 직접 표시하ㅁ, 문맥의 정보를 보여줌

In [None]:
text.concordance('Emma') 

In [None]:
# similar : 같은 문맥에서 주어진 단어 대신 사용된 회수가 높은 단어를 찾아줌

In [None]:
text.similar("Emma")

In [None]:
text.common_contexts('Jane','her')

# FreqDist
- 문서에 사용된 단어(토큰)의 사용빈도 정보를 담는 클래스
- vocab() 메소드로 추출

In [None]:
fd = text.vocab()
type(fd)

In [None]:
from nltk import FreqDist
stopwords= ['Mr','Mr.s','Miss','Mr','Mrs','Dear','A','No','Ah','Oh']
emma_token = pos_tag(retTokenize.tokenize(emma_raw))
name_list=[t[0] for t in emma_token if t[1]=='NNP' and t[0] not in stopwords] 

In [None]:
name_list

In [None]:
fd_name = FreqDist(name_list)
fd_name

In [None]:
print(fd_name.N()) # 전체 단어의 수 
print(fd_name['Emma']) # 주어진 단어에 해당하는 빈도수
print(fd_name.freq('Emma')) # 단어의 출현 확률

In [None]:
fd_name.most_common(10) # 발생빈도 높은 10가지

In [None]:
! pip install pillow --upgrade

# pip install wordcloud

In [None]:
from wordcloud import WordCloud
from PIL import Image
import numpy as np

In [None]:
im = Image.open('data/img.png')
mask_arr=np.array(im)

In [None]:
wc=WordCloud(width=1000, height=800, background_color='white', random_state=0,mask=mask_arr)
plt.imshow(wc.generate_from_frequencies(fd_name))
plt.axis('off')
plt.savefig('data/wc.png')
plt.show()