In [2]:
import nltk

# 말뭉치 가져오기

In [4]:
nltk.download('book',quiet=True)
from nltk.book import *

In [6]:
nltk.corpus.gutenberg.fileids

<bound method CorpusReader.fileids of <PlaintextCorpusReader in 'C:\\Users\\admin\\AppData\\Roaming\\nltk_data\\corpora\\gutenberg'>>

In [10]:
emma_raw=nltk.corpus.gutenberg.raw('austen-emma.txt')
emma_raw[:50]

'[Emma by Jane Austen 1816]\n\nVOLUME I\n\nCHAPTER I\n\n\n'

# 토큰 생성
- 자연어 문서에서 분석을 위해 긴 문자열을 작은 단위로 나누는 것
- 문장 단위, 단어 단위, 정규표현식으로 나눌 수 있음.

In [16]:
# 문장단위 토큰 생성
from nltk.tokenize import sent_tokenize
print(sent_tokenize(emma_raw[:10000])[1])

She was the youngest of the two daughters of a most affectionate,
indulgent father; and had, in consequence of her sister's marriage,
been mistress of his house from a very early period.


In [19]:
# 단어 단위 토큰생상
from nltk.tokenize import word_tokenize
print(word_tokenize(emma_raw[50:100]))

['Emma', 'Woodhouse', ',', 'handsome', ',', 'clever', ',', 'and', 'rich', ',', 'with', 'a']


In [22]:
#정규표현식 토큰생성
from nltk.tokenize import RegexpTokenizer
retTokenize =RegexpTokenizer("[\w]+")
retTokenize.tokenize(emma_raw[50:100])

['Emma', 'Woodhouse', 'handsome', 'clever', 'and', 'rich', 'with', 'a']

# 형태소 분석
- 형태소 : 언어학에서 일정한 의미가 있는 가장 작은 말의 단위
- 보통 자연어 처리에서 토큰으로 형태소를 이용
- 형태소 분석 : 단어로부터 어근, 접두사, 접미사, 품사 등 다양한 언어적 속성을 파악하고
이를 이용하여 형태소를 찾아내거나 처리하는 작업
- 형태소 분석의 예
    - 어간 추출
    - 원형 복원
    - 품사 부착

# 어간 추출
- PorterStemmer, LancasterStemmer 제공
- 어간추출은 단순히 어미만 제거함

In [27]:
from nltk.stem import PorterStemmer, LancasterStemmer

st1=PorterStemmer()
st2=LancasterStemmer()

words=['fly','files','flying','fles', 'flown']
print("Porter Stemmer : ", [st1.stem(w) for w in words])
print("Lancaster Stemmer:",[st2.stem(w) for w in words])

Porter Stemmer :  ['fli', 'file', 'fli', 'fle', 'flown']
Lancaster Stemmer: ['fly', 'fil', 'fly', 'fle', 'flown']


In [29]:
list1=[]
for w in words:
    list1.append(st1.stem(w))
print(list1)

['fli', 'file', 'fli', 'fle', 'flown']


In [31]:
list2=[st1.stem(w) for w in words]
print(list2)

['fli', 'file', 'fli', 'fle', 'flown']


# 원형복원
- 같은 의미를 가지는 여러 단어를 사전형으로 통일하는 작업

In [33]:
from nltk.stem import WordNetLemmatizer
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [34]:
lm = WordNetLemmatizer()
[lm.lemmatize(w,'v') for w in words]

['fly', 'file', 'fly', 'fles', 'fly']

# 품사부착
- 품사는 낱말을 문법적인 기능이나 형태, 뜻에 따라 구분한 것
- 품사의 예
    - NNP : 단순고유명사
    - VB : 동사
    - VBP : 동사현재형
    - NN : 명사
    - DT : 관형사

In [35]:
from nltk.tag import pos_tag
sentence = 'Emma refused to permit us to obtain the refuse permit'
tagged_list = pos_tag(word_tokenize(sentence))
tagged_list

[('Emma', 'NNP'),
 ('refused', 'VBD'),
 ('to', 'TO'),
 ('permit', 'VB'),
 ('us', 'PRP'),
 ('to', 'TO'),
 ('obtain', 'VB'),
 ('the', 'DT'),
 ('refuse', 'NN'),
 ('permit', 'NN')]

In [37]:
nltk.help.upenn_tagset('NNP')

NNP: noun, proper, singular
    Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
    Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
    Shannon A.K.C. Meltex Liverpool ...


In [44]:
noun_list=[t[0] for t in tagged_list if t[1]=="NN"]
noun_list

['refuse', 'permit']

In [45]:
nonu_list1=[t[0] if t[1] == 'NN' else '-' for t in tagged_list]
nonu_list1

['-', '-', '-', '-', '-', '-', '-', '-', 'refuse', 'permit']

In [43]:
list1=[]
for t in tagged_list:
    if t[1] == 'NN':
        list1.append(t[0])
    else:
        list1.append('_')

list1

['_', '_', '_', '_', '_', '_', '_', '_', 'refuse', 'permit']

In [46]:
from nltk.tag import untag
untag_list=untag(tagged_list)
untag_list

['Emma',
 'refused',
 'to',
 'permit',
 'us',
 'to',
 'obtain',
 'the',
 'refuse',
 'permit']