In [16]:
import nltk

nltk.download('punkt')
nltk.download('webtext')
nltk.download('wordnet')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

## 문장 토큰화
▪ 주어진 텍스트를 문장으로 나누고 싶을 때 사용. 실제 사용 빈도는 낮은 편.
▪ 분석 단위를 문장으로 해야 할 필요가 있을 때 먼저 문장으로 나누고, 각 문장에 대해
이후 분석을 수행
▪ NLTK의 sent_tokenize() 사용

In [17]:
from nltk.tokenize import sent_tokenize
para = "Hello everyone. It's good to see you. Let's start our text mining class!"
print(sent_tokenize(para))

['Hello everyone.', "It's good to see you.", "Let's start our text mining class!"]


## 단어 토큰화
▪ 일반적으로 토큰화는 단어 토큰화를 의미하며, 텍스트를 단어 단위로 분리하는 작업
▪ 문장 토큰화 없이 문서 전체에 바로 단어 토큰화 사용이 가능
▪ NLTK의 word_tokenize() 사용

In [18]:
from nltk.tokenize import word_tokenize
para = "Hello everyone. It's good to see you. Let's start our text mining class!"
print(word_tokenize(para))

['Hello', 'everyone', '.', 'It', "'s", 'good', 'to', 'see', 'you', '.', 'Let', "'s", 'start', 'our', 'text', 'mining', 'class', '!']


## 정규표현식
▪ regex 혹은 regexp라고 줄여서 표현되며, 문자열에 대해 원하는 검색 패턴을 지정하는 방법
▪ 파이썬 라이브러리 re를 통해 지원하며, 상세 내용은 https://regexr.com/,
https://wikidocs.net/4308 를 참조

In [19]:
import re
# 둘째 인수인 문자열에서 a, b, c 중 하나라도 일치하는 문자를 가져옴
re.findall("[abc]", "How are you, boy?")
# 숫자를 검색
re.findall("[0123456789]", "3a7b5c9d")

['3', '7', '5', '9']

## 정규표현식을 이용한 간편한 토큰화
▪ 문자, 숫자, 언더바(_), 아포스트로피(＇)로 이루어지고 공백이 포함되지 않으며 3자 이상인
단어로 텍스트를 토큰화 → 일반적으로 사용되는 규칙
▪ 이 외에 본인에게 필요한 조건을 추가할 수 있음

In [20]:
from nltk.tokenize import RegexpTokenizer

text1 = "Sorry, I can't go there."
# 문자, 숫자, 언더바(_), 아포스트로피(＇)로 이루어진 3자 이상의 단어로 토크나이즈
tokenizer = RegexpTokenizer("[\w']{3,}")
print(tokenizer.tokenize(text1.lower())) # 소문자로 바꾸고 정규식 적용

['sorry', "can't", 'there']


In [23]:
from nltk.corpus import stopwords # NLTK 제공 불용어 사전

# 영어 불용어만 가져와서 set을 이용해 중복을 제거
english_stops = set(stopwords.words('english'))
text1 = "Sorry, I couldn't go to movie yesterday."
tokens = word_tokenize(text1.lower())
# stopwords를 제외한 단어들만으로 list를 생성
tokens = [word for word in tokens if word not in english_stops]
print(tokens)
# 자신만의 불용어 사전 생성
my_stops = ['could', 'n\'t']
tokens = [word for word in tokens if word not in my_stops]
print(tokens)

['sorry', ',', 'could', "n't", 'go', 'movie', 'yesterday', '.']
['sorry', ',', 'go', 'movie', 'yesterday', '.']


## 어간추출 (STEMMING)
## 포터 스테머
▪ 마틴 포터가 작성한 스테밍 알고리즘으로 영어 분야에서 사실상의 표준임
▪ 어간 추출은 사전을 사용하지 않고 규칙에 따라 어간을 추출함
▪ 추출한 어간은 사전에 없는 단어가 될 수 있으나, 컴퓨터 입장에서는 중요하지 않음

## 표제어 추출(LEMMATIZATION)
◆ 표제어 추출
▪ 주어진 단어를 사전에 정의된 기본형으로 변환
▪ 어간 추출과 달리 사전이 필요하며, 의미적 관점의 기본형을 찾는 작업
▪ WordNetLemmatizer가 잘 알려져 있음

In [25]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize('cooking'), lemmatizer.lemmatize('cooking', pos='v'))
print(lemmatizer.lemmatize('cookery'), lemmatizer.lemmatize('cookbooks'))

cooking cook
cookery cookbook


## NLTK를 이용한 품사 태깅
◆ nltk.pos_tag()
▪ 토큰화된 결과에 대해 품사를 태깅해 (단어, 품사)로 구성된 튜플의 리스트로 품사 태깅 결과를 반환

In [27]:
import nltk
from nltk.tokenize import word_tokenize
tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!")
print(nltk.pos_tag(tokens)) # 토큰 리스트를 입력으로 받을 수 있음

[('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s", 'VBZ'), ('good', 'JJ'), ('to', 'TO'), ('see', 'VB'), ('you', 'PRP'), ('.', '.'), ('Let', 'VB'), ("'s", 'POS'), ('start', 'VB'), ('our', 'PRP$'), ('text', 'NN'), ('mining', 'NN'), ('class', 'NN'), ('!', '.')]


## 품사 태깅의 활용
◆ 원하는 품사의 단어들만 추출
▪ 아래와 같이 특정 품사에 해당하는 단어만 추출해서 사용이 가능

In [28]:
my_tag_set = ['NN', 'VB', 'JJ']
my_words = [word for word, tag in nltk.pos_tag(tokens) if tag in my_tag_set]
print(my_words)

['everyone', 'good', 'see', 'Let', 'start', 'text', 'mining', 'class']


◆ 단어에 품사 정보를 추가해 구분
▪ 아래와 같이 join()을 이용해 단어와 품사를 결합함으로써, 단어에 대한 품사정보를
추가할 수 있음

In [30]:
words_with_tag = ['/'.join(item) for item in nltk.pos_tag(tokens)]
print(words_with_tag)

['Hello/NNP', 'everyone/NN', './.', 'It/PRP', "'s/VBZ", 'good/JJ', 'to/TO', 'see/VB', 'you/PRP', './.', 'Let/VB', "'s/POS", 'start/VB', 'our/PRP$', 'text/NN', 'mining/NN', 'class/NN', '!/.']


# KoNLPy

In [2]:
pip install konlpy

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [3]:
# koNLPy에서 Okt(트위터) 형태소 분석기를 import
from konlpy.tag import Okt
t = Okt()
sentence = "절망의 반대가 희망은 아니다."
print(t.morphs(sentence))
print(t.nouns(sentence))
print(t.pos(sentence))

['절망', '의', '반대', '가', '희망', '은', '아니다', '.']
['절망', '반대', '희망']
[('절망', 'Noun'), ('의', 'Josa'), ('반대', 'Noun'), ('가', 'Josa'), ('희망', 'Noun'), ('은', 'Josa'), ('아니다', 'Adjective'), ('.', 'Punctuation')]
