In [13]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

from nltk.corpus import stopwords
from nltk.stem import LancasterStemmer
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
from nltk.tag import pos_tag
from nltk.tokenize import RegexpTokenizer
from nltk.tokenize import TreebankWordTokenizer

import nltk
import re

In [14]:
eng_sentence = 'I was wondering if anyone out there could enlighten me on this car.'

# 길이가 1~2인 단어들은 큰 의미가 없으니 삭제합시다.
shortword = re.compile(r'\W*\b\w{1,2}\b')
data = shortword.sub('', eng_sentence)

print('짧은 단어 삭제:', data)

# 단어만 가지고 토큰화를 해봅시다.
tokenizer = RegexpTokenizer('[\w]+')
eng_sentence = 'Time is an illusion. Lunchtime double so!'
tokens = tokenizer.tokenize(eng_sentence)

print('단어 토큰화 1:', tokens)

eng_sentence = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
tokens = tokenizer.tokenize(eng_sentence)
print('단어 토큰화 2:', tokens)

짧은 단어 삭제:  was wondering anyone out there could enlighten this car.
단어 토큰화 1: ['Time', 'is', 'an', 'illusion', 'Lunchtime', 'double', 'so']
단어 토큰화 2: ['Starting', 'a', 'home', 'based', 'restaurant', 'may', 'be', 'an', 'ideal', 'it', 'doesn', 't', 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own']


In [15]:
tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(eng_sentence)
print('트리뱅크 워드토크나이저 :', tokens)

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


In [16]:
okt = Okt()
kkma = Kkma()

# 이 문장을 적절히 바꾸어보세요
kor_sentence = '열심히 코딩한 당신, 연휴에는 여행을 가봐요'

print('OKT 형태소 분석 :', okt.morphs(kor_sentence))
print('OKT 품사 태깅 :', okt.pos(kor_sentence))
print('OKT 명사 추출 :', okt.nouns(kor_sentence)) 

print('\n꼬꼬마 형태소 분석 :',kkma.morphs(kor_sentence))
print('꼬꼬마 품사 태깅 :',kkma.pos(kor_sentence))
print('꼬꼬마 명사 추출 :',kkma.nouns(kor_sentence))  

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [17]:
nltk.download('averaged_perceptron_tagger')

tokenizer = TreebankWordTokenizer()
tokens = tokenizer.tokenize(eng_sentence)
postag = pos_tag(tokens)

print('트리뱅크 워드토크나이저 : ',tokens)
print('품사 태깅 :',postag)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\nsun5\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


트리뱅크 워드토크나이저 :  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']
품사 태깅 : [('Starting', 'VBG'), ('a', 'DT'), ('home-based', 'JJ'), ('restaurant', 'NN'), ('may', 'MD'), ('be', 'VB'), ('an', 'DT'), ('ideal.', 'NN'), ('it', 'PRP'), ('does', 'VBZ'), ("n't", 'RB'), ('have', 'VB'), ('a', 'DT'), ('food', 'NN'), ('chain', 'NN'), ('or', 'CC'), ('restaurant', 'NN'), ('of', 'IN'), ('their', 'PRP$'), ('own', 'JJ'), ('.', '.')]


In [18]:
nltk.download('wordnet')

lemmatizer = WordNetLemmatizer()
wordlist = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
refined = [lemmatizer.lemmatize(data) for data in wordlist]

print('표제어 추출 전 :', wordlist)
print('표제어 추출 후 :', refined)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\nsun5\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [19]:
stemmer = PorterStemmer()

tokenizer = TreebankWordTokenizer()

rowdata = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

tokens = tokenizer.tokenize(rowdata)

# tokens에서 하나씩 어간 추출
data = [stemmer.stem(data) for data in tokens]

# 결과 출력
print('어간 추출 전 :', tokens)
print('어간 추출 후 :', data)

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [20]:

# 어간 추출 함수 설정
porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

rowdata = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

# rowdata에서 하나씩 어간 추출
porterdata = [porter_stemmer.stem(data) for data in rowdata]
lancasterdata = [lancaster_stemmer.stem(data) for data in rowdata]

# 결과 출력
print('어간 추출 전 :', rowdata)
print('포터 스테머의 어간 추출 후:',porterdata)
print('랭커스터 스테머의 어간 추출 후:',lancasterdata)

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


In [21]:
# stopwords 다운로드
nltk.download('stopwords')

# english 불용어 설정
stop_words_list = stopwords.words('english')

# 불용어 리스트 살펴보기
print('불용어 개수 :', len(stop_words_list))
print('불용어 10개 출력 :',stop_words_list[:10])

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nsun5\AppData\Roaming\nltk_data...


불용어 개수 : 179
불용어 10개 출력 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


[nltk_data]   Unzipping corpora\stopwords.zip.


In [22]:
import nltk
from nltk.tokenize import TreebankWordTokenizer
from nltk.corpus import stopwords
nltk.download('stopwords')

stopwords = stopwords.words('english')
tokenizer = TreebankWordTokenizer()

rowdata = "Family is not an important thing. It's everything."


tokens = tokenizer.tokenize(rowdata)

# tokens에서 하나씩 출력하여 stopwords에 포함되어 있지 않은 단어 추출
data = [data for data in tokens if data not in stopwords]

# 결과 출력
print('불용어 제거 전 :',tokens) 
print('불용어 제거 후 :',data)

불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing.', 'It', "'s", 'everything', '.']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nsun5\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [23]:
from konlpy.tag import Okt

okt = Okt()

#국어시간에 나오는 지문 활용하기
rowdata = "오늘은 날씨가 너무 더운데 이렇게 더운 날이 지속된다면 우리는 모두 타 죽고 말거야"

# 불용어 리스트 설정 띄어쓰기별로 설정 가능 또는 리스트 형태로 제작
stop_words = "은 가 너무 더운데 이렇게 더운 이 된다면 는 모두 타 말거야"

# 띄어쓰기 단위로 불용어 리스트 만들기
stop_words = set(stop_words.split(' '))

# 한글 토큰화
word_tokens = okt.morphs(rowdata)

# 불용어 리스트에 워드 토큰 단어가 들어있지 않다면 data에 포함
data = [word for word in word_tokens if not word in stop_words]

print('불용어 제거 전 :',word_tokens) 
print('불용어 제거 후 :',data)

불용어 제거 전 : ['오늘', '은', '날씨', '가', '너무', '더운데', '이렇게', '더운', '날', '이', '지속', '된다면', '우리', '는', '모두', '타', '죽고', '말거야']
불용어 제거 후 : ['오늘', '날씨', '날', '지속', '우리', '죽고']
