In [2]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [3]:
contents = "Apple's line of iPhone 13s, released in autumn 2021, sell for between $700 and $1,100."

In [5]:
print("토큰화1:", word_tokenize(contents))

토큰화1: ['Apple', "'s", 'line', 'of', 'iPhone', '13s', ',', 'released', 'in', 'autumn', '2021', ',', 'sell', 'for', 'between', '$', '700', 'and', '$', '1,100', '.']


In [6]:
print("토큰화2:", WordPunctTokenizer().tokenize(contents))

토큰화2: ['Apple', "'", 's', 'line', 'of', 'iPhone', '13s', ',', 'released', 'in', 'autumn', '2021', ',', 'sell', 'for', 'between', '$', '700', 'and', '$', '1', ',', '100', '.']


In [7]:
print("토큰화3:", text_to_word_sequence(contents))

토큰화3: ["apple's", 'line', 'of', 'iphone', '13s', 'released', 'in', 'autumn', '2021', 'sell', 'for', 'between', '700', 'and', '1', '100']


### 영문, 한글 토큰화

In [9]:
from nltk.tag import pos_tag

tokenized = word_tokenize(contents)

print("토큰화4:", tokenized)

토큰화4: ['Apple', "'s", 'line', 'of', 'iPhone', '13s', ',', 'released', 'in', 'autumn', '2021', ',', 'sell', 'for', 'between', '$', '700', 'and', '$', '1,100', '.']


In [10]:
print("품사 태깅:", pos_tag(tokenized))

품사 태깅: [('Apple', 'NNP'), ("'s", 'POS'), ('line', 'NN'), ('of', 'IN'), ('iPhone', 'NN'), ('13s', 'CD'), (',', ','), ('released', 'VBN'), ('in', 'IN'), ('autumn', 'NN'), ('2021', 'CD'), (',', ','), ('sell', 'VB'), ('for', 'IN'), ('between', 'IN'), ('$', '$'), ('700', 'CD'), ('and', 'CC'), ('$', '$'), ('1,100', 'CD'), ('.', '.')]


In [11]:
# KoNLPY (자연어 파이썬 패키지), Okt, Mecab, kkma 
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

In [13]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('webtext')
nltk.download('taggers')
nltk.download('reuters')


[nltk_data] Downloading package punkt to /Users/dowonlee/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/dowonlee/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/dowonlee/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/dowonlee/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     /Users/dowonlee/nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Error loading taggers: Package 'taggers' not found in
[nltk_data]     index
[nltk_data] Downloading package reuters to
[nltk_data]     /Users/dowonlee/nltk_data...
[nltk_data]   Package reuters is already up-to-date!


True

In [15]:
print("OKT 형태소 분석:", okt.morphs("오늘은 Python과 함께 사용하는 JAVA의 올바른 설치법과 Konlpy 라이브러리 사용 중 나타나는 JvmNotFoundException 에러 해결법에 대해 알아보겠습니다."))

OKT 형태소 분석: ['오늘', '은', 'Python', '과', '함께', '사용', '하는', 'JAVA', '의', '올바른', '설치', '법', '과', 'Konlpy', '라이브러리', '사용', '중', '나타나는', 'JvmNotFoundException', '에러', '해결', '법', '에', '대해', '알아보겠습니다', '.']


In [17]:
print("OKT 품사 태깅:", okt.pos("오늘은 Python과 함께 사용하는 JAVA의 올바른 설치법과 Konlpy 라이브러리 사용 중 나타나는 JvmNotFoundException 에러 해결법에 대해 알아보겠습니다."))

OKT 품사 태깅: [('오늘', 'Noun'), ('은', 'Josa'), ('Python', 'Alpha'), ('과', 'Noun'), ('함께', 'Adverb'), ('사용', 'Noun'), ('하는', 'Verb'), ('JAVA', 'Alpha'), ('의', 'Noun'), ('올바른', 'Adjective'), ('설치', 'Noun'), ('법', 'Noun'), ('과', 'Josa'), ('Konlpy', 'Alpha'), ('라이브러리', 'Noun'), ('사용', 'Noun'), ('중', 'Noun'), ('나타나는', 'Verb'), ('JvmNotFoundException', 'Alpha'), ('에러', 'Noun'), ('해결', 'Noun'), ('법', 'Noun'), ('에', 'Josa'), ('대해', 'Noun'), ('알아보겠습니다', 'Verb'), ('.', 'Punctuation')]


In [18]:
print("OKT 명사 추출:", okt.nouns("오늘은 Python과 함께 사용하는 JAVA의 올바른 설치법과 Konlpy 라이브러리 사용 중 나타나는 JvmNotFoundException 에러 해결법에 대해 알아보겠습니다."))

OKT 명사 추출: ['오늘', '과', '사용', '의', '설치', '법', '라이브러리', '사용', '중', '에러', '해결', '법', '대해']


In [20]:
print("KKMA 형태소 분석:", kkma.morphs("오늘은 Python과 함께 사용하는 JAVA의 올바른 설치법과 Konlpy 라이브러리 사용 중 나타나는 JvmNotFoundException 에러 해결법에 대해 알아보겠습니다."))
print("KKMA 품사 태깅:", kkma.pos("오늘은 Python과 함께 사용하는 JAVA의 올바른 설치법과 Konlpy 라이브러리 사용 중 나타나는 JvmNotFoundException 에러 해결법에 대해 알아보겠습니다."))
print("KKMA 명사 추출:", kkma.nouns("오늘은 Python과 함께 사용하는 JAVA의 올바른 설치법과 Konlpy 라이브러리 사용 중 나타나는 JvmNotFoundException 에러 해결법에 대해 알아보겠습니다."))

KKMA 형태소 분석: ['오늘', '은', 'Python', '과', '함께', '사용', '하', '는', 'JAVA', '의', '올바르', 'ㄴ', '설치법', '과', 'Konlpy', '라이브러리', '사용', '중', '나타나', '는', 'JvmNotFoundException', '에러', '해결', '법', '에', '대하', '어', '알아보', '겠', '습니다', '.']
KKMA 품사 태깅: [('오늘', 'NNG'), ('은', 'JX'), ('Python', 'OL'), ('과', 'JKM'), ('함께', 'MAG'), ('사용', 'NNG'), ('하', 'XSV'), ('는', 'ETD'), ('JAVA', 'OL'), ('의', 'JKG'), ('올바르', 'VA'), ('ㄴ', 'ETD'), ('설치법', 'NNG'), ('과', 'JC'), ('Konlpy', 'OL'), ('라이브러리', 'NNG'), ('사용', 'NNG'), ('중', 'NNB'), ('나타나', 'VV'), ('는', 'ETD'), ('JvmNotFoundException', 'OL'), ('에러', 'NNG'), ('해결', 'NNG'), ('법', 'NNG'), ('에', 'JKM'), ('대하', 'VV'), ('어', 'ECS'), ('알아보', 'VV'), ('겠', 'EPT'), ('습니다', 'EFN'), ('.', 'SF')]
KKMA 명사 추출: ['오늘', '사용', '설치법', '라이브러리', '중', '에러', '해결', '해결법', '법']
