In [1]:
import nltk

In [2]:
# nltk.download()

In [3]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [4]:
contents = "Apple's line of IPhone 13s, released in autumn 2021, sell for between $700 and $1,100"

In [5]:
word_tokenize(contents)

['Apple',
 "'s",
 'line',
 'of',
 'IPhone',
 '13s',
 ',',
 'released',
 'in',
 'autumn',
 '2021',
 ',',
 'sell',
 'for',
 'between',
 '$',
 '700',
 'and',
 '$',
 '1,100']

In [6]:
print("토큰화1 : ", word_tokenize(contents))

토큰화1 :  ['Apple', "'s", 'line', 'of', 'IPhone', '13s', ',', 'released', 'in', 'autumn', '2021', ',', 'sell', 'for', 'between', '$', '700', 'and', '$', '1,100']


In [7]:
print("토큰화2:", WordPunctTokenizer().tokenize(contents))

토큰화2: ['Apple', "'", 's', 'line', 'of', 'IPhone', '13s', ',', 'released', 'in', 'autumn', '2021', ',', 'sell', 'for', 'between', '$', '700', 'and', '$', '1', ',', '100']


In [8]:
print(text_to_word_sequence(contents))

["apple's", 'line', 'of', 'iphone', '13s', 'released', 'in', 'autumn', '2021', 'sell', 'for', 'between', '700', 'and', '1', '100']


## 영문, 한글 토큰화`

In [9]:
from nltk.tag import pos_tag

tokenized = word_tokenize(contents)
print("토큰화4 : ", tokenized)

토큰화4 :  ['Apple', "'s", 'line', 'of', 'IPhone', '13s', ',', 'released', 'in', 'autumn', '2021', ',', 'sell', 'for', 'between', '$', '700', 'and', '$', '1,100']


In [10]:
print("품사 태깅:", pos_tag(tokenized))

품사 태깅: [('Apple', 'NNP'), ("'s", 'POS'), ('line', 'NN'), ('of', 'IN'), ('IPhone', 'NNP'), ('13s', 'CD'), (',', ','), ('released', 'VBN'), ('in', 'IN'), ('autumn', 'NN'), ('2021', 'CD'), (',', ','), ('sell', 'VB'), ('for', 'IN'), ('between', 'IN'), ('$', '$'), ('700', 'CD'), ('and', 'CC'), ('$', '$'), ('1,100', 'CD')]


In [11]:
# KoNLPY, 자연어 파이썬 패키지, Okt, Mecab, kkma (형태소 토큰화 분석)

In [12]:
import konlpy

In [13]:
# !pip install konlpy

In [14]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

In [15]:
print("OKT 형태소 분석 : ", okt.morphs("오늘은 Python의 JVM EXCEPTION에 대해서 알아보았습니다. 쒸바.."))

OKT 형태소 분석 :  ['오늘', '은', 'Python', '의', 'JVM', 'EXCEPTION', '에', '대해', '서', '알아보았습니다', '.', '쒸바', '..']


In [16]:
print("OKT 품사 태깅 : ", okt.pos("오늘은 Python의 JVM EXCEPTION에 대해서 알아보았습니다. 쒸바.."))

OKT 품사 태깅 :  [('오늘', 'Noun'), ('은', 'Josa'), ('Python', 'Alpha'), ('의', 'Noun'), ('JVM', 'Alpha'), ('EXCEPTION', 'Alpha'), ('에', 'Josa'), ('대해', 'Noun'), ('서', 'Josa'), ('알아보았습니다', 'Verb'), ('.', 'Punctuation'), ('쒸바', 'Noun'), ('..', 'Punctuation')]


In [17]:
print("OKT 형태소 분석 : ", okt.nouns("오늘은 Python의 JVM EXCEPTION에 대해서 알아보았습니다. 쒸바.."))

OKT 형태소 분석 :  ['오늘', '의', '대해', '쒸바']


## Cleaning & Normalization
1. 규칙에 기반한 단어들의 통합
2. 대, 소문자의 통합
3. 불필요한 단어를 제거
4. 정규 표현식


## Stemming
어간 추출 - 단어에서 핵심적인 부분만을 추출
## Lemmatization
표제어 -> 주어진 단어의 사전적 어원을 찾는 과정, 기본 사전형 단어
- 단어의 형태소를 분리 : 어간(stem), 접사(affix)

어간(stem) - 어미(ending)