In [1]:
!pip install nltk



In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [4]:
contents = 'English is a West Germanic language of the Indo-European language family, originally spoken by the inhabitants of early medieval England.'

In [5]:
# tokenization - 말뭉치(특징을 가진 것들)
print('토큰화1:', word_tokenize(contents))

토큰화1: ['English', 'is', 'a', 'West', 'Germanic', 'language', 'of', 'the', 'Indo-European', 'language', 'family', ',', 'originally', 'spoken', 'by', 'the', 'inhabitants', 'of', 'early', 'medieval', 'England', '.']


In [6]:
# 더 세분화됨.(punctuation 구별)
print('토큰화2:', WordPunctTokenizer().tokenize(contents))

토큰화2: ['English', 'is', 'a', 'West', 'Germanic', 'language', 'of', 'the', 'Indo', '-', 'European', 'language', 'family', ',', 'originally', 'spoken', 'by', 'the', 'inhabitants', 'of', 'early', 'medieval', 'England', '.']


In [7]:
# 소문자 + 기호 없이
print('토큰화3:', text_to_word_sequence(contents))

토큰화3: ['english', 'is', 'a', 'west', 'germanic', 'language', 'of', 'the', 'indo', 'european', 'language', 'family', 'originally', 'spoken', 'by', 'the', 'inhabitants', 'of', 'early', 'medieval', 'england']


In [8]:
# 어떤 토큰화를 사용하냐에 따라서 사용하는 데이터가 달라짐.

### 영문, 한글 토큰화

In [9]:
# 품사 태깅
from nltk.tag import pos_tag 
nltk.download('averaged_perceptron_tagger')

tokenized = word_tokenize(contents)

print('토큰화4:', tokenized)

토큰화4: ['English', 'is', 'a', 'West', 'Germanic', 'language', 'of', 'the', 'Indo-European', 'language', 'family', ',', 'originally', 'spoken', 'by', 'the', 'inhabitants', 'of', 'early', 'medieval', 'England', '.']


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [10]:
print('품사 태깅:', pos_tag(tokenized))

품사 태깅: [('English', 'NNP'), ('is', 'VBZ'), ('a', 'DT'), ('West', 'NNP'), ('Germanic', 'NNP'), ('language', 'NN'), ('of', 'IN'), ('the', 'DT'), ('Indo-European', 'JJ'), ('language', 'NN'), ('family', 'NN'), (',', ','), ('originally', 'RB'), ('spoken', 'VBN'), ('by', 'IN'), ('the', 'DT'), ('inhabitants', 'NNS'), ('of', 'IN'), ('early', 'JJ'), ('medieval', 'NN'), ('England', 'NNP'), ('.', '.')]


In [11]:
# koNLPY (자연어처리 파이썬 패키지), Okt(open korean text), Mecab, kkma (형태소)
from konlpy.tag import Okt
from konlpy.tag import Kkma

import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('webtext')
nltk.download('taggers')
nltk.download('reuters')

okt = Okt()
kkma = Kkma()

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package webtext to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package webtext is already up-to-date!
[nltk_data] Error loading taggers: Package 'taggers' not found in
[nltk_data]     index
[nltk_data] Downloading package reuters to
[nltk_data]     C:\Users\user\AppData

In [12]:
# 형태소 분석 - 체언(명사, 대명사, 수사), 관형사, 조사, 부사, 감탄사,,,
print('OKT 형태소 분석:', okt.morphs('불용어(Stopword)란 유의미한 가치를 지니지 않는 토큰을 의미한다.'))

OKT 형태소 분석: ['불', '용어', '(', 'Stopword', ')', '란', '유', '의미', '한', '가치', '를', '지니', '지', '않는', '토큰', '을', '의미', '한다', '.']


In [14]:
# 품사 분석
print('OKT 품사 태깅:', okt.pos('불용어(Stopword)란 유의미한 가치를 지니지 않는 토큰을 의미한다.'))

OKT 품사 태깅: [('불', 'Noun'), ('용어', 'Noun'), ('(', 'Punctuation'), ('Stopword', 'Alpha'), (')', 'Punctuation'), ('란', 'Noun'), ('유', 'Noun'), ('의미', 'Noun'), ('한', 'Josa'), ('가치', 'Noun'), ('를', 'Josa'), ('지니', 'Noun'), ('지', 'Josa'), ('않는', 'Verb'), ('토큰', 'Noun'), ('을', 'Josa'), ('의미', 'Noun'), ('한다', 'Verb'), ('.', 'Punctuation')]


In [15]:
# 명사 추출
print('OKT 명사 추출:', okt.nouns('불용어(Stopword)란 유의미한 가치를 지니지 않는 토큰을 의미한다.'))

OKT 명사 추출: ['불', '용어', '란', '유', '의미', '가치', '지니', '토큰', '의미']


In [16]:
print('KKMA 형태소 분석:', kkma.morphs('불용어(Stopword)란 유의미한 가치를 지니지 않는 토큰을 의미한다.'))
print('KKMA 품사 태깅:', kkma.pos('불용어(Stopword)란 유의미한 가치를 지니지 않는 토큰을 의미한다.'))
print('KKMA 명사 추출:', kkma.nouns('불용어(Stopword)란 유의미한 가치를 지니지 않는 토큰을 의미한다.'))

KKMA 형태소 분석: ['불', '용어', '(', 'Stopword', ')', '이', '란', '유의미', '하', 'ㄴ', '가치', '를', '지니', '지', '않', '는', '토큰', '을', '의미', '하', 'ㄴ다', '.']
KKMA 품사 태깅: [('불', 'NNG'), ('용어', 'NNG'), ('(', 'SS'), ('Stopword', 'OL'), (')', 'SS'), ('이', 'VCP'), ('란', 'ETD'), ('유의미', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('가치', 'NNG'), ('를', 'JKO'), ('지니', 'VV'), ('지', 'ECD'), ('않', 'VXV'), ('는', 'ETD'), ('토큰', 'NNG'), ('을', 'JKO'), ('의미', 'NNG'), ('하', 'XSV'), ('ㄴ다', 'EFN'), ('.', 'SF')]
KKMA 명사 추출: ['불', '불용어', '용어', '유의미', '가치', '토큰', '의미']
