In [14]:
text_en = "NLP makes it possible for machines to understand human language."
text_ko = "자연어처리는 기계가 인간의 언어를 이해하도록 만드는 기술입니다."

In [15]:
# 기본 파이썬 토큰화 (공벡기준)
print("EN (split):", text_en.split())
print("KO (split):", text_ko.split())

EN (split): ['NLP', 'makes', 'it', 'possible', 'for', 'machines', 'to', 'understand', 'human', 'language.']
KO (split): ['자연어처리는', '기계가', '인간의', '언어를', '이해하도록', '만드는', '기술입니다.']


In [16]:
import nltk #토큰화, 형태소 분석, 품사 태깅, 파싱, 의미 분석, 텍스트 분류 등 다양한 NLP 기능을 제공

In [17]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/parkjuyong/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [18]:
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to
[nltk_data]     /Users/parkjuyong/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [19]:
from nltk.tokenize import word_tokenize

In [20]:
print(word_tokenize(text_en))

['NLP', 'makes', 'it', 'possible', 'for', 'machines', 'to', 'understand', 'human', 'language', '.']


In [2]:
from konlpy.tag import Okt

In [3]:
okt = Okt()

In [5]:
print("morphs:", okt.morphs("자연어처리는 정말 재미있고 유용한 분야입니다.")) # 한국어 문장을 형태소 단위로 분리
print("nouns:", okt.nouns("자연어처리는 정말 재미있고 유용한 분야입니다.")) # 문장에서 명사만 추출 (형태소 분석 -> 명사 추출 flow)
print("pos:", okt.pos("자연어처리는 정말 재미있고 유용한 분야입니다.")) # 형태소 단위 + 품사 태깅

morphs: ['자연어', '처리', '는', '정말', '재미있고', '유용한', '분야', '입니다', '.']
nouns: ['자연어', '처리', '정말', '분야']
pos: [('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('정말', 'Noun'), ('재미있고', 'Adjective'), ('유용한', 'Adjective'), ('분야', 'Noun'), ('입니다', 'Adjective'), ('.', 'Punctuation')]


In [8]:
from transformers import AutoTokenizer

In [11]:
tok = AutoTokenizer.from_pretrained("klue/bert-base") # BERT 기반 토크나이저 (한국어용 kule/bert-base)
# WordPiece 토크나이저를 사용 -> 내부적으로 BertTokenizerFast를 불러와서 WordPiece 알고리즘을 적용
# 동작 방식
# 1. 어휘집(모델 학습 시 사용하는 고정 어휘집)불러오기
# 2. 텍스트 전처리(소문자 변환(옵션), 공백 기준으로 먼저 쪼갬, 특수기호, 숫자 등도 분리)
# 3. 단어 → 서브워드(Subword) 분리 (사전에 없는 단어를 처리 하기 위해서(OOV))

In [10]:
print(tok.tokenize("자연어처리는 정말 재미잇고 유용한 분야입니다."))
print(tok.tokenize("Unbelievably strong performance on low-resource task."))

['자연', '##어', '##처리', '##는', '정말', '재미', '##잇', '##고', '유용', '##한', '분야', '##입니다', '.']
['Un', '##be', '##l', '##ie', '##v', '##ab', '##ly', 'st', '##ron', '##g', 'per', '##form', '##ance', 'on', 'l', '##ow', '-', 'res', '##our', '##ce', 't', '##as', '##k', '.']


In [32]:
import spacy

In [35]:
nlp = spacy.load("en_core_web_sm") # 영어 NLP 전처리 + 토큰화, 품사, 개체명 인식 등
doc = nlp("NLP makes it possible for machines to understand human language.")

In [36]:
[(t.text, t.pos_, t.tag_) for t in doc]
# text : spaCy 규칙 기반 토큰화
# pos_ : Universal POS Tag : 언어 불문 공통 품사 태그셋 사용 (태그 수가 적고 범용적)
# tag_ : Language-Specific POS Tag : 언어별 세부적인 품사 태그셋 사용(pos_ 보다 세밀한 구분 가능 → 구문 분석, 의존 구문 트리, 정밀한 NLP 작업에 사용)

[('NLP', 'PROPN', 'NNP'),
 ('makes', 'VERB', 'VBZ'),
 ('it', 'PRON', 'PRP'),
 ('possible', 'ADJ', 'JJ'),
 ('for', 'SCONJ', 'IN'),
 ('machines', 'NOUN', 'NNS'),
 ('to', 'PART', 'TO'),
 ('understand', 'VERB', 'VB'),
 ('human', 'ADJ', 'JJ'),
 ('language', 'NOUN', 'NN'),
 ('.', 'PUNCT', '.')]