# 한글 형태소 분석 및 품사 태깅

<h3>NLTK 사용</h3>

In [None]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

from nltk.tokenize import word_tokenize

In [21]:
sentence = "텍스트 마이닝 공부를 해봅시다. 공부하면서 커피 한 잔 어떠세요?"

In [22]:
# 토큰화

tokens = word_tokenize(sentence)
print(tokens)

['텍스트', '마이닝', '공부를', '해봅시다', '.', '공부하면서', '커피', '한', '잔', '어떠세요', '?']


In [23]:
# 품사 태깅

print(nltk.pos_tag(tokens))

[('텍스트', 'JJ'), ('마이닝', 'NNP'), ('공부를', 'NNP'), ('해봅시다', 'NNP'), ('.', '.'), ('공부하면서', 'VB'), ('커피', 'JJ'), ('한', 'NNP'), ('잔', 'NNP'), ('어떠세요', 'NNP'), ('?', '.')]


<h3>KoNLPy 사용</h3>
<h5>Colab에는 KoNLPy가 없어 KoNLPy를 설치해야한다.</h5>
JDK & JPype1 & KoNLPy 설치명령어


In [None]:
%%bash
apt-get update
apt-get install g++ openjdk-8-jdk python-dev python3-dev
pip3 install JPype1
pip3 install konlpy

환경변수 설정

In [None]:
%env JAVA_HOME "/usr/lib/jvm/java-8-openjdk-amd64"

In [24]:
from konlpy.tag import Okt
t = Okt()

In [26]:
print('형태소 분석:', t.morphs(sentence), '\n')
print('명사 추출:', t.nouns(sentence), '\n')
print('어구 추출:', t.phrases(sentence), '\n')

형태소 분석: ['텍스트', '마', '이닝', '공부', '를', '해봅시다', '.', '공부', '하면서', '커피', '한', '잔', '어떠세요', '?'] 

명사 추출: ['텍스트', '마', '이닝', '공부', '공부', '커피', '잔'] 

어구 추출: ['텍스트', '텍스트 마이닝', '텍스트 마이닝 공부', '공부', '커피', '커피 한 잔', '이닝'] 



In [29]:
print('품사 태깅:', t.pos(sentence), '\n')
print('단어에 품사 정보를 추가하여 토큰화:', t.pos(sentence, join=True), '\n')
print('품사 태깅+정규화:', t.pos(sentence, norm=True), '\n')
print('품사 태깅 결과+정규화+스태밍:', t.pos(sentence, norm=True, stem=True), '\n')

품사 태깅: [('텍스트', 'Noun'), ('마', 'Noun'), ('이닝', 'Noun'), ('공부', 'Noun'), ('를', 'Josa'), ('해봅시다', 'Verb'), ('.', 'Punctuation'), ('공부', 'Noun'), ('하면서', 'Verb'), ('커피', 'Noun'), ('한', 'Verb'), ('잔', 'Noun'), ('어떠세요', 'Adjective'), ('?', 'Punctuation')] 

단어에 품사 정보를 추가하여 토큰화: ['텍스트/Noun', '마/Noun', '이닝/Noun', '공부/Noun', '를/Josa', '해봅시다/Verb', './Punctuation', '공부/Noun', '하면서/Verb', '커피/Noun', '한/Verb', '잔/Noun', '어떠세요/Adjective', '?/Punctuation'] 

품사 태깅+정규화: [('텍스트', 'Noun'), ('마', 'Noun'), ('이닝', 'Noun'), ('공부', 'Noun'), ('를', 'Josa'), ('해봅시다', 'Verb'), ('.', 'Punctuation'), ('공부', 'Noun'), ('하면서', 'Verb'), ('커피', 'Noun'), ('한', 'Verb'), ('잔', 'Noun'), ('어떠세요', 'Adjective'), ('?', 'Punctuation')] 

품사 태깅 결과+정규화+스태밍: [('텍스트', 'Noun'), ('마', 'Noun'), ('이닝', 'Noun'), ('공부', 'Noun'), ('를', 'Josa'), ('해보다', 'Verb'), ('.', 'Punctuation'), ('공부', 'Noun'), ('하다', 'Verb'), ('커피', 'Noun'), ('하다', 'Verb'), ('잔', 'Noun'), ('어떻다', 'Adjective'), ('?', 'Punctuation')] 

