#### 【 자연어 처리용 형태소분석 - NLTK 】
- 단어/어휘사전 추출
    * 정제
    * 토큰화
    * 불용어/구두점
    * 어근추출 => 표제어/어간추출
    

[1] 모듈 로딩 및 데이터 준비 <hr>

In [2]:
## [1-1] 모듈 로딩
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
from string import punctuation
from nltk.tag import pos_tag
from nltk.stem import WordNetLemmatizer, PorterStemmer

from collections import Counter

In [3]:
## [1-2] 데이터 준비
DATA_FILE = '../Data/Louis_Jean_Joseph.txt'

In [4]:
## [1-3] 데이터 로딩
with open(DATA_FILE, mode='r') as f:
    allData = f.read()

print(f'allData => {len(allData)}개')
print(f'allData => {allData[:100]}')

allData => 11101개
allData => Louis Jean Joseph Leblanc (born January 26, 1991) is a Canadian former professional ice hockey playe


[2] 텍스트 데이터 전처리 <hr>
- 기본 정제 :  구두점, 언어별 불용어
- 토큰화 진행 => 토큰 기반 정제 필요할 수 있음!
- 어근/원형 변환 => 어간추출/표제어추출
- 영어 경우 대소문자 일치

In [None]:
## =========================================================================
## 품사태깅작업 : 정확하게 형태소 분리 위해서 진행 => 토큰 단위로 진행
## =========================================================================
text = allData[:100]

tk_pos = pos_tag( word_tokenize(text) , tagset='universal' )

tkList = []
for tk, pos in tk_pos:
    if pos in ['NOUN', 'VERB']:
        tkList.append(tk)

print("선택된 태그 : ", tkList)

Louis
Jean
Joseph
Leblanc
born
January
is
professional
ice
hockey
playe


In [None]:
text = allData.lower()

tokens = word_tokenize(text)
print(len(tokens))
print(tokens[:20])

tokens = [t for t in tokens if t not in punctuation]

stop_words = set(stopwords.words("english"))
tokens = [t for t in tokens if t not in stop_words]

tk_pos = pos_tag( tokens , tagset='universal' )

tokens = [tk for tk, pos in tk_pos if pos in ['NOUN', 'VERB']]

lemmatizer = WordNetLemmatizer()

tokens = [lemmatizer.lemmatize(t) for t in tokens]

stemmer = PorterStemmer()
stem_tokens = [stemmer.stem(t) for t in tokens]

tokens

2248
['louis', 'jean', 'joseph', 'leblanc', '(', 'born', 'january', '26', ',', '1991', ')', 'is', 'a', 'canadian', 'former', 'professional', 'ice', 'hockey', 'player', '.']


['jean',
 'joseph',
 'leblanc',
 'born',
 'professional',
 'ice',
 'hockey',
 'player',
 'centre',
 'leblanc',
 'played',
 'region',
 'moved',
 'state',
 'playing',
 'season',
 'omaha',
 'lancer',
 'state',
 'hockey',
 'becoming',
 'rookie',
 'year',
 'entry',
 'draft',
 'selected',
 'montreal',
 'canadiens',
 'enrolled',
 'university',
 'spent',
 'season',
 'crimson',
 'named',
 'league',
 'rookie',
 'year',
 'signed',
 'contract',
 'canadiens',
 'year',
 'leblanc',
 'joined',
 'junior',
 'acquired',
 'junior',
 'hockey',
 'league',
 'qmjhl',
 'playing',
 'right',
 'leblanc',
 'spent',
 'season',
 'canadiens',
 'organization',
 'playing',
 'hockey',
 'league',
 'ahl',
 'affiliate',
 'appearing',
 'hockey',
 'league',
 'game',
 'season',
 'traded',
 'anaheim',
 'duck',
 'kept',
 'leblanc',
 'moved',
 'joining',
 'hc',
 'slovan',
 'bratislava',
 'hockey',
 'league',
 'khl',
 'game',
 'released',
 'appearing',
 'game',
 'league',
 'retired',
 'leblanc',
 'ivan',
 'hlinka',
 'tournament',

In [None]:
## 교수님 코드 다운받기