## 1. 텍스트 토큰화

In [4]:
import spacy

nlp = spacy.load('en_core_web_sm') # 그냥 'en' 오류
text = "Mary, don't slap the green witch."
print([str(token) for token in nlp(text.lower())])

['mary', ',', 'do', "n't", 'slap', 'the', 'green', 'witch', '.']


In [1]:
from nltk.tokenize import TweetTokenizer

tweet = u"Snow White and the Seven Degrees #MakeAMovieCold@midnight:-)"
tokenizer = TweetTokenizer()
print(tokenizer.tokenize(tweet.lower()))

['snow', 'white', 'and', 'the', 'seven', 'degrees', '#makeamoviecold', '@midnight', ':-)']


## 2. n-그램

In [2]:
def n_grams(text,n):
    return [text[i:i+n] for i in range(len(text)-n+1)]

cleaned = ['mary', ',', "n't", 'slap', 'green', 'witch', '.']
print(n_grams(cleaned, 3))

[['mary', ',', "n't"], [',', "n't", 'slap'], ["n't", 'slap', 'green'], ['slap', 'green', 'witch'], ['green', 'witch', '.']]


## 3. 표제어와 어간

In [4]:
# 표제어 추출 (lemmatization)

import spacy

nlp = spacy.load('en_core_web_sm')
doc = nlp(u"he was running late")
for token in doc:  # 레마 = 표제어 = 기본형
    print("{} --> {}".format(token, token.lemma_))

he --> he
was --> be
running --> run
late --> late


"벡터 표현의 차원을 줄이는 방법"
- 1) Lemmatization (표제어 추출) : 'geese'-->'goose'
    - spaCy --> WordNet 사전 이용
- 2) Stemming (어간 추출) : 'geese'-->'gees'
    - Porter, Snowball 어간 추출기 이용

## 4. 문장과 문서 분류하기 
- 토픽 레이블 할당, 리뷰 감성 예측, 스팸 이메일 필터링, 언어 식별, 이메일 분류

## 5. 단어 분류하기: 품사 태깅

In [5]:
doc = nlp(u"Mary slapped the green witch.")
for token in doc:
    print("{} - {}".format(token, token.pos_))

Mary - PROPN
slapped - VERB
the - DET
green - PROPN
witch - NOUN
. - PUNCT


## 6. 청크 나누기와 개체명 인식

In [6]:
# 부분 구문 분석 (shallow parsing)
for chunk in doc.noun_chunks:
    print("{} - {}".format(chunk, chunk.label_))

Mary - NP
the green witch - NP


## 7. 문장 구조
- 구문 분석 (parsing) : 구 사이의 관계 파악
    - 구성 구문 분석 (costituent parsing)
    - 의존 구문 분석 (dependency parsing)

## 8. 단어 의미와 의미론
- WordNet: 프린스턴 대학의 장기간 어휘 사전 프로젝트
- NLP에서의 첫 준지도 학습(semi-supervised learning): 텍스트에서 단어 의미를 자동으로 찾는 일