#### n-gram 추출
* n-gram은 n개의 어절이나 음절을 연쇄적으로 분류해 그 빈도를 분석
* n=1일 때는 unigram, n=2일 때는 bigram, n=3일 때는 trigram으로 불림

In [None]:
from nltk import ngrams

sentence = '배움에는 왕도가 없다. 요즘 날씨가 춥다'
bigram = list(ngrams(sentence.split(),2))
print(bigram)

[('배움에는', '왕도가'), ('왕도가', '없다.'), ('없다.', '요즘'), ('요즘', '날씨가'), ('날씨가', '춥다')]


In [None]:
trigram = list(ngrams(sentence.split(),3))
print(trigram)

[('배움에는', '왕도가', '없다.'), ('왕도가', '없다.', '요즘'), ('없다.', '요즘', '날씨가'), ('요즘', '날씨가', '춥다')]


In [None]:
import nltk
nltk.download('punkt')
from textblob import TextBlob

blob = TextBlob(sentence)
blob.ngrams(n=2)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


[WordList(['배움에는', '왕도가']),
 WordList(['왕도가', '없다']),
 WordList(['없다', '요즘']),
 WordList(['요즘', '날씨가']),
 WordList(['날씨가', '춥다'])]

In [1]:
blob.ngrams(n=3)

NameError: ignored

#### PoS(Parts of Speech) 태깅
* PoS는 품사를 의미하며, PoS 태깅은 문장 내에서 단어에 해당하는 각 품사를 태깅

In [None]:
import nltk
nltk.download('punkt')

from nltk import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
words = word_tokenize('행동하는 사람처럼 생각하면 생각하는 사람처럼 행동한다.')
words

['행동하는', '사람처럼', '생각하면', '생각하는', '사람처럼', '행동한다', '.']

In [None]:
nltk.download('averaged_perceptron_tagger')

nltk.pos_tag(words)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[('행동하는', 'JJ'),
 ('사람처럼', 'NNP'),
 ('생각하면', 'NNP'),
 ('생각하는', 'NNP'),
 ('사람처럼', 'NNP'),
 ('행동한다', 'NNP'),
 ('.', '.')]

In [None]:
nltk.pos_tag(word_tokenize("구르는 돌에는 이끼가 끼지 않는다"))
# 품사를 태거로 표시 한국어에서는 크게 의미가 없다. 다 틀리기 때문

[('구르는', 'JJ'), ('돌에는', 'NNP'), ('이끼가', 'NNP'), ('끼지', 'NNP'), ('않는다', 'NN')]

#### 불용어 제거
* 영어의 전치사(on,in), 한국어의 조사(을, 를) 등은 분석에 필요하지 않는 경우가 많음
* 길이가 짧은 단어, 등장 빈도 수가 적은 단어들도 분석에 큰 영향을 주지 않음
* 일반적으로 사용되는 도구들은 해당 단어들을 제거해주지만 완벽하게 제거되지는 않음
* >>사용자가 불용어 사전을 만들어 해당 단어들을 제거하는 것이 좋음<<
* 도구들이 걸러주지 않는 전치사, 조사 등을 불용어 사전을 만들어 불필요한 단어들을 제거

In [None]:
stop_words = '이 가 그'
stop_words = stop_words.split(" ")
stop_words                             # 불용어 사전을 만들기

['이', '가', '그']

In [None]:
sentence='스테이지에서 노래하는 그 가수가 있다.'
sentence = sentence.split()
nouns=[]
for noun in sentence:
  if noun not in stop_words:
    nouns.append(noun)

nouns
# 한국어에서 사용할 때에는 체언 옆에 붙은 불용어를 제거하는 방법을 고안해 보아야 겠다. 근데 어려울 듯 왜냐하면 체언에도 이 가 그 등의 단어가 포함될 수 있기 때문에

['스테이지에서', '노래하는', '가수가', '있다.']

* nltk 패키지의 불용어 리스트에는 한국어가 없다

In [None]:
import nltk
nltk.download('stopwords')

from nltk import word_tokenize
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
stop_words = stopwords.words('korean')
print(stop_words)

OSError: ignored

#### 철자교정 
* autocorrect 패키지의 Speller함수는 한국어 교정이 안된다.
* 한국어 철자교정 함수 ==> https://github.com/ssut/py-hanspell

#### 언어의 단수화와 복수화

In [None]:
from textblob import TextBlob
words ='사과들 바나나들 오렌지들'
tb = TextBlob(words)

print(tb.words)
print(tb.words.singularize)
# TextBlob으로 한국어 단수화 복수화 안됨

['사과들', '바나나들', '오렌지들']
<bound method WordList.singularize of WordList(['사과들', '바나나들', '오렌지들'])>


#### 어간추출(nltk,stemmer), 표제어추출, 개체명 인식, 단어 중의성 모두 한국어는 안됨 nltk는 한국어 지원을 하지 않습니다.