# Korean NLP Basic
[한국어 형태소 분석기 태그 분석 표 참고](https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0)

### KoNLPy를 이용한 한국어 형태소 분석
사용할 데이터 : 헌법재판소 탄핵 판결문

In [1]:
from konlpy.tag import Mecab
from konlpy.tag import Twitter

In [2]:
with open('source/2016huna1.txt') as text:
    corpus = text.read()

In [3]:
mecab = Mecab()
mecab.pos(corpus[:43])

[('지금', 'NNG'),
 ('부터', 'JX'),
 ('2016', 'SN'),
 ('헌', 'NNG'),
 ('나', 'JC'),
 ('1', 'SN'),
 ('대통령', 'NNG'),
 ('박근혜', 'NNP'),
 ('탄핵', 'NNG'),
 ('사건', 'NNG'),
 ('에', 'JKB'),
 ('대한', 'VV+ETM'),
 ('선고', 'NNG'),
 ('를', 'JKO'),
 ('시작', 'NNG'),
 ('하', 'XSV'),
 ('겠', 'EP'),
 ('습니다', 'EF'),
 ('.', 'SF')]

In [4]:
mecab.nouns(corpus[:43])

['지금', '헌', '대통령', '박근혜', '탄핵', '사건', '선고', '시작']

### 트위터 형태소 분석기
한국어 특수문자까지 분석할 수 있다. 주로 SNS, 채팅 데이터 분석에 사용

In [5]:
twitter = Twitter()
twitter.pos("20대도 아니라닠ㅋㅋㅋㅋㅋㅋㅋ")

[('20', 'Number'),
 ('대도', 'Noun'),
 ('아니', 'Adjective'),
 ('라', 'Eomi'),
 ('닠', 'Noun'),
 ('ㅋㅋㅋㅋㅋㅋㅋ', 'KoreanParticle')]

### N-gram
문자열을 N 만큼 쪼개어 이어붙이는 방법, 기존의 input보다 좋은 성능을 내는 경우가 많다.

In [6]:
def ngrams(input, n):
    input = input.split(' ')
    output = []
    for i in range(len(input)-n+1):
        output.append(input[i:i+n])
    return output

In [7]:
# bigram
ngrams(corpus[:43], 2)

[['지금부터', '2016헌나1'],
 ['2016헌나1', '대통령'],
 ['대통령', '박근혜'],
 ['박근혜', '탄핵사건에'],
 ['탄핵사건에', '대한'],
 ['대한', '선고를'],
 ['선고를', '시작하겠습니다.\n']]

In [8]:
# trigram
ngrams(corpus[:43], 3)

[['지금부터', '2016헌나1', '대통령'],
 ['2016헌나1', '대통령', '박근혜'],
 ['대통령', '박근혜', '탄핵사건에'],
 ['박근혜', '탄핵사건에', '대한'],
 ['탄핵사건에', '대한', '선고를'],
 ['대한', '선고를', '시작하겠습니다.\n']]