# Kakao Hangul Analyzer III Tutorial


## Getting Start

* How to Install: [link](https://github.com/kakao/khaiii/blob/master/doc/setup.md)
* env: Ubuntu Server - 18.04 LTS
* prerequisite
    * \>= gcc-5.4.0
    * \>= cmake-3.10

* How to Install prerequisite

> ```
$ sudo apt-get install gcc
$ sudo apt-get install cmake
```

* Install

> ```
$ git clone https://github.com/kakao/khaiii.git
$ cd khaiii
$ pip install -r requirements.txt
$ mkdir build && cd build
$ cmake ..
$ make all
$ make resource
$ sudo make install
$ make package_python
$ cd package_python
$ pip install .   # install in local env, find your python path think carefully
```



In [1]:
import khaiii
api = khaiii.KhaiiiApi()
api.open()

In [2]:
sentence = "안녕하십니까? 반가워요 누구세요"
sentence2 = "hi! my name is jason. \n how are you?\n 안녕하세요ㅋㅋ\n 나는 제이슨 본입니다."
sentences = sentence2.splitlines()

In [3]:
def tokenizer(x, return_len=False):
    """
    input: 'khaiii.KhaiiiWord type' type
    api: insert khaiii api
    return_len: return sring length
    """
    assert isinstance(x, khaiii.KhaiiiWord), "must insert khaiii.KhaiiiWord type"
    if return_len:
        word_parser = lambda word: [(m.lex + '/' + m.tag, m.length) for m in word.morphs] 
    else:
        word_parser = lambda word: [m.lex + '/' + m.tag for m in word.morphs] 
    return word_parser(x)

In [4]:
[tokenizer(word) for word in api.analyze(sentence)]  # ok works fine, to split 3 sentences by a string.

[['안녕/NNG', '하/XSA', '시/EP', 'ㅂ니까/EF', '?/SF'],
 ['반갑/VA', '어요/EC'],
 ['누구/NP', '세/VCN', '요/EC']]

In [5]:
[tokenizer(word) for word in api.analyze(sentence2)]  # i thought it may return 5 lenght of list that contains tokens, but it not 

[['hi/SL', '!/SF'],
 ['my/SL'],
 ['name/SL'],
 ['is/SL'],
 ['jason/SL', './SF'],
 ['how/SL'],
 ['are/SL'],
 ['you/SL', '?/SF'],
 ['안녕/NNG', '하/XSA', '세/EC', '요/IC', 'ㅋㅋ/MAG'],
 ['나/NP', '는/JX'],
 ['제이슨/NNP'],
 ['본/NNG', '이/VCP', 'ㅂ니다/EF', './SF']]

In [6]:
[[tokenizer(word) for word in api.analyze(sent)] for sent in sentences]  # need to be flatten

[[['hi/SL', '!/SF'], ['my/SL'], ['name/SL'], ['is/SL'], ['jason/SL', './SF']],
 [['how/SL'], ['are/SL'], ['you/SL', '?/SF']],
 [['안녕/NNG', '하/XSA', '세/EC', '요/IC', 'ㅋㅋ/MAG']],
 [['나/NP', '는/JX'], ['제이슨/NNP'], ['본/NNG', '이/VCP', 'ㅂ니다/EF', './SF']]]

In [7]:
tokenized_sentences = [[tokenizer(word) for word in api.analyze(sent)] for sent in sentences]

In [8]:
flatten = lambda lsts: [x for lst in lsts for x in lst]

In [9]:
[flatten(sent) for sent in tokenized_sentences]

[['hi/SL', '!/SF', 'my/SL', 'name/SL', 'is/SL', 'jason/SL', './SF'],
 ['how/SL', 'are/SL', 'you/SL', '?/SF'],
 ['안녕/NNG', '하/XSA', '세/EC', '요/IC', 'ㅋㅋ/MAG'],
 ['나/NP', '는/JX', '제이슨/NNP', '본/NNG', '이/VCP', 'ㅂ니다/EF', './SF']]

In [10]:
test_string = """순결한 소년과 장미(여성)의 사랑 이야기나 갖가지 지상의 성인을 반영하는 다른 별에서 겪은 체험을 통하여 인생에 대한 일종의 초월적 비판을 시도하였다. 
그러나 이 비판을 담은 시(童心)는 그것이 비판과 분리되지 않고 일체로 되어 있기 때문에 작자의 심정과 윤리가 혼연히 융합되고 표백(表白)되어 있어, 프랑스는 물론 미국·독일 등 각국에서도 비상한 호평으로 환영하였다."""

In [11]:
# return as 1 sentnecs
for word in api.analyze(test_string):
    print(word)

순결한	순결/NNG + 하/XSA + ㄴ/ETM
소년과	소년/NNG + 과/JC
장미(여성)의	장미/NNG + (/SS + 여성/NNG + )/SS + 의/JKG
사랑	사랑/NNG
이야기나	이야기/NNG + 나/JX
갖가지	갖가지/NNG
지상의	지상/NNG + 의/JKG
성인을	성인/NNG + 을/JKO
반영하는	반영/NNG + 하/XSV + 는/ETM
다른	다른/MM
별에서	별/NNG + 에서/JKB
겪은	겪/VV + 은/ETM
체험을	체험/NNG + 을/JKO
통하여	통하/VV + 여/EC
인생에	인생/NNG + 에/JKB
대한	대하/VV + ㄴ/ETM
일종의	일종/NNG + 의/JKG
초월적	초월/NNG + 적/XSN
비판을	비판/NNG + 을/JKO
시도하였다.	시도/NNG + 하/XSV + 였/EP + 다/EF + ./SF
그러나	그러나/MAJ
이	이/MM
비판을	비판/NNG + 을/JKO
담은	담/VV + 은/ETM
시(童心)는	시/NNG + (/SS + 童心/SH + )/SS + 는/JX
그것이	그것/NP + 이/JKS
비판과	비판/NNG + 과/JC
분리되지	분리/NNG + 되/XSV + 지/EC
않고	않/VX + 고/EC
일체로	일체/NNG + 로/JKB
되어	되/VV + 어/EC
있기	있/VX + 기/ETN
때문에	때문/NNB + 에/JKB
작자의	작자/NNG + 의/JKG
심정과	심정/NNG + 과/JC
윤리가	윤리/NNG + 가/JKS
혼연히	혼연히/MAG
융합되고	융합/NNG + 되/XSV + 고/EC
표백(表白)되어	표백/NNG + (/SS + 表白/SH + )/SS + 되/XSV + 어/EC
있어,	있/VX + 어/EC + ,/SP
프랑스는	프랑스/NNP + 는/JX
물론	물론/MAG
미국·독일	미국/NNP + ·/SP + 독일/NNP
등	등/NNB
각국에서도	각국/NNG + 에서/JKB + 도/JX
비상한	비상/NNG + 하/XSA + ㄴ/ETM
호평으로	호평/NNG + 으로/JKB
환영하였다.	환영/NNG + 하/XSV + 였/E

In [12]:
# make it 2 sentnecs
[flatten([tokenizer(word) for word in api.analyze(sent)]) for sent in test_string.splitlines()]

[['순결/NNG',
  '하/XSA',
  'ㄴ/ETM',
  '소년/NNG',
  '과/JC',
  '장미/NNG',
  '(/SS',
  '여성/NNG',
  ')/SS',
  '의/JKG',
  '사랑/NNG',
  '이야기/NNG',
  '나/JX',
  '갖가지/NNG',
  '지상/NNG',
  '의/JKG',
  '성인/NNG',
  '을/JKO',
  '반영/NNG',
  '하/XSV',
  '는/ETM',
  '다른/MM',
  '별/NNG',
  '에서/JKB',
  '겪/VV',
  '은/ETM',
  '체험/NNG',
  '을/JKO',
  '통하/VV',
  '여/EC',
  '인생/NNG',
  '에/JKB',
  '대하/VV',
  'ㄴ/ETM',
  '일종/NNG',
  '의/JKG',
  '초월/NNG',
  '적/XSN',
  '비판/NNG',
  '을/JKO',
  '시도/NNG',
  '하/XSV',
  '였/EP',
  '다/EF',
  './SF'],
 ['그러나/MAJ',
  '이/MM',
  '비판/NNG',
  '을/JKO',
  '담/VV',
  '은/ETM',
  '시/NNG',
  '(/SS',
  '童心/SH',
  ')/SS',
  '는/JX',
  '그것/NP',
  '이/JKS',
  '비판/NNG',
  '과/JC',
  '분리/NNG',
  '되/XSV',
  '지/EC',
  '않/VX',
  '고/EC',
  '일체/NNG',
  '로/JKB',
  '되/VV',
  '어/EC',
  '있/VX',
  '기/ETN',
  '때문/NNB',
  '에/JKB',
  '작자/NNG',
  '의/JKG',
  '심정/NNG',
  '과/JC',
  '윤리/NNG',
  '가/JKS',
  '혼연히/MAG',
  '융합/NNG',
  '되/XSV',
  '고/EC',
  '표백/NNG',
  '(/SS',
  '表白/SH',
  ')/SS',
  '되/XSV',
  '어/EC',
  '있/VX',
  '

In [13]:
import khaiii
import itertools

class khaiii_tokenizer(khaiii.KhaiiiApi):
    def __init__(self):
        super(khaiii_tokenizer, self).__init__()
        self.flatten = lambda x: list(itertools.chain.from_iterable(x))
    
    def morphs(self, string):
        self.open()
        tokens = [self.get_morphs(w) for w in self.analyze(string)]
        self.close()
        return self.flatten(tokens)
    
    def pos(self, string):
        self.open()
        tokens = [self.get_pos(w) for w in self.analyze(string)]
        self.close()
        return self.flatten(tokens)
        
    def get_pos(self, word):
        assert isinstance(word, khaiii.KhaiiiWord)
        return ['/'.join([m.lex, m.tag]) for m in word.morphs]
    
    def get_morphs(self, word):
        assert isinstance(word, khaiii.KhaiiiWord)
        return [m.lex for m in word.morphs]

In [14]:
tokenizer = khaiii_tokenizer()

In [15]:
tokenizer.morphs("안녕 로봇트는 여기에 있어ㅋㅋㅋ 언제 갈까?")

['안녕', '로봇트', '는', '여기', '에', '있', '어', 'ㅋㅋ', 'ㅋ', '언제', '가', 'ㄹ까', '?']

In [16]:
tokenizer.pos("안녕 로봇트는 여기에 있어ㅋㅋㅋ 언제 갈까?")

['안녕/IC',
 '로봇트/NNG',
 '는/JX',
 '여기/NP',
 '에/JKB',
 '있/VV',
 '어/EC',
 'ㅋㅋ/MAG',
 'ㅋ/NNG',
 '언제/MAG',
 '가/VV',
 'ㄹ까/EF',
 '?/SF']