# Reference
- https://www.lucypark.kr/courses/2015-ba/text-mining.html#topic-modeling

# Load Data

In [1]:
from konlpy.corpus import kobill
file_ids = kobill.fileids()
file_ids

['1809890.txt',
 '1809891.txt',
 '1809892.txt',
 '1809893.txt',
 '1809894.txt',
 '1809895.txt',
 '1809896.txt',
 '1809897.txt',
 '1809898.txt',
 '1809899.txt']

In [2]:
docs = [kobill.open(i).read() for i in file_ids]

In [3]:
docs

['지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이사철․여상규․안규백\n\n황영철․박영아․김정훈\n\n김학송 의원(10인)\n\n제안이유 및 주요내용\n\n  초등학교 저학년의 경우에도 부모의 따뜻한 사랑과 보살핌이 필요\n\n한 나이이나, 현재 공무원이 자녀를 양육하기 위하여 육아휴직을 할 \n\n수 있는 자녀의 나이는 만 6세 이하로 되어 있어 초등학교 저학년인 \n\n자녀를 돌보기 위해서는 해당 부모님은 일자리를 그만 두어야 하고 \n\n이는 곧 출산의욕을 저하시키는 문제로 이어질 수 있을 것임.\n\n  따라서 육아휴직이 가능한 자녀의 연령을 만 8세 이하로 개정하려\n\n는 것임(안 제63조제2항제4호).\n\n- 1 -\n\n\x0c법률  제        호\n\n지방공무원법 일부개정법률안\n\n지방공무원법 일부를 다음과 같이 개정한다.\n\n제63조제2항제4호 중 “만 6세 이하의 초등학교 취학 전 자녀를”을 “만 \n\n8세 이하(취학 중인 경우에는 초등학교 2학년 이하를 말한다)의 자녀를”\n\n로 한다.\n\n부      칙\n\n이 법은 공포한 날부터 시행한다.\n\n- 3 -\n\n\x0c신 ·구조문대비표\n\n현      행\n\n개   정   안\n\n제63조(휴직) ① (생  략)\n\n제63조(휴직) ① (현행과 같음)\n\n  ② 공무원이 다음 각 호의 어\n\n  ② -------------------------\n\n느 하나에 해당하는 사유로 휴\n\n----------------------------\n\n직을 원하면 임용권자는 휴직\n\n----------------------------\n\n을 명할 수 있다. 다만, 제4호\n\n-------------.---------------\n\n의 경우에는 대통령령으로 정\n\n--------------------------

In [4]:
docs[0]

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이사철․여상규․안규백\n\n황영철․박영아․김정훈\n\n김학송 의원(10인)\n\n제안이유 및 주요내용\n\n  초등학교 저학년의 경우에도 부모의 따뜻한 사랑과 보살핌이 필요\n\n한 나이이나, 현재 공무원이 자녀를 양육하기 위하여 육아휴직을 할 \n\n수 있는 자녀의 나이는 만 6세 이하로 되어 있어 초등학교 저학년인 \n\n자녀를 돌보기 위해서는 해당 부모님은 일자리를 그만 두어야 하고 \n\n이는 곧 출산의욕을 저하시키는 문제로 이어질 수 있을 것임.\n\n  따라서 육아휴직이 가능한 자녀의 연령을 만 8세 이하로 개정하려\n\n는 것임(안 제63조제2항제4호).\n\n- 1 -\n\n\x0c법률  제        호\n\n지방공무원법 일부개정법률안\n\n지방공무원법 일부를 다음과 같이 개정한다.\n\n제63조제2항제4호 중 “만 6세 이하의 초등학교 취학 전 자녀를”을 “만 \n\n8세 이하(취학 중인 경우에는 초등학교 2학년 이하를 말한다)의 자녀를”\n\n로 한다.\n\n부      칙\n\n이 법은 공포한 날부터 시행한다.\n\n- 3 -\n\n\x0c신 ·구조문대비표\n\n현      행\n\n개   정   안\n\n제63조(휴직) ① (생  략)\n\n제63조(휴직) ① (현행과 같음)\n\n  ② 공무원이 다음 각 호의 어\n\n  ② -------------------------\n\n느 하나에 해당하는 사유로 휴\n\n----------------------------\n\n직을 원하면 임용권자는 휴직\n\n----------------------------\n\n을 명할 수 있다. 다만, 제4호\n\n-------------.---------------\n\n의 경우에는 대통령령으로 정\n\n---------------------------

# Tokenization

In [5]:
from konlpy.tag import Twitter
twitter = Twitter()

In [6]:
def pos_tag(doc):
    word_pos_list = []
    for word, pos in twitter.pos(doc):
        word_pos = word+'/'+pos
        word_pos_list.append(word_pos)
    return word_pos_list

In [7]:
pos_tag('정부')

['정부/Noun']

In [8]:
tokens = [pos_tag(doc) for doc in docs]

In [9]:
tokens

[['지방공무원법/Noun',
  '일부/Noun',
  '개정/Noun',
  '법률/Noun',
  '안/Noun',
  '(/Punctuation',
  '정의화/Noun',
  '의원/Noun',
  '대표/Noun',
  '발의/Noun',
  ')/Punctuation',
  '의/Noun',
  '안/Noun',
  '번/Noun',
  '호/Noun',
  '9890/Number',
  '발의/Noun',
  '연월일/Noun',
  ':/Punctuation',
  '2010/Number',
  './Punctuation',
  '11/Number',
  './Punctuation',
  '12/Number',
  './Punctuation',
  '발/Noun',
  '의/Noun',
  '자/Noun',
  ':/Punctuation',
  '정의화/Noun',
  '․/Foreign',
  '이명수/Noun',
  '․/Foreign',
  '김을동/Noun',
  '이사철/Noun',
  '․/Foreign',
  '여상규/Noun',
  '․/Foreign',
  '안규백/Noun',
  '황영철/Noun',
  '․/Foreign',
  '박영아/Noun',
  '․/Foreign',
  '김정훈/Noun',
  '김학송/Noun',
  '의원/Noun',
  '(/Punctuation',
  '10/Number',
  '인/Noun',
  ')/Punctuation',
  '제안/Noun',
  '이유/Noun',
  '및/Noun',
  '주요/Noun',
  '내용/Noun',
  '초등학교/Noun',
  '저학년/Noun',
  '의/Josa',
  '경우/Noun',
  '에도/Josa',
  '부모/Noun',
  '의/Josa',
  '따뜻한/Adjective',
  '사랑/Noun',
  '과/Josa',
  '보살핌/Verb',
  '이/Eomi',
  '필요/Noun',
  '한/Verb',
  '나이/Noun',

In [10]:
len(tokens)

10

In [11]:
len(tokens[0])

1707

In [12]:
len(set(tokens[0]))

502

In [13]:
from gensim.models import word2vec

In [14]:
wv_model = word2vec.Word2Vec(tokens)

In [15]:
wv_model.vector_size

100

In [16]:
wv_model.wv.vocab

{'"/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9dbdd8>,
 '%/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9cfb70>,
 '(/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b947fd0>,
 ')./Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9c9550>,
 ')/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9bf550>,
 '+/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9d2390>,
 ',/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9bfbe0>,
 '----------------------------/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9cc080>,
 '---------------------------/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9cc4e0>,
 '------------------------/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9e1da0>,
 '---/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9e1e48>,
 '-/Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9c9588>,
 './Punctuation': <gensim.models.keyedvectors.Vocab at 0x12b9bf668>,
 '//Punctuation': <gensi

### `init_sims(replace=False)`
####  - If replace is set, forget the original vectors and only keep the normalized ones = saves lots of memory!

In [17]:
wv_model.init_sims(replace=True)

In [18]:
wv_model.save('word2vec.model')

In [19]:
wv_model.most_similar(pos_tag('정부'))

[('의/Josa', 0.9997615814208984),
 ('에/Josa', 0.9997566938400269),
 ('을/Josa', 0.9997526407241821),
 ('법령/Noun', 0.9997515082359314),
 ('이/Josa', 0.9997506141662598),
 ('따라/Verb', 0.9997499585151672),
 ('적/Suffix', 0.9997463822364807),
 ('및/Noun', 0.9997459053993225),
 ('결혼/Noun', 0.9997458457946777),
 ('를/Josa', 0.9997394680976868)]

In [20]:
wv_model.most_similar(pos_tag('초등학교'))

[('부대/Noun', 0.9997844696044922),
 ('예고/Noun', 0.9997758865356445),
 ('의/Josa', 0.9997701644897461),
 ('을/Josa', 0.9997667074203491),
 ('파견/Noun', 0.9997648000717163),
 ('및/Noun', 0.9997557401657104),
 ('행정/Noun', 0.9997499585151672),
 ('를/Josa', 0.9997431039810181),
 ('정보/Noun', 0.9997415542602539),
 ('은/Josa', 0.9997374415397644)]

# Hmm.. We need to filter stop words

In [21]:
def pos_tag(doc):
    word_pos_list = []
    for word, pos in twitter.pos(doc):
        word_pos = word+'/'+pos
        
        if len(word) > 1 and pos == 'Noun':
            word_pos_list.append(word_pos)
            
    return word_pos_list

In [22]:
tokens = [pos_tag(doc) for doc in docs]

In [23]:
tokens

[['지방공무원법/Noun',
  '일부/Noun',
  '개정/Noun',
  '법률/Noun',
  '정의화/Noun',
  '의원/Noun',
  '대표/Noun',
  '발의/Noun',
  '발의/Noun',
  '연월일/Noun',
  '정의화/Noun',
  '이명수/Noun',
  '김을동/Noun',
  '이사철/Noun',
  '여상규/Noun',
  '안규백/Noun',
  '황영철/Noun',
  '박영아/Noun',
  '김정훈/Noun',
  '김학송/Noun',
  '의원/Noun',
  '제안/Noun',
  '이유/Noun',
  '주요/Noun',
  '내용/Noun',
  '초등학교/Noun',
  '저학년/Noun',
  '경우/Noun',
  '부모/Noun',
  '사랑/Noun',
  '필요/Noun',
  '나이/Noun',
  '현재/Noun',
  '공무원/Noun',
  '자녀/Noun',
  '양육/Noun',
  '육아휴직/Noun',
  '자녀/Noun',
  '나이/Noun',
  '이하/Noun',
  '초등학교/Noun',
  '저학년/Noun',
  '자녀/Noun',
  '해당/Noun',
  '부모님/Noun',
  '일자리/Noun',
  '출산/Noun',
  '의욕/Noun',
  '저하/Noun',
  '문제/Noun',
  '것임/Noun',
  '따라서/Noun',
  '육아휴직/Noun',
  '자녀/Noun',
  '연령/Noun',
  '이하/Noun',
  '개정/Noun',
  '것임/Noun',
  '조제/Noun',
  '항제/Noun',
  '법률/Noun',
  '지방공무원법/Noun',
  '일부/Noun',
  '개정/Noun',
  '법률/Noun',
  '지방공무원법/Noun',
  '일부/Noun',
  '다음/Noun',
  '개정/Noun',
  '조제/Noun',
  '항제/Noun',
  '이하/Noun',
  '초등학교/Noun',
  '취학/Noun'

In [24]:
len(tokens[0])

497

In [25]:
wv_model = word2vec.Word2Vec(tokens)

In [26]:
wv_model.init_sims(replace=True)

In [27]:
wv_model.save('./word2vec.model')

In [28]:
wv_model.most_similar(pos_tag('정부'))

[('사유/Noun', 0.9953335523605347),
 ('육아휴직/Noun', 0.9951763153076172),
 ('경우/Noun', 0.9950629472732544),
 ('비용/Noun', 0.9948513507843018),
 ('결혼/Noun', 0.9948501586914062),
 ('이하/Noun', 0.9948363304138184),
 ('대체/Noun', 0.9948327541351318),
 ('조제/Noun', 0.9947677254676819),
 ('수식/Noun', 0.9944520592689514),
 ('현행/Noun', 0.9944223165512085)]

In [29]:
wv_model.most_similar(pos_tag('초등학교'))

[('육아휴직/Noun', 0.9977339506149292),
 ('경우/Noun', 0.9976904392242432),
 ('대체/Noun', 0.9975345134735107),
 ('교육/Noun', 0.9974575638771057),
 ('이하/Noun', 0.9973782300949097),
 ('부대/Noun', 0.997357964515686),
 ('취학/Noun', 0.9972256422042847),
 ('조제/Noun', 0.9972158670425415),
 ('정보/Noun', 0.9971922636032104),
 ('연장/Noun', 0.9971364736557007)]

# If you have time,
- Try with bigger data
    - [Sejong Corpus](https://ithub.korean.go.kr/user/corpus/corpusSearchManager.do)
    - [KAIST Corpus](http://semanticweb.kaist.ac.kr/home/index.php/KAIST_Corpus)
    - [Ulsan Univ. Corpus](http://nlplab.ulsan.ac.kr/doku.php?id=ucorpus)]
    - Wikipedia Dump [[link](https://dumps.wikimedia.org/kowiki/)] [[Extractor](https://github.com/j-min/WikiExtractor_To_the_one_text)]
    - NamuWiki Dump [[link](https://namu.wiki/w/%EB%82%98%EB%AC%B4%EC%9C%84%ED%82%A4:%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4%20%EB%8D%A4%ED%94%84)] [[Extractor](https://github.com/j-min/Easy-Namuwiki-Extractor)]


- Build your own stop words
    - https://github.com/6/stopwords-json/blob/master/dist/ko.json
    

- Embedding visualization with tensorboard
    - https://gist.github.com/lampts/026a4d6400b1efac9a13a3296f16e655
    - http://visionigniter.blogspot.kr/2017/03/word2vec-visualization-wtensorflow.html

# FastText
- https://github.com/facebookresearch/fastText
- Python Wrapper: https://github.com/salestock/fastText.py
- Highly optimized Word-vectorizer (Word and subword level) + Text Classifier

### Take home (Relatively big text)
- I used [text8](http://mattmahoney.net/dc/textdata): English wikipedia

In [1]:
import fasttext

In [None]:
# Skipgram model
model = fasttext.skipgram(
    './text8.txt', # corpus path
    'model') # output model name
print(model.words) # list of words in dictionary

In [None]:
print(model['king']) # get the vector of the word 'king'

## Load pretrained model

In [None]:
model = fasttext.load_model('model.bin')
print(model.words) # list of words in dictionary
print(model['king']) # get the vector of the word 'king'

## Classifier

In [None]:
classifier = fasttext.supervised('data.train.txt', 'model')

## Recently,  fasttext has been ported to gensim

- https://radimrehurek.com/gensim/models/wrappers/fasttext.html