Skip to content
main
Switch branches/tags
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 
doc
 
 
 
 
 
 
 
 
ner
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Korean intelligence toolkit (WIP)

Generates report from Korean texts, using NLP.

TODO :

Features

Segmentation

Topic extraction from TF-IDF

Paragaraph segmentation based on topic

NER

BERT fine tuning

Analysis example : (From "담론과 진실" discours et vérité: précédé de la parrêsia, Michel Foucault)
Time : 앞서, 것과, 관점에서, 오늘은, 구절은, 이, 니코
Number : 한, 번, 제가, 바로, 모두, 여인들, 네, 번째, 첫, 여기서, 언제나, 7, 10, 처음으로, 파레시아, 24, 플라톤, 30, 들어, 아주, 분명히, 이, 다시, 크, 크레, 아마, 또, 가, 자신을
Location : 앙리, 이러한, ***, 이것은, 파레시아, 도시국가, 졸리, 들리지, M, Foucault, 통치, 타자, 더, 방식으로, 35, 세네카, 55, 다음, 파레시아스트, 많은, 아주, 문화에서, 위한, 진실, 진실을, 말하는, 그리스, 역할은, 교육자, 1983, 푸코는, 
아닌, 크레, 아무튼, 않는, 20, 아르고스, 오레스테스, 몇몇, 질문, 있으십니까, 그렇다면, 대화, 소크라테스, 이용되는, 삶의, 일상적, Is, 윤리적, D, 이, 에피, 마르쿠스, 아우렐리우스, 다른, 실제로
Person : 이, 갖는, 이러한, 아니라, 니코, 기술, 제, G, 27, 45, 확실히, 글쎄요, ****, 살펴봅시다, 이상이, 크, (, p, 관해서, 오레스테스, 교육을, 로고스, 알렉산드로스, ***, 들리지, an, 견유
Misc : 들리지, 한
Organization : 34, 투, 지난, 아테나

Models

Parameter tuning can be applied

BERT

(hidden_size = 192)

[Evaluation result]
global_step = 100000
loss = 10.826917
masked_lm_accuracy = 0.035499398
masked_lm_loss = 10.087056
next_sentence_accuracy = 0.53
next_sentence_loss = 0.69253767

TODO :

  • Buy GPU.

Bert NER fine-tuning

Bert, AdamWeightDecay, SparseCategoricalCrossentropy.

Training curve

TODO :

  • Data augmentation by subword count
  • Backward-masked tokenizer (backward-char, forward-subchar)

Dataset

Templated dataset processing

Proprietary datasets

  • 10GB orthogonal korean texts
  • 1GB parallel korean texts
  • 0.2GB NER tagged korean texts

Public datasets

TODO :

  • Automatic dependency checking for derived datasets

TODO

  • seq2seq paraphraser

About

Korean NLP

Resources

Releases

No releases published

Packages

No packages published