Skip to content

HTTPS clone URL

Subversion checkout URL

You can clone with HTTPS or Subversion.

Download ZIP
branch: master
Fetching contributors…

Cannot retrieve contributors at this time

executable file 43 lines (34 sloc) 1.16 kb
#!/usr/bin/ruby
# coding: utf-8
require 'MeCab'
require './utils/hangeul.rb'
# "안녕하십니까"는 안녕 + 하 + 시 + ㅂ니까 로 분해가 되므로 그 처리를 위해
# kdic.csv 의 표층어(가장 왼쪽줄의 단어)는 NFD 형태로 입력되어 있다.
#
# 따라서 mecab를 실제 사용할 경우
# 한글 글자를 NFD로 풀어서 MeCab에 입력하고
# 반환된 결과값을 NFC로 묶어줘야 한다.
m = MeCab::Tagger.new ("-d ./final")
while sentence = gets
sentence.chomp!
sentence.strip!
nfd = ""
# 한글 글자를 풀어준다.(NFD)
sentence.each_char {|ch| nfd << decompose_hangeul(ch)}
unless nfd.empty?
untrusted = m.parse(nfd)
untrusted.each_line do |line|
nfd, right = line.split("\t")
nfc = compose_hangeul(nfd)
# 끝소리 자음을 첫고리 자음으로 변환합니다.
nfc.gsub!("\u11ab", "") # ㄴ
nfc.gsub!("\u11af", "") # ㄹ
nfc.gsub!("\u11b8", "") # ㅂ
if right.nil?
puts nfc # EOS
else
puts nfc + "\t" + right
end
end
end
end
Jump to Line
Something went wrong with that request. Please try again.