In [1]:
!pip install python-crfsuite




In [34]:
from itertools import chain
import pycrfsuite
import sklearn
from sklearn.metrics import classification_report
from sklearn.preprocessing import LabelBinarizer

In [35]:
import codecs

class CorpusReader(object):

    def __init__(self, path):
        with codecs.open(path, encoding='utf-8') as f:
            sent = []
            sents = []
            for line in f:
                if line == '\n':
                    sents.append(sent)
                    sent = []
                    continue
                morph_info = line.strip().split('\t')
                sent.append(morph_info)
        train_num = int(len(sents) * 0.9)
        self.__train_sents = sents[:train_num]
        self.__test_sents = sents[train_num:]

    def iob_sents(self, name):
        if name == 'train':
            return self.__train_sents
        elif name == 'test':
            return self.__test_sents
        else:
            return None

In [50]:
c = CorpusReader('motoki.txt')
train_sents = c.iob_sents('train')
test_sents = c.iob_sents('test')

In [51]:
def is_hiragana(ch):
    return 0x3040 <= ord(ch) <= 0x309F

def is_katakana(ch):
    return 0x30A0 <= ord(ch) <= 0x30FF

def get_character_type(ch):
    if ch.isspace():
        return 'ZSPACE'
    elif ch.isdigit():
        return 'ZDIGIT'
    elif ch.islower():
        return 'ZLLET'
    elif ch.isupper():
        return 'ZULET'
    elif is_hiragana(ch):
        return 'HIRAG'
    elif is_katakana(ch):
        return 'KATAK'
    else:
        return 'OTHER'

def get_character_types(string):
    character_types = map(get_character_type, string)
    character_types_str = '-'.join(sorted(set(character_types)))

    return character_types_str

In [52]:
def extract_pos_with_subtype(morph):
    idx = morph.index('*')

    return '-'.join(morph[1:idx])

In [53]:
def word2features(sent, i):
    word = sent[i][0]
    chtype = get_character_types(sent[i][0])
    postag = extract_pos_with_subtype(sent[i])
    features = [
        'bias',
        'word=' + word,
        'type=' + chtype,
        'postag=' + postag,
    ]
    if i >= 2:
        word2 = sent[i-2][0]
        chtype2 = get_character_types(sent[i-2][0])
        postag2 = extract_pos_with_subtype(sent[i-2])
        iobtag2 = sent[i-2][-1]
        features.extend([
            '-2:word=' + word2,
            '-2:type=' + chtype2,
            '-2:postag=' + postag2,
            '-2:iobtag=' + iobtag2,
        ])
    else:
        features.append('BOS')

    if i >= 1:
        word1 = sent[i-1][0]
        chtype1 = get_character_types(sent[i-1][0])
        postag1 = extract_pos_with_subtype(sent[i-1])
        iobtag1 = sent[i-1][-1]
        features.extend([
            '-1:word=' + word1,
            '-1:type=' + chtype1,
            '-1:postag=' + postag1,
            '-1:iobtag=' + iobtag1,
        ])
    else:
        features.append('BOS')

    if i < len(sent)-1:
        word1 = sent[i+1][0]
        chtype1 = get_character_types(sent[i+1][0])
        postag1 = extract_pos_with_subtype(sent[i+1])
        features.extend([
            '+1:word=' + word1,
            '+1:type=' + chtype1,
            '+1:postag=' + postag1,
        ])
    else:
        features.append('EOS')

    if i < len(sent)-2:
        word2 = sent[i+2][0]
        chtype2 = get_character_types(sent[i+2][0])
        postag2 = extract_pos_with_subtype(sent[i+2])
        features.extend([
            '+2:word=' + word2,
            '+2:type=' + chtype2,
            '+2:postag=' + postag2,
        ])
    else:
        features.append('EOS')

    return features


def sent2features(sent):
    return [word2features(sent, i) for i in range(len(sent))]


def sent2labels(sent):
    return [morph[-1] for morph in sent]


def sent2tokens(sent):
    return [morph[0] for morph in sent]

In [54]:
sent2features(train_sents[0])[0]

['bias',
 'word=芥川賞',
 'type=OTHER',
 'postag=名詞-固有名詞-一般',
 'BOS',
 'BOS',
 '+1:word=は',
 '+1:type=HIRAG',
 '+1:postag=助詞-係助詞',
 '+2:word=「',
 '+2:type=OTHER',
 '+2:postag=記号-括弧開']

In [55]:
X_train = [sent2features(s) for s in train_sents]
y_train = [sent2labels(s) for s in train_sents]

X_test = [sent2features(s) for s in test_sents]
y_test = [sent2labels(s) for s in test_sents]

In [56]:
trainer = pycrfsuite.Trainer(verbose=False)

for xseq, yseq in zip(X_train, y_train):
    trainer.append(xseq, yseq)

In [57]:
trainer.train('model.crfsuite')


In [58]:
tagger = pycrfsuite.Tagger()
tagger.open('model.crfsuite')

<contextlib.closing at 0x7fa86a5889d0>

In [59]:
example_sent = test_sents[10]
print(' '.join(sent2tokens(example_sent)))

print("Predicted:", ' '.join(tagger.tag(sent2features(example_sent))))
print("Correct:  ", ' '.join(sent2labels(example_sent)))


x = sent2labels(example_sent)

for i in range(len(x)):
    if x[i]== 'B-PSN':
        s = sent2tokens(example_sent)
        print('名前：'+s[i])

震源 は 千葉 県 北西 部 、 震源 の 深 さ は 約 73 km 、 地震 の 規模 を 示す マグニチュード は 6 . 0 と 推定 し て いる 。
Predicted: O O B-LOC I-LOC O O O O O O O O O O O O O O O O O O O O O O O O O O O O
Correct:   O O B-LOC I-LOC O O O O O O O O O O O O O O O O O O O O O O O O O O O O


In [67]:
example_sent = test_sents[44]
print('入力データ： ' + ' '.join(sent2tokens(example_sent)))

x = sent2labels(example_sent)

for i in range(len(x)):
    if x[i]== 'B-PSN':
        s = sent2tokens(example_sent)
        print('名前：'+s[i]+ '(正解データ)')                

for i in range(len(x)):
    if x[i]== 'B-PSN':
        s = tagger.tag(sent2features(example_sent))
        print('名前：'+s[i]+ '(予測値)')        

入力データ： 地元 の LBC テレビ は 当初 、 主 に 飛散 し た ガラス の 破片 により 6 名 が 負傷 し 、 乗用車 の 所有 者 は 地元 の 住民 元木大介 た と 報じ た 。
名前：元木大介(正解データ)
名前：O(予測値)


In [61]:
for i in range(100):
    example_sent = test_sents[i]
    print(' '.join(sent2tokens(example_sent)))

    print("Predicted:", ' '.join(tagger.tag(sent2features(example_sent))))
    print("Correct:  ", ' '.join(sent2labels(example_sent)))

BBC の 報道 に よれ ば 、 少なくとも 49 人 が 死亡 し た 。
Predicted: B-ORG O O O O O O O O O O O O O O
Correct:   B-ORG O O O O O O O O O O O O O O
ロイター通信 社 報道局 は 、 現場 に い た 複数 の 医師 が 、 負傷 者 の 多く は 危険 な 状態 に ある と 語っ て いる と 伝え た 。
Predicted: B-ORG I-ORG I-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
Correct:   B-ORG I-ORG I-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
また ロイター で は 爆弾 は おそらく 車 に 仕掛け られ て い た と 報じ た 。
Predicted: O B-ORG O O O O O O O O O O O O O O O O
Correct:   O B-ORG O O O O O O O O O O O O O O O O
死亡 者 の 中 に は 、 イギリス 人 、 フランス 人 、 スペイン 人 、 オランダ 人 、 カタール 人 、 クウェート 人 、 エジプト 人 が 含ま れ て いる と AP 通信 が 伝え て いる 。
Predicted: O O O O O O O B-LOC O O B-LOC O O B-LOC O O B-LOC O O B-LOC O O B-LOC O O B-LOC O O O O O O O O O O O O O O
Correct:   O O O O O O O B-LOC O O B-LOC O O B-LOC O O B-LOC O O B-LOC O O B-LOC O O B-LOC O O O O O O O B-ORG I-ORG O O O O O
アメリカ の マイクロソフト は 現地 時間 2005 年 7 月 22 日 、 同社 の オペレーティングシステム （ OS ） 、 Windows XP の 次に リリース さ れる OS の 正式 名称 を 「 

IndexError: list index out of range

In [None]:
example_sent = test_sents[0]
print(' '.join(sent2tokens(example_sent)))

print("Predicted:", ' '.join(tagger.tag(sent2features(example_sent))))
print("Correct:  ", ' '.join(sent2labels(example_sent)))

# 履歴書 データ前処理

In [79]:
import MeCab
mytext = '履歴書ふりがなさとういちろう名前砂糖一郎2019年12月25日'
tagger = MeCab.Tagger()
print(tagger.parse(mytext))

t = tagger.parse(mytext)

履歴	名詞,一般,*,*,*,*,履歴,リレキ,リレキ
書	名詞,接尾,一般,*,*,*,書,ショ,ショ
ふりがな	名詞,一般,*,*,*,*,ふりがな,フリガナ,フリガナ
さとう	形容詞,自立,*,*,形容詞・アウオ段,連用ゴザイ接続,さとい,サトウ,サトー
いちろう	名詞,固有名詞,人名,名,*,*,いちろう,イチロウ,イチロー
名前	名詞,一般,*,*,*,*,名前,ナマエ,ナマエ
砂糖	名詞,一般,*,*,*,*,砂糖,サトウ,サトー
一	名詞,数,*,*,*,*,一,イチ,イチ
郎	名詞,一般,*,*,*,*,郎,ロウ,ロー
2019	名詞,数,*,*,*,*,*
年	名詞,接尾,助数詞,*,*,*,年,ネン,ネン
12	名詞,数,*,*,*,*,*
月	名詞,一般,*,*,*,*,月,ツキ,ツキ
25	名詞,数,*,*,*,*,*
日	名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ
EOS



In [84]:
text = '	'.join(t.split(","))
text

'履歴\t名詞\t一般\t*\t*\t*\t*\t履歴\tリレキ\tリレキ\n書\t名詞\t接尾\t一般\t*\t*\t*\t書\tショ\tショ\nふりがな\t名詞\t一般\t*\t*\t*\t*\tふりがな\tフリガナ\tフリガナ\nさとう\t形容詞\t自立\t*\t*\t形容詞・アウオ段\t連用ゴザイ接続\tさとい\tサトウ\tサトー\nいちろう\t名詞\t固有名詞\t人名\t名\t*\t*\tいちろう\tイチロウ\tイチロー\n名前\t名詞\t一般\t*\t*\t*\t*\t名前\tナマエ\tナマエ\n砂糖\t名詞\t一般\t*\t*\t*\t*\t砂糖\tサトウ\tサトー\n一\t名詞\t数\t*\t*\t*\t*\t一\tイチ\tイチ\n郎\t名詞\t一般\t*\t*\t*\t*\t郎\tロウ\tロー\n2019\t名詞\t数\t*\t*\t*\t*\t*\n年\t名詞\t接尾\t助数詞\t*\t*\t*\t年\tネン\tネン\n12\t名詞\t数\t*\t*\t*\t*\t*\n月\t名詞\t一般\t*\t*\t*\t*\t月\tツキ\tツキ\n25\t名詞\t数\t*\t*\t*\t*\t*\n日\t名詞\t接尾\t助数詞\t*\t*\t*\t日\tニチ\tニチ\nEOS\n'

In [85]:
f = open('text.txt', 'w') # 書き込みモードで開く
f.write(text) # 引数の文字列をファイルに書き込む
f.close() # ファイルを閉じる