# Sentence Differ 使い方

## 前処理（分かち書き）

In [1]:
import MeCab

In [2]:
tokenizer = MeCab.Tagger('-Owakati')

In [3]:
# 入力は分かち書き
src = 'まってくもって理不尽です。'
tgt = 'まったくもって理不尽です。'

In [4]:
src_tokenized = tokenizer.parse(src).strip()
tgt_tokenized = tokenizer.parse(tgt).strip()

In [5]:
src_tokenized

'まっ て くもっ て 理不尽 です 。'

In [6]:
tgt_tokenized

'まったく もっ て 理不尽 です 。'

## SentenceDiff インスタンスを作成する

In [7]:
from sentence_diff import SentenceDiff

In [8]:
# SentenceDiff(error_sentence, reference_sentence)
differ = SentenceDiff(src_tokenized, tgt_tokenized)

In [9]:
## word error rate
differ.wer()

0.5

In [10]:
## 編集距離の行列
differ.matrix

array([[0, 1, 2, 3, 4, 5, 6, 7],
       [1, 1, 2, 3, 4, 5, 6, 7],
       [2, 2, 2, 3, 4, 5, 6, 7],
       [3, 3, 2, 3, 3, 4, 5, 6],
       [4, 4, 3, 3, 4, 3, 4, 5],
       [5, 5, 4, 4, 4, 4, 3, 4],
       [6, 6, 5, 5, 5, 5, 4, 3]], dtype=uint32)

In [11]:
len(src_tokenized.split())

7

In [12]:
len(tgt_tokenized.split())

6

In [13]:
differ.matrix.shape

(7, 8)

In [14]:
## False が誤り単語
differ.yes_no_words()

[('まっ', False),
 ('て', False),
 ('くもっ', False),
 ('て', True),
 ('理不尽', True),
 ('です', True),
 ('。', True)]

## mistakes

In [15]:
## 誤り単語一覧を取得
## 単語の対応関係も記述されている
### (error, reference, index, type)
#### type は del or rep or ins
differ.mistakes()

[('まっ', None, 0, 'del'), ('て', 'まったく', 1, 'rep'), ('くもっ', 'もっ', 2, 'rep')]

### mistakes で対応がうまく取れない場合

In [16]:
## 誤り単語一覧を取得
d = SentenceDiff('これ に ものすごい 誤り 分 でし た 。', 'これ は ものすごい 正解 文 です 。')
d.mistakes()

[('に', 'は', 1, 'rep'),
 ('誤り', None, 3, 'del'),
 ('分', '正解', 4, 'rep'),
 ('でし', '文', 5, 'rep'),
 ('た', 'です', 6, 'rep')]

In [17]:
d.yes_no_words()

[('これ', True),
 ('に', False),
 ('ものすごい', True),
 ('誤り', False),
 ('分', False),
 ('でし', False),
 ('た', False),
 ('。', True)]

### mistakes で対応がうまく取れる場合

In [18]:
## 誤り単語一覧を取得
d = SentenceDiff('これ は　ものすごい 誤り 分 です 。', 'これ は ものすごい 正解 文 です 。')
d.mistakes()

[('誤り', '正解', 3, 'rep'), ('分', '文', 4, 'rep')]

## 一単語の場合

In [19]:
src = 'ドラドンボールシリーズ'
tgt = 'ドラゴンボールシリーズ'

In [20]:
src_tok = tokenizer.parse(src).strip()
tgt_tok = tokenizer.parse(tgt).strip()

In [21]:
differ = SentenceDiff(src_tok, tgt_tok)

In [22]:
differ.yes_no_words()

[('ドラドンボールシリーズ', False)]