## `difflib`モジュールあれこれ
**基本的には、シーケンスなデータ型であればなんでも差分計算をしてくれる便利なモジュールとなっています**  
**特にテキストの比較に便利で、つまり自然言語処理でも基本分析で使うこともできます。**

### `class difflib.Differ`
テキストからなるシーケンスを比較するクラスです。  
後述の、`SequenceMatcher`クラスを利用して、様々な処理をします。

### `class difflib.HtmlDiff`
**htmlファイルの差分計算をしてくれます**
  
**`make_file(fromlines, tolines, fromdesc='', todesc='', context=False, numlines=5, *, charset='utf-8')`**  
fromlines と tolines (いずれも文字列のリスト) を比較し、行間または行内の変更点が  
強調表示された行差分の入った表を持つ完全な HTML ファイルを文字列で返します。  
  
`context` および `numlines` はともにオプションのキーワード引数です。  
`context` を `True` にするとコンテキスト差分を表示し、  
デフォルトの `False` にすると完全なファイル差分を表示します。`numlines` のデフォルト値は 5 で、  
`context` が `True` の場合、`numlines` は強調部分の前後にあるコンテキスト行の数を制御します。  
  
`context` が `False` の場合、`numlines` は "next" と書かれたハイパーリンクをたどった時に到達する場所が  
次の変更部分より何行前にあるかを確かめてくれます。
  
**`make_table(fromlines, tolines, fromdesc='', todesc='', context=False, numlines=5)`**  
`fromlines` と `tolines` (いずれも文字列のリスト) を比較し、  
行間または行内の変更点が強調表示された行差分の入った完全な HTML テーブルを文字列で返します

In [1]:
def html_diff(self, fromfile, tofile):
    try:
        import difflib
        fromlines = open(fromfile).readlines()
        tolines = open(tofile).readlines()
        diff = difflib.HtmlDiff().make_file(fromlines,tolines,fromfile,tofile)
        path = 'data/' + os.path.basename(fromfile) + '_' + os.path.basename(tofile) + '_diff.html'
        f = open(path,'w')
        f.write(diff)
        f.close()
        return path
    except Exception as e:
        self.logger.error("failed to diff files %s, %s: %s", fromfile, tofile, str(e))
        return None

In [5]:
fromfile = 'data/sample1.html'

In [10]:
tofile = 'data/sample2.html'

In [6]:
import difflib

In [27]:
fromlines = open(fromfile).readlines()

In [28]:
tolines = open(tofile).readlines()

In [29]:
diff = difflib.HtmlDiff().make_file(fromlines,tolines,fromfile,tofile)

In [30]:
df = difflib.HtmlDiff()

In [31]:
html = df.make_table(fromlines, tolines, context=True)

In [32]:
html

'\n    <table class="diff" id="difflib_chg_to5__top"\n           cellspacing="0" cellpadding="0" rules="groups" >\n        <colgroup></colgroup> <colgroup></colgroup> <colgroup></colgroup>\n        <colgroup></colgroup> <colgroup></colgroup> <colgroup></colgroup>\n        \n        <tbody>\n            <tr><td class="diff_next"><a href="#difflib_chg_to5__top">t</a></td><td></td><td>&nbsp;No Differences Found&nbsp;</td><td class="diff_next"><a href="#difflib_chg_to5__top">t</a></td><td></td><td>&nbsp;No Differences Found&nbsp;</td></tr>\n        </tbody>\n    </table>'

### `difflib.context_diff(a, b, fromfile='', tofile='', fromfiledate='', tofiledate='', n=3, lineterm='\n')`
a と b (文字列のリスト) を比較し、差分を、 `context diff` のフォーマットで返します。

In [36]:
fromfile = 'data/sample3.txt'

In [37]:
tofile = 'data/sample4.txt'

In [38]:
fromlines = open(fromfile).readlines()

In [41]:
tolines = open(tofile).readlines()

In [40]:
print(fromlines)

['wanwan\n', 'nyanyanyan\n', 'wanwan\n', 'nyanyanyan\n', 'wanwan\n', 'nyanyanyan\n', 'wanwan\n', 'nyanyanyan\n', 'wanwan\n', 'nyanyanyan\n', 'wanwan\n', 'nyanyanyan']


In [42]:
print(tolines)

['wanwan\n', 'nyanyanyan\n', 'wanwan\n', 'nyanyanyan\n', 'wanwan\n', 'nyanyanyan\n', 'nyanyanyan\n', 'wanwan\n', 'nyanyanyan\n', 'wanwan\n', 'wanwan\n', 'nyanyanyan']


In [43]:
diff = difflib.context_diff(fromlines, tolines)

In [44]:
print(diff)

<generator object context_diff at 0x112aa2ba0>


In [45]:
for i in diff:
    print(i)

*** 

--- 

***************

*** 4,12 ****

  nyanyanyan

  wanwan

  nyanyanyan

- wanwan

  nyanyanyan

  wanwan

  nyanyanyan

  wanwan

  nyanyanyan
--- 4,12 ----

  nyanyanyan

  wanwan

  nyanyanyan

  nyanyanyan

  wanwan

  nyanyanyan

  wanwan

+ wanwan

  nyanyanyan


**変更があった箇所で、` - ` は、一方(fromfile)にのみ存在する行で、**  
**変更があった箇所で、 ` + `は、もう一方(tofile)にのみ存在する行を表現しています**

#### `difflib.get_close_matches(word, possibilities, n=3, cutoff=0.6)`
「十分」なマッチの上位のリストを返します。  
とある`word`に対して、候補のリストである`possibilities`を渡します。  
そうすると、類似してそうなものをアルゴリズム、(ゲシュタルトパターンマッチング)をもとに演算して、  
`cutoff`値をもとに上位をリストで返してくれます。

In [46]:
difflib.get_close_matches('appel', ['ape', 'apple', 'peach', 'puppy'])

['apple', 'ape']

In [47]:
difflib.get_close_matches('appel', ['ape', 'apple', 'peach', 'puppy'], cutoff=0.1)

['apple', 'ape', 'puppy']

In [48]:
possibilities = [
    'Aaron',
    'Abel',
    'Abraham',
    'Abram',
    'Adam',
    'Adolph',
    'Adrian',
    'Alan',
    'Alastair',
    'Albert',
    'Alex',
    'Alexander',
    'Alexis'
]

In [51]:
difflib.get_close_matches('Achim', possibilities=possibilities, cutoff=0.25)

['Abraham', 'Adam', 'Abram']

#### `difflib.ndiff(a, b, linejunk=None, charjunk=IS_CHARACTER_JUNK)`
a と b (文字列のリスト) を比較し、  
差分 (差分形式の行を生成する ジェネレータ) を、 `Differ` のスタイルで返します。

In [54]:
diff = difflib.ndiff('one\ntwo\nthree\n'.splitlines(keepends=True),
                     'ore\ntree\nemu\n'.splitlines(keepends=True))

In [56]:
for i in diff:
    print(i)

- one

?  ^

+ ore

?  ^

- two

- three

?  -

+ tree

+ emu



#### `difflib.restore(sequence, which)`
差分を生成した元の二つのシーケンスのうち一つを返します。

In [57]:
diff = difflib.ndiff('one\ntwo\nthree\n'.splitlines(keepends=True),
                     'ore\ntree\nemu\n'.splitlines(keepends=True))

In [58]:
diff = list(diff)

In [59]:
diff

['- one\n',
 '?  ^\n',
 '+ ore\n',
 '?  ^\n',
 '- two\n',
 '- three\n',
 '?  -\n',
 '+ tree\n',
 '+ emu\n']

In [61]:
# ndiff で作成されたオブジェクトをもとに、1つ目のリストを復元
print(''.join(difflib.restore(diff, 1)), end="")

one
two
three


In [62]:
# ndiff で作成されたオブジェクトをもとに、2つ目のリストを復元
print(''.join(difflib.restore(diff, 2)), end="")

ore
tree
emu


#### `difflib.unified_diff(a, b, fromfile='', tofile='', fromfiledate='', tofiledate='', n=3, lineterm='\n')`

In [63]:
s1 = ['bacon\n', 'eggs\n', 'ham\n', 'guido\n']

In [64]:
s2 = ['python\n', 'eggy\n', 'hamster\n', 'guido\n']

In [66]:
import sys

In [68]:
sys.stdout.writelines(difflib.unified_diff(s1, s2, fromfile='before.py', tofile='after.py'))

--- before.py
+++ after.py
@@ -1,4 +1,4 @@
-bacon
-eggs
-ham
+python
+eggy
+hamster
 guido


### `class difflib.SequenceMatcher(isjunk=None, a='', b='', autojunk=True)`

#### `set_seqs(a, b)`
比較される2つの文字列を設定します。  

`SequenceMatcher` オブジェクトは、2つ目のシーケンスについての詳細な情報を計算し、キャッシュします。   
1つのシーケンスをいくつものシーケンスと比較する場合、まず `set_seq2()` を使って文字列を設定しておき、  
別の文字列を1つずつ比較するために、繰り返し `set_seq1()` を呼び出します。
  
`set_seq1(a)`  
比較を行う1つ目のシーケンスを設定します。比較される2つ目のシーケンスは変更されません。  
  
`set_seq2(b)`  
比較を行う2つ目のシーケンスを設定します。比較される1つ目のシーケンスは変更されません。

#### `find_longest_match(alo=0, ahi=None, blo=0, bhi=None)`
`isjunk` が省略されたか `None` の時、`a[alo:ahi]` と `b[blo:bhi]` の中から、最長のマッチ列を探します。

In [69]:
s = difflib.SequenceMatcher(None, " abcd", "abcd abcd")

In [72]:
s.find_longest_match(0,4,0,10)

Match(a=0, b=4, size=4)

aの、0番目からマッチでして、bの4番目までマッチして、その長さは４ということを意味しています。

引数 `isjunk` が与えられている場合、上記の通り、はじめに最長のマッチ列を判定します。  
ブロック内に `junk` 要素が見当たらないような追加条件の際はこれに該当しません。  
次にそのマッチ列を、その両側の `junk` 要素にマッチするよう、できる限り広げていきます。  

#### `get_matching_blocks()`
マッチした互いに重複の無いシーケンスを表す、3つ組の値のリストを返します。   
それぞれの値は (i, j, n) という形式で表され、`a[i:i+n] == b[j:j+n]` という関係を意味します。3つの値は i と j の間で単調に増加します。

In [73]:
s = difflib.SequenceMatcher(None, "abxcd", "abcd")

In [74]:
s.get_matching_blocks()

[Match(a=0, b=0, size=2), Match(a=3, b=2, size=2), Match(a=5, b=4, size=0)]

In [76]:
a = "abxcd"

In [77]:
b = "abcd"

In [78]:
a[0:0+2] == b[0:0+2]

True

In [80]:
a[3:3+2] == b[2:2+2]

True

In [81]:
a[5:5+0] == b[4:4+0]

True

**つまりそれぞれのシーケンスで、一致しているシーケンス・重複のない範囲のインデックスを計算してくれている**

### `ratio()`
[0, 1] の範囲の浮動小数点数で、シーケンスの類似度を測る値を返します。

In [82]:
difflib.SequenceMatcher(None, 'tide', 'diet').ratio()

0.25

In [86]:
name1 = "新垣結衣"

In [87]:
name2 = "新垣由依"

In [88]:
difflib.SequenceMatcher(None, name1, name2).ratio()

0.5

In [89]:
difflib.SequenceMatcher(None, "Aragaki Yui", "Aragaki Ui").ratio()

0.8571428571428571

#### `quick_ratio()` より高精度に計算し、`real_quick_ratio()` は最も高精度に計算してくれる

In [90]:
difflib.SequenceMatcher(None, "Aragaki Yui", "Aragaki Ui").quick_ratio()

0.8571428571428571

In [92]:
difflib.SequenceMatcher(None, "Aragaki Yui", "Aragaki Ui").real_quick_ratio()

0.9523809523809523

### 自然言語処理としては、単語間や文字列の類似度を簡単に出せるモジュールとしてよく使われます

In [110]:
difflib.SequenceMatcher(None, "猫", "犬").ratio()

0.0

In [111]:
difflib.SequenceMatcher(None, "子猫", "子犬").ratio()

0.5

In [112]:
difflib.SequenceMatcher(None, "猫", "子猫").ratio()

0.6666666666666666

**距離ベースなアルゴリズムです**

## `textwrap` --- テキストの折り返しと詰め込み

**`textwrap.wrap(text, width=70, **kwargs)`**  
`text` (文字列)内の段落を１まとめで折り返しを行います。  
  
**`textwrap.fill(text, width=70, **kwargs)`**  
`text` 内の段落を１まとめで折り返しを行い、折り返しが行われた段落を改行記号を挿入して返します。

In [113]:
import textwrap

In [121]:
text = "私の名前は、佐藤某です。某はそれがし、として伏せていますので本名ではありません。年齢は３０前半でデータサイエンスやAIなどといった分野で頑張っています。"

In [115]:
textwrap.wrap(text, width=11)

['私の名前は、佐藤某です',
 '。某はそれがし、として',
 '伏せていますので本名で',
 'はありません。年齢は３',
 '０前半でデータサイエン',
 'スやAIなどといった分',
 '野で頑張っています。']

In [120]:
textwrap.fill(text, width=11)

'私の名前は、佐藤某です\n。某はそれがし、として\n伏せていますので本名で\nはありません。年齢は３\n０前半でデータサイエン\nスやAIなどといった分\n野で頑張っています。'

**`textwrap.shorten(text, width, **kwargs)`**  
与えられた `text` を折りたたみ、切り詰めて、与えられた `width` に収まるようにします。

In [123]:
textwrap.shorten("Hello  world!", width=12)

'Hello world!'

In [124]:
textwrap.shorten("Hello  world!", width=11)

'Hello [...]'

In [125]:
textwrap.shorten("Hello  world!", width=5)

'[...]'

### `class textwrap.TextWrapper(**kwargs)`
**`width`**  
(デフォルト: 70) 折り返しが行われる行の最大の長さ。  
   
**`expand_tabs`**  
(デフォルト: `True`) もし真ならば、そのときは `text` 内のすべてのタブ文字は 空白されます。  
  
**その他、たくさんメソッドあり**

## 次回は...

`unicodedata` --- Unicode データベース
`stringprep` --- インターネットのための文字列管理