# newocr

https://www.newocr.com/


# A comprehensive guide to OCR with Tesseract, OpenCV and Python

https://nanonets.com/blog/ocr-with-tesseract/



# Python计算字符串相似度

## [<svg class="octicon octicon-link" viewBox="0 0 16 16" version="1.1" width="16" height="16" aria-hidden="true"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg>](https://github.com/coding-fans/python-book/blob/master/docs/zh_CN/practices/string-similarity.rst#%E8%83%8C%E6%99%AF)背景

有个任务需要从多个系统取出工单信息进行处理，
但是工单只有一个标题可以关联，而且还不是严格相等的。
例如：

* 易查通日常升级的发布请示
* 【易查通】易查通系统日常升级

这种判断比较棘手，只能利用 **字符串相似度** 进行衡量：

<pre>
ifsimilarity('易查通日常升级的发布请示', '【易查通】易查通系统日常升级') > 0.5:
    print('哥俩是同个工单')
</pre>

那么， Python 有现成的类库可衡量字符串相似度么？

## [<svg class="octicon octicon-link" viewBox="0 0 16 16" version="1.1" width="16" height="16" aria-hidden="true"><path fill-rule="evenodd" d="M7.775 3.275a.75.75 0 001.06 1.06l1.25-1.25a2 2 0 112.83 2.83l-2.5 2.5a2 2 0 01-2.83 0 .75.75 0 00-1.06 1.06 3.5 3.5 0 004.95 0l2.5-2.5a3.5 3.5 0 00-4.95-4.95l-1.25 1.25zm-4.69 9.64a2 2 0 010-2.83l2.5-2.5a2 2 0 012.83 0 .75.75 0 001.06-1.06 3.5 3.5 0 00-4.95 0l-2.5 2.5a3.5 3.5 0 004.95 4.95l1.25-1.25a.75.75 0 00-1.06-1.06l-1.25 1.25a2 2 0 01-2.83 0z"></path></svg>](https://github.com/coding-fans/python-book/blob/master/docs/zh_CN/practices/string-similarity.rst#difflib)difflib

基于 [difflib.SequenceMatcher](https://docs.python.org/2/library/difflib.html#difflib.SequenceMatcher) 类，我们可以实现一个用于计算字符串相似度的函数：

<pre>
fromdifflib import SequenceMatcher

def similarity(a, b):
    return SequenceMatcher(None, a, b).ratio()
</pre>

ratio 方法返回一个系数，衡量两个字符串的相识度，取值在 0-1 之间。

如果两个字符串完全相同，则系数为 1.0 ：

<pre>
>>> similarity('fasionchan', 'fasionchan')
1.0
</pre>

如果两个字符串完全没有任何相同之处，则系数为 0.0 ：

<pre>
>>> similarity('fasionchan', '')
0.0
>>> similarity('aaaaaaaa', 'bbbbbbbb')
0.0
</pre>

其他情况则介于 0 与 1 之间，越接近 1 越相似：

<pre>
>>> similarity('apple', 'banana')
0.18181818181818182
>>> similarity('易查通日常升级的发布请示', '【易查通】易查通系统日常升级')
0.5384615384615384
</pre>

In [1]:
from difflib import SequenceMatcher

def similarity(a, b):
    return SequenceMatcher(None, a, b).ratio()

In [2]:
similarity('fasionchan', 'fasionchan')

1.0

In [3]:
similarity('fasionchan', '')

0.0

In [4]:
similarity('aaaaaaaa', 'bbbbbbbb')

0.0

In [5]:
similarity('apple', 'banana')

0.18181818181818182

In [6]:
similarity('易查通日常升级的发布请示', '【易查通】易查通系统日常升级')

0.5384615384615384

In [11]:
import difflib
query_str = 'as of date 11/12/2019'
s1 = 'as of data 11/12/2019'
s2 = 'as fo date 11/12/2019'
s3 = 'similar date 11/12/2019'
print(difflib.SequenceMatcher(None, query_str, s1).quick_ratio()) # 0.9523809523809523 
print(difflib.SequenceMatcher(None, query_str, s2).quick_ratio()) # 1.0 
print(difflib.SequenceMatcher(None, query_str, s3).quick_ratio()) # 0.8181818181818182 
""" 第一个参数是想要忽略的字符，可以不算在其中。 seq = difflib.SequenceMatcher(lambda x:x=" ", a, b) """

0.9523809523809523
1.0
0.8181818181818182


' 第一个参数是想要忽略的字符，可以不算在其中。 seq = difflib.SequenceMatcher(lambda x:x=" ", a, b) '

## https://www.cnpython.com/pypi/strsim

## fuzzywuzzy

fuzzywuzzy 是一个第三方库，提供了更多的方法进行不同的字符匹配需求。

可以看到 fuzzywuzzy 的默认匹配区分度更直观点。

In [9]:
!pip install fuzzywuzzy

Collecting fuzzywuzzy
  Downloading https://files.pythonhosted.org/packages/43/ff/74f23998ad2f93b945c0309f825be92e04e0348e062026998b5eefef4c33/fuzzywuzzy-0.18.0-py2.py3-none-any.whl
Installing collected packages: fuzzywuzzy
Successfully installed fuzzywuzzy-0.18.0


In [10]:
from fuzzywuzzy import fuzz
query_str = 'as of date 11/12/2019'
s1 = 'as of data 11/12/2019'
s2 = 'as fo date 11/12/2019'
s3 = 'similar date 11/12/2019'

print (fuzz.ratio(query_str, s1)) #95 
print (fuzz.ratio(query_str, s2)) #95 
print (fuzz.ratio(query_str, s3)) #77

95
95
77




除些外，还有 partial_ratio(), token_set_ratio(),partial_token_sort_ratio()等方法。

本文内容基本来源于这篇文章，这里存一下我的笔记：

https://chairnerd.seatgeek.com/fuzzywuzzy-fuzzy-string-matching-in-python/


## 全局匹配和子字符串匹配

先看对ice和icecream两个字符串的处理：

```language-python
from fuzzywuzzy import fuzz

str1 = "ice"
str2 = "icecream"

print (fuzz.ratio(str1, str2))
# 55
print (fuzz.partial_ratio(str1, str2))
# 100
123456789
```

从形式上看，icecream比ice在**末尾**多了几个字符，或者说ice是icecream的子字符串，但其实它们是两个东西。ratio()判断不相似，而partial_ratio()做得不够好，它认为两者是完全等同的。

```language-python
str1 = "ice-cream"
str2 = "icecream"

print (fuzz.ratio(str1, str2))
# 94
print (fuzz.partial_ratio(str1, str2))
# 88
1234567
```


这个例子的结果相反，对于相同的两样东西“ice-cream”和"icecream"，partial_ratio()给出了比ratio()更低的匹配值。

前面两个例子中，str1、str2长度是不等的。实际上当两个字符串**长度相等**时，ratio()和partial_ratio()给出的得分是一样的：

```language-python
str1 = "ice-cream"
str2 = "ice,cream"

print (fuzz.ratio(str1, str2))
# 89
print (fuzz.partial_ratio(str1, str2))
# 89
1234567
```


总结一下，对于两个**长度不同**的字符串（比如ice和icecream），partial_ratio()返回得分最高的子字符串（substring）的匹配值。对比ice和icecream，他会把icecream拆成ice, cec, cre, …等等长度和ice相等的子字符串构成的序列，再一一进行ratio()比较。

在icecream中得分最高的子字符串是ice，因为ice和ice完全一样，所以最终结果是ice和ice的匹配值，即100。

简单理解，如果字符串B包含了完整的字符串A，比如在icecream中包含了ice，partial_ratio()得出的匹配值就是100，无论在icecream and cheesecake and beefburger前或后面加多少吃的，结果还是100。

## 打乱顺序的匹配

fuzz.token_sort_ratio()用来匹配两个意思相同、但顺序不同的字符串：

```language-python
str1 = "Tom and Jerry"
str2 = "Jerry and Tom"

print (fuzz.ratio(str1, str2))
# 38
print (fuzz.token_sort_ratio(str1, str2))
# 100
1234567
```


ratio()对顺序敏感，而token_sort_ratio()不受单词顺序影响。

token_sort_ratio()**以空格为分隔符，小写化所有字母，无视空格外的其它标点符号**，把字符串转化为“tom”, “and”, “jerry"三个token（tokenize），按字母顺序组合成一个新的字符串“and jerry tom”，再进行普通的ratio()比较。所以“Tom and Jerry”和“Jerry and Tom”，在token_sort_ratio()眼里，都是"and jerry tom”，最终匹配得分为100.

另外还有partial_token_sort_ratio()方法，这里Tom和Tommy的partial_ratio()一样，所以整体匹配值也为100：

```language-python
str1 = "Tom and Jerry"
str2 = "Jerry and Tommy"

print (fuzz.ratio(str1, str2))
# 43
print (fuzz.partial_token_sort_ratio(str1, str2))
# 100
1234567
```


由于这种排序，还会发生如下情况：

```language-python
str1 = "Tom and Jerry"
str2 = "Jerry and Tom and Ana"

print (fuzz.ratio(str1, str2))
# 47
print (fuzz.partial_token_sort_ratio(str1, str2))
# 100
1234567
```


这是因为排序后，"and Ana"位于字符串的最前面，按照partial_ratio()的处理被忽略掉了（排在末尾也是一样的）。

## 含有重复元素的匹配

假设有人在数据录入出现了重复，类似"Tom Tom and Jerry"这样的错误，我们可用fuzz.token_set_ratio()解决。

```language-python
str1 = "Tom and Jerry"
str2 = "Tom Tom and Jerry"

print (fuzz.ratio(str1, str2))
# 87
print (fuzz.token_set_ratio(str1, str2))
# 100
1234567
```


除此以外，token_set_ratio()还有更多用途。我们之前讲的token_sort_ratio()，是先token化，再排序，最后匹配。而token_set_ratio()在排序的同时还会把字符串分为共有部分（intersection）和多余部分，如下：

```language-python
# 这一步除了token化、分离、排序外，还会删除字符串中重复的token
inter = [sorted_intersection]
sorted_str1 = [sorted_intersection] + [sorted_rest_of_str1]
sorted_str2 = [sorted_intersection] + [sorted_rest_of_str2]

ratio1 = fuzz.ratio(inter, str1)
ratio2 = fuzz.ratio(inter,str2)
ratio3 = fuzz.ratio(str1, str2)
12345678
```


再在ratio1, ratio2, ratio3三个值之中简单取最大值。

来看实例，假设我们现在有两个人同时输入Donald Trump，但其中一个人输入了全名"Donald J. Trump"，而另一个人不小心多按了一次ctrl+v，输入了"Donald TrumpDonald Trump". 这个例子中并没有重复的单词，那么token_set_ratio()处理效果如何呢？

```language-python
str1 = "Donald J. Trump"
str2 = "Donald TrumpDonald Trump"

# token化，删除重复值，排序
inter = "donald trump" 
sorted_str1 = "donald trump j"  # j后面的标点被忽视了
sortrd_str2 = "donald trump trumpdonald"

# 两两匹配，取最大值
print (fuzz.ratio(inter, sorted_str1))
# 92
print (fuzz.ratio(inter, sorted_str2))
# 67
print (fuzz.ratio(sorted_str1, sorted_str2))
# 68

print (fuzz.token_set_ratio(str1, str2))
# 92
123456789101112131415161718
```


可以看到，token_set_ratio()在这几个条件下匹配分会较高：  
（1）共有部分在其中一个字符串所占比例很大，那么ratio1或ratio2得分会高；  
（2）两个字符串多余的部分十分接近，那么ratio3得分会高。

## 总结

总的来说，fuzz这几个ratio()函数比较笨，需要人工判断字符串自身的情况，再选择相应的函数匹配。如果选错了，会得到和预想差别很大的结果。前面例子中就有很多匹配结果不理想的。

另外fuzzywuzzy还有process模块，用于处理备选答案有限的情况。比如某个问题的答案只有[yes, no, maybe, N/A]几种可能，而答案可能出现"ya", "none"等，可以使用process.extract()方法，去匹配备选项中最接近的那一个。

## Levenshtein

In [14]:
!pip install python-Levenshtein

Collecting python-Levenshtein
[?25l  Downloading https://files.pythonhosted.org/packages/42/a9/d1785c85ebf9b7dfacd08938dd028209c34a0ea3b1bcdb895208bd40a67d/python-Levenshtein-0.12.0.tar.gz (48kB)
[K    100% |████████████████████████████████| 51kB 135kB/s ta 0:00:011
Building wheels for collected packages: python-Levenshtein
  Running setup.py bdist_wheel for python-Levenshtein ... [?25ldone
[?25h  Stored in directory: /Users/lw/Library/Caches/pip/wheels/de/c2/93/660fd5f7559049268ad2dc6d81c4e39e9e36518766eaf7e342
Successfully built python-Levenshtein
Installing collected packages: python-Levenshtein
Successfully installed python-Levenshtein-0.12.0


In [15]:
import Levenshtein
query_str = 'as of date 11/12/2019'
s1 = 'as of data 11/12/2019'
s2 = 'as fo date 11/12/2019'
s3 = 'similar date 11/12/2019'

# hamming距离，str1和str2长度必须一致，描述两个等长字串之间对应位置上不同字符的个数 
print(Levenshtein.hamming(query_str, s1)) # 1 
print(Levenshtein.hamming(query_str, s2)) # 2 
#print(Levenshtein.hamming(query_str, s3)) #ValueError: hamming expected two unicodes of the same length 

# 编辑距离，描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括 插入、删除、替换 
print(Levenshtein.distance(query_str, s1)) # 1 
print(Levenshtein.distance(query_str, s2)) # 2 
print(Levenshtein.distance(query_str, s3)) # 7 

# 计算莱文斯坦比 
print(Levenshtein.ratio(query_str, s1)) # 0.9523809523809523 
print(Levenshtein.ratio(query_str, s2)) # 0.9523809523809523 
print(Levenshtein.ratio(query_str, s3)) # 0.7727272727272727 

# 计算jaro距离 
print(Levenshtein.jaro(query_str, s1)) # 0.9682539682539683 
print(Levenshtein.jaro(query_str, s2)) # 0.9841269841269842 
print(Levenshtein.jaro(query_str, s3)) # 0.8151023694501954 

# Jaro–Winkler距离 
print(Levenshtein.jaro_winkler(query_str, s1)) # 0.9968253968253968 
print(Levenshtein.jaro_winkler(query_str, s2)) # 0.9888888888888889 
print(Levenshtein.jaro_winkler(query_str, s3)) # 0.8151023694501954

1
2
1
2
7
0.9523809523809523
0.9523809523809523
0.7727272727272727
0.9682539682539683
0.9841269841269842
0.8151023694501954
0.9968253968253968
0.9888888888888889
0.8151023694501954


使用Python实现了常用的字符串相似度算法，一共超过十种。列举如下：

* Levenshtein
* NormalizedLevenshtein
* WeightedLevenshtein
* DamerauLevenshtein
* OptimalStringAlignment
* Jarowinkler
* LongestCommonSubsequence
* MetricLongestCommonSubsequence
* NGram
* QGram
* Cosine
* Jaccard
* SorenceDice

https://github.com/luozhouyang/python-string-similarity

In [None]:
https://zhuanlan.zhihu.com/p/108803219