## 두 문자열 비교하기 (difflib)

파이썬 표준 라이브러인 difflib의 SequenceMatcher를 사용해서 2개 문자열의 유사성을 수치화할 수 있다.
* link : https://codetorial.net/tips_and_examples/difflib.html

단점 : 큰 문자열에 속도가 느림

In [3]:
from difflib import SequenceMatcher

str1 = '안녕하세요.'
str2 = '안녕하세요.'
str3 = '오늘 날씨 어때요?'

ratio = SequenceMatcher(None, str1, str2).ratio()
print(ratio)

1.0


In [4]:
ratio = SequenceMatcher(None, str1, str3).ratio()
print(ratio)

0.125


## Google - Diff Match and Patch libraries

* https://pypi.org/project/diff-match-patch/
* api 설명 : https://github.com/google/diff-match-patch/wiki/API

구글에서 만든 diff 계산해주는 api이다.
이 라이브러리는 Myer's diff algorithm을 구현한 알고리즘으로 본 알고리즘은 일반적으로 최고 성능을 보이고 가장 범용적으로 쓰이는 알고리즘이다.

### Myer's diff algorithm
* 시간복잡도 : O(N)
* 하나의 제안된 최적화는 양쪽 끝에서 동시에 차이점을 처리하고 중간에서 만나는 것이다. 대부분의 경우 성능은 50%까지 향상된다. 

In [1]:
from diff_match_patch import diff_match_patch

In [5]:
path = "C:/Users/suljeewoo/PycharmProjects/sample_cmp/"

# text 파일 read
with open(path + "1.txt", "r", encoding="UTF-8") as f1:
    text1 = "".join(f1.readlines())

with open(path + "2.txt", "r", encoding="UTF-8") as f1:
    text2 = "".join(f1.readlines())

In [14]:
dmp = diff_match_patch()
dmp.Diff_Timeout = 0.0
diff = dmp.diff_main(text1, text2, False)
# print('diff :', diff)

In [15]:
# 유사도
common_text = sum([len(txt) for op,txt in diff if op==0])   # op:1(삽입), 0(동일), -1(삭제), txt : 내용
text_length = max(len(text1), len(text2))
sim = common_text/text_length
print('sim :', round(sim, 3))


sim : 0.976


In [23]:
def compute_sim_and_diff(text1, text2):
    dmp = diff_match_patch()
    diff = dmp.diff_main(text1, text2, False)

    # 유사도
    common_text = sum([len(txt) for op,txt in diff if op==0])   # op:1(삽입), 0(동일), -1(삭제), txt : 내용
    text_length = max(len(text1), len(text2))
    sim = round(common_text/text_length, 3) 

    return sim, diff    # 유사도, diff 리스트

In [24]:
compute_sim_and_diff(text1, text2)[0]

0.976