## 두 문자열 비교하기 (difflib)

파이썬 표준 라이브러인 difflib의 SequenceMatcher를 사용해서 2개 문자열의 유사성을 수치화할 수 있다.
* link : https://codetorial.net/tips_and_examples/difflib.html

단점 : 큰 문자열에 속도가 느림

In [None]:
from difflib import SequenceMatcher

str1 = '안녕하세요.'
str2 = '안녕하세요.'
str3 = '오늘 날씨 어때요?'

ratio = SequenceMatcher(None, str1, str2).ratio()
print(ratio)

In [None]:
ratio = SequenceMatcher(None, str1, str3).ratio()
print(ratio)

## Google - Diff Match and Patch libraries

* https://pypi.org/project/diff-match-patch/
* api 설명 : https://github.com/google/diff-match-patch/wiki/API

구글에서 만든 diff 계산해주는 api이다.
이 라이브러리는 Myer's diff algorithm을 구현한 알고리즘으로 본 알고리즘은 일반적으로 최고 성능을 보이고 가장 범용적으로 쓰이는 알고리즘이다.

### Myer's diff algorithm
* 시간복잡도 : O(N)
* 하나의 제안된 최적화는 양쪽 끝에서 동시에 차이점을 처리하고 중간에서 만나는 것이다. 대부분의 경우 성능은 50%까지 향상된다. 

In [None]:
from diff_match_patch import diff_match_patch

In [None]:
path = "C:/Users/suljeewoo/PycharmProjects/sample_cmp/"

# text 파일 read
with open(path + "1.txt", "r", encoding="UTF-8") as f1:
    text1 = "".join(f1.readlines())

with open(path + "2.txt", "r", encoding="UTF-8") as f1:
    text2 = "".join(f1.readlines())

In [None]:
dmp = diff_match_patch()
dmp.Diff_Timeout = 0.0
diff = dmp.diff_main(text1, text2, True)
diff2 = dmp.diff_main(text1, text2, False)
# eval = {1:'삽입', 0:'동등', -1:'삭제'}

# for i,j in diff:
#     print('{}({}) : {}'.format(i, eval[i], j))

In [None]:
# 유사도
common_text = sum([len(txt) for op,txt in diff if op==0])   # op:1(삽입), 0(동일), -1(삭제), txt : 내용
text_length = max(len(text1), len(text2))
sim = common_text/text_length
print('sim :', round(sim, 3))


In [None]:
def compute_sim_and_diff(text1, text2):
    dmp = diff_match_patch()
    diff = dmp.diff_main(text1, text2)

    # 유사도
    common_text = sum([len(txt) for op,txt in diff if op==0])   # op:1(삽입), 0(동일), -1(삭제), txt : 내용
    text_length = max(len(text1), len(text2))
    sim = round(common_text/text_length, 3) 

    return sim, diff    # 유사도, diff 리스트

In [None]:
compute_sim_and_diff(text1, text2)[0]

In [None]:
from itertools import combinations

target = [i for i in range(1)]
print('target:', target)
combi = list(combinations(target, 2))
print(combi)

In [None]:
if len(target) <= 1:
    print('target:', target)

In [None]:
import pandas as pd

total = []
data = {'digest':'sha123456', 'min_sim':0.1, 'max_sim':0.9}
data2 = {'digest':'sha33333', 'min_sim':0.21, 'max_sim':0.88}
total.append(data)
total.append(data2)

df = pd.DataFrame(total, columns=['digest', 'min_sim', 'max_sim'])
df

In [None]:
a1,a2 = 0,2

In [None]:
import numpy as np

df = pd.DataFrame(np.random.randn(5,3),columns=['A','B','C'])
df

In [None]:
df['A'].min()

In [None]:
df['A'].max()

In [None]:
df['A'].mean()

In [None]:
dir_path = 'C:/Users/suljeewoo/PycharmProjects/'
df.to_excel(dir_path+'220207 digest_result/sample.xlsx', index=False)

In [None]:
nums = [1074, 1081, 1074, 1108, 1119]
print('평균 :', sum(nums)/len(nums))

In [None]:
nums = [748,711,694,735,756]
print('평균 :', sum(nums)/len(nums))

In [None]:
100*(728/1091)

In [None]:
import pandas as pd

xlsx = pd.read_excel('C:/Users/suljeewoo/PycharmProjects/220208_digest_result/total_sim1.xlsx')
xlsx.head()

In [None]:
import os
import pandas as pd

In [None]:
folder_path = 'C:/Users/suljeewoo/PycharmProjects/220208_digest_result/digest_2'
dir_list = os.listdir(folder_path)

for d in dir_list:
    df = pd.read_csv(folder_path+'/'+d)
    mask1 = (df.sim >=0.858) & (df.sim <= 0.86)
    df_mask = df.loc[mask1, :]
    if len(df_mask) >= 1:
        print(folder_path+'/'+d)
        break