In [None]:
!pip install python-Levenshtein

Levenshtein distance 是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。接下来我会用Levenshtein 的算法来进行超市A和超市B的产品对比，并计算出他们之间的similarity score.

In [12]:
import pandas as pd
import Levenshtein
pd.set_option('display.max_rows', 2000)

A=pd.read_excel("数据测试题目.xlsx",sheet_name="超市A清单")
B=pd.read_excel("数据测试题目.xlsx",sheet_name="超市B清单")


In [3]:
#data cleaning
def replace(word):
  characters_to_remove = "1234567890gGkK 一颗个粒份捆盒约新鲜 ./-（）()*\【】／"
  for character in characters_to_remove:
    word = word.replace(character, "")
  return word

A["超市A产品_replaced"]=A["超市A产品品"].apply(lambda x: replace(x))
B["超市B产品_replaced"]=B["超市B产品"].apply(lambda x: replace(x))


In [4]:
#对比两家超市的所有产品，并记录下他们的similarity score
array=[]
for j, b in B.iterrows():
  for i, a in A.iterrows():
    score=Levenshtein.ratio(a["超市A产品_replaced"],b["超市B产品_replaced"])
    array.append([b["超市B产品"], b["超市B价格"],a["超市A产品品"],a["超市A价格"],score])
    #删掉hashtag可以显示被清理过后的产品名称
    #array.append([b["超市B产品_replaced"], b["超市B价格"],a["超市A产品_replaced"],a["超市A价格"],score])

df=pd.DataFrame(array)
df.columns=["超市B产品","超市B价格","超市A产品","超市A价格","similarity_score"]
df["差价"]=abs(df['超市A价格']-df['超市B价格'])


In [13]:
results=df.sort_values('similarity_score').drop_duplicates(['超市B产品'],keep='last').sort_values(by="similarity_score",ascending=False).reset_index(drop=True)
results

Unnamed: 0,超市B产品,超市B价格,超市A产品,超市A价格,similarity_score,差价
0,旺仔QQ糖葡萄味,1.49,旺仔QQ糖20g 葡萄味,0.89,1.0,0.6
1,吉香居麻辣萝卜干106g,0.99,吉香居麻辣萝卜干106g,0.54,1.0,0.45
2,老干妈红油腐乳,2.39,老干妈红油腐乳260g,2.89,1.0,0.5
3,小龙坎火锅蘸料原味,1.59,小龙坎火锅蘸料-原味120g,1.29,1.0,0.3
4,卫龙鱼豆腐,4.39,卫龙鱼豆腐180g,3.99,1.0,0.4
5,王致和香辣腐乳,1.99,王致和香辣腐乳240g,2.19,1.0,0.2
6,旺旺仙贝56g,1.59,旺旺仙贝56g,1.49,1.0,0.1
7,苹果4颗,2.99,苹果/3个,1.59,1.0,1.4
8,众望小麻花芝麻甜味130g,1.39,众望小麻花 芝麻甜味130g,1.45,1.0,0.06
9,卫龙魔芋爽麻辣味/盒,6.29,卫龙魔芋爽180g麻辣味,2.89,1.0,3.4


通过上面的表格，我们可以看出:

*   similarity score>0.57 的配对，准确度是很高的。

*   similarity score<0.57 的配对，准确度是比较低的。


因此，我们可以推测 similarity score>0.57 的产品，是两家超市共有的产品。



接下来，我们来找出超市B有，但超市A没有的产品。 


In [24]:
只有超市B有的产品=results[results["similarity_score"]<0.57]["超市B产品"].reset_index(drop=True)
只有超市B有的产品

0                 居味鲜纯手工牛油火锅底料
1                 良品铺子榛子小酥165h
2                 韩国黄金梨3(又大又圆)
3                       乐天巧克力派
4                    森永士多啤梨味软糖
5                          辣椒粉
6                       正丰山楂片干
7                   韩国泡菜500g罐装
8                      米老头蛋黄煎饼
9                   6月香豆瓣酱300g
10                       韩国豆瓣酱
11                   韩国鱼饼块270g
12                  十全味噌140g*3
13                      小馒头鸡蛋味
14                        日式味增
15                        炖肉料包
16                   李锦记麻辣火锅上汤
17                  和风紫芋大福210g
18                    自然派沙爹牛肉粒
19                    好友趣多汁牛排味
20                       日式炒面酱
21                 九福素食沙琪玛227g
22               海底捞青椒牛油火锅150克
23                 必品阁切片泡菜(罐装)
24                      手工麻薯抹茶
25                  李锦记蜜汁鼓油小炒酱
26                     甜心屋盐津桃肉
27                 泛龙麻辣素牛筋100g
28                     蜀道香麻辣笋尖
29                    川味王担担面佐料
30               好丽友巧克力派抹茶味12枚
31                香香嘴手撕素肉火爆香辣味
32      

最后让我们来看一下， 我们的similarity score 的分布形态。

In [25]:
import plotly.express as px

fig = px.histogram(results, x="similarity_score", marginal="rug", # 可以把rug换成violin/box
                         title="histogram of similarity score",nbins=100,hover_data=results.columns)
fig.show()