In [6]:
import copy, re
import numpy as np
from krwordrank.hangle import normalize

def get_jaccard_matrix(product_names):
    def cleaning_symbols(text):
        return re.sub('[-=+,#/\?;:^$.@*\"※~&%ㆍ!』\\‘|\(\)\[\]\<\>`\'…》]', '', text)
    
    def get_jaccard_similar(product_name1, product_name2, jaccard=False):
        product_name1_tmp = normalize(str(product_name1), english=True, number=False)
        product_name2_tmp = normalize(str(product_name2), english=True, number=False)
        s1 = set(product_name1_tmp)
        if ' ' in s1:
            s1.remove(' ')
        s2 = set(product_name2_tmp)
        if ' ' in s2:
            s2.remove(' ')
        if jaccard:
            sim = (len(s1.intersection(s2))) / len(s1.union(s2))  # +0.00001
        else:
            sim = len(s1.intersection(s2)) / len(s1)  # +0.00001


        return sim
    
    
    product_names = np.asarray(product_names)
    products = copy.deepcopy(product_names)
    products = np.vectorize(cleaning_symbols)(products)
    
    matrix = []
    for p in products:
        temp = []
        for target in products:
            temp.append(get_jaccard_similar(p, target))
        matrix.append(temp)
        
    return matrix

In [7]:
p = ['안국건강 안국 눈에 좋은 루테인 플러스'
    ,'[안국건강] 눈에 좋은 루테인 플러스 500mg x 30캡슐'
    ,'[안국건강] 눈에좋은루테인플러스 60캡슐2개월)'
    ,'[안국건강] 안국 눈에 좋은 루테인 플러스 120캡슐 1박스(4개월분)'
    ,'안국 눈에좋은 루테인 플러스 180캡슐 세트 1개'
    ,'세노비스 루테인 오메가3 . 눈건강에 좋은 오메가3 60캡슐'
    ,'한미헬스케어 눈에 좋은 루테인 골드 2병 6개월분 눈영양제 눈건강']

In [8]:
get_jaccard_matrix(p)

[[1.0,
  1.0,
  1.0,
  1.0,
  0.8571428571428571,
  0.7142857142857143,
  0.7142857142857143],
 [0.7368421052631579,
  1.0,
  0.8421052631578947,
  0.8421052631578947,
  0.7368421052631579,
  0.631578947368421,
  0.5263157894736842],
 [0.7777777777777778,
  0.8888888888888888,
  1.0,
  1.0,
  0.8333333333333334,
  0.6666666666666666,
  0.6666666666666666],
 [0.7, 0.8, 0.9, 1.0, 0.75, 0.6, 0.65],
 [0.7058823529411765,
  0.8235294117647058,
  0.8823529411764706,
  0.8823529411764706,
  1.0,
  0.6470588235294118,
  0.5294117647058824],
 [0.5555555555555556,
  0.6666666666666666,
  0.6666666666666666,
  0.6666666666666666,
  0.6111111111111112,
  1.0,
  0.5555555555555556],
 [0.4166666666666667,
  0.4166666666666667,
  0.5,
  0.5416666666666666,
  0.375,
  0.4166666666666667,
  1.0]]