In [1]:
#!pip install sklearn

In [5]:
import pandas as pd
import numpy as np
from numpy.linalg import norm

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import warnings

In [6]:
warnings.filterwarnings('ignore')

foods = pd.read_csv('./전국통합식품영양성분정보(가공식품)표준데이터.csv', sep=',', encoding='ms949')

In [7]:
foodSet = pd.DataFrame(foods, columns=['식품코드', '식품명', '대표식품명', '식품대분류명', '식품중분류명', '식품소분류명', '에너지(kcal)', '탄수화물(g)', '단백질(g)', '지방(g)', '포화지방산(g)', '나트륨(mg)'])

In [8]:
# 추가 : '식품대분류명' = '식용유지류', '잼류', '당류', '장류', '조미식품' 배제
# 식사와 직접 관련이 없는 재료류는 제외
#print(foodSet['식품대분류명'])

foodSet = foodSet.loc[(foodSet['식품대분류명'] != '식용유지류') & \
                      (foodSet['식품대분류명'] != '잼류') & \
                      (foodSet['식품대분류명'] != '당류') & \
                      (foodSet['식품대분류명'] != '장류') & \
                      (foodSet['식품대분류명'] != '조미식품')]
len(foodSet)

45196

In [9]:
# 결측치 제거  : NaN 있을 경우 K Mean 측정에서 문제 발생
foodSet.fillna(0, inplace=True)

In [7]:
foodSetNames = foodSet['식품명']
foodSetNames.head()

0          과·채주스_프룻밀토마토
1    과·채주스_프리마5후르츠칵테일주스
2      과·채주스_프리마셀렉션사과주스
3    과·채주스_프리마셀렉션파인애플주스
4     과·채주스_프리미엄 애플망고주스
Name: 식품명, dtype: object

---

In [None]:
# lialg(Linear Algebra : 선형대수 함수) 라이브러리
# norm : 벡터의 크기(magnitude) 또는 길이(length)를 측정하는 방법. 
# 벡터 공간을 어떤 양의 실수 값으로 매핑하는 함수와 유사함.
# norm : https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html

# 코사인 유사도(cosine similarity) 측정 함수
def get_cosine_similarity(m1, m2):
    return dot(m1, m2)/(norm(m1)*norm(m2))

In [20]:
# '된장'이라는 단어가 포함된 식품명
# searchFoodDF = foodSet[foodSet['식품명'].str.contains('된장찌개')]
searchFoodDF = foodSet[foodSet['식품명'].str.contains('된장')]
searchFoodDF.head()

Unnamed: 0,식품코드,식품명,대표식품명,식품대분류명,식품중분류명,식품소분류명,에너지(kcal),탄수화물(g),단백질(g),지방(g),포화지방산(g),나트륨(mg)
6807,P108-003000400-0196,라면_요린이의보글보글된장라면,라면,면류,해당없음,유탕면,423,68.18,9.09,12.73,6.36,1264.0
6931,P108-003000400-0068,라면_된장라면,라면,면류,해당없음,유탕면,413,65.0,8.33,13.33,6.67,1425.0
11902,P108-002000100-0009,기타면_랜선식당 보리된장 마제소바,기타면,면류,해당없음,생면,266,40.6,7.7,8.1,4.5,928.0
13865,P106-005000100-0001,기타 두부 가공품_순두부짜박이 차돌양지된장,기타 두부 가공품,두부류 또는 묵류,해당없음,두부,78,3.55,6.75,4.26,0.99,401.0
18924,P106-001000100-0142,두부_정통 된장 순두부 찌개,두부,두부류 또는 묵류,해당없음,두부,44,2.85,3.35,2.35,0.4,298.0


In [22]:
X_features = foodSet[['식품명', '대표식품명', '식품대분류명', '식품중분류명', '식품소분류명']].values
X_features

array([['과·채주스_프룻밀토마토'],
       ['과·채주스_프리마5후르츠칵테일주스'],
       ['과·채주스_프리마셀렉션사과주스'],
       ...,
       ['햄_런천미트햄'],
       ['햄_레몬닭가슴살'],
       ['햄_로스트덕매콤한맛']], dtype=object)

In [24]:
# 정규 분포로 다시 스케일링하기
from sklearn.preprocessing import StandardScaler

X_features_scaled = StandardScaler().fit_transform(X_features)
X_features_scaled

ValueError: could not convert string to float: '과·채주스_프룻밀토마토'

In [21]:
# '된장'이라는 단어가 포함된 식품명
# targetIdx = foodSet[foodSet['식품명'].str.contains('된장')].index
#targetIdx

In [18]:
foodIdx = searchFoodDF.index
foodIdx

Index([ 6807,  6931, 11902, 13865, 18924, 24972, 43583, 43587, 43627, 43946,
       44582, 44627, 44642, 44677, 44683, 44699, 44741, 47239, 47545, 47654,
       47655, 47691, 47703, 49611],
      dtype='int64')

In [None]:
cosSimilDict = {} # index(key), 코사인 유사도(value)

for idx in foodIdx:

    if (idx < len(foodSet)):
        similVal = get_cosine_similarity(X_features_scaled[targetIdx], X_features_scaled[idx])
        #similarValues.append(similVal)

        # 타겟 상품 제외
        #if (idx != targetIdx):
        #    cosSimilDict[idx] = similVal
    else:        
        break;
    
    #print(similVal)

print(cosSimilDict)

In [None]:
minCosSimilVal = min(cosSimilDict.values())

# 최대 유사도 선정시 후보군 선정 유사도 0.99 이상인 제품군 생성
maxNearCosSimilVals = [val for val in cosSimilDict.values() if val > 0.99]

print('최저 유사도(가장 관계가 적은 식품) : ', minCosSimilVal) # 가장 유사도가 낮은 값  ex) -0.012988934902584414