In [1]:
import pandas as pd
import numpy as np

foods = pd.read_csv('./전국통합식품영양성분정보(가공식품)표준데이터.csv', sep=',', encoding='ms949')

In [2]:
foodSet = pd.DataFrame(foods, columns=['식품코드', '식품명', '에너지(kcal)', '탄수화물(g)', '단백질(g)', '지방(g)', '포화지방산(g)', '나트륨(mg)'])

In [3]:
# 결측치 제거  : NaN 있을 경우 K Mean 측정에서 문제 발생
foodSet.fillna(0, inplace=True)

In [4]:
X = foodSet[['에너지(kcal)', '탄수화물(g)', '단백질(g)', '지방(g)', '포화지방산(g)', '나트륨(mg)']].values

# 에너지(kcal)
X_energy = foodSet[['에너지(kcal)']]
X_energy.head()

Unnamed: 0,에너지(kcal)
0,43
1,45
2,45
3,54
4,38


In [5]:
#!pip install scikit-learn
#!pip install sklearn.preprocessing

In [6]:
# feature scaling
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range = (0,1))
X_energy = scaler.fit_transform(X_energy)

---

#### **SOM(Self-Organizing Map : 자기 조직화 지도)** <br>

[Link] : https://ko.wikipedia.org/wiki/%EC%9E%90%EA%B8%B0%EC%A1%B0%EC%A7%81%ED%99%94_%EC%A7%80%EB%8F%84<br>
[Link] : https://blog.naver.com/tutumd96/221712405650<br>
[Link] : https://blog.naver.com/plasticcode/221514486602<br>
[Link] : https://thebook.io/080263/0631/

In [7]:
import seaborn as sns
import matplotlib.pyplot as plt

# from matplotlib import font_manager, rc # 폰트 세팅을 위한 모듈 추가
# font_path = "malgun.ttf" # 사용할 폰트명 경로 삽입
# font = font_manager.FontProperties(fname = font_path).get_name()
# rc('font', family = font)

# # %matplotlib inline
# sns.pairplot(foodSet, diag_kind = 'kde', hue = 'cluster', palette = 'bright')
# plt.show()

In [8]:
# 에너지(kcal)
#plt.plot(X_energy[:])

In [9]:
# 자기조직화지도(SOM, Self-Organizing Map)
# : https://hyerimir.tistory.com/194
from minisom import MiniSom
from pylab import plot, axis, show, pcolor, colorbar, bone

# 20 : SOM의 X축에 대한 자원
# 20 : SOM의 Y축에 대한 자원
# 1 : 입력 vector(feature) 수
# sigma : 이웃 노드의 인접 반경
# learning_rate : 한번 학습할 때 얼마큼 변화를 주는지에 대한 상수
foodsSOM1 = MiniSom(20, 20, 1, sigma=1,learning_rate=0.5,topology='hexagonal',neighborhood_function='gaussian',activation_distance='euclidean', random_seed=0)

#초기값설정
foodsSOM1.random_weights_init(X_energy) # 초기화
foodsSOM1.train(X_energy,1000,random_order=True) # 진행

#bone()
#pcolor(foodsSOM1.distance_map().T, cmap='coolwarm')
#colorbar()

In [10]:
# 탄수화물에 대한 군집 분포

X_carbo = foodSet[['탄수화물(g)']]

scaler = MinMaxScaler(feature_range = (0,1))
X_carbo = scaler.fit_transform(X_carbo)

# 20 : SOM의 X축에 대한 자원
# 20 : SOM의 Y축에 대한 자원
# 1 : 입력 vector(feature) 수
# sigma : 이웃 노드의 인접 반경
# learning_rate : 한번 학습할 때 얼마큼 변화를 주는지에 대한 상수
carboSOM = MiniSom(20, 20, 1, sigma=1,learning_rate=0.5,topology='hexagonal',neighborhood_function='gaussian',activation_distance='euclidean', random_seed=0)

#초기값설정
carboSOM.random_weights_init(X_carbo) # 초기화
carboSOM.train(X_carbo,1000,random_order=True) # 진행

#bone()
#pcolor(carboSOM.distance_map().T, cmap='coolwarm')
#colorbar()

---

In [11]:
#  K Mean(평균) 군집화

#[Link] K-평균(K-Means) 알고리즘 및 KNN(Nearest Neighbor Classifier : K-최근접 이웃)과의 차이점
#: https://velog.io/@jhlee508/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-K-%ED%8F%89%EA%B7%A0K-Means-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98

In [12]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, silhouette_samples

In [13]:
X_features = foodSet[['에너지(kcal)', '단백질(g)', '지방(g)', '포화지방산(g)', '탄수화물(g)', '나트륨(mg)']].values
#X_features

In [14]:
# 정규 분포로 다시 스케일링하기
from sklearn.preprocessing import StandardScaler

X_features_scaled = StandardScaler().fit_transform(X_features)
#X_features_scaled

In [15]:
# 참고) 엘보 메소드(방법 : elbow method)
#: Cluster 간의 거리의 합을 나타내는 inertia가 급격히 떨어지는<b>(꺾이는 = 엘보(elbow)) 구간</b>이 생기는데, 이 지점의 K 값을 군집의 개수로 사용<br>
#
# [Link] : https://steadiness-193.tistory.com/285

In [16]:
# 최적의 k 찾기 (1) 엘보우 방법
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc # 폰트 세팅을 위한 모듈 추가

font_path = "malgun.ttf" # 사용할 폰트명 경로 삽입
font = font_manager.FontProperties(fname = font_path).get_name()
rc('font', family = font)

# distortions = [] # 왜곡

# for i in range(2, 15):
#     kmeans_i = KMeans(n_clusters=i, random_state=0)  # 모델 생성
#     kmeans_i.fit(X_features_scaled)   # 모델 훈련
#     distortions.append(kmeans_i.inertia_)
    
# plt.plot(range(2, 15), distortions, marker='o')
# plt.xlabel('클러스터의 수')
# plt.ylabel('왜곡(Distortion)')
# plt.show()

---

In [17]:
# 최종 군집화 결과맵-2 : detail
# 최적의 k 찾기 (2) 실루엣 계수에 따른 각 클러스터의 비중 시각화 함수 정의

from matplotlib import cm

def silhouetteViz(n_cluster, X_features): 
    
    kmeans = KMeans(n_clusters=n_cluster, random_state=0)
    Y_labels = kmeans.fit_predict(X_features)
    
    silhouette_values = silhouette_samples(X_features, Y_labels, metric='euclidean')

    y_ax_lower, y_ax_upper = 0, 0
    y_ticks = []

    for c in range(n_cluster):
        c_silhouettes = silhouette_values[Y_labels == c]
        c_silhouettes.sort()
        y_ax_upper += len(c_silhouettes)
        color = cm.jet(float(c) / n_cluster)
        plt.barh(range(y_ax_lower, y_ax_upper), c_silhouettes,
                 height=1.0, edgecolor='none', color=color)
        y_ticks.append((y_ax_lower + y_ax_upper) / 2.)
        y_ax_lower += len(c_silhouettes)
    
    silhouette_avg = np.mean(silhouette_values)
    plt.axvline(silhouette_avg, color='red', linestyle='--')
    plt.title('Number of Cluster : '+ str(n_cluster)+'\n' \
              + 'Silhouette Score : '+ str(round(silhouette_avg,3)))
    plt.yticks(y_ticks, range(n_cluster))   
    plt.xticks([0, 0.2, 0.4, 0.6, 0.8, 1])
    plt.ylabel('Cluster')
    plt.xlabel('Silhouette coefficient')
    plt.tight_layout()
    plt.show()

In [18]:
# 클러스터 수에 따른 클러스터 데이터 분포의 시각화 함수 정의
def clusterScatter(n_cluster, X_features): 
    c_colors = []
    kmeans = KMeans(n_clusters=n_cluster, random_state=0)
    Y_labels = kmeans.fit_predict(X_features)

    for i in range(n_cluster):
        c_color = cm.jet(float(i) / n_cluster) #클러스터의 색상 설정
        c_colors.append(c_color)
        #클러스터의 데이터 분포를 동그라미로 시각화
        plt.scatter(X_features[Y_labels == i,0], X_features[Y_labels == i,1],
                     marker='o', color=c_color, edgecolor='black', s=50, 
                     label='cluster '+ str(i))       
    
    #각 클러스터의 중심점을 삼각형으로 표시
    for i in range(n_cluster):
        plt.scatter(kmeans.cluster_centers_[i,0], kmeans.cluster_centers_[i,1], 
                    marker='^', color=c_colors[i], edgecolor='w', s=200)
        
    plt.legend()
    plt.grid()
    plt.tight_layout()
    plt.show()

In [19]:
#silhouetteViz(3, X_features_scaled) #클러스터 3개인 경우의 실루엣 score 및 각 클러스터 비중 시각화  ex) 0.383

In [20]:
#silhouetteViz(4, X_features_scaled) #클러스터 4개인 경우의 실루엣 score 및 각 클러스터 비중 시각화  ex) 0.405

In [21]:
#silhouetteViz(5, X_features_scaled) #클러스터 5개인 경우의 실루엣 score 및 각 클러스터 비중 시각화  ex) 0.431

In [22]:
#silhouetteViz(6, X_features_scaled) #클러스터 6개인 경우의 실루엣 score 및 각 클러스터 비중 시각화  ex) 0.45

In [23]:
#silhouetteViz(7, X_features_scaled) #클러스터 7개인 경우의 실루엣 score 및 각 클러스터 비중 시각화  ex) 0.454

In [24]:
#clusterScatter(3, X_features_scaled) #클러스터 3개인 경우의 클러스터 데이터 분포 시각화

In [25]:
#clusterScatter(4, X_features_scaled)  #클러스터 4개인 경우의 클러스터 데이터 분포 시각화

In [26]:
#clusterScatter(5, X_features_scaled)  #클러스터 5개인 경우의 클러스터 데이터 분포 시각화

In [27]:
#clusterScatter(6, X_features_scaled)  #클러스터 6개인 경우의 클러스터 데이터 분포 시각화

In [28]:
#clusterScatter(7, X_features_scaled)  #클러스터 7개인 경우의 클러스터 데이터 분포 시각화

#### 논문과 달리 최적의 K 값은 **7**로 판정됨  ex) 0.454

---

In [29]:
best_cluster = 7

# 최적화 클러스터의 개수를  7에 맞추어 K-Mean 군집화 모델을 다시 생성
kmeans = KMeans(n_clusters=best_cluster, random_state=0) 
# 모델 학습과 결과 예측(클러스터 레이블생성)
Y_labels = kmeans.fit_predict(X_features_scaled)

foodSet['clusterLabel'] = Y_labels
foodSet.head()

Unnamed: 0,식품코드,식품명,에너지(kcal),탄수화물(g),단백질(g),지방(g),포화지방산(g),나트륨(mg),clusterLabel
0,P109-302030200-2176,과·채주스_프룻밀토마토,43,10.0,0.47,0.0,0.0,17.0,1
1,P109-302030200-2177,과·채주스_프리마5후르츠칵테일주스,45,10.7,0.3,0.0,0.0,0.0,1
2,P109-302030200-2178,과·채주스_프리마셀렉션사과주스,45,11.0,0.2,0.2,0.0,0.0,1
3,P109-302030200-2179,과·채주스_프리마셀렉션파인애플주스,54,12.5,0.5,0.2,0.0,0.0,1
4,P109-302030200-2180,과·채주스_프리미엄 애플망고주스,38,8.0,0.19,0.56,0.03,1.0,1


In [30]:
foodSet.to_csv('./Final_Cluster_Result.csv')

In [31]:
# ex) '떡갈비' 영양소 벡터
pd.set_option('display.max_seq_items', None) # 생략없이 전부 출력

ex_product = foods.loc[foods['식품명'].str.contains('떡갈비')]
ex_product.head(3)

Unnamed: 0,식품코드,식품명,데이터구분코드,데이터구분명,식품기원코드,식품기원명,식품대분류코드,식품대분류명,대표식품코드,대표식품명,...,유통업체명,수입여부,원산지국코드,원산지국명,데이터생성방법코드,데이터생성방법명,데이터생성일자,데이터기준일자,제공기관코드,제공기관명
14113,P106-001000300-0011,두부_두부적 네모 떡갈비,P,가공식품,1,가공식품,6,두부류 또는 묵류,6001,두부,...,㈜푸드머스,N,36.0,해당없음,2,수집,2022-12-29,2024-02-23,1471000,식품의약품안전처
14280,P101-405000400-1765,빵_전주떡갈비빵,P,가공식품,1,가공식품,1,과자류·빵류 또는 떡류,1405,빵,...,해당없음,N,36.0,해당없음,2,수집,2021-06-30,2024-02-23,1471000,식품의약품안전처
17305,P101-415000400-0399,피자_한입피자불고기&떡갈비,P,가공식품,1,가공식품,1,과자류·빵류 또는 떡류,1415,피자,...,해당없음,N,36.0,해당없음,2,수집,2021-06-30,2024-02-23,1471000,식품의약품안전처


In [32]:
X_features_scaled[48951]

array([-0.45527375,  1.07819123, -0.18143553, -0.26492082, -0.80240105,
        0.58173517])

In [33]:
# 최종 결과에 따른 군집 분포

# 20 : SOM의 X축에 대한 자원
# 20 : SOM의 Y축에 대한 자원
# 6 : 입력 vector(feature) 수
# sigma : 이웃 노드의 인접 반경
# learning_rate : 한번 학습할 때 얼마큼 변화를 주는지에 대한 상수
finalFoodsSOM = MiniSom(20, 20, 6, sigma=1,learning_rate=0.5,topology='hexagonal',neighborhood_function='gaussian',activation_distance='euclidean', random_seed=0)

#초기값설정
finalFoodsSOM.random_weights_init(X_features_scaled) # 초기화
finalFoodsSOM.train(X_features_scaled,1000,random_order=True) # 진행

#bone()
#pcolor(finalFoodsSOM.distance_map().T, cmap='coolwarm')
#colorbar()

---

In [34]:
# 추가 분석 : 각 클러스터 파악
# 'clusterLabel' 기준으로 그룹을 만듦 => 7개의 클러스터(군집)으로 구성됨
foodSet.groupby('clusterLabel')['식품명'].count()

clusterLabel
0    18499
1    16908
2    10743
3     1237
4       28
5     1599
6      986
Name: 식품명, dtype: int64

In [35]:
from sklearn.metrics.pairwise import cosine_similarity 
# 주의) 사이킷런의 유사도 인자는 2차원 배열로 코사인 인자를 받으므로 변환이 필요함

inputFood = foodSet.loc[foodSet['식품명'].str.contains('오렌지주스')].iloc[0] # clusterLabel = 1
inputFood 

식품코드            P109-302030200-2068
식품명             과·채주스_파스퇴르발렌시아오렌지주스
에너지(kcal)                        43
탄수화물(g)                        10.0
단백질(g)                          0.4
지방(g)                           0.1
포화지방산(g)                       0.05
나트륨(mg)                        10.0
clusterLabel                      1
Name: 130, dtype: object

In [36]:
inputFood.index

Index(['식품코드', '식품명', '에너지(kcal)', '탄수화물(g)', '단백질(g)', '지방(g)', '포화지방산(g)',
       '나트륨(mg)', 'clusterLabel'],
      dtype='object')

In [37]:
# "clusterLabel = 1"인 군집 내에서 유사도 분석
foodIdx = foodSet[foodSet['clusterLabel'] == 1].index
#foodName = foodSet[foodSet['clusterLabel'] == 1]['식품명']
#foodName

# "과·채주스_파스퇴르발렌시아오렌지주스" 제품의 index
foodSet[foodSet['식품명'] == '과·채주스_파스퇴르발렌시아오렌지주스'].index[0] # index = 130

130

In [38]:
# 특정 index의 상품 정보
foodSet.iloc[130]
targetIdx = foodSet[foodSet['식품명'] == '과·채주스_파스퇴르발렌시아오렌지주스'].index[0]
targetIdx

130

---

In [40]:
# 군집 내의 유사도 측정
# targetIdx : "과·채주스_파스퇴르발렌시아오렌지주스"의 index

from numpy import dot
from numpy.linalg import norm

# lialg(Linear Algebra : 선형대수 함수) 라이브러리
# norm : 벡터의 크기(magnitude) 또는 길이(length)를 측정하는 방법. 
# 벡터 공간을 어떤 양의 실수 값으로 매핑하는 함수와 유사함.
# norm : https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html

# 코사인 유사도(cosine similarity) 측정 함수
def get_cosine_similarity(m1, m2):
    return dot(m1, m2)/(norm(m1)*norm(m2))

similarValues = []

# ValueError: Expected 2D array, got 1D array instead:
# 상기 에러 패치위한 조치 : array.reshape 함수 활용
# 주의) 사이킷런의 코사인 유사도 인자는 2차원 배열로 인자를 받으므로 변환이 필요함

#print("타겟 index : ",  X_features_scaled[targetIdx].reshape(-1, 1))
#print("다른 index : ", X_features_scaled[1].reshape(-1, 1))

#cosine_similarity(X_features_scaled[targetIdx].reshape(-1, 1), X_features_scaled[idx].reshape(-1, 1))

cosSimilDict = {} # index(key), 코사인 유사도(value)

# 최대의 유사도를 지난 식품은 타겟 식품 자신이므로, 이를 제외하고 검색 
for idx in foodIdx:
    # print(idx)
    # simil_val = cosine_similarity(X_features_scaled[targetIdx].reshape(-1, 1), X_features_scaled[idx].reshape(-1, 1))
    similVal = get_cosine_similarity(X_features_scaled[targetIdx], X_features_scaled[idx])
    #similarValues.append(similVal)

    # 타겟 상품 제외
    if (idx != targetIdx):
        cosSimilDict[idx] = similVal
    #print(simil_val)

#print(cosSimilDict)

minCosSimilVal = min(cosSimilDict.values())

# 최대 유사도 선정시 후보군 선정 유사도 0.99 이상인 제품군 생성
maxNearCosSimilVals = [val for val in cosSimilDict.values() if val > 0.99]

print('최저 유사도(가장 관계가 적은 식품) : ', minCosSimilVal) # 가장 유사도가 낮은 값  ex) -0.012988934902584414
#print('최근접 유사도 후보군(0.99 이상) : ', maxNearCosSimilVals)

최저 유사도(가장 관계가 적은 식품) :  -0.012988934902584414


In [41]:
# 최저 코사인 유사도를 가지는 값의 index 및 상품 정보 조회
minCosSimilFoodIdx = [idx for idx in cosSimilDict.keys() if cosSimilDict[idx] == minCosSimilVal][0]
print("최저 유사도 상품 index : %d, 상품명 : %s, 유사도 : %.20f" % (minCosSimilFoodIdx, foodSet.iloc[minCosSimilFoodIdx], cosSimilDict[minCosSimilFoodIdx]))

최저 유사도 상품 index : 49991, 상품명 : 식품코드            P117-100010100-0055
식품명                    햄_라즈베리허니로스트덕
에너지(kcal)                       267
탄수화물(g)                        3.33
단백질(g)                        16.67
지방(g)                          20.0
포화지방산(g)                       5.67
나트륨(mg)                       433.0
clusterLabel                      1
Name: 49991, dtype: object, 유사도 : -0.01298893490258441405


In [42]:
# 최대 유사도 선정시 후보군 선정 유사도 0.99 이상인 제품군 소속의 상품들 정보 조회
maxCosSimilFoodIdxes = [idx for idx in cosSimilDict.keys() if cosSimilDict[idx] in maxNearCosSimilVals]

In [43]:
# for idx in maxCosSimilFoodIdxes:    
    # print("최대 유사도 상품 index : %d, 상품명 : %s, 유사도 : %.20f" % (idx, foodSet.iloc[idx]['식품명'], cosSimilDict[idx]))

---

In [44]:
# 이후 단계 전개 절차
# ex) 1끼 먹을 음식을 제한적인 갯수로(가령 5개 정도) 한정하여 입력하도록 조치하여 이를 일일권장량 기준의 1/3로 환산하여  
# 각 영양소에 대한 부족분을 파악하고, 이에 따라서 임력한 음식(기호 음식)을 중심으로 후보군 내에서 적합한 음식을 필터링하여 추천 음식을 선정함

# 구체적인 방안) 한끼 식사에 대한 A ~ E까지 음식이 입력되었다고 전제하고, 권장량에 충족되면 입력 그대로 진행하고 그렇지 않으면, 부족한 영양소를 A ~ E
# 음식 순으로 기호에 맞게 유사도가 가까운 음식 후보군 중에서 미달된 영양 충족하는 음식을 선정하여 추천함 

In [45]:
inputFoods = {} # 음식(key) : 수량(value)

inputFoodA = foodSet.loc[foodSet['식품명'].str.contains('햄버거')].iloc[0]
inputFoodA
inputFoods[inputFoodA['식품명']] = 2

In [46]:
inputFoodB = foodSet.loc[foodSet['식품명'].str.contains('코카콜라')].iloc[0]
inputFoodB
inputFoods[inputFoodB['식품명']] = 1

In [47]:
inputFoodC = foodSet.loc[foodSet['식품명'].str.contains('감자칩')].iloc[2]
inputFoodC
inputFoods[inputFoodC['식품명']] = 3

In [48]:
inputFoodD = foodSet.loc[foodSet['식품명'].str.contains('열라면')].iloc[3]
inputFoodD
inputFoods[inputFoodD['식품명']] = 2

In [49]:
inputFoodE = foodSet.loc[foodSet['식품명'].str.contains('커피')].iloc[1] # 인스턴트커피_커피빈 카페라떼
inputFoodE
inputFoods[inputFoodE['식품명']] = 1

In [50]:
inputFoods

{'빵_노랑햄버거빵': 2,
 '탄산음료_코카콜라': 1,
 '일반과자_트러플 감자칩': 3,
 '라면_마열라면Cup': 2,
 '인스턴트커피_커피빈 카페라떼': 1}

---

In [51]:
import os
import cx_Oracle

# DB 한글 설정에 따른 한글 지원
# os.putenv('NLS_LANG', 'KOREAN_KOREA.KO16MSWIN949');
os.putenv('NLS_LANG', '.UTF8')

conn = cx_Oracle.connect('food', 'food', 'localhost:1521/xe')
cursor = conn.cursor()

In [52]:
# 성별과 나이대로 식약처 권장 영양 정보 조회
def findByGenderAndAge(gender, ageRange):

    sql_str = "select * from nutri_std_tbl where gender=:gender and age=:ageRange"
    records = cursor.execute(sql_str, [gender, ageRange])
    record = records.fetchone()

    # print('레코드 : ', record)

    # ['NUM', 'GENDER', 'AGE', 'CARBOHYDRATE', 'PROTEIN', 
    #  'SUGAR', 'NATRIUM', 'CHOLESTEROL', 'FAT', 'FATTY_ACID', 'TRANS_FATTY_ACID']
   
    return record

# 특정 나이의 나이대를 판정
# ex) 20 => 19~29
def calcAgeBand(age):
		
    result = ""
    
    ageRanges = ("6~8", "9~11", "12~14", "15~18", "19~29", "30~49", "50~64", "65~74", "75~")

    # print(ageRanges)
    
    # 리스트의 나이 최소 나이 추출하여 나이대의 최솟값의 리스트 생성
    # 나이대의 최솟값으로  6,9,12,15,19,30, .....
    ageRangeMins = [int(ageRange.split("~")[0]) for ageRange in ageRanges]
        
    # print(ageRangeMins)
    
    # 해당되는 나이(가령 20) 보다 이하 인(작거나 같은) 나이 중에서 최댓값을 구함 => 19
    tempAge = max([ageRangeMin for ageRangeMin in ageRangeMins if ageRangeMin <= age])
    
    # print("tempAge :", tempAge)
    
    # 나이대 계산
    result = [ageRange for ageRange in ageRanges if str(tempAge) in ageRange]

    # print(result[0])
        
    return result[0]

# 성별과 나이대로 식약처 권장 영양 정보 조회
def findByGenderAndAge(gender, ageRange):

    sql_str = "select * from nutri_std_tbl where gender=:gender and age=:ageRange"
    records = cursor.execute(sql_str, [gender, ageRange])
    record = records.fetchone()

    # print('레코드 : ', record)

    # ['NUM', 'GENDER', 'AGE', 'ENERGY', 'CARBOHYDRATE', 'PROTEIN', 
    #  'SUGAR', 'NATRIUM', 'CHOLESTEROL', 'FAT', 'FATTY_ACID', 'TRANS_FATTY_ACID']
   
    return record

findByGenderAndAge('남', calcAgeBand(20))
# (5,  '남', '19~29',   2600,         130,          65,     '10~20', 1500,        300,       '15~30',          7,            1)
# 번호, 성별, 연령대, 권장열량(kcal), 탄수화물(g), 단백질(g), 지방(g), 당류(g),  나트륨(mg), 콜레스테롤(mg),  포화지방산(g), 트랜스지방(g)

(5, '남', '19~29', 2600, 130, 65, '10~20', 1500, 300, '15~30', 7, 1)

In [53]:
# 성별, 나이, 신장, 체중, PA(Physical Activity:신체활동량)
# 영양권장량 (Recommended Dietary Allowance, RDA)

# 에너지 요구량 추정치(ESTIMATED ENERGY REQUIREMENT (EER))

# 관련 논문(근거) : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7004509/
# https://globalrph.com/medcalcs/estimated-energy-requirement-eer-equation/
# https://www.diabetes.or.kr/general/dietary/dietary_02.php?con=2
# https://www.eatforhealth.gov.au/nutrition-calculators/daily-energy-requirements-calculator

# PA(남성) : 1.1(저활동적), 1.48(매우 활동적)
# 원문) PA = 1.0 (sedentary), 1.11 (low active), 1.25 (active), or 1.48 (very active).

# PA(여성) : 1.2(저활동적), 1.45(매우 활동적)
# 원문) PA = 1.0 (sedentary), 1.12 (low active), 1.27 (active), or 1.45 (very active).

# PA 기준안 그림 포함)
# https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7004509/
# https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7004509/bin/JENB_2019_v23n4_1_f001.jpg

# 한국인 영양섭취 기준 : https://www.mohw.go.kr/boardDownload.es?bid=0019&list_no=335863&seq=1

# 영양권장량(RDA) 계산
# weight(체중) : kg, 
# height(신장) : m
# EER(에너지 요구량 추정치(ESTIMATED ENERGY REQUIREMENT (EER))) : kcal
# disease(질병) : 고혈압, 당뇨, 고지혈증, 비만
def calculateRDA(disease, gender, age, height, weight, PA=1):

    #recom = [] # 권장량

    # 에너지 추정량(kcal) : ESTIMATED ENERGY REQUIREMENT (EER) EQUATION
    # 관련 논문(근거) : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7004509/
    # https://globalrph.com/medcalcs/estimated-energy-requirement-eer-equation/
    EER = 0

    if gender == '남':
        EER = 622 - 9.53 * age + PA * (15.91 * weight + 536.6 * height)
    elif gender == '여':    
        EER = 354 - 6.91 * age + PA * (9.36 * weight + 726 * height)

    # 식약처 기준량 조회
    # 번호, 성별, 연령대, 권장열량(kcal), 탄수화물(g), 단백질(g), 지방(g), 당류(g),  나트륨(mg), 콜레스테롤(mg),  포화지방산(g), 트랜스지방(g)
    age_arange = calcAgeBand(age)
    print("연령대 : ", age_arange)
    
    nutri_tot = findByGenderAndAge(gender, age_arange)
    nutri_recomm = list(nutri_tot)
    
    # 불필요성분 제거 ex) 번호, 성별, 연령대
    nutri_recomm = nutri_recomm[3:]
    
    # 권장열량(kcal), 탄수화물(g), 단백질(g), 지방(g), 당류(g),  나트륨(mg), 콜레스테롤(mg),  포화지방산(g), 트랜스지방(g)
    print("권장 섭취량 (일반) : ", nutri_recomm)

    # 관련 근거 : https://www.ncbi.nlm.nih.gov/books/NBK218738/

    # 참고) 연도별 우리 국민의 1일 나트륨평균 섭취량 추이
    # (2022.12.31. 기준, 단위: ㎎/day, 출처: 국민건강영양조사, 질병관리청)
    
    # 연도           2011 2012  2013  2014  2015  2016  2017  2018  2019  2020  2021
    # 나트륨 섭취량 4,831 4,583 4,027 3,890 3,890 3,669 3,478 3,274 3,289 3,220 3,080

    # 관련 근거 : 2020 한국인 영양소 섭취기준 활용 자료 개발
    # https://e-jnh.org/pdf/10.4163/jnh.2022.55.1.21
    
    # 질병이 있을 경우  ex) disease(질병) : 고혈압, 당뇨, 고지혈증, 비만

    # 참고) 고혈압의 경우 나트륨 권장량이 3700ml로 되어 있는 것은 권장량과 다르나 최근 식약처의 충분량 섭취 제개정 기준 변화로 그대로 수용
    # 나트륨 관련 규정 : 2020 한국인 영양소 섭취기준 <보건복지부, 한국영양학회> 1. 한국인 영양소 섭취기준 제·개정 요약 p. 27
    # https://www.kns.or.kr/FileRoom/FileRoom_view.asp?idx=108&BoardID=Kdr
    
    # "당뇨 환자의 탄수화물 섭취량이 많은 이유 !"
    # 당뇨에 따른 탄수화물 섭취량 관련 논문)
    #
    # "당뇨병 환자는 일반적으로 총 열량의 50~60%를 탄수화물로 섭취하도록 권고하고 있으며, 탄수화물, 단백질, 
    # 지방 섭취량은 식습관, 기호도, 치료목표 등을 고려하여 개별화할 수 있다"
    # 논문 인용) 탄수화물계산을 활용한 임상영양요법 : 김미라 분당서울대학교병원 영양실
    # : https://www.e-jkd.org/upload/pdf/jkd-2022-23-2-133.pdf

    # 참고) 당뇨 환자 일일 필요 열량 측정 프로그램 : https://www.diabetes.or.kr/general/dietary/dietary_02.php?con=2

    if (disease == '고혈압'):
        nutri_recomm[5] = 3700 # 단위 mg
        print("nutri_recomm[5] (나트륨) : ", nutri_recomm[5])
    
    if (disease == '당뇨'):
        nutri_recomm[1] = EER * 0.7 // 4 # 단위 g        
        print("nutri_recomm[1] (탄수화물) : ", nutri_recomm[1]) # 탄수화물
    
    if (disease == '고지혈증'):
        nutri_recomm[6] = EER * 0.07 // 9 # 단위 g
        print("nutri_recomm[6] (포화지방산) : ", nutri_recomm[6]) # 포화지방산

    print("권장 섭취량(유병자 적용 후) : ", nutri_recomm)

    return nutri_recomm

In [67]:
#calculateRDA('', '여', 20, 1.6, 50, 1.25) 

In [68]:
#calculateRDA('고혈압', '남', 45, 1.85, 100, 1.11) 

In [69]:
#calculateRDA('당뇨', '여', 50, 1.75, 90, 1.0) 

In [70]:
#calculateRDA('고지혈증', '남', 20, 1.7, 70, 1.25)

---

In [57]:
import warnings

warnings.filterwarnings('ignore')

# 전체 입력 음식들에 대한 영양소 현황 집계
totFoods = pd.DataFrame(columns=['식품코드', '식품명', '에너지(kcal)', '탄수화물(g)', '단백질(g)', '지방(g)', '포화지방산(g)', '나트륨(mg)']);

print(type(totFoods))

# inputFoods
# print(foodSet.loc[foodSet['식품명'] == inputFoods])

count = 0

for foodName in inputFoods:

    # totFoods = foodSet.loc[foodSet['식품명'] == foodName]        
    # print(totFoods.head(1))    
    # print(foodSet.loc[foodSet['식품명'] == foodName])   
    
    foodRow = foodSet.loc[foodSet['식품명'] == foodName].drop_duplicates()

    # print("행수 : ", len(foodRow))
    
    if len(foodRow) == 2:
        foodRow = foodRow.head(1)

    print("수량 : ", inputFoods[foodName])

    #foodRow = foodRow * inputFoods[foodName] # 식품 * 수량 = 식품별 영양 사항
    
    foodRow['에너지(kcal)'] *= inputFoods[foodName]
    foodRow['탄수화물(g)'] *= inputFoods[foodName]
    foodRow['단백질(g)'] *= inputFoods[foodName]
    foodRow['지방(g)'] *= inputFoods[foodName]
    foodRow['포화지방산(g)'] *= inputFoods[foodName]
    foodRow['나트륨(mg)'] *= inputFoods[foodName]
    
    totFoods = pd.concat([totFoods, foodRow], ignore_index=True)
    
    # print("-------------------------------------------------------")

totFoods

<class 'pandas.core.frame.DataFrame'>
수량 :  2
수량 :  1
수량 :  3
수량 :  2
수량 :  1


Unnamed: 0,식품코드,식품명,에너지(kcal),탄수화물(g),단백질(g),지방(g),포화지방산(g),나트륨(mg),clusterLabel
0,P101-405000400-2833,빵_노랑햄버거빵,490,80.0,8.0,8.0,2.0,10.0,0.0
1,P109-401040100-0479,탄산음료_코카콜라,43,10.67,0.0,0.0,0.0,3.0,1.0
2,P101-106000100-2563,일반과자_트러플 감자칩,1800,140.01,20.01,129.99,39.99,1599.0,2.0
3,P108-003000400-0341,라면_마열라면Cup,854,135.48,19.36,25.8,9.68,3290.0,0.0
4,P109-202020000-0086,인스턴트커피_커피빈 카페라떼,66,8.8,2.0,2.4,1.0,40.0,1.0


In [58]:
# 음식에 대한 분야별 총량 계산

# sum(totFoods['에너지(kcal)'])
totFoods['에너지(kcal)'].sum()
# totFoods.describe()

3253

In [59]:
# 일일권장 섭취량 조회
# 권장열량(kcal), 탄수화물(g), 단백질(g), 지방(g), 당류(g),  나트륨(mg), 콜레스테롤(mg),  포화지방산(g), 트랜스지방(g)
standardRDA = calculateRDA('고혈압', '남', 45, 1.85, 100, 1.11)

연령대 :  30~49
권장 섭취량 (일반) :  [2500, 130, 65, '10~20', 1500, 300, '15~30', 7, 1]
nutri_recomm[5] (나트륨) :  3700
권장 섭취량(유병자 적용 후) :  [2500, 130, 65, '10~20', 1500, 3700, '15~30', 7, 1]


In [60]:
# 영양 결핍량 측정
# 에너지(kcal) 비교
# 영양 결핍분 집계 dataframe

nutriNeeds = {'에너지(kcal)' : [0], '탄수화물(g)' : [0], '단백질(g)' : [0], '지방(g)' : [0], '포화지방산(g)' : [0], '나트륨(mg)' : [0]}
nutriNeedsDF = pd.DataFrame(nutriNeeds, columns=['에너지(kcal)', '탄수화물(g)', '단백질(g)', '지방(g)', '포화지방산(g)', '나트륨(mg)'])

nutriNeedsDF['에너지(kcal)'] = totFoods['에너지(kcal)'].sum() - standardRDA[0]
nutriNeedsDF['탄수화물(g)']  = totFoods['탄수화물(g)'].sum() - standardRDA[1]
nutriNeedsDF['단백질(g)']    = totFoods['단백질(g)'].sum() - standardRDA[2]

#nutriNeedsDF['지방(g)']      = totFoods['지방(g)'].sum() - standardRDA[3]

# 지방 10~20
stdFat = standardRDA[3].split("~")
minFat = int(stdFat[0])
maxFat = int(stdFat[1])

#print("지방 : ", totFoods['지방(g)'].sum())

if totFoods['지방(g)'].sum() < minFat:
    nutriNeedsDF['지방(g)'] = minFat - totFoods['지방(g)'].sum()
elif totFoods['지방(g)'].sum() > maxFat:    
    nutriNeedsDF['지방(g)'] = totFoods['지방(g)'].sum() - maxFat

nutriNeedsDF['포화지방산(g)'] = totFoods['포화지방산(g)'].sum() - standardRDA[7]
nutriNeedsDF['나트륨(mg)'] = totFoods['나트륨(mg)'].sum() - standardRDA[5]

In [61]:
# 영양 성분 분석 결과
# 양수 이면 기준량에 대한 과잉분이 출력, 음수이면 기준량 대비 부족분으로 판단 
nutriNeedsDF

Unnamed: 0,에너지(kcal),탄수화물(g),단백질(g),지방(g),포화지방산(g),나트륨(mg)
0,753,244.96,-15.63,146.19,45.67,1242.0


---

In [66]:
# foodSet.loc[0]['clusterLabel']
totFoods.iloc[0]['clusterLabel']

0.0

In [78]:
# 영양 결핍 부족분(값이 음수)에 따른 추천 음식 선정
# 영양 결핍 부족분(값이 음수)인 영양소 파악

for nutri in nutriNeedsDF:
    #print(nutri)
    
    if float(nutriNeedsDF[nutri]) < 0: # 결핍 영양소
        
        # 결핍 영양소에 따른 음식 검색
        # 입력된 음식들의 군집 범위 내에서 검색하되 첫번째 음식부터 검색
        print("부족 영양소(nutri) : ", nutri)
        print("영양소 부족분(절대값) : ", abs(float(nutriNeedsDF[nutri])))

        # foodSet에서 같은 클러스터의 권장 섭취분 해당 음식 검색

        # 과식 방지를 위해 부족분(ex. 단백질 -15.63 ==> 15.63)에 가장 가까운 값(최소값) 선정
        # 첫번째 입력 음식의 clusterLabel과 비교
        print("clusterLabel : ", totFoods.iloc[0]['clusterLabel'])

        # 먼저 동일한 clusterLabel을 선정 
        chosenDF = foodSet.loc[foodSet['clusterLabel'] == totFoods.iloc[0]['clusterLabel']]
        
        # 영양소 결핍분에 대한 충족 음식 조회 
        chosenDF = chosenDF.loc[foodSet[nutri] >= abs(float(nutriNeedsDF[nutri]))] 

        # print(chosenDF.head(2))

        # 충족 음식 중 최소값 선정(과식 방지)
        print("충족 음식 중 최솟값 : ", chosenDF[nutri].min())
        chosenDF = chosenDF.loc[chosenDF[nutri] == chosenDF[nutri].min()]
        
        # 추천 음식이 다수일 경우를 위한 조치
        for idx in range(0, len(chosenDF)):
            
            print('추천 음식 : %s\n' % chosenDF.iloc[idx])        
            chosenFood = chosenDF.iloc[idx]['식품명']
            print('%s 부족분에 대한 추천 음식(들) : %s' % (nutri, chosenFood))
            print("-" * 100 + "\n")
        
    else: # 영양소 과잉에 대한 메시징

        print("현재 섭취하신 음식에는 %s 이(가) 권장 기준량보다 %.2f 만큼 과다합니다. 추후 조절하여 섭취하시기 바랍니다."  \
              % (nutri, float(nutriNeedsDF[nutri])))

        print("*" * 120)


현재 섭취하신 음식에는 에너지(kcal) 이(가) 권장 기준량보다 753.00 만큼 과다합니다. 추후 조절하여 섭취하시기 바랍니다.
************************************************************************************************************************
현재 섭취하신 음식에는 탄수화물(g) 이(가) 권장 기준량보다 244.96 만큼 과다합니다. 추후 조절하여 섭취하시기 바랍니다.
************************************************************************************************************************
부족 영양소(nutri) :  단백질(g)
영양소 부족분(절대값) :  15.630000000000003
clusterLabel :  0.0
충족 음식 중 최솟값 :  15.7
추천 음식 : 식품코드            P116-705060000-0019
식품명             기타 농산가공품_서퍼데이, 브이효소
에너지(kcal)                       400
탄수화물(g)                        77.4
단백질(g)                         15.7
지방(g)                           3.1
포화지방산(g)                        0.6
나트륨(mg)                       123.0
clusterLabel                      0
Name: 49295, dtype: object

단백질(g) 부족분에 대한 추천 음식(들) : 기타 농산가공품_서퍼데이, 브이효소
----------------------------------------------------------------------------------------------------

추천 음식

In [65]:
cursor.close()
conn.close()                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       