In [63]:
import warnings
warnings.filterwarnings('ignore')

## 웹 스크래핑
https://data.mfds.go.kr/hid/opbaa01/prdtSrchLst.do

In [None]:
#!pip install selenium
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select, WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time
import pandas as pd

# 1. 페이지로드
wd = webdriver.Chrome()
url = "https://data.mfds.go.kr/hid/opbaa01/prdtSrchLst.do"
wd.get(url)

# 페이지 로딩 후 콤보상자 확인
countperpage = WebDriverWait(wd, 10).until(
    EC.presence_of_element_located((By.ID, 'recordCountPerPage'))
)

# 드롭다운에서 페이지당 표시 항목 수를 30으로 설정
dropdown = Select(wd.find_element(By.ID, 'recordCountPerPage'))
dropdown.select_by_value('30')  # '30' 값을 가진 옵션 선택

# '보기' 버튼이 클릭 가능할 때까지 기다린 후 클릭
view_button = WebDriverWait(wd, 10).until(
    EC.element_to_be_clickable((By.ID, 'rowsBtn'))
)
view_button.click()
time.sleep(2)

# 2. 데이터수집
all_data = []

def extract_data():
    resp = wd.page_source
    soup = BeautifulSoup(resp, "html.parser")
    
    # 필요한 데이터 추출 (예: 테이블 데이터)
    table = soup.find('table')  # 첫 번째 테이블 찾기
    rows = table.find_all('tr')  # 모든 행(tr) 찾기

    # 행 데이터 추출
    for row in rows:
        cols = row.find_all('td')  # 각 행의 모든 열(td) 찾기
        cols = [ele.text.strip() for ele in cols]  # 텍스트만 추출하여 리스트로 저장
        if cols:
            all_data.append(cols)

# 페이지 이동 및 데이터 추출
for page_num in range(1, 5):
    print(f"Page {page_num}:")
    # 페이지 번호가 담긴 <span> 또는 <a> 태그 클릭
    page_link = WebDriverWait(wd, 10).until(
        EC.element_to_be_clickable((By.XPATH, f"//span[contains(text(), '{page_num}')]"))
    )
    page_link.click()  # 해당 페이지 번호 클릭
    time.sleep(2)  # 페이지가 로드될 시간을 줌
    # 데이터 추출
    extract_data()
    
# 3. 데이터프레임 변환
col = ["번호", "제품명", "기능성", "제조사명", "신고번호", "등록일자"]
df = pd.DataFrame(all_data, columns=col)
print(df)

df.to_csv('all_data2.csv', encoding='utf-8', index=False)

wd.quit()

# 지속적인 페이지 업데이트로 인한 웹 스크랩핑 어려움 존재

Page 1:
Page 2:
Page 3:
Page 4:
        번호                           제품명           기능성            제조사명  \
0    38628                  키즈 멀티비타민 미네랄                광동헬스바이오(주) 2공장   
1    38627                    비락토 퓨어 밸런스             장       주식회사 내츄럴엔   
2    38626                          이즈라잇                      주식회사한미양행   
3    38625                   자일로올리고당혼합분말             장          주)팜크로스   
4    38624               두뇌비책 동국 포스파티딜세린  인지기능/기억력, 피부        주식회사한미양행   
..     ...                           ...           ...             ...   
115  38603                    면역N키즈밸런스 2                      드림바이오(주)   
116  38602  관절·연골 건강엔 뮤코다당단백(콘드로이친) 1200            관절       (주)한풍네이처팜   
117  38601                          프리슬림           체지방       (주)한풍네이처팜   
118  38600               탄탄 슬리밍 C3G 다이어트          피부건강      코스맥스엔비티(주)   
119  38599                  바나바앤 유산균 플러스             장      주식회사 락토메이슨   

                신고번호        등록일자  
0    200400200141906  2024-10-08  
1     202

In [1]:
import pandas as pd
df = pd.read_csv("all_data2.csv").head(30)
df

Unnamed: 0,번호,제품명,기능성,제조사명,신고번호,등록일자
0,38628,키즈 멀티비타민 미네랄,,광동헬스바이오(주) 2공장,200400200141906,2024-10-08
1,38627,비락토 퓨어 밸런스,장,주식회사 내츄럴엔,20200012016176,2024-10-08
2,38626,이즈라잇,,주식회사한미양행,200400150832149,2024-10-08
3,38625,자일로올리고당혼합분말,장,주)팜크로스,200400151101227,2024-10-08
4,38624,두뇌비책 동국 포스파티딜세린,"인지기능/기억력, 피부",주식회사한미양행,200400150832148,2024-10-08
5,38623,관절의 품격,관절,주식회사한미양행,200400150832147,2024-10-08
6,38622,슬림 앤 글로우 퍼펙트이뮨샷,피부건강,주식회사 네추럴웨이 포천 제2공장,20190004553323,2024-10-08
7,38621,밀크씨슬 비타민B 플러스7,간,주식회사한미양행,200400150832146,2024-10-08
8,38620,멀티비타민 미네랄 플렉스23,,주식회사한미양행,200400150832145,2024-10-08
9,38619,액시보끄 케이(K),,주식회사 프롬바이오 익산공장,2019001407155,2024-10-08


In [2]:
df_add = pd.read_csv("add_data2.csv", sep='\t')
df_add

Unnamed: 0,번호,제품명,기능성,제조사명,신고번호,등록일자
0,38598,식물성 rTG 오메가3,"인지기능/기억력, 눈, 혈중 중성지방, 혈행",우리바이오(주),20190009483624,2024-10-04
1,38597,칼로바이 녹차카테킨+프로바이오틱스,"체지방, 콜레스테롤, 항산화",(주)웰레스트,2023002928481,2024-10-04
2,38596,아스타잔틴7 루테인지아잔틴,눈,주식회사 노바렉스2공장,200600200081144,2024-10-04
3,38595,올그래 하루7200mg+ 차전자피 식이섬유,"장, 콜레스테롤",(주)유디바이오,2020001635448,2024-10-04
4,38594,상아 커큐민 골드,근력개선,주식회사 아리너스,20110020099318,2024-10-04
...,...,...,...,...,...,...
145,38453,비타플러스미네랄 23,,콜마비앤에이치(주)음성공장,200600200033052,2024-09-23
146,38452,카멜리아 칠라겐 엑스7(Camellia chillagen x7)(전량수출용),피부,고려인삼제조주식회사,2004001702489,2024-09-23
147,38451,슬림다이어트 카페,체지방,동서바이오팜(주) 안성공장,20220011370183,2024-09-23
148,38450,하루칼슘,,(주)유유헬스케어,200400151071181,2024-09-23


In [3]:
df_all = pd.concat([df, df_add], axis = 0, ignore_index=True)
df_all.head(40)

Unnamed: 0,번호,제품명,기능성,제조사명,신고번호,등록일자
0,38628,키즈 멀티비타민 미네랄,,광동헬스바이오(주) 2공장,200400200141906,2024-10-08
1,38627,비락토 퓨어 밸런스,장,주식회사 내츄럴엔,20200012016176,2024-10-08
2,38626,이즈라잇,,주식회사한미양행,200400150832149,2024-10-08
3,38625,자일로올리고당혼합분말,장,주)팜크로스,200400151101227,2024-10-08
4,38624,두뇌비책 동국 포스파티딜세린,"인지기능/기억력, 피부",주식회사한미양행,200400150832148,2024-10-08
5,38623,관절의 품격,관절,주식회사한미양행,200400150832147,2024-10-08
6,38622,슬림 앤 글로우 퍼펙트이뮨샷,피부건강,주식회사 네추럴웨이 포천 제2공장,20190004553323,2024-10-08
7,38621,밀크씨슬 비타민B 플러스7,간,주식회사한미양행,200400150832146,2024-10-08
8,38620,멀티비타민 미네랄 플렉스23,,주식회사한미양행,200400150832145,2024-10-08
9,38619,액시보끄 케이(K),,주식회사 프롬바이오 익산공장,2019001407155,2024-10-08


In [4]:
df_all = df_all.replace({
    '피부, 장, 면역': '보호기능, 에너지 대사기능',
    '혈압, 항산화': '에너지 대사기능, 보호기능',
    '인지기능/기억력, 피로, 갱년기 여성, 혈행, 면역, 항산화': '운동기능, 에너지 대사기능, 보호기능, 내분비기능',
    '장, 혈당, 혈중 중성지방': '에너지 대사기능, 내분비기능',
    '갱년기 여성': '내분비기능, 생식기능',
    '관절': '운동기능',
    '체지방': '내분비기능, 운동기능',
    '피부건강': '보호기능',
    '장': '에너지 대사기능',
    '인지기능/기억력, 눈, 혈중 중성지방, 혈행': '운동기능, 감각기능, 에너지 대사기능',
    '장, 콜레스테롤': '에너지 대사기능, 내분비기능',
    '콜레스테롤': '내분비기능, 에너지 대사기능',
    '눈': '감각기능',
    '면역': '보호기능',
    '체지방, 콜레스테롤, 항산화': '내분비기능, 운동기능, 에너지 대사기능, 보호기능',
    '간': '에너지 대사기능, 내분비기능',
    '운동수행능력': '운동기능',
    '피부건강': '감각기능, 에너지 대사기능, 운동기능',
    '근력개선': '운동기능',
    '혈당': '내분비기능',
    '긴장': '운동기능',
    '치아, 항산화': '에너지 대사기능, 보호기능',
    '인지기능/기억력, 피부': '운동기능, 보호기능'
})
df_all.head(50)

Unnamed: 0,번호,제품명,기능성,제조사명,신고번호,등록일자
0,38628,키즈 멀티비타민 미네랄,,광동헬스바이오(주) 2공장,200400200141906,2024-10-08
1,38627,비락토 퓨어 밸런스,에너지 대사기능,주식회사 내츄럴엔,20200012016176,2024-10-08
2,38626,이즈라잇,,주식회사한미양행,200400150832149,2024-10-08
3,38625,자일로올리고당혼합분말,에너지 대사기능,주)팜크로스,200400151101227,2024-10-08
4,38624,두뇌비책 동국 포스파티딜세린,"운동기능, 보호기능",주식회사한미양행,200400150832148,2024-10-08
5,38623,관절의 품격,운동기능,주식회사한미양행,200400150832147,2024-10-08
6,38622,슬림 앤 글로우 퍼펙트이뮨샷,"감각기능, 에너지 대사기능, 운동기능",주식회사 네추럴웨이 포천 제2공장,20190004553323,2024-10-08
7,38621,밀크씨슬 비타민B 플러스7,"에너지 대사기능, 내분비기능",주식회사한미양행,200400150832146,2024-10-08
8,38620,멀티비타민 미네랄 플렉스23,,주식회사한미양행,200400150832145,2024-10-08
9,38619,액시보끄 케이(K),,주식회사 프롬바이오 익산공장,2019001407155,2024-10-08


In [5]:
df_all = df_all[['제품명', '기능성']]
df_all.head(10)

Unnamed: 0,제품명,기능성
0,키즈 멀티비타민 미네랄,
1,비락토 퓨어 밸런스,에너지 대사기능
2,이즈라잇,
3,자일로올리고당혼합분말,에너지 대사기능
4,두뇌비책 동국 포스파티딜세린,"운동기능, 보호기능"
5,관절의 품격,운동기능
6,슬림 앤 글로우 퍼펙트이뮨샷,"감각기능, 에너지 대사기능, 운동기능"
7,밀크씨슬 비타민B 플러스7,"에너지 대사기능, 내분비기능"
8,멀티비타민 미네랄 플렉스23,
9,액시보끄 케이(K),


In [6]:
df_info = pd.read_csv("info2.csv", header=None)
df_info.columns = ["제품명", "기능성원료"]
df_info

Unnamed: 0,제품명,기능성원료
0,키즈 멀티비타민 미네랄,"비타민 D, 비타민 A, 비타민 E, 비타민 B1, 비타민 B2, 아연, 판토텐산,..."
1,비락토 퓨어 밸런스,"비타민 D, 프로바이오틱스"
2,이즈라잇,"테아닌, 마그네슘, 비타민 D, 홍경천 추출물"
3,자일로올리고당혼합분말,자일로올리고당
4,두뇌비책 동국 포스파티딜세린,"아연, 포스파티딜세린, 은행잎 추출물"
...,...,...
175,비타플러스미네랄 23,"비타민 B6, 크롬, 나이아신, 비타민 B2, 비타민 B1, 비타민 K, 비타민 E..."
176,카멜리아 칠라겐 엑스7(Camellia chillagen x7)(전량수출용),"비타민 B2, 비타민 B6, 비타민 C, 아연, 히알루론산"
177,슬림다이어트 카페,가르시니아캄보지아 추출물
178,하루칼슘,"비타민 B2, 비타민 C, 칼슘, 셀레늄"


In [7]:
df_mfds = pd.concat([df_all, df_info], axis = 1, ignore_index=True)
df_mfds.columns = ["제품명", "기능성", "제품명2", "기능성원료"]
df_mfds.drop("제품명2", axis=1, inplace=True)
df_mfds

Unnamed: 0,제품명,기능성,기능성원료
0,키즈 멀티비타민 미네랄,,"비타민 D, 비타민 A, 비타민 E, 비타민 B1, 비타민 B2, 아연, 판토텐산,..."
1,비락토 퓨어 밸런스,에너지 대사기능,"비타민 D, 프로바이오틱스"
2,이즈라잇,,"테아닌, 마그네슘, 비타민 D, 홍경천 추출물"
3,자일로올리고당혼합분말,에너지 대사기능,자일로올리고당
4,두뇌비책 동국 포스파티딜세린,"운동기능, 보호기능","아연, 포스파티딜세린, 은행잎 추출물"
...,...,...,...
175,비타플러스미네랄 23,,"비타민 B6, 크롬, 나이아신, 비타민 B2, 비타민 B1, 비타민 K, 비타민 E..."
176,카멜리아 칠라겐 엑스7(Camellia chillagen x7)(전량수출용),피부,"비타민 B2, 비타민 B6, 비타민 C, 아연, 히알루론산"
177,슬림다이어트 카페,"내분비기능, 운동기능",가르시니아캄보지아 추출물
178,하루칼슘,,"비타민 B2, 비타민 C, 칼슘, 셀레늄"


In [8]:
import numpy as np
df_isin = df_mfds[df_mfds[ "기능성" ].notna()]
df_func = list(df_isin["기능성원료"].to_numpy())
print(df_func[0])

비타민 D, 프로바이오틱스


In [9]:
list_func = []
for line in df_func:
    #print( str(line).split(", "))
    list_func += str(line).split(",")
list_func2 = []
for a in list_func:
    list_func2.append(a.replace("\xa0","").strip())
ingredients = set(list_func2)
ingredients

{'DHA 함유 유지',
 'EPA 및 DHA 함유 유지',
 'EPA및',
 'Lactobacillus sakei Probio65',
 'NAG',
 'UREX 프로바이오틱스',
 'nan',
 '가르시니아캄보지아 추출물',
 '강황추출물',
 '과채유래유산균',
 '구리',
 '나이아신',
 '난소화성말토덱스트린',
 '난소화성말토텍스트린',
 '녹차추출물',
 '대두이소플라본',
 '돌외잎주정추출분말',
 '레몬 밤 추출물 혼합분말',
 '레몬버베나추출물 등 복합물',
 '루바브뿌리추출물',
 '루테인지아잔틴복합추출물20%',
 '마그네슘',
 '마리골드꽃추출물',
 '망간',
 '모로오렌지추출분말',
 '뮤코다당.단백',
 '밀크씨슬 추출물',
 '바나바잎 추출물',
 '보스웰리아 추출물',
 '비오틴',
 '비타민 A',
 '비타민 B1',
 '비타민 B12',
 '비타민 B2',
 '비타민 B6',
 '비타민 C',
 '비타민 D',
 '비타민 E',
 '비타민 K',
 '비타민B6',
 '비타민D 비타민 K 비타민 B1 나이아신 판토텐산 저분자유청단백가수분해물 비오틴 칼슘 마그네슘 아연 단백질 비타민 B6',
 '빌베리 추출물',
 '사삼추출물',
 '셀레늄',
 '쏘팔메토 열매 추출물',
 '아연',
 '아연 은행잎 추출물 포스파티딜세린',
 '알로에 겔',
 '엠에스엠',
 '엽산',
 '옥타코사놀 함유 유지',
 '은행잎 추출물',
 '자일로올리고당',
 '저분자 피쉬 콜라겐 펩타이드',
 '차전자피식이섬유',
 '철',
 '코엔자임Q10',
 '콜레우스포스콜리 추출물',
 '크롬',
 '테아닌',
 '판토텐산',
 '판토텐산회화나무열매추출물',
 '포스파티딜세린',
 '프락토올리고당',
 '프로바이오틱스',
 '프로바이오틱스 제품',
 '프로폴리스추출물',
 '헤마토코쿠스 추출물',
 '홍경천 추출물',
 '홍국',
 '홍삼',
 '홍삼제품',
 '회화나무열매추출물',
 '히알루론산'}

In [10]:
for ingredient in ingredients:
    df_isin[ingredient] = df_isin['기능성원료'].apply(lambda x: 1 if isinstance(x, str) and ingredient in x else 0)

df_isin

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_isin[ingredient] = df_isin['기능성원료'].apply(lambda x: 1 if isinstance(x, str) and ingredient in x else 0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_isin[ingredient] = df_isin['기능성원료'].apply(lambda x: 1 if isinstance(x, str) and ingredient in x else 0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-

Unnamed: 0,제품명,기능성,기능성원료,히알루론산,프로폴리스추출물,아연,비오틴,철,프락토올리고당,모로오렌지추출분말,...,과채유래유산균,EPA및,비타민 A,셀레늄,홍경천 추출물,비타민 C,알로에 겔,돌외잎주정추출분말,헤마토코쿠스 추출물,비타민 K
1,비락토 퓨어 밸런스,에너지 대사기능,"비타민 D, 프로바이오틱스",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,자일로올리고당혼합분말,에너지 대사기능,자일로올리고당,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,두뇌비책 동국 포스파티딜세린,"운동기능, 보호기능","아연, 포스파티딜세린, 은행잎 추출물",0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,관절의 품격,운동기능,"비타민 D, NAG, 엠에스엠",0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,슬림 앤 글로우 퍼펙트이뮨샷,"감각기능, 에너지 대사기능, 운동기능","콜레우스포스콜리 추출물, 비타민 B2, 나이아신, 비타민 B6, 비타민 B1, 아연...",1,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,닥터스 티베이직+,"운동기능, 감각기능, 에너지 대사기능","비타민 D, 비타민 E, 엽산, 비타민 C, 아연, 셀레늄, 코엔자임Q10, EPA...",0,0,1,0,0,0,0,...,0,0,0,1,0,1,0,0,0,0
174,큐-피인,"에너지 대사기능, 보호기능",코엔자임Q10,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
176,카멜리아 칠라겐 엑스7(Camellia chillagen x7)(전량수출용),피부,"비타민 B2, 비타민 B6, 비타민 C, 아연, 히알루론산",1,0,1,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
177,슬림다이어트 카페,"내분비기능, 운동기능",가르시니아캄보지아 추출물,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [11]:
df_HC = df_isin.drop(["제품명", "기능성원료"], axis=1)
df_HC

Unnamed: 0,기능성,히알루론산,프로폴리스추출물,아연,비오틴,철,프락토올리고당,모로오렌지추출분말,바나바잎 추출물,EPA 및 DHA 함유 유지,...,과채유래유산균,EPA및,비타민 A,셀레늄,홍경천 추출물,비타민 C,알로에 겔,돌외잎주정추출분말,헤마토코쿠스 추출물,비타민 K
1,에너지 대사기능,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,에너지 대사기능,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,"운동기능, 보호기능",0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,운동기능,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,"감각기능, 에너지 대사기능, 운동기능",1,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,"운동기능, 감각기능, 에너지 대사기능",0,0,1,0,0,0,0,0,1,...,0,0,0,1,0,1,0,0,0,0
174,"에너지 대사기능, 보호기능",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
176,피부,1,0,1,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
177,"내분비기능, 운동기능",0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [12]:
df_HC.info()

<class 'pandas.core.frame.DataFrame'>
Index: 128 entries, 1 to 179
Data columns (total 75 columns):
 #   Column                                                              Non-Null Count  Dtype 
---  ------                                                              --------------  ----- 
 0   기능성                                                                 128 non-null    object
 1   히알루론산                                                               128 non-null    int64 
 2   프로폴리스추출물                                                            128 non-null    int64 
 3   아연                                                                  128 non-null    int64 
 4   비오틴                                                                 128 non-null    int64 
 5   철                                                                   128 non-null    int64 
 6   프락토올리고당                                                             128 non-null    int64 
 7   모로오렌지추출분말                      

# 모델학습

In [13]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.tree import DecisionTreeClassifier

# 특성과 타겟 설정
X = df_HC.drop(columns=['기능성'])  # 기능성을 제외한 모든 열
y = df_HC['기능성']  # 기능성

# 데이터 분할 (80% 훈련, 20% 테스트)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=11)

# 랜덤 포레스트 모델
rf = RandomForestClassifier(random_state=11)
rf.fit(X_train, y_train)
print("rf: ", accuracy_score(y_test, rf.predict(X_test)))

# 의사결정나무 모델
dt = DecisionTreeClassifier(random_state=11)
dt.fit(X_train, y_train)
print("dt: ", accuracy_score(y_test, dt.predict(X_test)))

rf:  0.6153846153846154
dt:  0.5769230769230769


In [14]:
from sklearn.ensemble import GradientBoostingClassifier
gb = GradientBoostingClassifier(random_state=11)
gb.fit(X_train, y_train)
print("gb: ", accuracy_score(y_test, gb.predict(X_test)))

gb:  0.6538461538461539


In [15]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(solver='liblinear')
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=8)
lr.fit(X_train, y_train)
knn.fit(X_train, y_train)
from sklearn.metrics import accuracy_score
print("Log Re: ", accuracy_score(y_test, lr.predict(X_test)))
print("KNN: ", accuracy_score(y_test, knn.predict(X_test)))

from sklearn.ensemble import VotingClassifier
lr2 = LogisticRegression(solver='liblinear')
knn2 = KNeighborsClassifier(n_neighbors=8)
vo = VotingClassifier(estimators=[("LR", lr2), ("KNN", knn2)], voting='soft')
vo.fit(X_train, y_train)
print("vo: ", accuracy_score(y_test, vo.predict(X_test)))

Log Re:  0.7692307692307693
KNN:  0.6153846153846154
vo:  0.7307692307692307


In [42]:
# 평가지표1. 정확도
accuracy = accuracy_score(y_test, lr.predict(X_test))
accuracy

0.7692307692307693

In [40]:
# 평가지표2. 혼동행렬
from sklearn.metrics import confusion_matrix

confusion = confusion_matrix(y_test, lr.predict(X_test))
print(confusion)

[[0 0 0 0 0 0 0 0 0 0 2 0 0]
 [0 1 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 1 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 1 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 7 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 0 1 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 3 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 3 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 2]]


* 대각선 상의 값 = True Positive(TP)

In [56]:
# 평가지표3. 정밀도&재현율&F1-Score
from sklearn.metrics import precision_score, recall_score, f1_score

# micro파라미터로 설정 : total TP, FN, FP, TN값으로 계산
precision = precision_score(y_test, lr.predict(X_test), average = 'micro')
recall = recall_score(y_test, lr.predict(X_test), average = 'micro')
f1_score = f1_score(y_test , lr.predict(X_test), average = 'micro')

print('정확도: ', accuracy)
print('정밀도: ', precision)
print('재현율: ', recall)
print('f1_score: ', f1_score)

정확도:  0.7692307692307693
정밀도:  0.7692307692307693
재현율:  0.7692307692307693
f1_score:  0.7692307692307693


In [86]:
# 평가지표3. 정밀도&재현율&F1-Score
from sklearn.metrics import precision_score, recall_score, f1_score

# macro파라미터로 설정
precision = precision_score(y_test, lr.predict(X_test), average = 'macro')
recall = recall_score(y_test, lr.predict(X_test), average = 'macro')
f1_score = f1_score(y_test , lr.predict(X_test), average = 'macro')

print('정확도: ', accuracy)
print('정밀도: ', precision)
print('재현율: ', recall)
print('f1_score: ', f1_score)

정확도:  0.7692307692307693
정밀도:  0.6346153846153846
재현율:  0.5769230769230769
f1_score:  0.5897435897435898


In [87]:
# 평가지표3. 정밀도&재현율&F1-Score
from sklearn.metrics import precision_score, recall_score, f1_score

# weighted 파라미터로 설정
precision = precision_score(y_test, lr.predict(X_test), average = 'weighted')
recall = recall_score(y_test, lr.predict(X_test), average = 'weighted')
f1_score = f1_score(y_test , lr.predict(X_test), average = 'weighted')

print('정확도: ', accuracy)
print('정밀도: ', precision)
print('재현율: ', recall)
print('f1_score: ', f1_score)

정확도:  0.7692307692307693
정밀도:  0.8269230769230769
재현율:  0.7692307692307693
f1_score:  0.7820512820512822


## 분류

In [17]:
df_isna = df_mfds[df_mfds[ "기능성" ].isna()]
df_isna

Unnamed: 0,제품명,기능성,기능성원료
0,키즈 멀티비타민 미네랄,,"비타민 D, 비타민 A, 비타민 E, 비타민 B1, 비타민 B2, 아연, 판토텐산,..."
2,이즈라잇,,"테아닌, 마그네슘, 비타민 D, 홍경천 추출물"
8,멀티비타민 미네랄 플렉스23,,"비타민 A, 크롬, 비타민 E, 비타민 K, 비타민 B1, 비타민 B2, 나이아신,..."
9,액시보끄 케이(K),,비타민 B2
15,리포퍼 철분가득,,"비타민 B6, 엽산, 비타민 B12, 비타민 C, 철"
17,더비지알덴타7,,"비타민 C, 칼슘, 프로폴리스추출물, 비타민 E"
18,마그에너지 이뮨 멀티비타민,,"비타민 B1, 비타민 B2, 나이아신, 판토텐산, 비타민 B6, 홍경천 추출물, 비..."
22,안심 액티브엽산 플러스,,"비타민 D, 비타민 B6, 엽산, 비타민 B12"
23,프리벤트라 유청 분리대두 산양유 초유 단백질케어,,"칼슘, 비타민B6, 판토텐산, 비타민D, 마그네슘, 아연, 단백질, 프락토올리고당"
25,면역N키즈밸런스 2,,"비타민 B6, 비타민 B1, 아연, 비타민 C"


In [18]:
df_isna_match = df_isna[["기능성","기능성원료"]]
df_isna_match

Unnamed: 0,기능성,기능성원료
0,,"비타민 D, 비타민 A, 비타민 E, 비타민 B1, 비타민 B2, 아연, 판토텐산,..."
2,,"테아닌, 마그네슘, 비타민 D, 홍경천 추출물"
8,,"비타민 A, 크롬, 비타민 E, 비타민 K, 비타민 B1, 비타민 B2, 나이아신,..."
9,,비타민 B2
15,,"비타민 B6, 엽산, 비타민 B12, 비타민 C, 철"
17,,"비타민 C, 칼슘, 프로폴리스추출물, 비타민 E"
18,,"비타민 B1, 비타민 B2, 나이아신, 판토텐산, 비타민 B6, 홍경천 추출물, 비..."
22,,"비타민 D, 비타민 B6, 엽산, 비타민 B12"
23,,"칼슘, 비타민B6, 판토텐산, 비타민D, 마그네슘, 아연, 단백질, 프락토올리고당"
25,,"비타민 B6, 비타민 B1, 아연, 비타민 C"


In [19]:
for ingredient in ingredients:
    df_isna_match[ingredient] = df_isna_match['기능성원료'].apply(lambda x: 1 if isinstance(x, str) and ingredient in x else 0)

df_isna_match

Unnamed: 0,기능성,기능성원료,히알루론산,프로폴리스추출물,아연,비오틴,철,프락토올리고당,모로오렌지추출분말,바나바잎 추출물,...,과채유래유산균,EPA및,비타민 A,셀레늄,홍경천 추출물,비타민 C,알로에 겔,돌외잎주정추출분말,헤마토코쿠스 추출물,비타민 K
0,,"비타민 D, 비타민 A, 비타민 E, 비타민 B1, 비타민 B2, 아연, 판토텐산,...",0,0,1,0,0,0,0,0,...,0,0,1,0,0,1,0,0,0,0
2,,"테아닌, 마그네슘, 비타민 D, 홍경천 추출물",0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
8,,"비타민 A, 크롬, 비타민 E, 비타민 K, 비타민 B1, 비타민 B2, 나이아신,...",0,0,1,1,1,0,0,0,...,0,0,1,1,0,1,0,0,0,1
9,,비타민 B2,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15,,"비타민 B6, 엽산, 비타민 B12, 비타민 C, 철",0,0,0,0,1,0,0,0,...,0,0,0,0,0,1,0,0,0,0
17,,"비타민 C, 칼슘, 프로폴리스추출물, 비타민 E",0,1,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
18,,"비타민 B1, 비타민 B2, 나이아신, 판토텐산, 비타민 B6, 홍경천 추출물, 비...",0,0,1,1,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
22,,"비타민 D, 비타민 B6, 엽산, 비타민 B12",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
23,,"칼슘, 비타민B6, 판토텐산, 비타민D, 마그네슘, 아연, 단백질, 프락토올리고당",0,0,1,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
25,,"비타민 B6, 비타민 B1, 아연, 비타민 C",0,0,1,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0


In [27]:
df_HC_pred = df_isna_match.drop(["기능성원료"], axis=1)
df_HC_pred

Unnamed: 0,기능성,히알루론산,프로폴리스추출물,아연,비오틴,철,프락토올리고당,모로오렌지추출분말,바나바잎 추출물,EPA 및 DHA 함유 유지,...,과채유래유산균,EPA및,비타민 A,셀레늄,홍경천 추출물,비타민 C,알로에 겔,돌외잎주정추출분말,헤마토코쿠스 추출물,비타민 K
0,,0,0,1,0,0,0,0,0,0,...,0,0,1,0,0,1,0,0,0,0
2,,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
8,,0,0,1,1,1,0,0,0,0,...,0,0,1,1,0,1,0,0,0,1
9,,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15,,0,0,0,0,1,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
17,,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
18,,0,0,1,1,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
22,,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
23,,0,0,1,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
25,,0,0,1,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0


In [28]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
import joblib  # 모델 저장을 위한 라이브러리

# 문자열 데이터를 숫자형으로 변환 (예: 레이블 인코딩)
label_encoder = LabelEncoder()
df_HC['기능성'] = label_encoder.fit_transform(df_HC['기능성'])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(solver='liblinear')
lr.fit(X_train, y_train)

# 모델 저장
joblib.dump(lr, 'lr.pkl')

['lr.pkl']

In [29]:
# 새로운 데이터셋도 동일한 전처리를 수행해야 함
# 피쳐(X_new) 설정 (타겟 열을 제외한 피쳐만 사용)
X_new = df_HC_pred.drop(columns=['기능성'])  # '기능성' 컬럼이 없다면 자동으로 제외

# 저장된 모델 로드
loaded_model = joblib.load('lr.pkl')

# 예측 수행
predictions = loaded_model.predict(X_new)

# 예측 결과 출력
print("Predictions:", predictions)

Predictions: ['내분비기능, 운동기능, 에너지 대사기능, 보호기능' '운동기능' '운동기능' '에너지 대사기능, 내분비기능'
 '에너지 대사기능, 내분비기능' '에너지 대사기능, 보호기능' '에너지 대사기능, 내분비기능' '에너지 대사기능' '운동기능'
 '운동기능' '에너지 대사기능' '운동기능' '에너지 대사기능, 내분비기능' '운동기능, 감각기능, 에너지 대사기능'
 '에너지 대사기능' '운동기능' '운동기능' '운동기능' '전립선' '운동기능, 감각기능, 에너지 대사기능' '운동기능'
 '운동기능' '에너지 대사기능' '운동기능, 감각기능, 에너지 대사기능' '운동기능' '운동기능, 감각기능, 에너지 대사기능'
 '감각기능, 에너지 대사기능, 운동기능' '운동기능' '운동기능' '내분비기능, 운동기능, 에너지 대사기능, 보호기능' '운동기능'
 '운동기능, 에너지 대사기능, 보호기능, 내분비기능' '운동기능' '운동기능' '운동기능'
 '내분비기능, 운동기능, 에너지 대사기능, 보호기능' '에너지 대사기능' '운동기능'
 '내분비기능, 운동기능, 에너지 대사기능, 보호기능' '내분비기능, 운동기능, 에너지 대사기능, 보호기능'
 '내분비기능, 운동기능, 에너지 대사기능, 보호기능' '운동기능' '에너지 대사기능, 내분비기능' '운동기능' '에너지 대사기능'
 '에너지 대사기능' '운동기능' '운동기능' '운동기능' '운동기능' '운동기능'
 '내분비기능, 운동기능, 에너지 대사기능, 보호기능']


In [30]:
df_HC_pred['기능성분류'] = predictions
df_HC_pred

Unnamed: 0,기능성,히알루론산,프로폴리스추출물,아연,비오틴,철,프락토올리고당,모로오렌지추출분말,바나바잎 추출물,EPA 및 DHA 함유 유지,...,EPA및,비타민 A,셀레늄,홍경천 추출물,비타민 C,알로에 겔,돌외잎주정추출분말,헤마토코쿠스 추출물,비타민 K,기능성분류
0,,0,0,1,0,0,0,0,0,0,...,0,1,0,0,1,0,0,0,0,"내분비기능, 운동기능, 에너지 대사기능, 보호기능"
2,,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,운동기능
8,,0,0,1,1,1,0,0,0,0,...,0,1,1,0,1,0,0,0,1,운동기능
9,,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,"에너지 대사기능, 내분비기능"
15,,0,0,0,0,1,0,0,0,0,...,0,0,0,0,1,0,0,0,0,"에너지 대사기능, 내분비기능"
17,,0,1,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,"에너지 대사기능, 보호기능"
18,,0,0,1,1,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,"에너지 대사기능, 내분비기능"
22,,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,에너지 대사기능
23,,0,0,1,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,운동기능
25,,0,0,1,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,운동기능


In [31]:
df_HC_pred = df_HC_pred.drop(["기능성"],axis=1)
df_HC_pred

Unnamed: 0,히알루론산,프로폴리스추출물,아연,비오틴,철,프락토올리고당,모로오렌지추출분말,바나바잎 추출물,EPA 및 DHA 함유 유지,nan,...,EPA및,비타민 A,셀레늄,홍경천 추출물,비타민 C,알로에 겔,돌외잎주정추출분말,헤마토코쿠스 추출물,비타민 K,기능성분류
0,0,0,1,0,0,0,0,0,0,0,...,0,1,0,0,1,0,0,0,0,"내분비기능, 운동기능, 에너지 대사기능, 보호기능"
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,운동기능
8,0,0,1,1,1,0,0,0,0,0,...,0,1,1,0,1,0,0,0,1,운동기능
9,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,"에너지 대사기능, 내분비기능"
15,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,"에너지 대사기능, 내분비기능"
17,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,"에너지 대사기능, 보호기능"
18,0,0,1,1,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,"에너지 대사기능, 내분비기능"
22,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,에너지 대사기능
23,0,0,1,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,운동기능
25,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,운동기능


In [32]:
df_HC_pred_col = df_HC_pred["기능성분류"]
df_HC_pred_col

0      내분비기능, 운동기능, 에너지 대사기능, 보호기능
2                             운동기능
8                             운동기능
9                  에너지 대사기능, 내분비기능
15                 에너지 대사기능, 내분비기능
17                  에너지 대사기능, 보호기능
18                 에너지 대사기능, 내분비기능
22                        에너지 대사기능
23                            운동기능
25                            운동기능
39                        에너지 대사기능
41                            운동기능
48                 에너지 대사기능, 내분비기능
50            운동기능, 감각기능, 에너지 대사기능
54                        에너지 대사기능
55                            운동기능
56                            운동기능
57                            운동기능
58                             전립선
61            운동기능, 감각기능, 에너지 대사기능
72                            운동기능
76                            운동기능
79                        에너지 대사기능
80            운동기능, 감각기능, 에너지 대사기능
83                            운동기능
84            운동기능, 감각기능, 에너지 대사기능
85            감각기능, 에너지 대사기능, 운동기능
93                            운동기능
94                  

In [33]:
df_isna

Unnamed: 0,제품명,기능성,기능성원료
0,키즈 멀티비타민 미네랄,,"비타민 D, 비타민 A, 비타민 E, 비타민 B1, 비타민 B2, 아연, 판토텐산,..."
2,이즈라잇,,"테아닌, 마그네슘, 비타민 D, 홍경천 추출물"
8,멀티비타민 미네랄 플렉스23,,"비타민 A, 크롬, 비타민 E, 비타민 K, 비타민 B1, 비타민 B2, 나이아신,..."
9,액시보끄 케이(K),,비타민 B2
15,리포퍼 철분가득,,"비타민 B6, 엽산, 비타민 B12, 비타민 C, 철"
17,더비지알덴타7,,"비타민 C, 칼슘, 프로폴리스추출물, 비타민 E"
18,마그에너지 이뮨 멀티비타민,,"비타민 B1, 비타민 B2, 나이아신, 판토텐산, 비타민 B6, 홍경천 추출물, 비..."
22,안심 액티브엽산 플러스,,"비타민 D, 비타민 B6, 엽산, 비타민 B12"
23,프리벤트라 유청 분리대두 산양유 초유 단백질케어,,"칼슘, 비타민B6, 판토텐산, 비타민D, 마그네슘, 아연, 단백질, 프락토올리고당"
25,면역N키즈밸런스 2,,"비타민 B6, 비타민 B1, 아연, 비타민 C"


In [34]:
new_df = pd.concat([df_isna, df_HC_pred_col], axis=1).reset_index(drop=True)
new_df = new_df[["제품명", "기능성분류", "기능성원료"]]
new_df

Unnamed: 0,제품명,기능성분류,기능성원료
0,키즈 멀티비타민 미네랄,"내분비기능, 운동기능, 에너지 대사기능, 보호기능","비타민 D, 비타민 A, 비타민 E, 비타민 B1, 비타민 B2, 아연, 판토텐산,..."
1,이즈라잇,운동기능,"테아닌, 마그네슘, 비타민 D, 홍경천 추출물"
2,멀티비타민 미네랄 플렉스23,운동기능,"비타민 A, 크롬, 비타민 E, 비타민 K, 비타민 B1, 비타민 B2, 나이아신,..."
3,액시보끄 케이(K),"에너지 대사기능, 내분비기능",비타민 B2
4,리포퍼 철분가득,"에너지 대사기능, 내분비기능","비타민 B6, 엽산, 비타민 B12, 비타민 C, 철"
5,더비지알덴타7,"에너지 대사기능, 보호기능","비타민 C, 칼슘, 프로폴리스추출물, 비타민 E"
6,마그에너지 이뮨 멀티비타민,"에너지 대사기능, 내분비기능","비타민 B1, 비타민 B2, 나이아신, 판토텐산, 비타민 B6, 홍경천 추출물, 비..."
7,안심 액티브엽산 플러스,에너지 대사기능,"비타민 D, 비타민 B6, 엽산, 비타민 B12"
8,프리벤트라 유청 분리대두 산양유 초유 단백질케어,운동기능,"칼슘, 비타민B6, 판토텐산, 비타민D, 마그네슘, 아연, 단백질, 프락토올리고당"
9,면역N키즈밸런스 2,운동기능,"비타민 B6, 비타민 B1, 아연, 비타민 C"
