<a href="https://colab.research.google.com/github/YugyeongJo/OCR_Project/blob/main/food_classification_modeling/machine_learning_model/food_classification_modeling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 식품 예측 모델
식품 성분표의 영양성분 함량 데이터를 기준으로 식품 분류를 예측하는 모델 제작

# Random Forest

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.utils import class_weight
import numpy as np  # numpy 추가

# 1. CSV 파일 불러오기
file_path = '/content/식품안전처_가공식품DB.csv'  # 파일 경로
df = pd.read_csv(file_path)

# 2. 원하는 열 선택
desired_columns = [
    '식품코드',
    '식품명',
    '대표식품코드',
    '대표식품명',
    '에너지(kcal)',
    '단백질(g)',
    '지방(g)',
    '탄수화물(g)',
    '당류(g)',
    '나트륨(mg)',
    '콜레스테롤(mg)',
    '포화지방산(g)',
    '트랜스지방산(g)'
]
new_df = df[desired_columns]

# 3. 대표식품코드 결측치 확인 및 드롭
if new_df['대표식품코드'].isnull().any():
    print("대표식품코드에 결측치가 발견되어 해당 데이터를 드롭합니다.")
    new_df = new_df.dropna(subset=['대표식품코드'])

# 4. 데이터 분할
X = new_df.drop(['대표식품코드', '식품코드', '대표식품명', '식품명'], axis=1)
y = new_df['대표식품코드']

# 5. 데이터 스케일링
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# 6. Train, Validation, Test 데이터로 분할
X_train_val, X_test, y_train_val, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.25, random_state=42)

# 7. 클래스 가중치 계산
class_weights = class_weight.compute_class_weight('balanced', classes=np.unique(y_train), y=y_train)
class_weight_dict = dict(zip(np.unique(y_train), class_weights))

# 8. 모델 학습
model = RandomForestClassifier(random_state=42, class_weight=class_weight_dict)  # 클래스 가중치 추가
model.fit(X_train, y_train)

# 9. 모델 평가
y_pred = model.predict(X_val)
accuracy = accuracy_score(y_val, y_pred)
report = classification_report(y_val, y_pred)

print(f'Accuracy: {accuracy}')
print('Classification Report:')
print(report)


대표식품코드에 결측치가 발견되어 해당 데이터를 드롭합니다.
Accuracy: 0.5894349164467898
Classification Report:
              precision    recall  f1-score   support

      1101.0       0.61      0.39      0.48        69
      1102.0       0.63      0.72      0.67       128
      1103.0       0.56      0.67      0.61       689
      1104.0       0.48      0.14      0.21       102
      1105.0       0.59      0.56      0.58        34
      1106.0       0.52      0.61      0.56       600
      1107.0       0.65      0.53      0.59       104
      1201.0       0.80      0.44      0.57         9
      1202.0       0.50      0.36      0.42        11
      1203.0       0.69      0.81      0.75       243
      1204.0       0.67      0.64      0.65        44
      1205.0       0.66      0.80      0.72       294
      1206.0       0.36      0.18      0.24        22
      1207.0       0.37      0.34      0.36       122
      1208.0       0.25      0.10      0.14        10
      1301.0       0.00      0.00      0.00       

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


## 하이퍼파라미터 튜닝

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import GridSearchCV

# 1. CSV 파일 불러오기
file_path = '/content/식품안전처_가공식품DB.csv'  # 파일 경로
df = pd.read_csv(file_path)

# 2. 원하는 열 선택
desired_columns = [
    '식품코드',
    '식품명',
    '대표식품코드',
    '대표식품명',
    '에너지(kcal)',
    '단백질(g)',
    '지방(g)',
    '탄수화물(g)',
    '당류(g)',
    '나트륨(mg)',
    '콜레스테롤(mg)',
    '포화지방산(g)',
    '트랜스지방산(g)'
]
new_df = df[desired_columns]

# 3. 대표식품코드 결측치 확인 및 드롭
if new_df['대표식품코드'].isnull().any():
    print("대표식품코드에 결측치가 발견되어 해당 데이터를 드롭합니다.")
    new_df = new_df.dropna(subset=['대표식품코드'])  # 대표식품코드에 결측치가 있는 행 드롭

# 4. 데이터 분할
X = new_df.drop(['대표식품코드', '식품코드', '대표식품명', '식품명'], axis=1)  # 예측할 열을 '대표식품코드'로 설정
y = new_df['대표식품코드']

# 클래스 분포 확인
class_counts = y.value_counts()
print("대표식품코드 클래스 분포:\n", class_counts)

# 클래스 수가 너무 적은 경우 드롭
min_class_count = 5  # 예를 들어, 5개 미만의 샘플을 가진 클래스는 드롭
valid_classes = class_counts[class_counts >= min_class_count].index
y = y[y.isin(valid_classes)]
X = X.loc[y.index]  # y에 맞게 X를 필터링

# 5. Train, Validation, Test 데이터로 분할
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.25, random_state=42)

# 6. 하이퍼파라미터 튜닝을 위한 Grid Search 설정
param_grid = {
    'n_estimators': [50, 100],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}

# RandomForestClassifier 초기화
model = RandomForestClassifier(random_state=42)

# Grid Search 실행 (n_jobs=1로 설정하여 메모리 사용량 줄이기)
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=2, scoring='accuracy', n_jobs=1)
grid_search.fit(X_train, y_train)

# 최적 하이퍼파라미터 출력
print("Best parameters found: ", grid_search.best_params_)


대표식품코드에 결측치가 발견되어 해당 데이터를 드롭합니다.
대표식품코드 클래스 분포:
 대표식품코드
1405.0     4577
23201.0    3804
1103.0     3279
1106.0     2948
9302.0     2757
           ... 
15101.0       1
15103.0       1
15104.0       1
15202.0       1
10600.0       1
Name: count, Length: 263, dtype: int64




Best parameters found:  {'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}


In [None]:
# 7. 최적의 하이퍼파라미터를 가진 모델로 학습
best_model = RandomForestClassifier(
    n_estimators=grid_search.best_params_['n_estimators'],
    max_depth=grid_search.best_params_['max_depth'],
    min_samples_split=grid_search.best_params_['min_samples_split'],
    min_samples_leaf=grid_search.best_params_['min_samples_leaf'],
    random_state=42
)

best_model.fit(X_train, y_train)

# 8. 검증 데이터로 평가
y_val_pred = best_model.predict(X_val)
print("Validation Accuracy:", accuracy_score(y_val, y_val_pred))
print("Classification Report:\n", classification_report(y_val, y_val_pred))

# 9. 테스트 데이터로 최종 평가
y_test_pred = best_model.predict(X_test)
print("Test Accuracy:", accuracy_score(y_test, y_test_pred))
print("Classification Report:\n", classification_report(y_test, y_test_pred))

Validation Accuracy: 0.5865104252626946
Classification Report:
               precision    recall  f1-score   support

      1101.0       0.68      0.36      0.47        64
      1102.0       0.75      0.73      0.74       135
      1103.0       0.57      0.68      0.62       730
      1104.0       0.48      0.13      0.21        92
      1105.0       0.58      0.40      0.47        48
      1106.0       0.48      0.60      0.54       575
      1107.0       0.65      0.45      0.53        86
      1201.0       0.33      0.50      0.40         2
      1202.0       1.00      0.40      0.57        10
      1203.0       0.73      0.88      0.80       259
      1204.0       0.63      0.55      0.59        44
      1205.0       0.71      0.78      0.74       304
      1206.0       0.50      0.39      0.44        23
      1207.0       0.49      0.38      0.43       117
      1208.0       0.00      0.00      0.00        13
      1401.0       0.71      0.27      0.39        55
      1402.0     

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Test Accuracy: 0.5934422621994828
Classification Report:
               precision    recall  f1-score   support

      1101.0       0.79      0.42      0.55        52
      1102.0       0.69      0.67      0.68       133
      1103.0       0.56      0.69      0.62       643
      1104.0       0.29      0.12      0.17        86
      1105.0       0.57      0.63      0.60        27
      1106.0       0.51      0.63      0.56       586
      1107.0       0.69      0.49      0.57        96
      1201.0       0.56      0.50      0.53        10
      1202.0       0.75      0.25      0.38        12
      1203.0       0.67      0.85      0.75       269
      1204.0       0.73      0.68      0.71        44
      1205.0       0.68      0.76      0.72       289
      1206.0       0.61      0.34      0.44        32
      1207.0       0.41      0.29      0.34       129
      1208.0       1.00      0.42      0.59        12
      1401.0       0.64      0.27      0.38        67
      1402.0       0.88

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


# SVM

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score

# 1. CSV 파일 불러오기
file_path = '/content/식품안전처_가공식품DB.csv'  # 파일 경로
df = pd.read_csv(file_path)

# 2. 원하는 열 선택
desired_columns = [
    '식품코드',
    '식품명',
    '대표식품코드',
    '대표식품명',
    '에너지(kcal)',
    '단백질(g)',
    '지방(g)',
    '탄수화물(g)',
    '당류(g)',
    '나트륨(mg)',
    '콜레스테롤(mg)',
    '포화지방산(g)',
    '트랜스지방산(g)'
]
new_df = df[desired_columns]

# 3. 대표식품코드 결측치 확인 및 드롭
if new_df['대표식품코드'].isnull().any():
    print("대표식품코드에 결측치가 발견되어 해당 데이터를 드롭합니다.")
    new_df = new_df.dropna(subset=['대표식품코드'])  # 대표식품코드에 결측치가 있는 행 드롭

# 4. 데이터 분할
X = new_df.drop(['대표식품코드', '식품코드', '대표식품명', '식품명'], axis=1)  # 예측할 열을 '대표식품코드'로 설정
y = new_df['대표식품코드']

# 클래스 분포 확인
class_counts = y.value_counts()
print("대표식품코드 클래스 분포:\n", class_counts)

# 클래스 수가 너무 적은 경우 드롭
min_class_count = 5  # 예를 들어, 5개 미만의 샘플을 가진 클래스는 드롭
valid_classes = class_counts[class_counts >= min_class_count].index
y = y[y.isin(valid_classes)]
X = X.loc[y.index]  # y에 맞게 X를 필터링

# 5. Train, Validation, Test 데이터로 분할
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.25, random_state=42)

# 6. 하이퍼파라미터 튜닝을 위한 Grid Search 설정
param_grid = {
    'C': [0.1, 1, 10],
    'gamma': ['scale', 'auto', 0.1, 1],
    'kernel': ['linear', 'rbf']  # 선형 및 RBF 커널 사용
}

# SVC 초기화
model = SVC(random_state=42)

# Grid Search 실행 (n_jobs=1로 설정하여 메모리 사용량 줄이기)
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=3, scoring='accuracy', n_jobs=1)
grid_search.fit(X_train, y_train)

# 최적 하이퍼파라미터 출력
print("Best parameters found: ", grid_search.best_params_)

# 7. 최적의 하이퍼파라미터를 가진 모델로 학습
best_model = SVC(
    C=grid_search.best_params_['C'],
    gamma=grid_search.best_params_['gamma'],
    kernel=grid_search.best_params_['kernel'],
    random_state=42
)

best_model.fit(X_train, y_train)

# 8. 검증 데이터로 평가
y_val_pred = best_model.predict(X_val)
print("Validation Accuracy:", accuracy_score(y_val, y_val_pred))
print("Classification Report:\n", classification_report(y_val, y_val_pred))

# 9. 테스트 데이터로 최종 평가
y_test_pred = best_model.predict(X_test)
print("Test Accuracy:", accuracy_score(y_test, y_test_pred))
print("Classification Report:\n", classification_report(y_test, y_test_pred))


대표식품코드에 결측치가 발견되어 해당 데이터를 드롭합니다.
대표식품코드 클래스 분포:
 대표식품코드
1405.0     4577
23201.0    3804
1103.0     3279
1106.0     2948
9302.0     2757
           ... 
15101.0       1
15103.0       1
15104.0       1
15202.0       1
10600.0       1
Name: count, Length: 263, dtype: int64


