#### [ 이미지 분류 모델을 위한 준비 ]
- 데이터 준비 : 수집된 데이터 ==> 하나의 데이터로 저장
- scikit-learn
    * 피쳐 데이터 : 2D
    * 타겟 데이터 : 1D

- 데이터 즉, 피쳐와 타겟 => csv, json, xlsx, .... 저장


[1] 모듈 로딩 및 데이터 준비 <hr>

In [17]:
import cv2
import pandas as pd
import os

[2] 기계학습을 위한 데이터 파일 생성 <hr>
- csv 파일 저장 => [형식] 타겟, 픽셀1, 픽셀2, ....., 픽셀n
- 이미지 사이즈 일치
- 이미지 로우 데이터 읽어 오기
- 타겟 추출
- csv 파일에 쓰기

##### 컬러 이미지 그대로 CSV <hr>

In [18]:
## 데이터 설정 
data_dir = '../Data/fruit-dataset/apple' 
data_dir2 = '../Data/fruit-dataset/orange' 

## 이미지 파일리스트 
files = os.listdir(data_dir) 
files2 = os.listdir(data_dir2)

## ==============================================
## [2-1] csv 파일명 설정
## ==============================================
csv_dir = '../Data/csv'
csv_file = '../Data/csv/fruits.csv'

if not os.path.exists(csv_dir) :
    os.mkdir(csv_dir)
    print(f'{csv_dir}을 만들었습니다.')
    
else : 
    print(f'{csv_dir}이 존재합니다.')
    
## ==============================================
## [2-2] 이미지 처리 - 사과 추가
## ==============================================
## 파일 1개 처리
for filename in files :
    img_path = f'{data_dir}/{filename}'
    print(img_path)
    ## 1차 줄이기
    img = cv2.resize(cv2.imread(img_path, cv2.IMREAD_GRAYSCALE),
                     (0,0), fx=0.7, fy=0.7, interpolation=cv2.INTER_AREA)
    print('1차 :', img.shape) 
    ## 2차 줄이기
    img = cv2.resize(img, (70,70), interpolation=cv2.INTER_AREA)
    print('2차 :', img.shape)
    
    img = img.reshape(-1) ## 1차원으로 만들기
    print('3차 :', img.shape)
    # print(img.tolist())
    raw = [str(i) for i in img.tolist()]
    raw = ','.join(raw) ## 스트링 변환
    with open(csv_file, mode='a', encoding='utf-8') as f :
        f.write('apple,' + raw + '\n')
    # print(raw)
    
## ==============================================
## [2-2] 이미지 처리 - ORANGE 추가
## ==============================================
for filename in files2:
    img_path = f'{data_dir2}/{filename}'
    print(img_path)

    ## 1차 줄이기
    img = cv2.resize(
        cv2.imread(img_path, cv2.IMREAD_GRAYSCALE),
        (0, 0), fx=0.7, fy=0.7, interpolation=cv2.INTER_AREA
    )
    print('1차 :', img.shape)

    ## 2차 줄이기 (최종 70x70 통일)
    img = cv2.resize(img, (70, 70), interpolation=cv2.INTER_AREA)
    print('2차 :', img.shape)

    ## 1차원으로 만들기
    img = img.reshape(-1)
    print('3차 :', img.shape)

    raw = [str(i) for i in img.tolist()]
    raw = ','.join(raw)

    with open(csv_file, mode='a', encoding='utf-8') as f:
        f.write('orange,' + raw + '\n')

../Data/csv이 존재합니다.
../Data/fruit-dataset/apple/001.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/002.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/003.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/004.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/006.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/007.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/009.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/010.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/011.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/012.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/013.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/015.jpeg
1차 : (90, 90)
2차 : (70, 70)
3차 : (4900,)
../Data/fruit-dataset/apple/017.jpeg
1차 : (9

##### 이진화 이미지로 CSV <hr>

In [None]:
## 데이터 설정
data_dir_apple = '../Data/fruit-dataset/apple'
data_dir_orange = '../Data/fruit-dataset/orange'

files_apple = os.listdir(data_dir_apple)
files_orange = os.listdir(data_dir_orange)

## CSV 저장 경로
csv_dir = '../Data/csv'
csv_file = '../Data/csv/fruits_otsu.csv'

if not os.path.exists(csv_dir):
    os.mkdir(csv_dir)

## ===============================
## 공통 이미지 처리 함수 (Otsu)
## ===============================
def process_image_otsu(img_path):
    # 1) Grayscale
    img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)

    # 2) Resize (고정 사이즈)
    img = cv2.resize(img, (70, 70), interpolation=cv2.INTER_AREA)

    # 3) Otsu 이진화
    _, img_bin = cv2.threshold(
        img, 0, 255,
        cv2.THRESH_BINARY + cv2.THRESH_OTSU
    )

    # 4) 1차원 변환
    return img_bin.reshape(-1)


## ===============================
## 사과 데이터 저장
## ===============================
with open(csv_file, mode='w', encoding='utf-8') as f:
    for filename in files_apple:
        img_path = f'{data_dir_apple}/{filename}'
        img_flat = process_image_otsu(img_path)

        raw = ','.join(map(str, img_flat))
        f.write('apple,' + raw + '\n')


## ===============================
## 오렌지 데이터 저장
## ===============================
with open(csv_file, mode='a', encoding='utf-8') as f:
    for filename in files_orange:
        img_path = f'{data_dir_orange}/{filename}'
        img_flat = process_image_otsu(img_path)

        raw = ','.join(map(str, img_flat))
        f.write('orange,' + raw + '\n')

print("Otsu 이진화 CSV 생성 완료:", csv_file)


✅ Otsu 이진화 CSV 생성 완료: ../Data/csv/fruits_otsu.csv


#### 머신러닝 모델 만들기 시작 <hr>

In [20]:
## 모듈 로딩
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV, StratifiedKFold
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier

In [30]:
# =========================
# 1) CSV 로드
# =========================
csv_path = "../Data/csv/fruits.csv"
df = pd.read_csv(csv_path, header=None)

# 0번 컬럼: 타겟(label), 나머지: 픽셀
y = df.iloc[:, 0].astype(str)
X = df.iloc[:, 1:].astype(np.float32)

print("Loaded:", df.shape)
print("X:", X.shape, "y:", y.shape)
print("Class counts:\n", y.value_counts())


Loaded: (256, 4901)
X: (256, 4900) y: (256,)
Class counts:
 0
apple     128
orange    128
Name: count, dtype: int64


In [31]:
# =========================
# 2) Train/Test split (stratify로 클래스 비율 유지)
# =========================
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

print("\nTrain:", X_train.shape, "Test:", X_test.shape)



Train: (204, 4900) Test: (52, 4900)


In [23]:
# import pandas as pd
# import numpy as np
# import warnings

# from sklearn.utils.discovery import all_estimators
# from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
# from sklearn.pipeline import Pipeline
# from sklearn.preprocessing import StandardScaler
# from sklearn.base import clone

# # =========================
# # 3) 후보 모델 전수 조사
# # =========================
# warnings.filterwarnings("ignore")

# candidates = all_estimators(type_filter="classifier")

# cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# results = []
# for name, Estimator in candidates:
#     try:
#         model = Estimator()

#         # 반복횟수 필요한 애들만 안정적으로 늘려줌
#         params = model.get_params()
#         if "max_iter" in params:
#             model.set_params(max_iter=10000)

#         # 파이프라인 (누수 방지 + 공정 비교)
#         pipe = Pipeline([
#             ("scaler", StandardScaler()),
#             ("model", model)
#         ])

#         # CV 점수
#         scores = cross_val_score(
#             pipe, X_train, y_train,
#             cv=cv,
#             scoring="accuracy",
#             n_jobs=-1
#         )

#         results.append((name, scores.mean(), scores.std()))

#     except Exception:
#         # 데이터/모델 조건 안 맞는 건 패스
#         pass

# # 성능 순 정렬
# results_sorted = sorted(results, key=lambda x: x[1], reverse=True)

# # 상위 15개 출력
# print("=== Top 15 classifiers (CV accuracy on train) ===")
# for name, mean, std in results_sorted[:15]:
#     print(f"{name:30s}  mean={mean:.4f}  std={std:.4f}")


In [None]:
# =========================
# 3) Pipeline (누수 방지)
#    - 스케일링? 
#    - 모델: HistGradientBoostingClassifier
# =========================
from sklearn.ensemble import HistGradientBoostingClassifier
# from sklearn.pipeline import FunctionTransformer


pipe = Pipeline([
    ("scaler", StandardScaler()),
    ("model", HistGradientBoostingClassifier(random_state=42))
])


# =========================
# 4) GridSearchCV
# =========================
param_grid = {
    "model__learning_rate": [0.05, 0.1],
    "model__max_iter": [300, 600],
    "model__max_depth": [3, 5, None],
    # "model__early_stopping": [True],
}

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

grid = GridSearchCV(
    estimator=pipe,
    param_grid=param_grid,
    scoring="accuracy",
    cv=cv,
    n_jobs=-1,
    verbose=1,
    refit=True
)

grid.fit(X_train, y_train)

print("\n=== Best CV Score ===")
print(grid.best_score_)
print("\n=== Best Params ===")
print(grid.best_params_)



Fitting 5 folds for each of 12 candidates, totalling 60 fits

=== Best CV Score ===
0.8139024390243902

=== Best Params ===
{'model__learning_rate': 0.05, 'model__max_depth': None, 'model__max_iter': 300}


In [32]:

# =========================
# 5) Test 평가
# =========================
best_model = grid.best_estimator_
best_model.fit(X_train, y_train)
y_pred = best_model.predict(X_test)

print("\n=== Test Accuracy ===")
print(accuracy_score(y_test, y_pred))

print("\n=== Confusion Matrix (labels: apple, orange) ===")
labels = ["apple", "orange"]
print(confusion_matrix(y_test, y_pred, labels=labels))

print("\n=== Classification Report ===")
print(classification_report(y_test, y_pred, labels=labels))


=== Test Accuracy ===
0.8653846153846154

=== Confusion Matrix (labels: apple, orange) ===
[[22  4]
 [ 3 23]]

=== Classification Report ===
              precision    recall  f1-score   support

       apple       0.88      0.85      0.86        26
      orange       0.85      0.88      0.87        26

    accuracy                           0.87        52
   macro avg       0.87      0.87      0.87        52
weighted avg       0.87      0.87      0.87        52

