In [1]:
from sklearn.datasets import load_wine
import pandas as pd


1. 데이터 로드 및 탐색
•	Sklearn의 wine 데이터를 로드하고 기본적으로 탐색합니다.
•	데이터셋의 특성과 분포를 파악합니다.


In [2]:
# 데이터 로드
wine = load_wine()
X = pd.DataFrame(wine.data, columns=wine.feature_names)
y = wine.target

# 데이터 탐색
print(X.head())
print(X.describe())
print(f"Target classes: {set(y)}")


   alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
0    14.23        1.71  2.43               15.6      127.0           2.80   
1    13.20        1.78  2.14               11.2      100.0           2.65   
2    13.16        2.36  2.67               18.6      101.0           2.80   
3    14.37        1.95  2.50               16.8      113.0           3.85   
4    13.24        2.59  2.87               21.0      118.0           2.80   

   flavanoids  nonflavanoid_phenols  proanthocyanins  color_intensity   hue  \
0        3.06                  0.28             2.29             5.64  1.04   
1        2.76                  0.26             1.28             4.38  1.05   
2        3.24                  0.30             2.81             5.68  1.03   
3        3.49                  0.24             2.18             7.80  0.86   
4        2.69                  0.39             1.82             4.32  1.04   

   od280/od315_of_diluted_wines  proline  
0                  

2. 데이터 분할
•	데이터를 **훈련(80%)**과 **테스트(20%)**로 분할합니다.


In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

3. 특성 공학 적용
학생들은 아래의 특성 공학 기법을 적용해야 합니다. 각 변환 후에 변환된 데이터를 저장하고 이후 모델 학습에 사용합니다.
1.	스케일링
o	StandardScaler, MinMaxScaler 등을 사용하여 특성을 정규화합니다.


In [4]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Standard Scaling
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Min-Max Scaling
minmax_scaler = MinMaxScaler()
X_train_minmax = minmax_scaler.fit_transform(X_train)
X_test_minmax = minmax_scaler.transform(X_test)


In [5]:
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, include_bias=False)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)


In [6]:
from sklearn.decomposition import PCA

pca = PCA(n_components=5)  # 5개의 주성분만 유지
X_train_pca = pca.fit_transform(X_train_scaled)
X_test_pca = pca.transform(X_test_scaled)


In [7]:
from sklearn.feature_selection import SelectKBest, f_classif

selector = SelectKBest(score_func=f_classif, k=8)
X_train_selected = selector.fit_transform(X_train, y_train)
X_test_selected = selector.transform(X_test)


4.	Feature Selection
o	중요한 피처만 선택합니다. (예: SelectKBest)


In [9]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

# 모델 초기화
lr = LogisticRegression(max_iter=1000)
svm = SVC(kernel='linear', probability=True)
rf = RandomForestClassifier(random_state=42)

# 모델 학습
lr.fit(X_train_scaled, y_train)
svm.fit(X_train_scaled, y_train)
rf.fit(X_train_scaled, y_train)



4. 모델 학습 및 평가
학생들은 다양한 특성 공학 기법을 적용한 데이터셋에 대해 선형 회귀, SVM, Random Forest 모델을 학습시키고 성능을 평가해야 합니다.
1.	모델 학습
o	선형 회귀, SVM, Random Forest를 사용해 모델을 학습합니다


In [10]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

models = {"Logistic Regression": lr, "SVM": svm, "Random Forest": rf}

for name, model in models.items():
    y_pred = model.predict(X_test_scaled)
    print(f"{name} - Accuracy: {accuracy_score(y_test, y_pred):.4f}, "
          f"Precision: {precision_score(y_test, y_pred, average='weighted'):.4f}, "
          f"Recall: {recall_score(y_test, y_pred, average='weighted'):.4f}, "
          f"F1 Score: {f1_score(y_test, y_pred, average='weighted'):.4f}")


Logistic Regression - Accuracy: 1.0000, Precision: 1.0000, Recall: 1.0000, F1 Score: 1.0000
SVM - Accuracy: 0.9722, Precision: 0.9753, Recall: 0.9722, F1 Score: 0.9725
Random Forest - Accuracy: 1.0000, Precision: 1.0000, Recall: 1.0000, F1 Score: 1.0000


2.	성능 평가
o	학습된 모델을 사용해 테스트 세트의 성능을 평가합니다.
o	평가 지표는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), **F1 점수(F1-Score)**로 설정합니다.


In [11]:
from sklearn.model_selection import GridSearchCV

param_grid = {'n_estimators': [50, 100, 200], 'max_depth': [10, 20, 30]}
grid = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid.fit(X_train_scaled, y_train)
print(f"Best parameters: {grid.best_params_}, Best score: {grid.best_score_}")


Best parameters: {'max_depth': 10, 'n_estimators': 50}, Best score: 0.9785714285714286


  _data = np.array(data, dtype=dtype, copy=copy,
