In [4]:
# (1) 필요한 모듈 import하기
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier, LogisticRegression
from sklearn.preprocessing import StandardScaler
import pandas as pd

# (2) 데이터 준비
wine_data = load_wine()

# (3) 데이터 이해하기
X = wine_data.data
y = wine_data.target

target_names = wine_data.target_names
print("Target Names:", target_names)

wine_df = pd.DataFrame(X, columns=wine_data.feature_names)
print(wine_df.describe())

# 데이터 스케일링
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# (4) train, test 데이터 분리
X_train_scaled, X_test_scaled, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# (5) 다양한 모델로 학습시켜보기
models = {
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Random Forest": RandomForestClassifier(n_estimators=100, random_state=42),
    "SVM": SVC(kernel='linear', random_state=42),
    "SGD Classifier": SGDClassifier(loss='log', max_iter=1000, tol=1e-3, random_state=42),
    "Logistic Regression": LogisticRegression(max_iter=1000, random_state=42)
}

# (6) 모델 학습 및 평가
for model_name, model in models.items():
    model.fit(X_train_scaled, y_train)
    y_pred = model.predict(X_test_scaled)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"{model_name} Accuracy: {accuracy:.4f}")
    print(f"{model_name} Classification Report:\n", classification_report(y_test, y_pred, target_names=target_names))
    print("\n")

# 데이터 이해
# Wine 데이터셋은 세 가지 다른 종류의 와인에 대한 13가지 특성을 포함하고 있습니다.
#  특성(Features): 알코올, 말산, 애시, 알칼리도, 마그네슘, 총 페놀, 플라보노이드, 비플라보노이드 페놀, 프로안토시아닌, 색 강도, 색조, OD280/OD315 of diluted wines, 프롤린
#  레이블(Labels): 와인의 종류 (0, 1, 2)
#  타겟 이름: ‘class_0’, ‘class_1’, ‘class_2’

# 모델 평가
# 각 모델의 성능을 평가한 결과는 다음과 같습니다:
# 	1.	Decision Tree: 정확도 약 91%
# 	2.	Random Forest: 정확도 약 97%
# 	3.	SVM: 정확도 약 98%
# 	4.	SGD Classifier: 정확도 약 95%
# 	5.	Logistic Regression: 정확도 약 98%
# SVM과 Logistic Regression이 가장 높은 정확도를 보여주었습니다. 이는 이 데이터셋이 선형적으로 잘 분리될 수 있음을 시사합니다.
# Random Forest도 97%의 높은 정확도를 보여주었는데, 이는 앙상블 방법의 강점을 잘 보여줍니다.
# Decision Tree는 상대적으로 낮은 91%의 정확도를 보였는데, 이는 단일 트리 모델의 한계를 보여줍니다.

# 평가 지표 선택 이유
# 	1.	Accuracy: 전체 예측 중 올바른 예측의 비율을 나타냅니다. 클래스 불균형이 심하지 않은 이 데이터셋에서는 좋은 전반적인 성능 지표가 됩니다.
# 	2.	Classification Report: 이 보고서는 precision, recall, f1-score를 각 클래스별로 제공합니다.
# 	•	Precision: 특정 클래스로 예측한 것 중 실제로 그 클래스인 비율입니다.
# 	•	Recall: 실제 특정 클래스인 것 중 모델이 올바르게 예측한 비율입니다.
# 	•	F1-score: Precision과 Recall의 조화평균으로, 두 지표 간의 균형을 나타냅니다.
# 이러한 다양한 지표를 종합적으로 고려함으로써, 각 모델의 성능을 더 정확하고 균형 있게 평가할 수 있습니다. 
# 특히 각 와인 클래스별로 모델의 성능을 세부적으로 분석할 수 있어, 특정 클래스에 대한 예측이 어려운 경우를 파악할 수 있습니다.

Target Names: ['class_0' 'class_1' 'class_2']
          alcohol  malic_acid         ash  alcalinity_of_ash   magnesium  \
count  178.000000  178.000000  178.000000         178.000000  178.000000   
mean    13.000618    2.336348    2.366517          19.494944   99.741573   
std      0.811827    1.117146    0.274344           3.339564   14.282484   
min     11.030000    0.740000    1.360000          10.600000   70.000000   
25%     12.362500    1.602500    2.210000          17.200000   88.000000   
50%     13.050000    1.865000    2.360000          19.500000   98.000000   
75%     13.677500    3.082500    2.557500          21.500000  107.000000   
max     14.830000    5.800000    3.230000          30.000000  162.000000   

       total_phenols  flavanoids  nonflavanoid_phenols  proanthocyanins  \
count     178.000000  178.000000            178.000000       178.000000   
mean        2.295112    2.029270              0.361854         1.590899   
std         0.625851    0.998859            