In [1]:
# 필요한 모듈 import
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 다양한 모델 사용을 위한 import
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier, LogisticRegression

# 데이터 준비
wine = load_wine()

# 데이터 이해하기
# Feature Data 지정하기
X = wine.data

# Label Data 지정
y = wine.target

# Target Names 출력
print("Target Names:", wine.target_names)  

# Data shape
print("Data shape:", X.shape)
print("Target shape:", y.shape)

# 데이터셋 설명 확인
print(wine.DESCR)

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, 
                                                    y, 
                                                    test_size=0.2, 
                                                    random_state=42)

# 다양한 모델로 학습
models = {
    "Decision Tree": DecisionTreeClassifier(random_state=42),
    "Random Forest": RandomForestClassifier(random_state=42),
    "SVM": SVC(random_state=42),
    "SGD Classifier": SGDClassifier(random_state=42),
    "Logistic Regression": LogisticRegression(max_iter=1000, random_state=42)
}

for model_name, model in models.items():
    # 모델 학습
    model.fit(X_train, y_train)
    # 예측
    y_pred = model.predict(X_test)
    # 모델 평가
    print(f"=== {model_name} ===")
    print(classification_report(y_test, y_pred))
    print("\n")
    
# 결과 해석
# 위 결과로 모델별 분류 성능(precision, recall, f1-score, accuracy)을 비교해볼 수 있는 것 같다.
# 와인 데이터셋은 선형적으로 구분이 잘 되고 특성 간 차이가 명확하기 때문에,
# Logistic Regression이나 SVM, Random Forest 등의 모델이 좀 더 안정적으로 높은 정확도를 보여주는 것 같다.
# 실제로 학습 결과가, 모델들이 높은 정확도를 얻는 모습을 보이는 것 같다.
#
# 성능 평가 지표로는 accuracy가 직관적이지만, 클래스 간 불균형 문제나, 다양한 관점에서 모델을 비교하면,
# precision, recall, f1-score가 더 낫겠다고 할 수 있는 것 같다.
# 이 데이터셋의 경우 클래스 분포가 그닥 불균형하지 않아서, accuracy 하나만으로도 모델 성능을 알아보는 데 무리는 없어 보이는데,
# 더 정교하게 비교하려면 f1-score를 살펴보는 것이 좋을 것 같다고 생각했다.
#
# 가장 성능이 좋은 모델을 선택은 accuracy와 f1-score 등등 여러 지표를 모두 확인해보는게,
# 안정적이고 높은 성능을 가진 모델을 선정할 수 있을 것 같다.

Target Names: ['class_0' 'class_1' 'class_2']
Data shape: (178, 13)
Target shape: (178,)
.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    M

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


=== Logistic Regression ===
              precision    recall  f1-score   support

           0       1.00      0.93      0.96        14
           1       0.93      1.00      0.97        14
           2       1.00      1.00      1.00         8

    accuracy                           0.97        36
   macro avg       0.98      0.98      0.98        36
weighted avg       0.97      0.97      0.97        36





STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
