# load_wine : 와인 분류


## 필요한 모듈 불러오기

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

## 데이터 준비

### load_wine

In [2]:
wine = load_wine()

print(type(wine))

<class 'sklearn.utils._bunch.Bunch'>


### load_wine 속성 출력

In [3]:
for attr in dir(wine):
    if not attr.startswith('_'): print(attr)

DESCR
data
feature_names
frame
target
target_names


## 데이터 이해하기

### 데이터셋 설명

In [4]:
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0.98  3.88    2.29  0.63
    Fl

**DESCR**

**Data Set Characteristics:**
- :Number of Instances: 178
- :Number of Attributes: 13개의 숫자형 예측 속성과 클래스
- :Attribute Information:
    - Alcohol: 알콜 함유량
    - Malic acid: 말산 함유량
    - Ash: 회분 함유량
    - Alcalinity of ash: 회분의 알칼리도
    - Magnesium: 마그네슘 함유량
    - Total phenols: 총 페놀 함유량
    - Flavanoids: 플라보노이드 함유량
    - Nonflavanoid phenols: 비 플라보노이드 페놀 함유량
    - Proanthocyanins: 프로안토시아닌 함유량
    - Color intensity: 색상 강도
    - Hue: 색상
    - OD280/OD315 of diluted wines: 희석 와인의 광학 밀도/흡광
    - Proline: 프롤린 함유량

### Feature Data 지정

In [5]:
data = wine.data
data.shape

(178, 13)

- 샘플 데이터

In [6]:
data[0]

array([1.423e+01, 1.710e+00, 2.430e+00, 1.560e+01, 1.270e+02, 2.800e+00,
       3.060e+00, 2.800e-01, 2.290e+00, 5.640e+00, 1.040e+00, 3.920e+00,
       1.065e+03])

In [7]:
pd.DataFrame(data)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


- feature names 출력

In [8]:
wine.feature_names

['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

### Target Data 지정

- target 지정

In [9]:
target = wine.target
target.shape

(178,)

In [11]:
target[:20]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

- target names 출력

In [12]:
wine.target_names

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

### Describe

- pandas

In [16]:
wine_df = pd.DataFrame(data=data, columns=wine.feature_names)
wine_df['target'] = wine.target
wine_df

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0,2
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0,2
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0,2
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0,2


In [17]:
wine_df.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258,0.938202
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474,0.775035
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0,0.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5,0.0
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5,1.0
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0,2.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0,2.0


- numpy

In [18]:
mean = np.mean(data)
std = np.std(data)
minimum = np.min(data)
maximum = np.max(data)

print(f'평균 : {mean:.4f}')
print(f'표준편차 : {std:.4f}')
print(f'최소값 : {minimum}')
print(f'최대값 : {maximum}')

평균 : 69.1337
표준편차 : 215.7462
최소값 : 0.13
최대값 : 1680.0


## train, test 데이터 분리

In [19]:
X_train, X_test, y_train, y_test = train_test_split(data,
                                                    target,
                                                    test_size=0.2,
                                                    random_state=42)

In [20]:
print(f'X train shape : {X_train.shape}')
print(f'y train shape : {y_train.shape}')
print(f'X test shape : {X_test.shape}')
print(f'y test shape : {y_test.shape}')

X train shape : (142, 13)
y train shape : (142,)
X test shape : (36, 13)
y test shape : (36,)


## 다양한 모델로 학습 및 평가

### Decision Tree

#### 모델 생성

In [21]:
from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier()

#### 모델 속성 출력

In [22]:
for attr in dir(clf):
    if not attr.startswith('_'): print(attr)

apply
ccp_alpha
class_weight
cost_complexity_pruning_path
criterion
decision_path
feature_importances_
fit
get_depth
get_metadata_routing
get_n_leaves
get_params
max_depth
max_features
max_leaf_nodes
min_impurity_decrease
min_samples_leaf
min_samples_split
min_weight_fraction_leaf
predict
predict_log_proba
predict_proba
random_state
score
set_fit_request
set_params
set_predict_proba_request
set_predict_request
set_score_request
splitter


#### 모델 학습

In [23]:
clf.fit(X_train, y_train)

In [24]:
y_pred = clf.predict(X_test)

In [25]:
print(f'depth = {clf.get_depth()}')
print(f'leaves = {clf.get_n_leaves()}')

depth = 4
leaves = 7


#### 모델 평가

In [26]:
accuracy = clf.score(X_test, y_test) # R-squared 값을 반환하는 메서드
print(f'{accuracy = }')

accuracy = 0.9444444444444444


In [27]:
accuracy_sklearn = accuracy_score(y_test, y_pred)
print(f'{accuracy_sklearn = }')

accuracy_sklearn = 0.9444444444444444


In [28]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.93      0.96        14
           1       0.88      1.00      0.93        14
           2       1.00      0.88      0.93         8

    accuracy                           0.94        36
   macro avg       0.96      0.93      0.94        36
weighted avg       0.95      0.94      0.94        36



#### 결과 분석

결정 트리 분석 결과
- **트리의 깊이(depth)**: 4
- **리프 노드 수(leaves)**: 7
- **정확도(accuracy)**: 약 94.44%

클래스별 평가 지표:
| 클래스 | 정밀도 | 재현율 | F1-score | 지원 |
|--------|--------|--------|----------|------|
| 0      | 1.00   | 0.93   | 0.96     | 14   |
| 1      | 0.88   | 1.00   | 0.93     | 14   |
| 2      | 1.00   | 0.88   | 0.93     | 8    |
- **매크로 평균(Macro avg)**:
    - 정밀도: 0.96
    - 재현율: 0.93
    - F1-score: 0.94
- **가중 평균(Weighted avg)**:
    - 정밀도: 0.95
    - 재현율: 0.94
    - F1-score: 0.94

모델 총평:  
이러한 결과는 결정 트리 모델이 클래스별로 얼마나 잘 분류되는지에 대한 성능을 평가한 것이다.  
모델이 클래스 0과 클래스 2를 분류하는 데 더 어려움이 있음을 나타내는 결과이다.

### Random Forest

#### 모델 생성

In [29]:
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier()

#### 모델 속성 출력

In [30]:
for attr in dir(rfc):
    if not attr.startswith('_'): print(attr)

apply
base_estimator
base_estimator_
bootstrap
ccp_alpha
class_weight
criterion
decision_path
estimator
estimator_params
feature_importances_
fit
get_metadata_routing
get_params
max_depth
max_features
max_leaf_nodes
max_samples
min_impurity_decrease
min_samples_leaf
min_samples_split
min_weight_fraction_leaf
n_estimators
n_jobs
oob_score
predict
predict_log_proba
predict_proba
random_state
score
set_fit_request
set_params
set_score_request
verbose
warm_start


#### 모델 학습

In [31]:
rfc.fit(X_train, y_train)

In [32]:
y_pred = rfc.predict(X_test)

In [35]:
print(f'n_estimators = {rfc.n_estimators}')
print(f'Feature importances: {rfc.feature_importances_}')

n_estimators = 100
Feature importances: [0.12132341 0.02372975 0.01273292 0.03507731 0.02110676 0.05265311
 0.14353704 0.01452814 0.02955655 0.1599531  0.07917835 0.16059754
 0.14602603]


#### 모델 평가

In [36]:
accuracy = rfc.score(X_test, y_test)
print(f'{accuracy = }')

accuracy = 1.0


In [37]:
accuracy_sklearn = accuracy_score(y_test, y_pred)
print(f'{accuracy_sklearn = }')

accuracy_sklearn = 1.0


In [38]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       1.00      1.00      1.00        14
           2       1.00      1.00      1.00         8

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



#### 결과 분석

랜덤 포레스트 분석 결과
- **트리 개수(n_estimators)**: 100
- **특성 중요도(Feature importances)**:
    - 특성 0: 0.121
    - 특성 1: 0.024
    - 특성 2: 0.013
    - 특성 3: 0.035
    - 특성 4: 0.021
    - 특성 5: 0.053
    - 특성 6: 0.144
    - 특성 7: 0.015
    - 특성 8: 0.030
    - 특성 9: 0.160
    - 특성 10: 0.079
    - 특성 11: 0.161
    - 특성 12: 0.146
- **정확도(accuracy)**: 100%

클래스별 평가 지표:

| 클래스 | 정밀도 | 재현율 | F1-score | 지원 |
|--------|--------|--------|----------|------|
| 0      | 1.00   | 1.00   | 1.00     | 14   |
| 1      | 1.00   | 1.00   | 1.00     | 14   |
| 2      | 1.00   | 1.00   | 1.00     | 8    |
- **매크로 평균(Macro avg)**:
    - 정밀도: 1.00
    - 재현율: 1.00
    - F1-score: 1.00
- **가중 평균(Weighted avg)**:
    - 정밀도: 1.00
    - 재현율: 1.00
    - F1-score: 1.00

모델 총평:  
랜덤 포레스트 모델이 데이터를 매우 잘 분류하고 있으며, 특히 특성 중요도를 통해 어떤 특성이 모델의 예측에 가장 중요한 역할을 하는지 파악할 수 있다.

### SVM

#### 모델 생성

In [39]:
from sklearn.svm import SVC

svm = SVC()

#### 모델 속성 출력

In [40]:
for attr in dir(svm):
    if not attr.startswith('_') : print(attr)

C
break_ties
cache_size
class_weight
coef0
coef_
decision_function
decision_function_shape
degree
epsilon
fit
gamma
get_metadata_routing
get_params
kernel
max_iter
n_support_
nu
predict
predict_log_proba
predict_proba
probA_
probB_
probability
random_state
score
set_fit_request
set_params
set_score_request
shrinking
tol
unused_param
verbose


#### 모델 학습

In [41]:
svm.fit(X_train, y_train)

In [42]:
y_pred = svm.predict(X_test)

In [43]:
print(f'n_support_ = {svm.n_support_}')
print(f'kernel = {svm.kernel}')

n_support_ = [15 40 40]
kernel = rbf


#### 모델 평가

In [44]:
accuracy = svm.score(X_test, y_test)
print(f'{accuracy = }')

accuracy = 0.8055555555555556


In [45]:
accuracy_sklearn = accuracy_score(y_test, y_pred)
print(f'{accuracy_sklearn = }')

accuracy_sklearn = 0.8055555555555556


In [46]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.73      0.79      0.76        14
           2       0.57      0.50      0.53         8

    accuracy                           0.81        36
   macro avg       0.77      0.76      0.76        36
weighted avg       0.80      0.81      0.80        36



#### 결과 분석

서포트 벡터 머신 분석 결과
- **서포트 벡터 개수(n_support_)**:
    - 클래스 0: 15개
    - 클래스 1: 40개
    - 클래스 2: 40개
- **커널 함수(kernel)**: RBF (방사 기저 함수)
- **정확도(accuracy)**: 80.56%

클래스별 평가 지표:
| 클래스 | 정밀도 | 재현율 | F1-score | 지원 |
|--------|--------|--------|----------|------|
| 0      | 1.00   | 1.00   | 1.00     | 14   |
| 1      | 0.73   | 0.79   | 0.76     | 14   |
| 2      | 0.57   | 0.50   | 0.53     | 8    |
- **매크로 평균(Macro avg)**:
    - 정밀도: 0.77
    - 재현율: 0.76
    - F1-score: 0.76
- **가중 평균(Weighted avg)**:
    - 정밀도: 0.80
    - 재현율: 0.81
    - F1-score: 0.80

모델 총평:  
서포트 벡터 머신(SVM) 모델의 정확도는 약 80.56%이다.  
각 클래스의 정밀도와 재현율은 균형잡혀있으며, 클래스 0의 경우 완벽한 성능을 보인다.   
전체적으로 모델은 잘 작동하고 있으며, 클래스 1과 클래스 2의 성능을 더 향상시킬 수 있는 방법을 고려해볼 필요가 있다.


### SDG Classifier

#### 모델 생성

In [47]:
from sklearn.linear_model import SGDClassifier

sgd = SGDClassifier()

#### 모델 속성 출력

In [48]:
for attr in dir(sgd):
    if not attr.startswith('_'): print(attr)

C
alpha
average
class_weight
decision_function
densify
early_stopping
epsilon
eta0
fit
fit_intercept
get_metadata_routing
get_params
l1_ratio
learning_rate
loss
loss_functions
max_iter
n_iter_no_change
n_jobs
partial_fit
penalty
power_t
predict
predict_log_proba
predict_proba
random_state
score
set_fit_request
set_params
set_partial_fit_request
set_score_request
shuffle
sparsify
tol
validation_fraction
verbose
warm_start


#### 모델 학습

In [49]:
sgd.fit(X_train, y_train)

In [50]:
y_pred = sgd.predict(X_test)

In [51]:
print(f'intercept: {sgd.intercept_}')
print(f'loss: {sgd.loss}')
print(f'penalty: {sgd.penalty}')
print(f'alpha: {sgd.alpha}')

intercept: [-778.5106019   594.90105715  177.83844241]
loss: hinge
penalty: l2
alpha: 0.0001


#### 모델 평가

In [52]:
accuracy = sgd.score(X_test, y_test)
print(f'{accuracy = }')

accuracy = 0.5555555555555556


In [53]:
accuracy_sklearn = accuracy_score(y_test, y_pred)
print(f'{accuracy_sklearn = }')

accuracy_sklearn = 0.5555555555555556


In [54]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.48      1.00      0.65        14
           1       0.86      0.43      0.57        14
           2       0.00      0.00      0.00         8

    accuracy                           0.56        36
   macro avg       0.45      0.48      0.41        36
weighted avg       0.52      0.56      0.48        36



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


#### 결과 분석

SGD Classifier 분석 결과
- **절편(intercept)**:
    - 클래스 0: -778.51
    - 클래스 1: 594.90
    - 클래스 2: 177.84

- **손실 함수(loss)**: Hinge 손실 함수가 사용됨
- **패널티(penalty)**: L2 규제가 사용됨
- **알파(alpha)**: 0.0001
- **정확도(accuracy)**: 55.56%

클래스별 평가 지표:
| 클래스 | 정밀도 | 재현율 | F1-score | 지원 |
|--------|--------|--------|----------|------|
| 0      | 0.48   | 1.00   | 0.65     | 14   |
| 1      | 0.86   | 0.43   | 0.57     | 14   |
| 2      | 0.00   | 0.00   | 0.00     | 8    |
- **매크로 평균(Macro avg)**:
    - 정밀도: 0.45
    - 재현율: 0.48
    - F1-score: 0.41
- **가중 평균(Weighted avg)**:
    - 정밀도: 0.52
    - 재현율: 0.56
    - F1-score: 0.48

모델 총평:   
SGD Classifier 모델의 정확도는 약 55.56%로 낮은 편이며, 클래스 0의 정밀도는 높지만 클래스 1과 클래스 2의 정밀도는 낮다.  
또한 클래스 2에 대한 예측이 전혀 이루어지지 않았다.  
따라서 이 모델은 데이터를 효과적으로 분류하는 데 적합하지 않다.

### Logistic Regression

#### 모델 생성

In [55]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()

#### 모델 속성 출력

In [56]:
for attr in dir(lr):
    if not attr.startswith('_'): print(attr)

C
class_weight
decision_function
densify
dual
fit
fit_intercept
get_metadata_routing
get_params
intercept_scaling
l1_ratio
max_iter
multi_class
n_jobs
penalty
predict
predict_log_proba
predict_proba
random_state
score
set_fit_request
set_params
set_score_request
solver
sparsify
tol
verbose
warm_start


#### 모델 학습

In [57]:
lr.fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [58]:
y_pred = lr.predict(X_test)

In [59]:
print(f'intercept: {lr.intercept_}')
print(f'classes: {lr.classes_}')
print(f'n_iter: {lr.n_iter_}')

intercept: [-0.02096144  0.04997236 -0.02901092]
classes: [0 1 2]
n_iter: [100]


#### 모델 평가

In [60]:
accuracy = lr.score(X_test, y_test)
print(f'{accuracy = }')

accuracy = 0.9722222222222222


In [61]:
accuracy_sklearn = accuracy_score(y_test, y_pred)
print(f'{accuracy_sklearn = }')

accuracy_sklearn = 0.9722222222222222


In [62]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.93      0.96        14
           1       0.93      1.00      0.97        14
           2       1.00      1.00      1.00         8

    accuracy                           0.97        36
   macro avg       0.98      0.98      0.98        36
weighted avg       0.97      0.97      0.97        36



#### 결과 분석

로지스틱 회귀 분석 결과
- **절편(intercept)**:
    - 클래스 0: -0.021
    - 클래스 1: 0.050
    - 클래스 2: -0.029

- **클래스(class)**: [0, 1, 2]
- **반복 횟수(n_iter)**: 100
- **정확도(accuracy)**: 97.22%

클래스별 평가 지표:
| 클래스 | 정밀도 | 재현율 | F1-score | 지원 |
|--------|--------|--------|----------|------|
| 0      | 1.00   | 0.93   | 0.96     | 14   |
| 1      | 0.93   | 1.00   | 0.97     | 14   |
| 2      | 1.00   | 1.00   | 1.00     | 8    |
- **매크로 평균(Macro avg)**:
    - 정밀도: 0.98
    - 재현율: 0.98
    - F1-score: 0.98
- **가중 평균(Weighted avg)**:
    - 정밀도: 0.97
    - 재현율: 0.97
    - F1-score: 0.97

모델 총평:  
로지스틱 회귀 모델은 매우 높은 정확도(97.22%)로 데이터를 분류한다.  
각 클래스에 대한 평가 지표 역시 높은 값을 보이며, 매크로 평균과 가중 평균 역시 높은 수치를 보여준다.  
이 모델은 데이터를 효과적으로 분류하는 데 적합하다고 볼 수 있다.

## 모델 평가해 보기

**정확도(accuracy)**  
전체 예측 중 올바르게 분류된 예측의 비율을 나타내므로, 다중 클래스 분류 문제에서 일반적으로 사용되는 지표

**정확도를 선택한 이유**
- load_wine 데이터셋은 다중 클래스 분류 문제이며, 클래스의 분포가 균일하지 않는다.
- 클래스 불균형
    - 클래스 0, 1, 2의 분포가 균일하지 않고 비슷한 비율로 샘플이 분포하고 있다. 
    - 이런 경우에는 정확도가 적절한 평가지표이다.
- 단일 평가지표
    - 정확도는 각 클래스에 대한 분류 정확도를 종합적으로 제공하기 때문에 간단하고 직관적인 평가지표이다.
- 문제의 복잡도
    - 데이터셋이 비교적 작고, 클래스 간의 구분이 명확하며, 클래스당 샘플 수가 비슷한 경우에는 정확도가 적절한 선택이다.

## 회고

데이터를 평가할 때, 정확도를 중점적으로 보았고 classification report에서 분류가 더 정확히 이루어졌는지 확인하였다.  
여러 모델을 써보니까 조금 더 봐야할 모델을 어떻게 써야할지 고민이 되었다.  

그리고 데이터 불균형이 있을 때 어떻게 봐야할지 이것도 잘 기억하면 좋을 거 같다!