# 05-1 결정 트리
##### 결정 트리 알고리즘을 사용해 새로운 분류 문제를 다루어 봅니다. 결정 트리가 머신러닝 문제를 어떻게 해결하는지 이해합니다.

- 와인캔 판매, 레드 와인과 화이트 와인 표시 누락
- 알코올 도수, 당도, pH 값으로 분류 모델 사용

- 로지스틱 회귀 모델 적용

### 로지스틱 회귀로 와인 분류하기

In [1]:
import pandas as pd
wine = pd.read_csv('https://bit.ly/wine_csv_data')

In [2]:
wine.head()

Unnamed: 0,alcohol,sugar,pH,class
0,9.4,1.9,3.51,0.0
1,9.8,2.6,3.2,0.0
2,9.8,2.3,3.26,0.0
3,9.8,1.9,3.16,0.0
4,9.4,1.9,3.51,0.0


- alchole : 알콜, suger : 당도, pH : pH, class : 타깃값(0:레드와인, 1:화이트와인)
- 레드 / 화이트 와인을 맞추는 이진 분류 문제, (화이트 와인이 양성 클래스) : 전체 데이터에서 화이트 와인을 고르는 문제

In [4]:
wine.info()
# df 각 열의 데이터 타입과 누락 데이터가 있는지 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6497 entries, 0 to 6496
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   alcohol  6497 non-null   float64
 1   sugar    6497 non-null   float64
 2   pH       6497 non-null   float64
 3   class    6497 non-null   float64
dtypes: float64(4)
memory usage: 203.2 KB


- 누락 값이 있을떄 : 데이터를 버리거나 평균값으로 채운 후 사용할 수 있음. 두 가지 방법 다 사용해서 예측값이 높아지는지 확인하는 것이 중요

In [6]:
wine.describe()
# 평균, 표준편차, 최소, 최대값 확인, 중간값, 1사분위, 3사분위 확인

Unnamed: 0,alcohol,sugar,pH,class
count,6497.0,6497.0,6497.0,6497.0
mean,10.491801,5.443235,3.218501,0.753886
std,1.192712,4.757804,0.160787,0.430779
min,8.0,0.6,2.72,0.0
25%,9.5,1.8,3.11,1.0
50%,10.3,3.0,3.21,1.0
75%,11.3,8.1,3.32,1.0
max,14.9,65.8,4.01,1.0


In [9]:
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target = wine['class'].to_numpy()

In [10]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42)

- train_test_split() 함수는 설정값을 지정하지 않으면 25%를 테스트 세트로 지정
- 샘플 개수가 충분히 많으므로 20% 정도만 테스트 세트로 나누었습니다. (코드의 test_size=0.2)
- 훈련 세트와 테스트 세트 크기 확인

In [11]:
print(train_input.shape, test_input.shape)

(5197, 3) (1300, 3)


- 훈련 세트는 5197, 테스트 세트는 1300
- 1. StandardScaler 클래스를 사용해 훈련 세트 전처리 진행
- 2. 같은 객체를 그대로 사용해 테스트 세트를 변환

In [12]:
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

- 이제 표준점수로 변환된 train_scale와 test_scaled를 사용해 로지스틱 회귀 모델을 훈련하겠습니다

In [13]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(train_scaled, train_target)
print(lr.score(train_scaled, train_target))
print(lr.score(test_scaled, test_target))

0.7808350971714451
0.7776923076923077


- 점수가 높지 않음. 훈련 세트와 테스트 세트 점수가 모두 낮으니 모델이 과소적합으로 판단
- 규제 매개변수 C의 값을 바꿔보자. 아니면 solver 매개변수에서 다른 알고리즘을 선택할 수도 있음. 또는 다항 특성을 만들어 추가도 가능

### 설명하기 쉬운 모델과 어려운 모델
- 보고서 만들기 위해 로지스틱 회귀가 학습한 계수와 절편 출력

In [14]:
print(lr.coef_, lr.intercept_)

[[ 0.51270274  1.6733911  -0.68767781]] [1.81777902]


- 계수값을 학습했는지 이해하기가 쉽지 않음
- 알콜 도수와 당도가 높을수록 화이트 와인일 가능성이 높고, pH가 높을수록 레드 와인일 가능성이 높은 것으로 추정하지만
- 이 숫자가 어떤 의미인지 설명하기 어려움, 다항 특성을 추가한다면 더 어려움
- 대부분 머신러닝 모델은 결과를 설명하기 어려움
- 어려운 설명은 종종 엔지니어를 신뢰하지 않는 결과로 이어짐
- 쉬운 방법으로 설명할 수 있는 모델!? 결정트리

## 결정 트리