# 와인 데이터 전처리

In [1]:
import pandas as pd

## 와인 데이터 불러오기
red_url = "https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/winequality-red.csv"
white_url = "https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/winequality-white.csv"

red_wine = pd.read_csv(red_url, sep=";")
white_wine = pd.read_csv(white_url, sep=";")

# 레드/화이트 라벨 컬럼 생성
red_wine['color'] = 1
white_wine['color'] = 0

# 와인 데이터
wine = pd.concat([red_wine, white_wine])

# 라벨 제거해서 학습시킬 데이터 구분
X = wine.drop(['color'], axis=1)
y = wine['color']

- 챕터 6에서 스케일작업 -> 트리 모델 생성 코드가 매우 많아서 혼란스러웠다.
- sklean에서 pipline을 만들면 한 셀에 표현하여 아주간단하게 볼수있다.

# 파이프라인 생성

In [2]:
from sklearn.pipeline import Pipeline
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler

estimators = [
    ('scaler', StandardScaler()),
    ('clf', DecisionTreeClassifier())
]

pipe = Pipeline(estimators)

### 파이프라인 살펴보기

In [3]:
pipe

In [4]:
pipe.steps

[('scaler', StandardScaler()), ('clf', DecisionTreeClassifier())]

In [5]:
pipe.steps[0]

('scaler', StandardScaler())

In [8]:
pipe['scaler']

## 파이프라인 객체에 변수, 속성 지정해주기
- 언더바 두개!!

In [9]:
pipe.set_params(clf__max_depth=2)
pipe.set_params(clf__random_state=13)

## 분류 모델(트리) 만들기!!

In [10]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=13, stratify=y)

## 파이프라인에서 모델에 학습데이터 학습시키기!

In [11]:
pipe.fit(X_train, y_train)

## 트레인데이터/ 테스트데이터를 넣었을때 정확성은 얼마일까??

In [13]:
from sklearn.metrics import accuracy_score

y_pred_tr = pipe.predict(X_train) # 트레인을 토대로 예측하고 다시 트레인데이터 넣으면 얼마나 예측할까?
y_pred_test = pipe.predict(X_test) # 트레인을 토대로 예측하고 테스트 데이터를 넣으면 얼마나 예측할까?

print('Train Acc : ', accuracy_score(y_train, y_pred_tr)) # 트레인을 토대로 예측하고 다시 트레인데이터 넣은 예측
print('Test Acc : ',accuracy_score(y_test, y_pred_test)) # 트레인을 토대로 예측하고 테스트 데이터 넣은 예측

Train Acc :  0.9657494708485664
Test Acc :  0.9576923076923077
