### 모델

- 와인 데이터 읽어들이기 : 변수명 wine

- 독립 변수 :data와  종속변수 : target로 분리하기

- 훈련 및 테스트 = 8:2로 분류하기 (변수는 train_input, train_target, test_input, test_target으로)

- 정규화하기 : ss 클래스명, 훈련 데이터 정규화 변수는 train_std_scaler, 테스트 데이터는 test_std_scaler로 정규화

- 랜덤포레스트 모델로 분류하기 : 모델 변수명은 rf 사용 (cpu core 개수는 전체 사용, 랜덤규칙 42 사용)

- 훈련시키기

In [1]:
import pandas as pd
import numpy as np 

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier

In [2]:
# 와인 데이터 읽어들이기
file_path = './data/08_wine.csv'
wine = pd.read_csv(file_path)
wine

Unnamed: 0,alcohol,sugar,pH,class
0,9.4,1.9,3.51,0.0
1,9.8,2.6,3.20,0.0
2,9.8,2.3,3.26,0.0
3,9.8,1.9,3.16,0.0
4,9.4,1.9,3.51,0.0
...,...,...,...,...
6492,11.2,1.6,3.27,1.0
6493,9.6,8.0,3.15,1.0
6494,9.4,1.2,2.99,1.0
6495,12.8,1.1,3.34,1.0


In [6]:
# 독립 변수 :data와  종속변수 : target로 분리하기
data = wine.iloc[:,:-1].to_numpy()
target = wine['class'].to_numpy()
data.shape, target.shape

((6497, 3), (6497,))

In [7]:
# 훈련 및 테스트 = 8:2로 분류하기
train_input, test_input,train_target, test_target = train_test_split(data,target,test_size=0.2, random_state=42)
train_input.shape, train_target.shape, test_input.shape, test_target.shape

((5197, 3), (5197,), (1300, 3), (1300,))

In [8]:
# 정규화하기
ss = StandardScaler()
ss.fit(train_input)
train_std_scaler = ss.transform(train_input)
test_std_scaler = ss.transform(test_input)

In [10]:
# 랜덤포레스트 모델
rf = RandomForestClassifier(n_jobs=-1, random_state=42)

# 훈련시키기
rf.fit(train_std_scaler,train_target)

### 훈련 모델 저장 및 불러오는 방법  2가지

- joblib 방식

- pickle 방식

In [11]:
### joblib 방식
# - 사용 라이브러리 import 
import joblib

In [12]:
##3 훈련 모델 저장하기
# - 저장할 위치 및 파일명 정의 : 확장자는 임의로 넣어도 된다(보통 joblib방식에서는 확장자 md를 주로 사용한다).
save_path = './model/rf_model_joblib.md'

import os
os.makedirs('./model',exist_ok=True)
# - 모델 저장시키기
joblib.dump(rf, save_path)

['./model/rf_model_joblib.md']

In [13]:
### 저장된 훈련모델 파일 불러들이기
rf_model = joblib.load(save_path)
rf_model

In [14]:
### 예측하기 
rf_model.predict(test_input)

array([1., 1., 1., ..., 1., 1., 1.])

In [15]:
### pickle 방식
import pickle

### 모델 저장하기
# wb : w는 파일 쓰기 옵션, b는 바이너리 형식 -> 바이너리 형식으로 파일에 쓰기
# - pickle 방식은 파일을 열어서 쓰는 방식으로 저장이 된다.

save_path = './model/rf_model_pickle.md'
with open(save_path,'wb') as fw :
    pickle.dump(rf,fw)

In [17]:
### 저장된 모델 파일 읽어들이기
# - rb : r은 파일 읽기 옵션, b는 바이너리 형식 -> 바이너리 형식으로 파일 읽기

with open(save_path, 'rb') as f :
    rf_model2 = pickle.load(f)
rf_model2

In [18]:
rf_model2.predict(test_input)

array([1., 1., 1., ..., 1., 1., 1.])