In [1]:
# 사이킷런 라이브러리(Scikit Learn Libary):
# - 데이터 전처리와 기계 학습(Machine Learning)을 위한 라이브러리
# - 많은 종류의 모형을 통일된 형식으로 사용할 수 있다.

In [2]:
# 사이킷런 모델링 절차 ;
# - skleanr.서브패키지명.클래스명 : from sklearn.서브패키지 import 클래스
# - 모형 객체 생성
# - 모형 객체의 메소드 fit() : 데이터를 모델에 적합하여 학습
# - predict() -> 예측값, predict_proba() -> 확률 등을 통해 결과를 예측
# - skleran.metrics 에서 제공하는 성과 지표를 통해 모델을 평가

In [3]:
# 데이터 분할
# - 홀드아웃 교차 검증
# - 학습용(Training Set), 검증용(Validation Set) -> 학습 과정(60~80 %)
# - 평가용(Test Set) -> 평가 과정(20~40%)

In [4]:
# sklearn.model_selection.train_test_split() 초매개변수
# - arrays: 분할할 데이터(리스트, 배열,데이터프레임 등)
# - test_size: 평가 데이터 비율(0.0~1.0, default = 0.25)
# - random_state: 난수 고정
# - stratify: 층화 추출(목표 레이블 비율에 맞게 데이터 분할, default = None)

In [5]:
from sklearn.datasets import load_iris
iris = load_iris()

In [6]:
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [7]:
iris.data.shape

(150, 4)

In [8]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size = 0.3, random_state = 1234)

In [9]:
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

(105, 4) (45, 4) (105,) (45,)


In [10]:
print(type(X_train))

<class 'numpy.ndarray'>


In [11]:
X_train[:5]

array([[4.9, 3.1, 1.5, 0.1],
       [5.8, 2.8, 5.1, 2.4],
       [6.7, 3. , 5.2, 2.3],
       [7.7, 3. , 6.1, 2.3],
       [6.7, 3.1, 5.6, 2.4]])

In [12]:
X_test[:5]

array([[6.1, 3. , 4.6, 1.4],
       [6.1, 2.9, 4.7, 1.4],
       [6.3, 2.9, 5.6, 1.8],
       [4.6, 3.4, 1.4, 0.3],
       [5.2, 2.7, 3.9, 1.4]])

In [13]:
y_train[:5]

array([0, 2, 2, 2, 2])

In [14]:
y_test[:5]

array([1, 1, 2, 0, 1])

In [15]:
# K-Fold Cross Validation
# 1개 :평가데이터
# k-1 :학습 데이터

In [16]:
# - K-fold() 객체 생성 후 메소드 split()을 통해 학습-평갸 데이터 분할(인덱스)
# sklearn.model_selection.KFold()
# n_splits: fold의 수(k 개수, defalt = 5)

In [17]:
import numpy as np
X = np.array(['가','나','다','라','마','바','아','자','차','카'])
print(X)

from sklearn.model_selection import KFold
kfold = KFold(n_splits = 5)

['가' '나' '다' '라' '마' '바' '아' '자' '차' '카']


In [18]:
# kfold.split(x) : 인덱스 반환(훈련 데이터와 평가데이터)
print(kfold.split(X))

<generator object _BaseKFold.split at 0x000001BADAF609D0>


In [19]:
for train,test in kfold.split(X):
  print("train:", train, "test:", test)

train: [2 3 4 5 6 7 8 9] test: [0 1]
train: [0 1 4 5 6 7 8 9] test: [2 3]
train: [0 1 2 3 6 7 8 9] test: [4 5]
train: [0 1 2 3 4 5 8 9] test: [6 7]
train: [0 1 2 3 4 5 6 7] test: [8 9]


In [20]:
# 모형 평가
# - 회귀 : 종속변수가 연속형인 모델의 평가지표
# sklearn.metrics
# - MSE: metrics.mean_squared_error(실제값, 예측값)
# - MAE: metrics.mean_absolute_error(실제값, 예측값)
# - MAPE: metrics.mean_absolute_percentage_error(실제값, 예측값)
# 에러는 낮을수록 좋음
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error
import numpy as np
np.random.seed(1111)

In [21]:
y_true = np.random.random_sample(5)
print(y_true)

y_pred = np.random.random_sample(5)
print(y_pred)

[0.0955492  0.9250037  0.34357342 0.31047694 0.00200984]
[0.23559472 0.23779172 0.73591587 0.49546808 0.78442535]


In [22]:
mse = mean_squared_error(y_true,y_pred)
print(mse)

0.2584402806431788


In [23]:
mae = mean_absolute_error(y_true,y_pred)
print(mae)

0.43740131997433906


In [24]:
mape = mean_absolute_percentage_error(y_true,y_pred)
print(mape)

78.64776799063968


In [25]:
# 분류 : 종속변수가 범주형인 모델의 평가지표
# 혼동행렬
# ROC: 임계점 기준, 왼쪽 꼬대기에 가깝게 그려질수록 분류 성능이 우수

In [26]:
# 혼동행렬
# sklearn.metrics.confusion_matrix()
# y_true(실제값), y_pred(예측값)

In [27]:
from sklearn.metrics import confusion_matrix
y_true = [0,0,0,1,1,1]
y_pred = [0,1,0,1,1,1]
confusion_matrix(y_true,y_pred)

array([[2, 1],
       [0, 3]], dtype=int64)

In [28]:
# sklearn.metrics
# - 정분류율 : metrics.accuracy_score(실제값,예측값)
# - 재현율 : metrics.recall_score(실제값,예측값)
# - 정밀도: metrics.precision_score(실제값,예측값)
# - F1-score: metrics.f1_score(실제값,예측값)
# - macro f1-score: metrics.f1_score(실제값,예측값,average='macro')

In [29]:
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score
y_true = [0,0,0,1,1,1]
y_pred = [0,1,0,1,1,1]

In [30]:
accuracy = accuracy_score(y_true,y_pred)
print(accuracy)

0.8333333333333334


In [31]:
recall = recall_score(y_true,y_pred)
print(recall)

1.0


In [32]:
precision = precision_score(y_true,y_pred)
print(precision)

0.75


In [33]:
f1 = f1_score(y_true,y_pred)
print(f1)

0.8571428571428571


In [34]:
# FPR,TPR,임계값: metrics.roc_curve(실제값,예측값)
# auc: metrics.auc(FPR,TPR)

In [35]:
from sklearn.metrics import roc_curve, auc
y_true = [0,0,0,1,1,1]
y_pred = [0,1,0,1,1,1]
fpr, tpr, thresholds = roc_curve(y_true,y_pred)

In [36]:
print(fpr,tpr,thresholds)

[0.         0.33333333 1.        ] [0. 1. 1.] [inf  1.  0.]


In [37]:
AUC = auc(fpr,tpr)
print(AUC)

0.8333333333333334
