- DATA
- Dataset : sklearn.datasets.digits
- 8x8 16화소 숫자 이미지 분류
- 분류 모델 적용
- LogisticRegression, SVC 비교
- Scale 적용 & 미적용 성능 비교

In [72]:
## 모듈 로딩
from sklearn.svm import SVC
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler, MinMaxScaler
import numpy as np
import matplotlib.pyplot as plt

### [1] 데이터 준비

In [73]:
digit = load_digits()

In [74]:
# data, target 분리
data = digit['data']
target = digit['target']

In [75]:
print(f'data : {data.shape}, target: {target.shape}')

data : (1797, 64), target: (1797,)


In [76]:
digit['images']

array([[[ 0.,  0.,  5., ...,  1.,  0.,  0.],
        [ 0.,  0., 13., ..., 15.,  5.,  0.],
        [ 0.,  3., 15., ..., 11.,  8.,  0.],
        ...,
        [ 0.,  4., 11., ..., 12.,  7.,  0.],
        [ 0.,  2., 14., ..., 12.,  0.,  0.],
        [ 0.,  0.,  6., ...,  0.,  0.,  0.]],

       [[ 0.,  0.,  0., ...,  5.,  0.,  0.],
        [ 0.,  0.,  0., ...,  9.,  0.,  0.],
        [ 0.,  0.,  3., ...,  6.,  0.,  0.],
        ...,
        [ 0.,  0.,  1., ...,  6.,  0.,  0.],
        [ 0.,  0.,  1., ...,  6.,  0.,  0.],
        [ 0.,  0.,  0., ..., 10.,  0.,  0.]],

       [[ 0.,  0.,  0., ..., 12.,  0.,  0.],
        [ 0.,  0.,  3., ..., 14.,  0.,  0.],
        [ 0.,  0.,  8., ..., 16.,  0.,  0.],
        ...,
        [ 0.,  9., 16., ...,  0.,  0.,  0.],
        [ 0.,  3., 13., ..., 11.,  5.,  0.],
        [ 0.,  0.,  0., ..., 16.,  9.,  0.]],

       ...,

       [[ 0.,  0.,  1., ...,  1.,  0.,  0.],
        [ 0.,  0., 13., ...,  2.,  1.,  0.],
        [ 0.,  0., 16., ..., 16.,  5.,  0.

In [77]:
# 사이킷런으로 훈련 세트와 테스트 세트 나누기
# 4개의 데이터셋을 리턴
train_input, test_input, train_target, test_target = train_test_split(
data, target, stratify=target, random_state=42)

# 스케일링 안한 것

### LogisticRegression

In [78]:
# 훈련 데이터를 이용한 직선 방정식 구하기
from sklearn.linear_model import LogisticRegression

# 모델 객체 생성
model = LogisticRegression(max_iter=3000)
# 로지스틱 회귀 모델 훈련
model.fit(train_input, train_target)
# 로지스틱 회귀 모델 평가
print('train data score: ',
      model.score(train_input, train_target))
print('test data score: ',
      model.score(test_input, test_target))
# 과대적합

train data score:  1.0
test data score:  0.9533333333333334


### SVC

In [79]:
# 모델 객체 생성
svm_clf = SVC()
# 모델 훈련
svm_clf.fit(train_input, train_target)
# 모델 평가
print('train data score: ',
     svm_clf.score(train_input, train_target))
print('test data score: ',
     svm_clf.score(test_input, test_target))
# 과대적합하지만 전체적으로 적합

train data score:  0.9985152190051967
test data score:  0.9911111111111112


# 스케일링(표준화)
---
- 평균이 0이고 분산이 1인 값으로 표준화 시켜줌

In [80]:
# 표준화
ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

## 로지스틱

In [81]:
# 모델 객체 생성
model = LogisticRegression(max_iter=3000)
# 로지스틱 회귀 모델 훈련
model.fit(train_scaled, train_target)
# 로지스틱 회귀 모델 평가
print('train data score: ',
      model.score(train_scaled, train_target))
print('test data score: ',
      model.score(test_scaled, test_target))
# 과대적합하지만 전체적으로 적합

train data score:  1.0
test data score:  0.9777777777777777


## SVC

In [82]:
# 모델 객체 생성
svm_clf = SVC()
# 모델 훈련
svm_clf.fit(train_scaled, train_target)
# 모델 평가
print('train data score: ',
     svm_clf.score(train_scaled, train_target))
print('test data score: ',
     svm_clf.score(test_scaled, test_target))
# 과대적합하지만 전체적으로 적합

train data score:  0.9977728285077951
test data score:  0.98


## 스케일링(정규화)
---
- 데이터 값을 0과 1사이의 범위 값으로 변환

In [83]:
mms = MinMaxScaler()
mms.fit(train_input)
train_scaled = mms.transform(train_input)
test_scaled = mms.transform(test_input)

## LogisticRegression

In [84]:
# 모델 객체 생성
model = LogisticRegression(max_iter=3000)
# 로지스틱 회귀 모델 훈련
model.fit(train_scaled, train_target)
# 로지스틱 회귀 모델 평가
print('train data score: ',
      model.score(train_scaled, train_target))
print('test data score: ',
      model.score(test_scaled, test_target))
# 과대적합

train data score:  0.985894580549369
test data score:  0.9622222222222222


## SVC

In [85]:
# 모델 객체 생성
svm_clf = SVC()
# 모델 훈련
svm_clf.fit(train_scaled, train_target)
# 모델 평가
print('train data score: ',
     svm_clf.score(train_scaled, train_target))
print('test data score: ',
     svm_clf.score(test_scaled, test_target))
# 과대적합하지만 전체적으로 적합

train data score:  0.9985152190051967
test data score:  0.9911111111111112
