# 프로젝트1. load_digits - 손글씨 분류

## (1) 모듈 import

In [None]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

## (2) 데이터 준비

In [2]:
digit = load_digits() #iris 데이터 전체를 불러온다.
digit.keys() #iris 데이터에 담긴 정보 확인

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

## (3) 데이터 이해하기

In [3]:
digit_data = digit.data #Feature data 지정
print(digit_data.shape)

digit_label = digit.target #Lable data 지정
print(digit_label.shape)

(1797, 64)
(1797,)


In [4]:
#Feature와 label의 데이터 내용 확인
print(digit_data)
print(digit_label)

[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
[0 1 2 ... 8 9 8]


In [5]:
print(digit.feature_names) #Feature name
print(digit.target_names) #Target name

['pixel_0_0', 'pixel_0_1', 'pixel_0_2', 'pixel_0_3', 'pixel_0_4', 'pixel_0_5', 'pixel_0_6', 'pixel_0_7', 'pixel_1_0', 'pixel_1_1', 'pixel_1_2', 'pixel_1_3', 'pixel_1_4', 'pixel_1_5', 'pixel_1_6', 'pixel_1_7', 'pixel_2_0', 'pixel_2_1', 'pixel_2_2', 'pixel_2_3', 'pixel_2_4', 'pixel_2_5', 'pixel_2_6', 'pixel_2_7', 'pixel_3_0', 'pixel_3_1', 'pixel_3_2', 'pixel_3_3', 'pixel_3_4', 'pixel_3_5', 'pixel_3_6', 'pixel_3_7', 'pixel_4_0', 'pixel_4_1', 'pixel_4_2', 'pixel_4_3', 'pixel_4_4', 'pixel_4_5', 'pixel_4_6', 'pixel_4_7', 'pixel_5_0', 'pixel_5_1', 'pixel_5_2', 'pixel_5_3', 'pixel_5_4', 'pixel_5_5', 'pixel_5_6', 'pixel_5_7', 'pixel_6_0', 'pixel_6_1', 'pixel_6_2', 'pixel_6_3', 'pixel_6_4', 'pixel_6_5', 'pixel_6_6', 'pixel_6_7', 'pixel_7_0', 'pixel_7_1', 'pixel_7_2', 'pixel_7_3', 'pixel_7_4', 'pixel_7_5', 'pixel_7_6', 'pixel_7_7']
[0 1 2 3 4 5 6 7 8 9]


## (4) train, test 데이터 분리

In [6]:
#train_test_split()를 사용하여 X값, y값을 각각 train data와 test data로 나눈다.
#test_size는 몇대몇으로 나눌지 정하는 옵션, random_state는 랜덤 패턴의 값을 지정
X_train, X_test, y_train, y_test = train_test_split(digit_data, 
                                                    digit_label, 
                                                    test_size=0.2, 
                                                    random_state=10) 

## (5) 다양한 모델로 학습

In [7]:
#의사결정나무
decision_tree = DecisionTreeClassifier(random_state=32) #의사결정나무 객체 생성
decision_tree.fit(X_train, y_train) #분류 객체에 x와 y의 훈련 데이터를 넣어 학습
y_pred_dt = decision_tree.predict(X_test) #학습한 분류 객체에 X_test라는 테스트 데이터셋을 넣어 얼마나 예측 수준 확인


#랜덤포레스트
from sklearn.ensemble import RandomForestClassifier 

random_forest = RandomForestClassifier(random_state=32) #RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred_rf = random_forest.predict(X_test) # 예측


#서포트 벡터 머신
from sklearn import svm

svm_model = svm.SVC() # 모델 객체를 만든다.
svm_model.fit(X_train, y_train) # 훈련
y_pred_svm = svm_model.predict(X_test) # 예측


#SGDClassifier
from sklearn.linear_model import SGDClassifier

sgd_model = SGDClassifier() # 모델 객체 생성
sgd_model.fit(X_train, y_train) # sgd모델로 훈련데이터로 훈련시킨다.
y_pred_sgd = sgd_model.predict(X_test)# 그 모델로 test데이터를 사용해 예측


#Logistic Regression
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression() # 모델 객체 생성
logistic_model.fit(X_train, y_train) #LogisticRegression모델로 훈련데이터를 가지고 훈련시킨다.
y_pred_lr = logistic_model.predict(X_test) # 예측

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [8]:
#각 모델 별 예측 정확도 계산
from sklearn.metrics import accuracy_score

accuracy_dt = accuracy_score(y_test, y_pred_dt)
print('결정 트리 예측 정확도: {0:.4f}'.format(accuracy_dt))

accuracy_rf = accuracy_score(y_test, y_pred_rf)
print('랜덤포레스트 예측 정확도: {0:.4f}'.format(accuracy_rf))

accuracy_svm = accuracy_score(y_test, y_pred_svm)
print('서포트벡터머신 예측 정확도: {0:.4f}'.format(accuracy_svm))

accuracy_sgd = accuracy_score(y_test, y_pred_sgd)
print('sgd 예측 정확도: {0:.4f}'.format(accuracy_sgd))

accuracy_lr = accuracy_score(y_test, y_pred_lr)
print('로지스틱 회귀분석 예측 정확도: {0:.4f}'.format(accuracy_lr))

결정 트리 예측 정확도: 0.8611
랜덤포레스트 예측 정확도: 0.9583
서포트벡터머신 예측 정확도: 0.9833
sgd 예측 정확도: 0.9472
로지스틱 회귀분석 예측 정확도: 0.9500


## (6) 모델 평가

- 결정트리를 제외한 모든 모델 예측 정확도가 90% 이상을 달성했으며, 특히 랜덤포레스트의 예측 정확도가 가장 높다.
- 예측해야 하는 데이터의 수가 많지 않은 것도 정확도에 영향을 준 것으로 보임.

# 프로젝트2. load_wine - 와인 분류

## (1) 모듈 import

In [9]:
from sklearn.datasets import load_wine

## (2) 데이터 준비

In [10]:
wine = load_wine() #iris 데이터 전체를 불러온다.
wine.keys() #iris 데이터에 담긴 정보 확인

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])