## 1. load_digits : 손글씨를 분류해 봅시다

### (1) 필요한 모듈 import하기

In [57]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

### (2) 데이터 준비

In [58]:
# load_digits 메서드를 사용합니다.
digits = load_digits()
# load_digits 함수는 digits 데이터셋을 로드하는 함수
# 로드된 digits 데이터셋을 digits라는 변수에 저장

print(dir(digits))
# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함

['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names']


In [59]:
digits.keys()
# digits 데이터셋에 담긴 정보 종류 확인

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])

### (3) 데이터 이해하기

In [60]:
# Feature Data 지정하기
digits_data = digits.data
# keys에서 확인한 정보 중 data를 따로 digits_data 변수에 저장

print(digits_data.shape) 
digits_data
# shape는 배열의 형상정보를 출력
# 1797개의 데이터가 각각 64개의 정보를 담고 있음

(1797, 64)


array([[ 0.,  0.,  5., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ..., 10.,  0.,  0.],
       [ 0.,  0.,  0., ..., 16.,  9.,  0.],
       ...,
       [ 0.,  0.,  1., ...,  6.,  0.,  0.],
       [ 0.,  0.,  2., ..., 12.,  0.,  0.],
       [ 0.,  0., 10., ..., 12.,  1.,  0.]])

In [61]:
# Label Data 지정하기
digits_label = digits.target
# keys에서 확인한 정보 중 target을 따로 digits_label 변수에 저장

print(digits_label.shape)
digits_label
# digits_data와 다르게 1797개의 숫자만 가지고 있음

(1797,)


array([0, 1, 2, ..., 8, 9, 8])

In [62]:
# Target Names 출력해 보기
digits.target_names
# keys에서 확인한 정보 중 target_names를 변수에 따로 저장하지 않고 호출
# digits_label이 가진 0, 1, 2, 3, 4, 5, 6, 7, 8, 9의 이름 확인

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [63]:
# 데이터 Describe 해 보기
print(digits.DESCR)
# keys에서 확인한 정보 중 DESCR을 변수에 따로 저장하지 않고 호출
# 데이터셋 설명서 출력

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

### (4) train, test 데이터 분리
모델 학습과 테스트용 문제지와 정답지를 준비해 봅시다.
X_train, X_test, y_train, y_test를 생성하는 방법을 참고해 보세요.

In [64]:
from sklearn.model_selection import train_test_split
# sklearn model_selection패키지의 train_test_split 함수를 임포트

X_train, X_test, y_train, y_test = train_test_split(digits_data, digits_label, test_size=0.2, random_state=7)
# 나눠야 할 데이터(문제지, X): digits_data
# 데이터의 라벨(정답, y): digits_label
# digits_data와 digits_label를 각각 train:test = 8:2의 비율로 잘라서 
# X_train, X_test, y_train, y_test에 저장

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))
print('y_train 개수: ', len(y_train),', y_test 개수: ', len(y_test))
# len은 배열의 길이를 출력

X_train 개수:  1437 , X_test 개수:  360
y_train 개수:  1437 , y_test 개수:  360


### (5) 다양한 모델로 학습시켜보기
학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 봅시다. 어떤 모델이 가장 좋은 성능을 보일까요?

In [65]:
# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier 

decision_tree = DecisionTreeClassifier(random_state=32) 
# random_state : 재현가능하도록 난수의 초기값 32로 설정

# 학습데이터 X_train, y_train로 의사결정나무 모델로 학습하기
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=32)

In [66]:
# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier #랜덤포레스트라는 분류기를 사용하기 위해 import

random_forest = RandomForestClassifier(random_state=32) 
# random_state : 재현가능하도록 난수의 초기값 32로 설정

# 학습데이터 X_train, y_train로 Random Forest 모델로 학습하기
random_forest.fit(X_train, y_train)

RandomForestClassifier(random_state=32)

In [67]:
# SVM 사용해 보기
from sklearn import svm #Support Vector Machine을 사용하기 위해 import

svm = svm.SVC() # 모델 객체를 만든다.

svm.fit(X_train, y_train) # 훈련

SVC()

In [68]:
# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier #선형분류기인 SGDClassifier를 사용하기 위한 import

sgd = SGDClassifier() # 모델 객체 생성

sgd.fit(X_train, y_train) # 훈련

SGDClassifier()

In [69]:
# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression # 선형분류기인 LogisticRegression를 사용하기 위한 import

logistic_model = LogisticRegression() # 모델 객체 생성

logistic_model.fit(X_train, y_train) # 훈련

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

### (6) 모델을 평가해 보기
학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요? sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요. 선택하신 이유도 설명해 주세요.

-> 실제 쓴 숫자 이미지에서 예측한 숫자가 얼마나 같은지를 판단하면 되므로 정확도를 평가지표로 하면 적절할 거 같습니다.

In [70]:
# 실제 정답 y_test과 예측값 y_pred 비교하여 정확도 측정하기
from sklearn.metrics import accuracy_score

y_pred = decision_tree.predict(X_test)
print(f"Decision Tree       : {accuracy_score(y_test, y_pred)}")

y_pred = random_forest.predict(X_test)
print(f"Random Forest       : {accuracy_score(y_test, y_pred)}")

y_pred = svm.predict(X_test)
print(f"SVM                 : {accuracy_score(y_test, y_pred)}")

y_pred = sgd.predict(X_test)
print(f"SGD Classifier      : {accuracy_score(y_test, y_pred)}")

y_pred = logistic_model.predict(X_test)
print(f"Logistic Regression : {accuracy_score(y_test, y_pred)}")

Decision Tree       : 0.8555555555555555
Random Forest       : 0.9638888888888889
SVM                 : 0.9888888888888889
SGD Classifier      : 0.9277777777777778
Logistic Regression : 0.9527777777777777


## 2. load_wine : 와인을 분류해 봅시다

### (1) 필요한 모듈 import하기

In [71]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

### (2) 데이터 준비

In [72]:
# load_wine 메서드를 사용합니다.
wine = load_wine()
# load_wine 함수는 wine 데이터셋을 로드하는 함수
# 로드된 wine 데이터셋을 wine라는 변수에 저장

print(dir(wine))
# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함

['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']


In [73]:
wine.keys()
# wine 데이터셋에 담긴 정보 종류 확인

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

### (3) 데이터 이해하기

In [74]:
# Feature Data 지정하기
wine_data = wine.data
# keys에서 확인한 정보 중 data를 따로 wine_data 변수에 저장

print(wine_data.shape) 
wine_data
# shape는 배열의 형상정보를 출력
# 178개의 데이터가 각각 13개의 정보를 담고 있음

(178, 13)


array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
        1.185e+03],
       ...,
       [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
        8.350e+02],
       [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
        8.400e+02],
       [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
        5.600e+02]])

In [75]:
# Label Data 지정하기
wine_label = wine.target
# keys에서 확인한 정보 중 target을 따로 wine_label 변수에 저장

print(wine_label.shape)
wine_label
# wine_data와 다르게 178개의 숫자만 가지고 있음

(178,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

In [76]:
# Target Names 출력해 보기
wine.target_names
# keys에서 확인한 정보 중 target_names를 변수에 따로 저장하지 않고 호출
# wine_label이 가진 class_0, class_1, class_2의 이름 확인

array(['class_0', 'class_1', 'class_2'], dtype='<U7')

In [77]:
# 데이터 Describe 해 보기
print(wine.DESCR)
# keys에서 확인한 정보 중 DESCR을 변수에 따로 저장하지 않고 호출
# 데이터셋 설명서 출력

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

### (4) train, test 데이터 분리
모델 학습과 테스트용 문제지와 정답지를 준비해 봅시다.
X_train, X_test, y_train, y_test를 생성하는 방법을 참고해 보세요.

In [78]:
from sklearn.model_selection import train_test_split
# sklearn model_selection패키지의 train_test_split 함수를 임포트

X_train, X_test, y_train, y_test = train_test_split(wine_data, wine_label, test_size=0.2, random_state=7)
# 나눠야 할 데이터(문제지, X): wine_data
# 데이터의 라벨(정답, y): wine_label
# wine_data와 wine_label를 각각 train:test = 8:2의 비율로 잘라서 
# X_train, X_test, y_train, y_test에 저장

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))
print('y_train 개수: ', len(y_train),', y_test 개수: ', len(y_test))
# len은 배열의 길이를 출력

X_train 개수:  142 , X_test 개수:  36
y_train 개수:  142 , y_test 개수:  36


### (5) 다양한 모델로 학습시켜보기
학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 봅시다. 어떤 모델이 가장 좋은 성능을 보일까요?

In [79]:
# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier 

decision_tree = DecisionTreeClassifier(random_state=32) 
# random_state : 재현가능하도록 난수의 초기값 32로 설정

# 학습데이터 X_train, y_train로 의사결정나무 모델로 학습하기
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=32)

In [80]:
# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier #랜덤포레스트라는 분류기를 사용하기 위해 import

random_forest = RandomForestClassifier(random_state=32) 
# random_state : 재현가능하도록 난수의 초기값 32로 설정

# 학습데이터 X_train, y_train로 Random Forest 모델로 학습하기
random_forest.fit(X_train, y_train)

RandomForestClassifier(random_state=32)

In [81]:
# SVM 사용해 보기
from sklearn import svm #Support Vector Machine을 사용하기 위해 import

svm = svm.SVC() # 모델 객체를 만든다.

svm.fit(X_train, y_train) # 훈련

SVC()

In [82]:
# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier #선형분류기인 SGDClassifier를 사용하기 위한 import

sgd = SGDClassifier() # 모델 객체 생성

sgd.fit(X_train, y_train) # 훈련

SGDClassifier()

In [83]:
# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression # 선형분류기인 LogisticRegression를 사용하기 위한 import

logistic_model = LogisticRegression() # 모델 객체 생성

logistic_model.fit(X_train, y_train) # 훈련

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

### (6) 모델을 평가해 보기
학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요? sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요. 선택하신 이유도 설명해 주세요.

-> 실제 와인의 등급에서 예측한 와인의 등급이 얼마나 같은지를 판단하면 되므로 정확도를 평가지표로 하면 될 거 같습니다.

In [84]:
# 실제 정답 y_test과 예측값 y_pred 비교하여 정확도 측정하기
from sklearn.metrics import accuracy_score

y_pred = decision_tree.predict(X_test)
print(f"Decision Tree       : {accuracy_score(y_test, y_pred)}")

y_pred = random_forest.predict(X_test)
print(f"Random Forest       : {accuracy_score(y_test, y_pred)}")

y_pred = svm.predict(X_test)
print(f"SVM                 : {accuracy_score(y_test, y_pred)}")

y_pred = sgd.predict(X_test)
print(f"SGD Classifier      : {accuracy_score(y_test, y_pred)}")

y_pred = logistic_model.predict(X_test)
print(f"Logistic Regression : {accuracy_score(y_test, y_pred)}")

Decision Tree       : 0.9444444444444444
Random Forest       : 1.0
SVM                 : 0.6111111111111112
SGD Classifier      : 0.5277777777777778
Logistic Regression : 0.9722222222222222


## 3. load_breast_cancer : 유방암 여부를 진단해 봅시다

### (1) 필요한 모듈 import하기

In [85]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

### (2) 데이터 준비

In [86]:
# load_breast_cancer 메서드를 사용합니다.
breast_cancer = load_breast_cancer()
# load_breast_cancer 함수는 breast_cancer 데이터셋을 로드하는 함수
# 로드된 breast_cancer 데이터셋을 breast_cancer라는 변수에 저장

print(dir(breast_cancer))
# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함

['DESCR', 'data', 'data_module', 'feature_names', 'filename', 'frame', 'target', 'target_names']


In [87]:
breast_cancer.keys()
# breast_cancer 데이터셋에 담긴 정보 종류 확인

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

### (3) 데이터 이해하기

In [88]:
# Feature Data 지정하기
breast_cancer_data = breast_cancer.data
# keys에서 확인한 정보 중 data를 따로 breast_cancer_data 변수에 저장

print(breast_cancer_data.shape) 
breast_cancer_data
# shape는 배열의 형상정보를 출력
# 569개의 데이터가 각각 30개의 정보를 담고 있음

(569, 30)


array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

In [89]:
# Label Data 지정하기
breast_cancer_label = breast_cancer.target
# keys에서 확인한 정보 중 target을 따로 breast_cancer_label 변수에 저장

print(breast_cancer_label.shape)
breast_cancer_label
# breast_cancer_data와 다르게 569개의 숫자만 가지고 있음

(569,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

In [90]:
# Target Names 출력해 보기
breast_cancer.target_names
# keys에서 확인한 정보 중 target_names를 변수에 따로 저장하지 않고 호출
# breast_cancer_label이 가진 malignant, benign의 이름 확인

array(['malignant', 'benign'], dtype='<U9')

In [91]:
# 데이터 Describe 해 보기
print(breast_cancer.DESCR)
# keys에서 확인한 정보 중 DESCR을 변수에 따로 저장하지 않고 호출
# 데이터셋 설명서 출력

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

### (4) train, test 데이터 분리
모델 학습과 테스트용 문제지와 정답지를 준비해 봅시다.
X_train, X_test, y_train, y_test를 생성하는 방법을 참고해 보세요.

In [92]:
from sklearn.model_selection import train_test_split
# sklearn model_selection패키지의 train_test_split 함수를 임포트

X_train, X_test, y_train, y_test = train_test_split(breast_cancer_data, breast_cancer_label, test_size=0.2, random_state=7)
# 나눠야 할 데이터(문제지, X): breast_cancer_data
# 데이터의 라벨(정답, y): breast_cancer_label
# breast_cancer_data와 breast_cancer_label를 각각 train:test = 8:2의 비율로 잘라서 
# X_train, X_test, y_train, y_test에 저장

print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))
print('y_train 개수: ', len(y_train),', y_test 개수: ', len(y_test))
# len은 배열의 길이를 출력

X_train 개수:  455 , X_test 개수:  114
y_train 개수:  455 , y_test 개수:  114


### (5) 다양한 모델로 학습시켜보기
학습데이터 X_train, y_train 을 활용해 분류기 모델을 만들어 봅시다. 어떤 모델이 가장 좋은 성능을 보일까요?

In [93]:
# Decision Tree 사용해 보기
from sklearn.tree import DecisionTreeClassifier 

decision_tree = DecisionTreeClassifier(random_state=32) 
# random_state : 재현가능하도록 난수의 초기값 32로 설정

# 학습데이터 X_train, y_train로 의사결정나무 모델로 학습하기
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=32)

In [94]:
# Random Forest 사용해 보기
from sklearn.ensemble import RandomForestClassifier #랜덤포레스트라는 분류기를 사용하기 위해 import

random_forest = RandomForestClassifier(random_state=32) 
# random_state : 재현가능하도록 난수의 초기값 32로 설정

# 학습데이터 X_train, y_train로 Random Forest 모델로 학습하기
random_forest.fit(X_train, y_train)

RandomForestClassifier(random_state=32)

In [95]:
# SVM 사용해 보기
from sklearn import svm #Support Vector Machine을 사용하기 위해 import

svm = svm.SVC() # 모델 객체를 만든다.

svm.fit(X_train, y_train) # 훈련

SVC()

In [96]:
# SGD Classifier 사용해 보기
from sklearn.linear_model import SGDClassifier #선형분류기인 SGDClassifier를 사용하기 위한 import

sgd = SGDClassifier() # 모델 객체 생성

sgd.fit(X_train, y_train) # 훈련

SGDClassifier()

In [97]:
# Logistic Regression 사용해 보기
from sklearn.linear_model import LogisticRegression # 선형분류기인 LogisticRegression를 사용하기 위한 import

logistic_model = LogisticRegression() # 모델 객체 생성

logistic_model.fit(X_train, y_train) # 훈련

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

### (6) 모델을 평가해 보기
학습된 모델들의 테스트데이터 예측 결과를 어떻게 해석해야 할까요? 모델의 성능을 평가하는 지표로는 무엇이 좋을까요? sklearn.metrics 에서 제공하는 평가지표 중 적절한 것을 선택해 보세요. 선택하신 이유도 설명해 주세요.

-> 암환자인데 아닌 걸로 판단하면 위험할 수 있으므로 암환자로 판단한 데이터 중에서 진짜 암환자가 얼마인지를 알 수 있는 재현율을 평가지표로 하는 것이 적절할 것 같습니다.

In [98]:
# 실제 정답 y_test과 예측값 y_pred 비교하여 정확도 측정하기
from sklearn.metrics import recall_score

y_pred = decision_tree.predict(X_test)
print(f"Decision Tree       : {recall_score(y_test, y_pred)}")

y_pred = random_forest.predict(X_test)
print(f"Random Forest       : {recall_score(y_test, y_pred)}")

y_pred = svm.predict(X_test)
print(f"SVM                 : {recall_score(y_test, y_pred)}")

y_pred = sgd.predict(X_test)
print(f"SGD Classifier      : {recall_score(y_test, y_pred)}")

y_pred = logistic_model.predict(X_test)
print(f"Logistic Regression : {recall_score(y_test, y_pred)}")

Decision Tree       : 0.9594594594594594
Random Forest       : 1.0
SVM                 : 1.0
SGD Classifier      : 0.972972972972973
Logistic Regression : 1.0


## 4. 회고

### (1) 반성, 다짐
자주(매번) 그러지만 시간 관리를 제대로 하지 못해서 늦어지고 내용도 부실한 것 같다.
미리미리 준비하고 시간 관리도 잘 해서 좋은 결과물이 나오도록 하자.

### (2) 어려웠던 점
학습한 모델을 어떤 지표로 평가할지가 어려울 것 같다.
프로젝트로 진행한 데이터들은 비교적 지표 선정이 어렵진 않았지만 가장 좋은 선택인지 자신할 수 없다.좀 더 다양한 데이터의 경험과 학습이 필요할 것 같다.