# Classification toy project
AIFFEL 대전 탐색 노드 2
손글씨 분류, 와인 분류, 유방암 여부 진단을 하는 모델을 만드는 프로젝트이다.   
프로세스는 다음과 같다.
0. Import package
1. Load data
2. Analyze data
3. Split data
4. Train model
5. Evaluate model

## 0. Import package

In [1]:
# data loading
from sklearn.datasets import load_digits
from sklearn.datasets import load_wine
from sklearn.datasets import load_breast_cancer
# data split  
from sklearn.model_selection import train_test_split
# using model
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression

# analysis
from sklearn.metrics import classification_report

## 손글씨 분류

## 1. Load data

In [2]:
digits = load_digits()

## 2. Analyze data
데이터의 description을 보면 총 데이터의 개수는 1797개, 데이터는 8x8 손글씨 이미지이다.   
각 픽셀의 값은 0..16사이의 값을 가진다.   
종류는 0..9까지 숫자이고, 10가지 클래스로 나눠진다.

In [3]:
print(digits.keys()) # data component
print("\n\n")
print(digits.DESCR)  # data describe

dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR'])



.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are

In [4]:
# target name 
print(digits.target_names) 

[0 1 2 3 4 5 6 7 8 9]


In [5]:
digits_data = digits.data     # feature data 
digits_label = digits.target  # label data 

In [6]:
# sampling
print(digits_data[0]) 
print(digits_label[0])

[ 0.  0.  5. 13.  9.  1.  0.  0.  0.  0. 13. 15. 10. 15.  5.  0.  0.  3.
 15.  2.  0. 11.  8.  0.  0.  4. 12.  0.  0.  8.  8.  0.  0.  5.  8.  0.
  0.  9.  8.  0.  0.  4. 11.  0.  1. 12.  7.  0.  0.  2. 14.  5. 10. 12.
  0.  0.  0.  0.  6. 13. 10.  0.  0.  0.]
0


## 3. Split data
데이터를 훈련 데이터와 테스트 데이터로 8:2 비율로 분리한다.

In [7]:
# split data
X_train, X_test, y_train, y_test = train_test_split(digits_data, 
                                                    digits_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

## 4. Train model
Decision tree, random forest, SVM, SGD, logistic model을 만들고,
준비한 데이터로 훈련을 시킨다.

In [8]:
# make model [using DT, RF, SVM, SGD, logistic regression]
decision_tree = DecisionTreeClassifier(random_state=20)
random_forest = RandomForestClassifier(random_state=20)
svm_model = svm.SVC()
sgd_model = SGDClassifier()
logistic_model = LogisticRegression(max_iter=2000)
# train model
decision_tree.fit(X_train, y_train)
random_forest.fit(X_train, y_train)
svm_model.fit(X_train, y_train)
sgd_model.fit(X_train, y_train)
logistic_model.fit(X_train, y_train)

LogisticRegression(max_iter=2000)

## 5. Evaluate model
분류 문제이기 때문에 precision, recall, f1-score을 평가지표로 볼 것이다.

In [9]:
# evaluate model by using sklearn.metrics
y_pred = decision_tree.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = random_forest.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = svm_model.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = sgd_model.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = logistic_model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.98      0.93      0.95        43
           1       0.88      0.86      0.87        42
           2       0.83      0.85      0.84        40
           3       0.84      0.91      0.87        34
           4       0.81      0.95      0.88        37
           5       0.87      0.96      0.92        28
           6       0.93      0.93      0.93        28
           7       0.87      0.82      0.84        33
           8       0.88      0.70      0.78        43
           9       0.79      0.81      0.80        32

    accuracy                           0.87       360
   macro avg       0.87      0.87      0.87       360
weighted avg       0.87      0.87      0.87       360

-----------------------------------------------------
              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.93      1.00      0.97        42
           2       1.00 

### 결과에 대한 정리
모든 모델은 '0' 클래스에 대하여 가장 잘 분류하였다. 그리고 '8' 클래스를 가장 어려워 했다.(가장 못 분류했다.)   
각각의 클래스마다 데이터의 개수가 거의 비슷하여 정확도(accuracy)와 precision과 recall을 고려한 점수인 f1 score는 거의 비슷하였다.    
Decision tree을 제외하면, 각각의 클래스의 precision, recall 점수가 대부분 0.9에 근접하거나 더 높았다.   
그리고 각 모델의 평균을 내보면(macro avg, weighted avg) 정확도, precision, recall, f1 score 모두 0.94 이상으로 높은 성능을 보였다.(decision tree 제외)   
정리하면 Decision tree를 제외하고는 거의 95%이상의 성능을 보여주고 있다. 가장 좋은 모델은 성능이 99%인 SVM이였다.  
모두(accuracy, precision, recall, f1-score) 고려하는 게 좋지만 한 지표만 골라야 한다면, f1 score을 선택하는 게 좋다. 왜냐하면 분류 문제에서 기본적으로 한 쪽 데이터가 많은 경우에 정확도, precison, recall, 등은 좋은 분류기가 아님에도 높은 값이 나올 수 있기 때문이다.
- Decision tree   
가장 안 좋은 모델이였고, 일부 클래스(0,5,6)에 대하여 좋은 성능을 보이나 대부분 0.9 아래이다. 
- Random forest   
거의 모든 케이스에 대해서 안정적으로 높은 성능을 보인다. 다만, '8' 클래스에 대한 recall이 0.81로 낮은 성능을 보였다.
- SVM   
가장 좋은 모델로, 거의 다 분류를 잘 하는 모델이라고 생각하면 된다.
- SGD   
Random forest 같이 거의 모든 케이스에 대해서 안정적으로 높은 성능을 보인다. 다만, 전체적인 성능은 random forest보다 약간 안 좋고, '5' 클래스에 대한 precison이 0.82, '8' 클래스에 대한 recall이 0.81로 낮은 성능을 보였다.
- Logistic regression   
Random forest와 비슷하게 거의 모든 케이스에 대해서 안정적으로 높은 성능을 보인다. 다만, '5' 클래스에 대한 precison이 0.79, '8' 클래스에 대한 recall이 0.84로 낮은 성능을 보였다.

## 와인 분류

## 1. Load data

In [10]:
wine = load_wine()

## 2. Analyze data
데이터의 description을 보면 총 데이터의 개수는 178개, 데이터는 13개의 속성을 가지는 와인이다.   
13개의 속성은 와인이 가지는 특성들이다
종류는 3가지, 즉 3가지 클래스이다.

In [11]:
print(wine.keys()) # data component
print("\n\n")
print(wine.DESCR)  # data describe

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])



.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnes

In [12]:
# target name 
print(wine.target_names) 

['class_0' 'class_1' 'class_2']


In [13]:
wine_data = wine.data     # feature data 
wine_label = wine.target  # label data 

In [14]:
# sample
print(wine_data[0]) 
print(wine_label[0])

[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
 2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]
0


## 3. Split data
데이터를 훈련 데이터와 테스트 데이터로 8:2 비율로 분리한다.

In [15]:
# split data
X_train, X_test, y_train, y_test = train_test_split(wine_data, 
                                                    wine_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

## 4. Train model
Decision tree, random forest, SVM, SGD, logistic model을 만들고,
준비한 데이터로 훈련을 시킨다.

In [16]:
# make model [using DT, RF, SVM, SGD, logistic regression]
decision_tree = DecisionTreeClassifier(random_state=20)
random_forest = RandomForestClassifier(random_state=20)
svm_model = svm.SVC()
sgd_model = SGDClassifier()
logistic_model = LogisticRegression(max_iter=5000)
# train model
decision_tree.fit(X_train, y_train)
random_forest.fit(X_train, y_train)
svm_model.fit(X_train, y_train)
sgd_model.fit(X_train, y_train)
logistic_model.fit(X_train, y_train)

LogisticRegression(max_iter=5000)

## 5. Evaluate model
분류 문제이기 때문에 precision, recall, f1-score을 평가지표로 볼 것이다.

In [17]:
# evaluate model by using sklearn.metrics
y_pred = decision_tree.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = random_forest.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = svm_model.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = sgd_model.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = logistic_model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.89      1.00      0.94        17
           2       1.00      0.83      0.91        12

    accuracy                           0.94        36
   macro avg       0.96      0.94      0.95        36
weighted avg       0.95      0.94      0.94        36

-----------------------------------------------------
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       1.00      1.00      1.00        17
           2       1.00      1.00      1.00        12

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36

-----------------------------------------------------
              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.

### 결과에 대한 정리
SGD를 제외한 모든 모델은 '0' 클래스에 대하여 가장 잘 분류하였다. 그리고 '2' 클래스를 가장 어려워 했다.(가장 못 분류했다.)    
SVM, SGD는 성능이 안 좋았고, 반면에 나머지 모델은 거의 accuracy, f1 score, 평균(macro avg, weighted avg)까지도 모두 0.95 이상의 높은 성능을 보였다.    
특별히 random forest는 모든 경우에 대해서 완벽히 분류했다.   
정리하면 SVM,SGD를 제외하고는 거의 95%이상의 성능을 보여주고 있다. 가장 좋은 모델은 성능이 100%인 random forest였다.   
모두(accuracy, precision, recall, f1-score) 고려하는 게 좋지만 한 지표만 골라야 한다면 f1 score을 선택하는 게 좋다. 왜냐하면 분류 문제에서 기본적으로 한 쪽 데이터가 많은 경우에 정확도, precison, recall, 등은 좋은 분류기가 아님에도 높은 값이 나올 수 있기 때문이다. (여기서는 SGD 모델이 예가 될 수 있다.)
- Decision tree   
전체적으로 좋은 성능을 보이지만, '2' 클래스에 대한 recall이 0.83으로 낮은 성능을 보였다.
- Random forest   
모든 케이스에 대하여 완벽히 분류하였다.(가장 좋은 모델)
- SVM   
정확도 61%, 평균 f1 score(macro avg, weighted avg)가 0.56, 0.54 정도로 많이 낮은 성능을 보인다. 비교적 '0','1' 클래스에 대해서는 잘 분류하지만 '2'에 대하여 분류를 거의 하지 못하여 성능이 좋지 않다.
- SGD   
SVM보다 성능이 더 떨어져 가장 안 좋은 모델로, 정확도 53%, 평균 f1 score(macro avg, weighted avg)가 0.46, 0.49 정도로 최악의 성능을 보였다. 비교적 '1' 클래스에 대하여는 잘 분류했다. '0' 클래스에 대해서는 recall이 1.0으로 정확하지만 precison이 낮고, '2' 클래스는 반대로 precision이 1.0으로 정확하지만 recall이 낮다.
- Logistic regression   
Decision tree와 비슷하게 모든 케이스에 대해서 안정적으로 높은 성능을 보인다. Decision tree보다 더 좋은 성능을 보인다.

## 유방암 여부 진단

## 1. Load data

In [18]:
cancer = load_breast_cancer()

## 2. Analyze data
데이터의 description을 보면 총 데이터의 개수는 569개, 데이터는 30개의 속성을 가지고 유방암의 여부이다.   
30개의 속성은 유방암을 진단을 할 수 있게 도와주는 건강지표들이다.  
종류는 악성이 있느지 여부로 2가지 클래스를 가진다.

In [19]:
print(cancer.keys()) # data component
print("\n\n")
print(cancer.DESCR)  # data describe

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])



.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features wer

In [20]:
# target name 
print(cancer.target_names) 

['malignant' 'benign']


In [21]:
cancer_data = cancer.data     # feature data 
cancer_label = cancer.target  # label data 

In [22]:
# sample
print(cancer_data[0]) 
print(cancer_label[0])

[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
 1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
 6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
 1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
 4.601e-01 1.189e-01]
0


## 3. Split data
데이터를 훈련 데이터와 테스트 데이터로 8:2 비율로 분리한다.

In [23]:
# split data
X_train, X_test, y_train, y_test = train_test_split(cancer_data, 
                                                    cancer_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

## 4. Train model
Decision tree, random forest, SVM, SGD, logistic model을 만들고,
준비한 데이터로 훈련을 시킨다.

In [24]:
# make model [using DT, RF, SVM, SGD, logistic regression]
decision_tree = DecisionTreeClassifier(random_state=20)
random_forest = RandomForestClassifier(random_state=20)
svm_model = svm.SVC()
sgd_model = SGDClassifier()
logistic_model = LogisticRegression(max_iter=2000)
# train model
decision_tree.fit(X_train, y_train)
random_forest.fit(X_train, y_train)
svm_model.fit(X_train, y_train)
sgd_model.fit(X_train, y_train)
logistic_model.fit(X_train, y_train)

LogisticRegression(max_iter=2000)

## 5. Evaluate model
분류 문제이기 때문에 precision, recall, f1-score을 평가지표로 볼 것이다.

In [25]:
# evaluate model by using sklearn.metrics
y_pred = decision_tree.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = random_forest.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = svm_model.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = sgd_model.predict(X_test)
print(classification_report(y_test, y_pred))
print('-----------------------------------------------------')
y_pred = logistic_model.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.88      0.90        40
           1       0.93      0.96      0.95        74

    accuracy                           0.93       114
   macro avg       0.93      0.92      0.92       114
weighted avg       0.93      0.93      0.93       114

-----------------------------------------------------
              precision    recall  f1-score   support

           0       1.00      0.90      0.95        40
           1       0.95      1.00      0.97        74

    accuracy                           0.96       114
   macro avg       0.97      0.95      0.96       114
weighted avg       0.97      0.96      0.96       114

-----------------------------------------------------
              precision    recall  f1-score   support

           0       1.00      0.72      0.84        40
           1       0.87      1.00      0.93        74

    accuracy                           0.90       114
   macro avg       0

### 결과에 대한 정리
모든 모델은 '1' 클래스에 대하여 가장 잘 분류하였다. 그리고 '0' 클래스를 가장 어려워 했다.(가장 못 분류했다.)
좀 더 살펴보면 모든 경우에 '0' 클래스는 precision이 높고, '1' 클래스는 recall이 높았다.
SGD을 제외한 모델들은 거의 accuracy, f1 score, 평균(macro avg, weighted avg)까지도 모두 0.90 이상의 높은 성능을 보였다.
정리하면 SGD를 제외하고는 거의 90%이상의 성능을 보여주고 있다. 가장 좋은 모델은 성능이 96%인 random forest였다.  
모두(accuracy, precision, recall, f1-score) 고려하는 게 좋지만 한 지표만 고르면 f1 score을 선택하는 게 좋다. 왜냐하면 분류 문제에서 기본적으로 한 쪽 데이터가 많은 경우에 정확도, precison, recall, 등은 좋은 분류기가 아님에도 높은 값이 나올 수 있기 때문이다.(여기서는 SGD 모델이 예가 될 수 있다.)
- Decision tree   
전체적으로 좋은 성능을 보인다.
- Random forest   
Decision tree보다 더 좋은 성능을 보인다.(가장 좋은 모델)
- SVM   
정확도 61%, 평균 f1 score(macro avg, weighted avg)가 0.56, 0.54 정도로 많이 낮은 성능을 보인다. 비교적 '0','1' 클래스에 대해서는 잘 분류하지만 '2'에 대하여 분류를 거의 하지 못하여 성능이 좋지 않다.
- SGD   
SVM보다 성능이 더 떨어져 가장 안 좋은 모델로, 정확도 53%, 평균 f1 score(macro avg, weighted avg)가 0.46, 0.49 정도로 최악의 성능을 보였다. 비교적 '1' 클래스에 대하여는 잘 분류했다. '0' 클래스에 대해서는 recall이 1.0으로 정확하지만 precison이 낮고, '2' 클래스는 반대로 precision이 1.0으로 정확하지만 recall이 낮다.
- Logistic regression   
Decision tree와 비슷하게 모든 케이스에 대해서 안정적으로 높은 성능을 보인다. Decision tree보다 더 좋은 성능을 보인다.

## 회고 및 루브릭 평가

### 루브릭 평가 항목
1. 3가지 데이터셋의 구성이 합리적으로 진행되었는가(feature와 label 선정을 위한 데이터 분석과정이 체계적으로 전개됨)?
    
2. 3가지 데이터셋에 대해 각각 5가지 모델을 성공적으로 적용하였는가(모델학습 및 테스트가 정상적으로 수행되었음)?

3. 3가지 데이터셋에 대해 모델의 평가지표가 적절히 선택되었는가(평가지표 선택 및 이유 설명이 타당함)?

### 평가 항목에 대한 수행
1. 3가지 데이터셋에 대해 각각 'analyze data'에서 데이터에 대한 설명을 보고, 데이터 전체적인 구성을 파악하고 데이터에 대한 feature와 label을 분리하였다.
2. 3가지 데이터셋에 대해 각각 'train model'에서 5가지 모델을 만들고 각 모델에 대해서 훈련 데이터로 학습을 하고 'evaluate model'에서 테스트 데이터에 대해서 테스트까지 하였다.
3. 3가지 데이터셋에 대해 '결과에 대한 정리'에서 평가지표를 선택하였고, 그 이유를 설명하였다.

### 회고

노션에 공지된 꼭 포함이 되어야 할 점
- 이번 프로젝트에서 **어려웠던 점,**
- 프로젝트를 진행하면서 **알아낸 점** 혹은 **아직 모호한 점**.
- 루브릭 평가 지표를 맞추기 위해 **시도한 것들**.
- 만약에 루브릭 평가 관련 지표를 **달성 하지 못했을 때, 이유에 관한 추정**.
- **자기 다짐**

---
- **어려웠던 점**    
특별히 어려웠던 점은 없었고, 주피터 노트북 사용방법과 사용하는 함수의 랜덤성이 조금 불편을 겪게 했다. 주피터 노트북 사용법의 경우, 여러 좋은 단축키들이 있는데, 그걸 알지 못해서 작업하는 속도가 느렸던 것 같고, 함수의 랜덤성의 경우, data를 분리하는 함수에서 랜덤으로 섞어서 분리를 하는데 테스트 데이터에 특정 데이터가 포함되지 않은 경우가 있어서 몇 번을 다시 돌렸다.ㅜㅜ(특히 데이터 개수가 적은 3번째)
---
- **알아낸 점**    
이번에 안 쓰던 주피터 노트북 단축키에 대해서 알아보게 되었고, cell을 분리하거나 결합하고 선택하는 것 등을 몸으로 익힐 수 있었다.(3가지가 반복되어서 빠른 작업을 위해) 그리고 logistic regression 모델의 경우, 디폴트 값으로 할 경우, 모델이 최종적으로 수렴하지 않으면 경고 메시지를 띄우는데, 다음을 참고하여 https://stackoverflow.com/questions/62658215/convergencewarning-lbfgs-failed-to-converge-status-1-stop-total-no-of-iter 경고 메시지를 없애기 위하여 파라미터 설정을 해주었다.
모든 모델을 디폴트 설정으로 하여 정확하지 않지만 위에서 나온 결과를 바탕으로 앙상블 기법을 사용한 random forest 전체적으로 가장 좋은 모델이라는 것을 알 수 있었다.

- **모호한 점**    
모델을 디폴트 값으로 생성하긴 했는데, 정확히 어떤 파라미터 값을 넣을 수 있는 지에 대해서는 모르고 있다. 물론 reference나 API 설명을 보면 해결할 수 있다.
---
- **시도한 것들**    
처음부터 끝까지 코드를 구성하여서    
   1. 3가지 데이터셋에 대해 각각 'analyze data'에서 데이터에 대한 설명을 보고, 데이터 전체적인 구성을 파악하고 데이터에 대한 feature와 label을 분리하였다.
   2. 3가지 데이터셋에 대해 각각 'train model'에서 5가지 모델을 만들고 각 모델에 대해서 훈련 데이터로 학습을 하고 'evaluate model'에서 테스트 데이터에 대해서 테스트까지 하였다.
   3. 3가지 데이터셋에 대해 '결과에 대한 정리'에서 평가지표를 선택하였고, 그 이유를 설명하였다.
---
- **우브릭 평가 관련 지표**   
제 예상에는 모두 달성되었다고 생각한다. 그 이유는 위에 있는 **평가 항목에 대한 수행**에 나와있다.   
- **자기 다짐** 및 **나의 생각들**      
탐색 노드 1에 비하여 상대적으로 쉬운 노드였다. 이번에 다룬 데이터는 패키지에서 기본으로 제공되는 것으로 입문자들이 익숙해지기 위해서 사용하는 것이다. 기본적인 모델을 완성하는 프로세스를 배웠으니 앞으로는 실제적이고, 실용적인 문제(데이터)에 대해서도 잘 다룰 수 있게 되었으면 좋겠다. 아직 배우지 않았지만 실제적으로 데이터를 수집하고 가공하는 것도 빨리 배우고 싶다. 그리고 더 나아가서 딥러닝 파트도 배웠으면 좋겠다.