# 붓꽃 분류

## 데이터 로드

- 머신러닝 라이브러리 중 하나인 사이킷런(scikit-learn)에서 제공되는 데이터셋 사용
- pandas : 표 형태의 2차원 배열 데이터 분석

In [5]:
from sklearn.datasets import load_iris

iris = load_iris()

import pandas as pd
iris_df = pd.DataFrame(data=iris.data, columns = iris.feature_names)
iris_df["label"] = iris.target
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


## 데이터셋을 train dataset, test dataset 으로 나누기

In [6]:
from sklearn.model_selection import train_test_split
iris_data = iris.data
iris_label = iris.target
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.2, random_state=25)
print("training set 개수:", len(X_train), ", test set 개수:", len(X_test))

training set 개수: 120 , test set 개수: 30


## 머신러닝 모델링 (Decision Tree)

[blog](https://ratsgo.github.io/machine%20learning/2017/03/26/tree/)
- decision 기준을 결정할 때, X(속성 데이터)의 모든 속성에 대해서 다음을 수행함
    - sorting 한 후, value를 오름차순으로 차례대로 기준으로 삼음
    - 각 기준일 때의 entropy 를 계산함
    - entropy 가 가장 낮을 때를 decision 기준으로 결정함
- 모든 경우의 수 가운데 정보획득이 가장 큰 변수와 그 지점에서 첫번째 분기를 함

In [8]:
from sklearn.tree import DecisionTreeClassifier
decision_tree = DecisionTreeClassifier()
#decision_tree = DecisionTreeClassifier(random_state=32)

In [9]:
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier()

In [10]:
y_pred = decision_tree.predict(X_test)
y_pred

array([0, 1, 2, 1, 2, 1, 2, 0, 1, 1, 0, 0, 0, 1, 0, 1, 2, 2, 1, 1, 1, 1,
       1, 0, 0, 2, 1, 2, 2, 0])

## 정확도 확인하기

In [15]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

accuracy = accuracy_score(y_test, y_pred)
accuracy

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         9
           1       0.92      0.92      0.92        13
           2       0.88      0.88      0.88         8

    accuracy                           0.93        30
   macro avg       0.93      0.93      0.93        30
weighted avg       0.93      0.93      0.93        30



## 정확도 높이기
[blog](https://medium.com/@deepvalidation/title-3b0e263605de)
- decision 기준을 결정할 때, X(속성 데이터)의 모든 속성이 아니라, 랜덤으로 뽑은 몇 가지 속성에 대해서 decision tree 만드는 과정을 수행함
- 여러 decision tree 모델이 나와서 Ensemble 기법으로 평균 낸 값을 결과로 함
- 전체 데이터에서 가장 영향력이 큰 요소만 포함했다면 탈락했을 수도 있는 less major factors도 살펴볼 수 있다는 점에서 overfitting 을 줄일 수 있다.

In [136]:
from sklearn.ensemble import RandomForestClassifier
X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=25)
random_forest = RandomForestClassifier()
random_forest.fit(X_train,y_train)
y_pred_rf = random_forest.predict(X_test)

print(classification_report(y_test, y_pred_rf))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         9
           1       0.92      0.92      0.92        13
           2       0.88      0.88      0.88         8

    accuracy                           0.93        30
   macro avg       0.93      0.93      0.93        30
weighted avg       0.93      0.93      0.93        30



정확도를 높이기 위해 random forest 를 썼지만, 오히려 성능이 안 좋아졌다. 사소한 요소를 전부 보는 것보다는 main factor가 결과 예측에 더 중요한 역할을 한다는 것을 추론할 수 있다. 

# 그 외 데이터 마이닝 모델
- Support Vector Machine (SVM)
- SGD Classifier
- Logistic Regression

## SVM
[blog1](https://excelsior-cjh.tistory.com/66?category=918734)
[blog2](http://jaejunyoo.blogspot.com/2018/01/support-vector-machine-1.html)
[MIT OpenCourseWare](https://www.youtube.com/watch?v=_PwhiWxHK8o&t=6s)

### 1. SVM 이해
![widest street strategy](https://4.bp.blogspot.com/-pYY6U0peR74/WmwCRbFsM7I/AAAAAAAACfQ/gwcY8_j13yU6qwkITBmgd2yrVkKd2hvQwCK4BGAYYCw/s200/svm2.png)
decision boundraries를 그린다면, 서로 다른 class를 가진 데이터들과 decision boundaries의 거리가 멀면 멀수록 좋다. 가까우면, classification 정확도가 떨어진다. (=widest street strategy)

### 2. Decision rule
![decision rule](https://1.bp.blogspot.com/-n2tSWYD_XoA/WmwE1cP5ctI/AAAAAAAACfo/3eniT7SzJioB4SdJVL-HTJSb_ouTLLQ_gCK4BGAYYCw/s200/svm3.png)
- decision boundary 의 중심선에 대해 직교하는 벡터 w가 있다.
- 우리가 분류하고 싶은 데이터 샘플 하나인 벡터 u가 있다.
- u를 w에 내적하면(projection) w 방향(decision boundary 중심선에 직교한 방향)으로 벡터가 그어지는데, 그 결과는 u 샘플의 정보를 길이로 담는다.
- 그 결과가 decision boundary 의 중심선을 넘는지 넘지 않는지로, 분류할 수 있다.
- 그러고 보면, 직교한 벡터를 활용한 이유가, decision boundary 의 중심선을 지나는지 아닌지로 분류하고 싶어서 쓴 것임을 알 수 있다.

### 3. Support Vector
- decision boundary 의 양쪽 경계선에 딱 만나는 (경계선 위에 있는) 서로 다른 클래스의 두 벡터 사이의 거리를 구할 수 있다. = 2/|w|
- 그 거리가 최대화하는 방향으로 계산을 하여 w 벡터를 구할 수 있다. 결과만 말하자면, 경계선 위의 샘플들의 선형 합으로 나타낼 수 있다. = max 2/|w| <=> min |w|
- 경계선 위의 샘플들, 경계선을 정하는 샘플들을 "support vector"라고 한다.

### 4. 소프트 마진
- (위의 SVM은 하드마진), 서포트벡터의 경계선에 약간의 여유 변수를 더해줌

### 5. 적용
![mapping](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=http%3A%2F%2Fcfile29.uf.tistory.com%2Fimage%2F246E9C3A5852B489311F1D)
- non-linearly separable (선형 분리가 불능한) 데이터를 충분히 큰 차원으로 적절한 비선형 매핑을 하면, 고차원에서는 linearly separable (선형 분리 가능한) 할 수 있다.
- 따라서, 복잡한 비선형 의사결정 영역을 모형화 할 수 있다.

In [141]:
from sklearn import svm
svm_model = svm.SVC()
svm_model.fit(X_train,y_train)
y_pred_svm = svm_model.predict(X_test)
print(classification_report(y_test, y_pred_svm))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         9
           1       1.00      0.92      0.96        13
           2       0.89      1.00      0.94         8

    accuracy                           0.97        30
   macro avg       0.96      0.97      0.97        30
weighted avg       0.97      0.97      0.97        30



## SGD Classifier
확률적 경사하강법 (SGD, Stochastic Gradient Descent)

[blog](https://velog.io/@jihoson94/확률적-경사하강법-이해)
- 모델을 학습시킬 때, loss function을 최소화하기 위해 loss function 의 기울기가 최소(혹은 0)이 되는 지점을 찾는 학습을 하였다.
- 이 때, 전체 데이터의 loss function을 다 구하면서 계산을 하였는데 데이터셋 크기가 커질 수록 오랜 시간이 걸릴 수 있다.
- SGD에서는 전체 데이터 대신 랜덤 데이터로 여러 번 반복해서 학습하면, 확률적으로 같은 결과가 나올 것이라는 접근을 하였다.
- 랜덤하게 뽑은 하나의 데이터로 loss function을 구하고 최소화 하도록 학습하는 것을 여러 번 반복적으로 한다. 이 때 '하나'의 단위가 batch 이다.
- 하나는 너무 적기 때문에 전체 데이터에서 n개의 데이터를 뽑은 후 학습을 진행하는 것으로 진화하였다. batch = n 으로 지정해주면 된다. 이를 mini-batch SGD 라고 한다.

In [25]:
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()
sgd_model.fit(X_train, y_train)
y_pred_sgd = sgd_model.predict(X_test)
print(classification_report(y_test, y_pred_sgd))

              precision    recall  f1-score   support

           0       0.53      1.00      0.69         9
           1       1.00      0.08      0.14        13
           2       0.67      1.00      0.80         8

    accuracy                           0.60        30
   macro avg       0.73      0.69      0.55        30
weighted avg       0.77      0.60      0.48        30



- 다른 모델을 쓰면서, optimize 할 때 SGD 를 써야 할 것 같은데, SGD를 classifier 로 썼기 때문에 정확도가 낮게 나온 것 같다. SGD만 단독으로 SGD classifer로 쓰면 어떤 의미를 가지는 지 모르겠다.

## Logistic Regression
[blog](http://hleecaster.com/ml-logistic-regression-concept/)
![logistic regression](https://i0.wp.com/hleecaster.com/wp-content/uploads/2019/12/logreg02.png?w=973)
- Linear regression과 유사한 접근 방식이지만, linear regression은 확률이 음과 양의 무한대로 뻗어나간다. Logistic regression은 확률을 0과 1사이로 나오도록 sigmoid 함수처럼 만들어준다.

In [27]:
from sklearn.linear_model import LogisticRegression
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)
y_pred_log = logistic_model.predict(X_test)
print(classification_report(y_test, y_pred_log))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         9
           1       1.00      0.92      0.96        13
           2       0.89      1.00      0.94         8

    accuracy                           0.97        30
   macro avg       0.96      0.97      0.97        30
weighted avg       0.97      0.97      0.97        30



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


## 성능 측정법

[blog](https://manisha-sirsat.blogspot.com/2019/04/confusion-matrix.html)
- 정확도 : 맞은 데이터만 신경쓰는 척도
- 오차행렬 : 정답과 오답을 구분하여 평가
![Confusion Matrix](https://2.bp.blogspot.com/-EvSXDotTOwc/XMfeOGZ-CVI/AAAAAAAAEiE/oePFfvhfOQM11dgRn9FkPxlegCXbgOF4QCLcBGAs/s1600/confusionMatrxiUpdated.jpg)

In [30]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, y_pred)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         9
           1       0.92      0.92      0.92        13
           2       0.88      0.88      0.88         8

    accuracy                           0.93        30
   macro avg       0.93      0.93      0.93        30
weighted avg       0.93      0.93      0.93        30



# 연습문제

## 손글씨 분류 (load_digits)

### 1. 데이터 준비하기

In [53]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
digits = load_digits()
digits_data = digits.data
digits_label = digits.target

print("target class:", digits.target_names)

x_train, x_test, y_train, y_test = train_test_split(digits_data, digits_label, test_size = 0.2, random_state =7)

target class: [0 1 2 3 4 5 6 7 8 9]


### 2. 모델 학습하기

In [65]:
# Decision Tree
from sklearn.tree import DecisionTreeClassifier
DecisionTree = DecisionTreeClassifier()
DecisionTree.fit(x_train, y_train)
y_d = DecisionTree.predict(x_test)
print(classification_report(y_test, y_d))

# Random Forest
from sklearn.ensemble import RandomForestClassifier
RandomForest = RandomForestClassifier()
RandomForest.fit(x_train, y_train)
y_r = RandomForest.predict(x_test)
print(classification_report(y_test, y_r))

# SVM
from sklearn import svm
svm_model = svm.SVC()
svm_model.fit(x_train, y_train)
y_s = svm_model.predict(x_test)
print(classification_report(y_test, y_s))

# SGD Classifier
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()
sgd_model.fit(x_train, y_train)
y_sg = sgd_model.predict(x_test)
print(classification_report(y_test, y_sg))

# Logistic Regression
from sklearn.linear_model import LogisticRegression
logiReg = LogisticRegression()
logiReg.fit(x_train, y_train)
y_l = logiReg.predict(x_test)
print(classification_report(y_test, y_l))

              precision    recall  f1-score   support

           0       0.93      1.00      0.97        43
           1       0.75      0.86      0.80        42
           2       0.84      0.78      0.81        40
           3       0.91      0.91      0.91        34
           4       0.85      0.95      0.90        37
           5       0.90      0.96      0.93        28
           6       0.93      0.93      0.93        28
           7       0.90      0.79      0.84        33
           8       0.87      0.63      0.73        43
           9       0.75      0.84      0.79        32

    accuracy                           0.86       360
   macro avg       0.86      0.86      0.86       360
weighted avg       0.86      0.86      0.86       360

              precision    recall  f1-score   support

           0       1.00      0.98      0.99        43
           1       0.93      1.00      0.97        42
           2       1.00      1.00      1.00        40
           3       0.92 

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
