### 머신러닝 종류
* 지도학습 알고리즘
    - 주요 목적은 레이블(정답)이 있는 훈련 데이터로 모델을 학습하여 예측할 때 사용
    - 분류(classification)
        - 독립변수(문제)에 의하여 종속변수(정답)가 딱 떨어지는 값일 때
        - 예) 스펨메일, 은행에서 대출 승인/거절, 생존 중 살았다/죽었다. 등..
    - 회귀(regression)
        - 임의의 숫자를 맞추는 것.
        - 어떤 사람의 나이, 농작물의 수확량, 주가 가격 등을 예측

<hr>
<img src="../images/learning.png" width="700"/>

<hr>
<img src="../images/lifeCycle.png" width="700">

---
### 사이킷 런
* 사이킷런은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리
* 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리를 제공
* 많은 사용자 들이 사용하는 라이브러리로 검증되어 있다

#### 알고리즘 선택 방법
* 사이킷런에서 알고리즘 선택방법을 제시하고 있다
* https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html

## 분류 알고리즘
<img src="../images/scikitLearn.png" width="700" />

## Kneighbors(K-최근접 이웃 알고리즘)
* 주위의 가장 가까운 다른 데이터를 보고 현재 데이터를 판단
* 기본 비교 개수는 5개로 되어 있다
* 비교 개수를 변경하고자 할 경우 n_neighbors에 값 지정

<img src="../images/kneighbors.png" width="600" />

## Ensemble(앙상블)
* 여러 개의 분류기(알고리즘)를 생성하고 그 예측을 결합함으로써 보다 정확한 분류기 생성
* 앙상블의 대표 알고리즘은 랜덤포레스트와 그래디언트부스팅이 있다
>
* 앙상블 학습의 유형
    - 보팅(Voting) : 서로 다른 알고리즘을 가진 분류기를 결합하여 사용
    - 배깅(Bagging) : 모두 같은 유형의 알고리즘을 가진 분류기를 결합하여 사용
        * 대표적 알고리즘인 랜덤포레스트가 있다
    - 부스팅(Boosting) : 오류를 개선해 나가면서 학습하는 방식(다른 알고리즘에 비해 시간이 더 걸림)

# train_test_split
* 데이터를 알고리즘에 사용하고자 하는경우 속성(feature)과 정답(label) 구분을 해야 한다.
* 알고리즘에 학습하기 위해 test data 와 train data를 구분하여 사용한다.
    - 70% train(학습)데이터, 30% test 데이터(실제 데이터로 가정하여 확인)
    - 20% test 데이터 , 80% -> 20%(validation)검증, 80% 학습데이터

### 시나리오
* 농수산물 시장에서 알바를 하기로 결심
* 사과의 특성을 보고 품질 판별을 해야 함
* 하나하나 비교하며 판별하기에는 귀차니즘 발동
* 머신러닝을 이용하여 처리하기로 함
---

### 사과 품질 분류하기
* 컬럼
    - Size : 크기
    - Weight : 무게
    - Sweetness : 단맛
    - Crunchiness : 아삭한 정도
    - Juiciness : 사과 즙의 정도
    - Ripeness : 사과의 숙성 정도
    - Acidity : 신맛
    - Quality : 품질

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv('../data_set/4.분류/apple_quality.csv')
df.head()

Unnamed: 0,A_id,Size,Weight,Sweetness,Crunchiness,Juiciness,Ripeness,Acidity,Quality
0,0.0,-3.970049,-2.512336,5.34633,-1.012009,1.8449,0.32984,-0.491590483,good
1,1.0,-1.195217,-2.839257,3.664059,1.588232,0.853286,0.86753,-0.722809367,good
2,2.0,-0.292024,-1.351282,-1.738429,-0.342616,2.838636,-0.038033,2.621636473,bad
3,3.0,-0.657196,-2.271627,1.324874,-0.097875,3.63797,-3.413761,0.790723217,good
4,4.0,1.364217,-1.296612,-0.384658,-0.553006,3.030874,-1.303849,0.501984036,good


In [3]:
df["Quality"].unique()

array(['good', 'bad', nan], dtype=object)

In [4]:
df.isnull().sum()

A_id           1
Size           1
Weight         1
Sweetness      1
Crunchiness    1
Juiciness      1
Ripeness       1
Acidity        0
Quality        1
dtype: int64

In [5]:
df.shape

(4001, 9)

In [6]:
df.dropna(axis=0, inplace=True) # 결측치 행 삭제 

In [7]:
df.isnull().sum()

A_id           0
Size           0
Weight         0
Sweetness      0
Crunchiness    0
Juiciness      0
Ripeness       0
Acidity        0
Quality        0
dtype: int64

In [8]:
df.columns

Index(['A_id', 'Size', 'Weight', 'Sweetness', 'Crunchiness', 'Juiciness',
       'Ripeness', 'Acidity', 'Quality'],
      dtype='object')

In [9]:
f = ['Size', 'Weight', 'Sweetness', 'Crunchiness', 'Juiciness',
       'Ripeness', 'Acidity']
l = 'Quality'
X, y = df[f], df[l]
X, y

(          Size    Weight  Sweetness  Crunchiness  Juiciness  Ripeness  \
 0    -3.970049 -2.512336   5.346330    -1.012009   1.844900  0.329840   
 1    -1.195217 -2.839257   3.664059     1.588232   0.853286  0.867530   
 2    -0.292024 -1.351282  -1.738429    -0.342616   2.838636 -0.038033   
 3    -0.657196 -2.271627   1.324874    -0.097875   3.637970 -3.413761   
 4     1.364217 -1.296612  -0.384658    -0.553006   3.030874 -1.303849   
 ...        ...       ...        ...          ...        ...       ...   
 3995  0.059386 -1.067408  -3.714549     0.473052   1.697986  2.244055   
 3996 -0.293118  1.949253  -0.204020    -0.640196   0.024523 -1.087900   
 3997 -2.634515 -2.138247  -2.440461     0.657223   2.199709  4.763859   
 3998 -4.008004 -1.779337   2.366397    -0.200329   2.161435  0.214488   
 3999  0.278540 -1.715505   0.121217    -1.154075   1.266677 -0.776571   
 
            Acidity  
 0     -0.491590483  
 1     -0.722809367  
 2      2.621636473  
 3      0.790723217  


In [10]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

In [11]:
print("총 개수 : ", X.shape, y.shape)
print("학습 개수 : ", X_train.shape, y_train.shape)
print("테스트 개수 : ", X_test.shape, y_test.shape)

총 개수 :  (4000, 7) (4000,)
학습 개수 :  (2800, 7) (2800,)
테스트 개수 :  (1200, 7) (1200,)


In [12]:
from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()
kn.fit(X_train, y_train)
kn.score(X_test, y_test)

0.8966666666666666

#### SVM(Support Vector Machine)
* 특정 데이터들을 구분하는 선을 찾고, 이를 기반으로 패턴을 인식하는 방법
* kernel : linear, rbf
* linear : 선형으로 데이터들을 구분지을 수 있는 경우
* rbf : 선형으로 데이터를 구분지을 수 없는 경우

<img src="../images/svm.png" width="600" />

In [13]:
import sklearn.svm as svm
svm_linear = svm.SVC(kernel="linear")
svm_linear.fit(X_train, y_train)
svm_linear.score(X_test, y_test)

0.7483333333333333

In [14]:
svm_rbf = svm.SVC(kernel="rbf")
svm_rbf.fit(X_train, y_train)
svm_rbf.score(X_test, y_test)

0.89

### DecisionTree
* 특정 조건에 따라 가지치기 과정을 반복하면서 모델을 생성한다

<img src="../images/tree.png" width="500" />

In [15]:
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)
dt.score(X_test, y_test)

0.8058333333333333

#### Voting(보팅)
* 하드보팅(Hard Voting) : 다수의 결정에 의해 결과값이 선정된다
* 소프트보팅(Soft Voting) : 결정된 값들의 평균을 구하고 가장 높은 값을 선정
* 일반적으로 하드보팅보다 소프트 보팅이 성능이 좋아 소프트 보팅을 많이 사용한다

<img src="../images/보팅.png" width="650" />

In [16]:
s = svm.SVC(kernel="rbf", probability=True) # probability : 확률을 구하고자 할 때, True
s.fit(X_train, y_train)

k = KNeighborsClassifier()
k.fit(X_train, y_train)

d = DecisionTreeClassifier()
d.fit(X_train, y_train)

In [17]:
from sklearn.ensemble import VotingClassifier
vo = VotingClassifier(estimators=[("svc", s), ("kn", k), ("DecisionTree", d)], voting="soft")
vo.fit(X_train, y_train)
print("svm : ", s.score(X_test, y_test))
print("kn : ", k.score(X_test, y_test))
print("d : ", d.score(X_test, y_test))
print("vo : ", vo.score(X_test, y_test))

svm :  0.89
kn :  0.8966666666666666
d :  0.8025
vo :  0.8775


#### RandomForest(랜덤포레스트)
* decision tree 알고리즘을 여러 개의 분류기로 만들어서 보팅(소프트보팅)으로 최종 결정한다

<img src="../images/배깅.png" width="400" />

In [19]:
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
rfc.score(X_test, y_test)

0.8833333333333333

#### 부스팅(Boosting)
* GBM(Gradient Boosting Machine)
    - decision tree를 묶어 강력한 model을 만드는 ensemble기법입니다.
    - 순차적으로 학습-예측하면서 잘못 예측한 데이터의 오류를 개선해 나가면서 학습하는 방법
    - 다른 알고리즘에 비해 처리속도가 느림

<img src="../images/GBM.png" width="650"/>

In [20]:
from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
gbc.score(X_test, y_test)

0.8491666666666666

In [21]:
df.head(2)

Unnamed: 0,A_id,Size,Weight,Sweetness,Crunchiness,Juiciness,Ripeness,Acidity,Quality
0,0.0,-3.970049,-2.512336,5.34633,-1.012009,1.8449,0.32984,-0.491590483,good
1,1.0,-1.195217,-2.839257,3.664059,1.588232,0.853286,0.86753,-0.722809367,good


In [22]:
# 임의의 Size	Weight	Sweetness	Crunchiness	Juiciness	Ripeness	Acidity 의 값을 넣으면 Quality의 예상 결과 출력
s.predict( [ [-3.970049,	-2.512336,	5.346330,	-1.012009,	1.844900,	0.32984,	-0.491590483	] ] )

array(['good'], dtype=object)

In [23]:
kn.predict( [ [-3.970049,	-2.512336,	5.346330,	-1.012009,	1.844900,	0.32984,	-0.491590483	] ] )

array(['good'], dtype=object)

### Classification Metric
* Metric : 학습을 통해 목표를 얼마나 잘(못) 달성했는지를 나타내는 값을 척도(metric)라고 합니다
    - Accuracy(정확도)
        * 전체 샘플 중 맞게 예측한 샘플 수의 비율
    - Recall(재현율)
        * 양성 샘플을 양성으로 맞춘 비율과 양성을 음성으로 잘못 예측한 비율
        * 실제 음성을 양성으로 잘못 맞춰도 재현율은 떨어지지 않는다
    - Precision(정밀도)
        * 양성이라고 예측한 값의 비례하는 실제 값이 양성인 비율
        * 음성을 양성으로 잘못 판단하면 정밀도는 떨어진다
    - F1 - score
        * Reacll과 Precision의 조화평균

#### Accuracy(정확도)
* 전체 샘플 중 맞게 예측한 샘플 수의 비율을 뜻한다.
* 즉, 전체 개수 중 정답을 맞춘 개수이다.
* 10문제 중 8개 맞추면 80% 맞춘 결과가 나온다
* accuracy는 label의 값이 균등할 때 사용하면 된다.

In [24]:
y_test = [0, 1, 1, 0, 0, 0, 1, 1, 1, 1]  #실제 정답
y_pred = [1, 0, 0, 0, 0, 0, 1, 1, 1, 1]  #예측 정답

In [25]:
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test, y_pred)
acc

0.7

In [26]:
# 암인지 아닌지
y_test = [1, 1, 0, 1, 1, 1, 1, 1, 1, 1] #실제 정답
y_pred = [0, 1, 1, 1, 1, 1, 1, 1, 1, 1] #예측 정답

In [27]:
acc = accuracy_score(y_test, y_pred)
acc

0.8

#### 재현율(recall)
* 실제 양성 샘플을 양성으로 맞춘 비율과 양성을 음성으로 잘못 예측한 비율
* 높을 수록 좋은 모델
* 양성(1)이 중요한 경우

In [28]:
# 암인지 아닌지
y_test = [0, 0, 0, 1, 1, 1, 1, 1, 1, 1] #실제 정답
y_pred = [1, 1, 1, 1, 1 ,1 ,1, 1, 1, 1] #예측 정답

In [30]:
from sklearn.metrics import recall_score
recall = recall_score(y_test, y_pred)
recall
# 암인지 아닌지에 대한 예측일 경우 실제 정답이 0일 경우는 무시, 1인 경우만 비교하여 판단

1.0

#### 정밀도(precision)
* 실제 음성의 값을 못맞추는 경우 예측력이 떨어진다

In [36]:
# 스팸 메일인지 아닌지
y_test = [0, 0, 0, 1, 1, 1, 1, 1, 1, 1] #실제 스팸
y_pred = [1, 1, 1, 1, 1 ,1 ,1, 1, 1, 1] #예측 스팸

In [37]:
recall = recall_score(y_test, y_pred)
recall
# 스팸 메일의 경우 스팸이 아닌 메일을 스팸으로 착각하면 안되므로 recall 사용 불가

1.0

In [39]:
# 스팸 메일인지 아닌지
y_test = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1] #실제 스팸
y_pred = [0, 0, 0, 1, 1 ,1 ,1, 1, 1, 1] #예측 스팸

In [40]:
from sklearn.metrics import precision_score
p = precision_score(y_test, y_pred)
p

1.0

In [41]:
recall = recall_score(y_test, y_pred)
recall

0.7

In [42]:
y_test = [0, 0, 1, 1, 1, 1, 1, 1, 1, 1] #실제 스팸
y_pred = [1, 1, 1, 1, 1 ,1 ,1, 1, 1, 1] #예측 스팸

In [43]:
from sklearn.metrics import f1_score

acc = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
pre = precision_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print("acc(정확도) : ", acc)
print("recall(재현율) : ", recall)
print("precision(정밀도) : ", pre)
print("f1 score: ", f1)

acc(정확도) :  0.8
recall(재현율) :  1.0
precision(정밀도) :  0.8
f1 score:  0.888888888888889


### 평가지표 선택하기
* accuracy : label값이 편향되어 있지 않은 경우
* f1_score : label값이 편향되어 있는 경우