# 지도학습 알고리즘의 이해

## 머신러닝의 지도학습

- '학습할 데이터와 명시적인 정답(레이블)을 이용'해 데이터의 특성과  
    분포를 학습하여 새로운 데이터에 대해 '미래결과를 예측'하는 방법
    

- **분류(Classification)**
  - k-최근접 이웃 알고리즘
  - 서포트 벡터 머신
  - 의사결정트리
  - 랜덤포레스트
  - 나이브 베이즈
  
  
- **회귀(Regrssion)**
  - 선형회귀
  - 로지스틱 회귀

## 분류 - K-최근접 이웃 알고리즘

- k-Nearest Neighbors 알고리즘
    - 이웃: 가까이 존재하는 데이터들을 의미
    - 기존의 데이터 안에서 현재 데이터로부터 가까운 k개의 데이터를 찾아  
     k개의 레이블 중 가장 많이 분류된 값으로 분류하는 알고리즘
    - K : 최근접 점(일반적으로 홀수로 정함)    


- 최근접점 찾기
    - 피타고라스 정리를 이용

## 분류 - 서포트 벡터 머신의 이해

- Support Vector Machine
    - 서로 다른 분류 값을 결정하는 경계선(결정 경계선 decision boundary)을  
    결정하는 알고리즘
    - 벡터의 의미 : 2차원 공간 상에 나타난 데이터 포인트
    - 서포트 벡터 : 결정경계선과 가장 가까이 맞닿은 데이터 포인트
    - 마진(margin) : 서포트 벡터와 결정 경계 사이의 거리
    
    
- SVM의 목표 : 마진을 최대로 하는 결정 경계를 찾는 것  
 (마진이 클수록 알지 못하는 새로운 데이터에 대해 안정적으로 분류할 가능성이 높음)
    - 마진을 최대로 하는 결정 경계는 학습 단계를 통해 발견


벡터 공간을 N차원의 데이터 벡터공간이라 한다면,  
결정 경계 = N-1 차원.


### 커널 트릭

- 저차원 벡터 공간 데이터(1차원)를 고차원 벡터 공간(2차원)으로 옮김
    - 저차원일 때 정하기 힘들었던 결정 경계선을 정할 수 있게됨

### 파라메터 최적화

#### 마진을 얼마나 할 것인가?
- 비용(Cost): 마진조절 변수
 - 비용이 작을수록 마진 너비가 넓어짐

- 마진을 크게 할 경우 학습 시 에러율이 높음

#### 마진을 얼마나 할 것인가?
- 비용(Cost): 마진조절 변수
 -- 비용이 클수록 마진 너비가 좁아짐

- 마진을 작게 할 경우 학습 시 에러율은 낮음
- But, 학습되지 않은 데이터는 에러가 발생 될 가능성이 있음

- 감마(Gamma)
    - 학습 데이터 포인트들이 결정 경계에 영향을 끼치는 범위를  
    조절해주는 변수
    - 감마 값이 크면 많은 데이터 포인트들이 가까이 있는 것으로 고려되어  
    결정 경계가 작아지고 구부러짐  
(감마 값이 작으면 데이터 포인트들이 멀리 분포되어 있는 것으로 고려돼
결정 경계가 완만해짐)
    
**비용(Cost)와 감마(gamma) 수치를 조정하면 정확도를 높일 수 있음**

# Scikit-Learn 라이브러리를 이용한 지도학습 예제

## NBA 농구선수의 게임 데이터를 활용한 포지션 예측

## Scikit-learn 라이브러리

- Scikit-learn(사이킷 런)은 대표적인 머신러닝 라이브러리
    - 분류, 회귀, 클러스터링 등 다양한 알고리즘 제공


- Scikit-learn 홈페이지:  https://scikit-learn.org/ 
- 아나콘다 배포판에 포함돼 있음

### 데이터 획득

- NBA 농구선수들의 게임 기록 데이터
(https://www.basketball-reference.com/leagues/NBA_2019_per_game.html)
- 파일명 : basketball_state.csv
    
#### NBA 농구선수들의 게임 기록 데이터 200개 항목

Player Pos
- 선수이름, 포지션

3P  
- 한 경기 평균 3점 슛 성공 횟수

TRB 
- 한 경기 리바운드 성공 횟수

BLK 
- 한 경기 블로킹 성공 횟수

### basketball_stat.csv 파일의 데이터를 DataFrame으로 불러오기

In [9]:
import pandas as pd

df = pd.read_csv(r'C:\Users\user\Documents\주피터노트북\data\basketball_stat.csv')
data_df = df[0:100]  # 슬라이싱
data_df.head()  # 5줄만 불러옴

Unnamed: 0,Player,Pos,3P,2P,TRB,AST,STL,BLK
0,Alex Abrines,SG,1.3,0.5,1.5,0.6,0.5,0.2
1,Steven Adams,C,0.0,6.0,9.5,1.6,1.5,1.0
2,Bam Adebayo,C,0.0,3.4,7.3,2.2,0.9,0.8
3,DeVaughn Akoon-Purcell,SG,0.0,0.4,0.6,0.9,0.3,0.0
4,LaMarcus Aldridge,C,0.1,8.3,9.2,2.4,0.5,1.3


## 데이터 나누기

### 머신러닝 모델을 학습할 데이터 셋과 테스트할 데이터 셋으로 나누기

In [23]:
# 사이킷런 라이브러리의 train_test_split을 사용하여
# 학습 데이터와 테스트 데이터 분리

from sklearn.model_selection import train_test_split

# 학습 데이터 80%, 테스트데이터 20%로 분리
train, test = train_test_split(data_df,test_size=0.2)
train.shape

# Pos : 레이블(정답)
# 3P, TRB, BLK : 데이터

(80, 8)

In [24]:
test.shape

(20, 8)

In [25]:
test  # 20개의 테스트 데이터

Unnamed: 0,Player,Pos,3P,2P,TRB,AST,STL,BLK
86,Marc Gasol,C,1.3,3.7,7.9,4.4,1.1,1.1
19,Marco Belinelli,SG,1.9,1.7,2.5,1.7,0.4,0.1
22,Dairis Bert?ns,SG,0.8,0.2,0.8,0.8,0.1,0.0
82,Channing Frye,C,0.9,0.3,1.4,0.6,0.2,0.1
43,Wendell Carter,C,0.1,4.0,7.0,1.8,0.6,1.3
36,Sterling Brown,SG,0.9,1.6,3.2,1.4,0.4,0.1
39,Alec Burks,SG,1.0,2.0,3.7,2.0,0.6,0.3
64,Donte DiVincenzo,SG,0.8,1.0,2.4,1.1,0.5,0.2
50,DeMarcus Cousins,C,0.9,5.1,8.2,3.6,1.3,1.5
77,Terrance Ferguson,SG,1.4,1.1,1.9,1.0,0.5,0.2


### 학습 데이터셋에서 데이터와 레이블(정답)을 나누기

In [26]:
train_data_df= train[['3P','BLK','TRB']]
train_label_df= train[['Pos']]
train_data_df.head()

Unnamed: 0,3P,BLK,TRB
91,1.1,0.2,3.1
21,0.6,0.5,4.4
15,0.4,0.7,4.7
95,0.0,0.0,0.5
37,0.5,0.9,6.3


In [27]:
# 인덱스와 열 이름이 있는데
# 머신러닝 알고리즘을 구현한 함수 안에 데이터를 넘겨줄 때,
# 인덱스와 열 이름을 제외한 코어 데이터만 필요함
train_data = train_data_df.values  # 값 부분만 가져오기(2차원 배열의 형태)
train_data

array([[ 1.1,  0.2,  3.1],
       [ 0.6,  0.5,  4.4],
       [ 0.4,  0.7,  4.7],
       [ 0. ,  0. ,  0.5],
       [ 0.5,  0.9,  6.3],
       [ 0.1,  1.3,  9.2],
       [ 2.5,  0.1,  3.4],
       [ 0. ,  0.6,  4. ],
       [ 0. ,  0.4,  5.6],
       [ 2.6,  0.1,  2. ],
       [ 1.2,  1.9, 13.6],
       [ 1.5,  0.2,  1.6],
       [ 0.1,  1.7, 15.6],
       [ 2.4,  0.2,  3.8],
       [ 0.1,  0.5,  6. ],
       [ 1.1,  0.1,  1.5],
       [ 1.3,  0.4,  4.2],
       [ 0. ,  0.6,  8.4],
       [ 0.5,  0.1,  1.6],
       [ 0.2,  0.6,  6.8],
       [ 0.3,  0.3,  0.9],
       [ 0. ,  1. ,  9.5],
       [ 0. ,  0.6,  3.8],
       [ 2. ,  0.1,  2.5],
       [ 0.5,  0.9,  4.2],
       [ 1.9,  0.1,  3.2],
       [ 0.4,  1.4,  5. ],
       [ 0.3,  0.5,  2.5],
       [ 2.1,  0.4,  2.5],
       [ 0. ,  0. ,  1.2],
       [ 0.9,  0. ,  2.4],
       [ 1.7,  0.1,  2.1],
       [ 1.8,  0.2,  2.9],
       [ 0. ,  0.8,  7.3],
       [ 1.8,  0.2,  3.3],
       [ 2.3,  0.2,  2.7],
       [ 2.5,  0.7,  5. ],
 

In [28]:
train_label_df.head()

Unnamed: 0,Pos
91,SG
21,SG
15,C
95,SG
37,C


In [29]:
train_label_df.values  # 80행 1열의 2차원 배열

array([['SG'],
       ['SG'],
       ['C'],
       ['SG'],
       ['C'],
       ['C'],
       ['SG'],
       ['C'],
       ['C'],
       ['SG'],
       ['C'],
       ['SG'],
       ['C'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['C'],
       ['SG'],
       ['C'],
       ['SG'],
       ['C'],
       ['C'],
       ['SG'],
       ['C'],
       ['SG'],
       ['C'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['C'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['C'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['C'],
       ['C'],
       ['SG'],
       ['C'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['C'],
       ['C'],
       ['C'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['SG'],
       ['C'],
       ['SG'],
       ['C'],
       ['SG'],
       ['SG'],
       ['C'],
       ['SG'],
       ['C'],
       ['SG'],
     

In [30]:
# 정답 데이터는 머신러닝에 넘길 때 코어 데이터를 1차원 데이터로 넘겨줘야 함
train_label = train_label_df.values.ravel() 
# 2차원에서 -> 1차원 배열 로 재구성
train_label

array(['SG', 'SG', 'C', 'SG', 'C', 'C', 'SG', 'C', 'C', 'SG', 'C', 'SG',
       'C', 'SG', 'SG', 'SG', 'SG', 'C', 'SG', 'C', 'SG', 'C', 'C', 'SG',
       'C', 'SG', 'C', 'SG', 'SG', 'SG', 'SG', 'SG', 'SG', 'C', 'SG',
       'SG', 'SG', 'SG', 'SG', 'C', 'SG', 'SG', 'SG', 'C', 'C', 'SG', 'C',
       'SG', 'SG', 'SG', 'SG', 'C', 'C', 'C', 'SG', 'SG', 'SG', 'SG',
       'SG', 'C', 'SG', 'C', 'SG', 'SG', 'C', 'SG', 'C', 'SG', 'SG', 'SG',
       'SG', 'C', 'SG', 'SG', 'SG', 'C', 'C', 'SG', 'C', 'SG'],
      dtype=object)

In [34]:
test # 20개의 테스트 데이터

Unnamed: 0,Player,Pos,3P,2P,TRB,AST,STL,BLK
86,Marc Gasol,C,1.3,3.7,7.9,4.4,1.1,1.1
19,Marco Belinelli,SG,1.9,1.7,2.5,1.7,0.4,0.1
22,Dairis Bert?ns,SG,0.8,0.2,0.8,0.8,0.1,0.0
82,Channing Frye,C,0.9,0.3,1.4,0.6,0.2,0.1
43,Wendell Carter,C,0.1,4.0,7.0,1.8,0.6,1.3
36,Sterling Brown,SG,0.9,1.6,3.2,1.4,0.4,0.1
39,Alec Burks,SG,1.0,2.0,3.7,2.0,0.6,0.3
64,Donte DiVincenzo,SG,0.8,1.0,2.4,1.1,0.5,0.2
50,DeMarcus Cousins,C,0.9,5.1,8.2,3.6,1.3,1.5
77,Terrance Ferguson,SG,1.4,1.1,1.9,1.0,0.5,0.2


In [35]:
test_data_df = test[['3P','BLK','TRB']]
test_label_df = test[['Pos']]

test_data = test_data_df.values
test_label = test_label_df.values.ravel()

## kNN 모델 학습하기

### kNN 모델 학습하기

In [36]:
from sklearn.neighbors import KNeighborsClassifier
# KNN 라이브러리 추가

knn= KNeighborsClassifier(n_neighbors=3)
# KNN 분류기 객체 생성, 최근접 이웃의 수를 3으로 가정
knn.fit(train_data, train_label)
# knn 모델 학습

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

### 테스트 데이터로 예측하기

In [37]:
pred_knn = knn.predict(test_data)
pred_knn

array(['C', 'SG', 'SG', 'SG', 'C', 'SG', 'SG', 'SG', 'C', 'SG', 'C', 'SG',
       'SG', 'C', 'SG', 'C', 'C', 'SG', 'SG', 'SG'], dtype=object)

## kNN 모델 예측 정확도 확인하기

In [39]:
pred_knn

array(['C', 'SG', 'SG', 'SG', 'C', 'SG', 'SG', 'SG', 'C', 'SG', 'C', 'SG',
       'SG', 'C', 'SG', 'C', 'C', 'SG', 'SG', 'SG'], dtype=object)

In [38]:
test_label

array(['C', 'SG', 'SG', 'C', 'C', 'SG', 'SG', 'SG', 'C', 'SG', 'C', 'SG',
       'SG', 'C', 'SG', 'C', 'C', 'SG', 'C', 'SG'], dtype=object)

In [40]:
from sklearn import metrics

ac_score = metrics.accuracy_score(test_label, pred_knn)
# 테스트 데이터셋의 레이블(정답)과 예측값 비교
print('accuracy:', ac_score)

# 수행 시 마다 다를 수 있음

accuracy: 0.9


In [41]:
comparison = pd.DataFrame({'prediction':pred_knn,'ground_truth':test_label})
comparison

Unnamed: 0,prediction,ground_truth
0,C,C
1,SG,SG
2,SG,SG
3,SG,C
4,C,C
5,SG,SG
6,SG,SG
7,SG,SG
8,C,C
9,SG,SG


## SVM 모델로 학습하기

In [42]:
from sklearn import svm   # SVM 라이브러리 추가

clf=svm.SVC(C=1, gamma=0.1)  # SVM 분류기 객체 생성, C=1, gamma=0.1 가정
clf.fit(train_data, train_label) # SVM 모델 학습

SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma=0.1, kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

### 테스트 데이터로 예측하기

In [43]:
pred_svm=clf.predict(test_data)
pred_svm

array(['C', 'SG', 'SG', 'SG', 'C', 'SG', 'SG', 'SG', 'C', 'SG', 'C', 'SG',
       'SG', 'C', 'SG', 'C', 'C', 'SG', 'SG', 'SG'], dtype=object)

## SVM 모델 예측 정확도 확인하기

In [44]:
pred_svm

array(['C', 'SG', 'SG', 'SG', 'C', 'SG', 'SG', 'SG', 'C', 'SG', 'C', 'SG',
       'SG', 'C', 'SG', 'C', 'C', 'SG', 'SG', 'SG'], dtype=object)

In [45]:
test_label

array(['C', 'SG', 'SG', 'C', 'C', 'SG', 'SG', 'SG', 'C', 'SG', 'C', 'SG',
       'SG', 'C', 'SG', 'C', 'C', 'SG', 'C', 'SG'], dtype=object)

In [46]:
from sklearn import metrics

ac_score = metrics.accuracy_score(test_label, pred_svm)
print('accuracy:', ac_score)  # 수행 시 마다 다를 수 있음

accuracy: 0.9


## SVM 모델 학습하기

In [47]:
comparison = pd.DataFrame({'prediction':pred_svm, 'ground_truth':test_label})
comparison

Unnamed: 0,prediction,ground_truth
0,C,C
1,SG,SG
2,SG,SG
3,SG,C
4,C,C
5,SG,SG
6,SG,SG
7,SG,SG
8,C,C
9,SG,SG
