## Machine Learning
---

### Definition
- A set of methods that can automatically detect <u>patterns</u> in data and then use the uncovered patterns <u>to predict future</u> data, or to perform other kinds of decision making under uncertainty (Murphy)
- Field of study that gives computers <u>the ability to learn</u> without being explicitly programmed (Auther Samuel)

### Types
- **Supervised Learning** : input과 output(label)이 둘다 주어져 있는경우, 목표는 input을 이용해서 output을 가장 잘 설명할 수 있는 general                              rule을 찾는것이다
- **Unsupervised Learning** : label이 주어지 있지 않은 경우(ex, clustering, density estimation)
- ** Reunformcement Learning** : 주변 환경에 따라서 software agent가 적응해 나가는 과정, 적절한 reward와 punishment가 주어진다. (ex,                                       markov decision process, dynamic programming) =>  [참고할만한 사이트](http://operatingsystems.tistory.com/159) 

### Overfitting
- Training data : model을 fitting하는데 사용하는 데이터 
- Test(Independant) data : training data를 이용해 만든 model이 좋은 성능인지 test하는데 쓰는 데이터, training data에 포함되지 않는 데이터이여야 한다.
- Overfitting problem : training data에 너무 적합하게 model을 만들어서 training에 사용되지 않는 많은 데이터(real data)에 model이 잘 fitting하지 않는 문제, y를 설명하는 general한 특징 뿐만 아니라 training data에만 적용하는 특징들(noise)가 많이 포함된 경우 발생한다.
- Overfitting을 극복하는 3가지 방법
  1) training data의 개수를 늘린다(좋은 데이터 셋이 포함되는 것도 중요하다)
  2) Regularization
  3) Bayesian Approach
- Curse of dimensionality(차원의 저주) :  데이터의 차원이 증가할수록 설명해야 하는 공간의 크기(x들로 이루어진 모든 경우의 수)이 기하급수적으로 증가하기 때문에 샘플 데이터의 개수가 기하급수적으로 많이 필요로 한다. => [참고할만한 사이트](http://norman3.github.io/prml/docs/chapter01/4.html)
<br>
Example) $$ y=sin(2 \pi x) $$

In [None]:
%matplotlib inline

import numpy as np
import matplotlib.pyplot as plt

In [None]:
##training data
"""make training data with error 0.1 and follows normal_distribution"""
x=np.random.rand(1,10)
train=np.sin(2*np.pi*x)+(0.2*np.random.randn(1,10)-0.1)
## test data
"""make random value for test the model"""
x_prime=np.random.rand(1,10)
test=np.sin(2*np.pi*x_prime)+(0.2*np.random.randn(1,10)-0.1)


In [None]:
x1=np.linspace(0,1)
plt.plot(x,train,marker='o',color='blue')
plt.plot(x1,np.sin(2*np.pi*x1),color='red')
plt.show()

In [None]:
m=1
w=np.polyfit(x.flatten(),train.flatten(),1)
plt.plot(x,train,marker='o',color='blue')
plt.plot(x1,np.sin(2*np.pi*x1),color='red')
plt.plot(x1,np.polyval(w,x1),color='yellow')
plt.title('Plots of polynomials having order 1')

underfitting = high bias

In [None]:
m=3
w=np.polyfit(x.flatten(),train.flatten(),3)
plt.plot(x,train,marker='o',color='blue')
plt.plot(x1,np.sin(2*np.pi*x1),color='red')
plt.plot(x1,np.polyval(w,x1),color='yellow')
plt.title('Plots of polynomials having order 3')

good model

In [None]:
m=9
w=np.polyfit(x.flatten(),train.flatten(),9)
plt.plot(x,train,marker='o',color='blue')
plt.plot(x1,np.sin(2*np.pi*x1),color='red')
plt.plot(x1,np.polyval(w,x1),color='yellow')
plt.axis([-0.1, 1.1, -1.5, 1.5])
plt.title('Plots of polynomials having order 9')

overfitting = high variance

In [None]:
## compare root mean square error
train_RMSE=np.empty([9,1])
test_RMSE=np.empty([9,1])
for m in range(1,9):
    w=np.polyfit(x.flatten(),train.flatten(),m)
    yn_w=np.polyval(w,x)
    yn_w_prime=np.polyval(w,x_prime)
    
    train_RMSE[m]=np.sqrt((np.sum(pow(yn_w-train,2)))/10)
    test_RMSE[m]=np.sqrt(np.sum(pow(yn_w_prime-test,2))/10)

In [None]:
plt.plot(range(1,10),train_RMSE,marker='o')
plt.plot(range(1,10),test_RMSE,marker='o')
plt.legend({'training','test'})
plt.xlabel('M')
plt.ylabel('RMSE')
plt.title('Root Mean Square Error of polynomial model')

RMSE getting smaller in training data but it gets higher in test data.
So overfitting problem occurs when model dimensions gets high

---
## Performance measure

## 1. Classification
- Confusion matrix

<img align="left" src="picture/confusion.png">

$$Accuracy = \frac{TP+TN}{TP+FP+TN+FN}$$
 
$$Sensitivity = \frac{TP}{TP+FN}$$ 
 
$$Specificity = \frac{TN}{FP+TN}$$ 
 
$$Precision = \frac{TP}{TP+FP}$$
 
$$Recall = \frac{TP}{TP+FN}$$
 
$$F-measure = \frac{2*Precision*Recall}{Precision+recall} $$

- **Accuracy** : 실제 참인 것을 참으로 판단하고, 실제 거짓인 것을 거짓으로 판단하는 확률
- **Sensitivity** : 실제 참인 것 중에서 참이라고 판단하는 확률
- **Specificity** : 실제 거짓인 것 중에서 거짓이라고 판단하는 확률
- **recall** : 실제 참인 것 중 참이라고 판단하는 확률(=Sensitivity)
- **Precision** : 참이라고 예측한 것 중 진짜 참인 확률
- **f-measure** : precision과 recall의 조화평균

### ROC curve

예를 들어 암을 진단할 때, 성급한 의사는 아주 조금의 징후만 보여도 암인 것 같다고 할 것이다. 이 경우 TPR은 1에 가까워진다. 그러나 FRP은 매우 낮아져 버린다. 반대로 너무 신중한 의사는 대부분의 환자를 정상이라 진단할 것이다. 이경우 TPR은 0에 가까워지고 FRP은 1에 가까워질 것이다. 이처럼 TRP과 FRP은 둘다 어떤 기준(언제 참이라고 예측할 것인지)를 바꿔가면서 측정해야 한다. 이를 한눈에 표현한 것이 **ROC curve**이다. 
<br/>
<img align="right" src="picture/Roccurves.png">
- ROC(Receiver Operation Characteristic) Curve : Sensitivity(True Positive Rate)와 1-Specificity(False positive rate)로 그려지는 곡선<br/>
    ROC분석은 optimal model을 고르고, class distribution과 관계없는 suboptimal model을 버리는 데 이용한다.<br/>
    ROC curve 점이 왼쪽 위((0,1)지점)에 다가갈수록 좋은 성능이다. <br/><br/>
    
- AUC(Area under a ROC curve) : ROC curve의 밑 면적을 구한 값. 1에 가까울수록 좋은 성능을 나타낸다. auc가 0.5라는 말은 어떤 기준에서도 sensitivity와 specificity를 동시에 높일 수 있는 지점이 없음을 의미한다. 

<br/><img src = "picture/roc_curves2.png", align="left">
<br/><br/>
- binary classification에서 X값들은 각각 어떠한 score값(decision function에 의해 결정을 내리기 위한 값)으로 변형이 되게 되고 어떤 Threshold paraemter T가 주어졌을 때, X>T 그 instance는 "positive"라고 예측되고, 반대의 경우에는 negative라고 예측된다.<br/>
X는 만약 positive로 분류되었으면 f1이라는 확률 밀도함수를 따르고, negative로 분류되었으면 f0를 따른다고 가정했을 때,
true positive rate은 $ TPR(T)=\int_{T}^{\infty}f_1(x)dx $, false positive rate은 $ FPR(T)=\int_{T}^{\infty}f_1(x)dx$와 같아지게 된다.<br/> ROC curve는 T를 바꿔가면서 TPR(T) 와 FPR(T)의 비율을 조절한다. <br/><br/>
예를 들어 정상 환자들과 질병이 있는 환자들의 혈당량이 각각 평균 2g/dL과 1g/dL의 정규분포를 따른다고 가정하자.<br/> 몇몇 sample들의 혈당검사를 통해서 혈당량이 얼마 이상이 되었을 때(threshold), 질병을 가진다고 나타내는 지표가 되는지 알아보고자 한다.<br/> 실험하는 사람들은 threshold를 조절해가면서 이를 조정하게 되고 이에 따라 false positive rate이 바뀐다. <br/>
만약 threshold가 증가하면 false positive가 줄어 들 것이고, 그림에서 검은선(threshold)가 오른쪽으로 이동할 것이다. 실제 curve의 모양은 두 분포가 얼마나 overlap 되어있는지에 따라 결정된다.<br/><br/>
[참고](https://en.wikipedia.org/wiki/Receiver_operating_characteristic)      [참고2](https://kennis-research.shinyapps.io/ROC-Curves/)<br/>
The ROC curve can be generated by plotting the cumulative distribution function (area under the probability distribution from - ∞ to + ∞ ) of the correct detection probability in the y-axis versus the cumulative distribution function of the false-alarm probability in x-axis. 

### Precision-Recall Curve

positive와 negative class의 개수가 imbalance할 때는 주로 Precision Recall curve를 이용한다.<br/><br/>
예를 들어, 문서에서 특정 주제와 관련된 정보를 찾고자 할 때 실제 관련 있는 문서의 개수가 100개, 관련 없는 문서의 개수가 1,000,000개라고 하자.<br/>
<img align="right" src="picture/PR-curve.png">

이때 알고리즘1은 100개의 문서를 참이라고 판단하였고 그 중 90개의 실제 관련 있는 문서를 찾아내었다고 하자.<br/> 즉, TP=90, TN=999890, FP=10, FN = 10이다.<br/> 반면 알고리즘2는 2000개의 문서를 참이라고 하였고, 그 중 90개의 실제 관련있는 문서를 찾아내었다고 하자.<br/> 이 경우에는 TP=90, TN=997990, FP=1910, FN=10이다. 이 경우세 명백히 알고리즘 1이 더 좋은 성능을 보인다고 할 수 있다.<br/>


이 경우 TPR과 FRP을 계산해 보면,
- algo1 : TPR = TP/(TP+FN) = 90/(90+10) = 0.9      // FPR = FP/(FP+TN)=10/(10+999890)=0.00001
- algo2 : TPR = TP/(TP+FN) = 90/(90+10) = 0.9      // FPR = FP/(FP+TN)=1910/(1910+997990)=0.0019
이 경우 FPR은 두 알고리즘의 차이를 크게 반영하지 못한다. <br/>

precision과 recall을 계산하여 본다면,
- algo1 : Precision=TP/(TP+FP) = 90/(90+10) =0.9     //  Recall=TP/(TP+FN)=90/(90+10)=0.9
- algo2 : Precision=TP/(TP+FP) = 90/(90+1910) =0.045     //  Recall=TP/(TP+FN)=90/(90+10)=0.9
Precision을 이용하면 상대적인 불균형을 명백히 반영한다.




- Precision-Recall curve : precision과 recall값의 변화를 그래프로 표현한 것

- AUPR(Area under Pr Curve) : precision-recall curve의 면적 

[참고](http://www.chioka.in/differences-between-roc-auc-and-pr-auc/)

In [None]:
%matplotlib inline

import pandas as pd
import matplotlib.pyplot as plt

from numpy.random import RandomState
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import label_binarize


In [None]:
breast_data = pd.read_table('breast_cancer.csv',sep=',')
breast_data=breast_data.drop('Unnamed: 32',axis=1)
X=breast_data.iloc[:,2:]
y=breast_data.iloc[:,1]
y=label_binarize(y,classes=['B','M'])      #Malignant -> 1 , benign -> 0

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.4,random_state=RandomState(None))

In [None]:
classifier=LogisticRegression(penalty='l2',random_state=RandomState(None))

logistic=classifier.fit(X_train,y_train)

In [None]:
y_score=logistic.decision_function(X_test)

In [None]:
fpr,tpr,threshold = roc_curve(y_test,y_score,pos_label=1)
roc_auc=auc(fpr,tpr)    

In [None]:
plt.figure()
lw=2
plt.plot(fpr,tpr,color='darkorange',lw=lw,label='ROC curve (area=%0.2f)' % roc_auc)
plt.plot([0,1],[0,1],color='navy',lw=lw,linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.legend(loc="lower right")

### 2. Regression

* RMSE(Root Mean Squared Error)    
$$ RMSE = \sqrt{\sum \frac{(y_{pred}-y_{ref})^2}{N}} $$


* MAD(Mean Squared Deviation)  = MAE(Mean Squared Error)
$$ MAD =  \frac{1}{n}\sum\left | y_{pred}-y_{ref}\right |  $$


* Pearson Correlation Coefficient 
![equation](picture/pearson.png)

--
## Validation

### Data set

- **Training set** : model을 학습하는 데 필요로 하는 데이터<br/><br/>

- **Validation set** : model의 parameter를 정하거나 model의 종류를 고를 때와 같이 최적화를 할 때 필요로 하는 데이터 셋. training set과 겹쳐도 되지만 거의 겹치지 않는 데이터 셋이 좋다<br/><br/>

- **Test set(Independent Set)** : training set에 속하지 않는 데이터로써, model의 성능을 평가하는 데 이용하는 데이터<br/>

### n- fold Cross Validation ( Internal validation)
- training set을 n조각으로 나눈 뒤 n-1개의 조각으로 training 한 모델을 남은 1조각에 test해보는것
- validation set을 구하기 힘들 때 parameter selection이나 model tuning에도 많이 이용된다.
<img src="picture/cross_validation.png">


In [None]:
def classification_cv(n,model,data):
    
    pred=pd.DataFrame()
    real=pd.DataFrame()
    
    data_t=data.iloc[:,1:].transpose()
    
    kf=KFold(n_splits=n,shuffle=True)
    prediction=pd.DataFrame(columns=['real','pred'])
    
    y_data=data_t.iloc[:,-1]
    y_data=make_binary('normal','cancer',y_data).values
    
    
    for train, test in kf.split(data_t):
        
        x_train=data_t.iloc[train,:-1].astype('float64').values
        y_train=y_data.iloc[train,-1].values
        model.fit(x_train,y_train)
    
        x_test=data_t.iloc[test,:-1].astype('float64').values
        y_test=y_data.iloc[test,-1].values        
         
        pred=pred.append(pd.DataFrame(model.predict(x_test)))
        real=real.append(pd.DataFrame(y_test))
                
    prediction=pd.concat([pred,real],axis=1)

    acc=accuracy(prediction.iloc[:,0],prediction.iloc[:,1])
    prec=precision(prediction.iloc[:,0],prediction.iloc[:,1])
    rec=recall(prediction.iloc[:,0],prediction.iloc[:,1])
    f1=f1_score(prediction.iloc[:,0],prediction.iloc[:,1])
    
    print('accuracy : '+str(acc)+'\nprecision :'+str(prec)
         +'\nrecall : '+str(rec)+'\nf1_score : '+str(f1))
    
    return prediction

In [None]:
def regression_cv(n,model,data):
    
    pred=pd.DataFrame()
    real=pd.DataFrame()
    
    data_t=data.iloc[:,1:].transpose()
    
    kf=KFold(n_splits=n,shuffle=True)
    prediction=pd.DataFrame(columns=['real','pred'])
        
    for train, test in kf.split(data_t):
        
        x_train=data_t.iloc[train,:-1].astype('float64').values
        y_train=data_t.iloc[train,-1].astype('float64').values
        model.fit(x_train,y_train)
    
        x_test=data_t.iloc[test,:-1].astype('float64').values
        y_test=data_t.iloc[test,-1].astype('float64').values        
         
        pred=pred.append(pd.DataFrame(model.predict(x_test)))
        real=real.append(pd.DataFrame(y_test))
                
    prediction=pd.concat([pred,real],axis=1)

    rmse=rmse_cal(prediction.iloc[:,0],prediction.iloc[:,1])
    mad=mae_cal(prediction.iloc[:,0],prediction.iloc[:,1])
    cor=cor_cal(prediction.iloc[:,0],prediction.iloc[:,1])
    
    print('rmse : '+str(rmse)+'\nmad : '+str(mad)+'\ncor : '+str(cor[0]))
    
    return prediction

In [1]:
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.linear_model import LinearRegression

from tools import rmse_cal,mae_cal,cor_cal,mean_cal,frange,accuracy,precision,recall,aupr,f1_score,make_binary

dataset=pd.read_table('data/blood_age_selected_lasso.tsv',sep='\t')

linear=LinearRegression()

cv_result=regression_cv(10,regression,linear)

NameError: name 'regression_cv' is not defined

In [None]:
from sklearn.neighbors.KNeighborsClassifier
