## 1) Naive Baysian 

* Naive (단순한) 의미 , Bayes' Theory (베이즈 정리) 
* Bayes's Theory : 사전확률에 의해 사후확률이 결정된다. 사후확률 P(A|B)  , 사전확률 P(A) - 초기 확률이 주관적 요소 , 새로운 정보와 근거를 통한 사전확률의 신뢰도를 높이는것 
![NB02.png](NB/NB02.png)
 

 ![NB01.png](NB/NB01.png)  
 
* ex) 스팸메일 분류  - P(spam) : 스팸메일일 확률 , P(word_A) : A단어가 있을 확률 P(word_B) : B단어가 있을 확률 
      A단어 B단어 를 가질때 스팸일 확률 P(spam | word_A , word_B) -> 수십개의 단어를 가질때의 스팸메일일 
      확률 P(spam | word_A ,... word_N) 등등을 일일히 모두 계산해서 sklearn 라이브러리 Threshold를 통해 분류 
      
* 주요 사용 사례  스팸메일 필터 , 텍스트 분류 , 감정분석 추천시스템등에 활용 

## 베이즈 추정(Bayesian Estimation)

* 추론대상의 사전 확률과 추가적인 정보를 기반으로 해당 대상의 사후 확률을 추론하는 통계적 방법

* ex) A마을의 10.5 % 암 환자 , 89.5 % 암 환자(X)  
     암 검사 시 , 양성/음성 판정  
     암 검진 정확도는 암 환자 중 양성 판정 받은 비율 90.5 % , 암 환자 중 음성 판정 비율 9.5%
     암 환자(X) - 양성 판정 20.4% , 음성 판정 79.6% 
    
     1) 양성 판정 일때 , 암환자일 확률? 
     


* P(C) = 0.105 (10.5 %)
* P(Not C) = 0.895(89.5%)
* P(P|C) = 0.905 (90.5%)
* P(N|C) = 0.095 (9.5%)
* P(P|Not C) = 0.204 (20.4%)
* P(N|Not C) = 0.796 (79.6%)


#### C : 암환자 / Not C : 암환자(X)   , P(양성반응) , N(음성반응)

### 양성판정을 받았을때 , 암환자일 확률?

#### P(C|P) = P(P|C) * P(C) / P(P) 

#### P(P) = P(P ∩ C) + P(P ∩ Not C)

#### P(P ∩ C) = P(P|C) * P(C)  = 0.905 * 0.105

#### P(P ∩ Not C) = P(P|Not C) * P(Not C) = 0.204 * 0.895 

#### P(C|P) = 0.905 * 0.105 / (0.905 * 0.105 +0.204 * 0.895 )







In [3]:
import pandas as pd 
import numpy as np

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()


In [16]:
df_play = pd.DataFrame({
    "Whether":["Sunny" , "Sunny" , "Overcast" , "Rainy", "Rainy","Rainy","Overcast" , "Sunny","Sunny" ,"Rainy","Sunny","Overcast","Overcast","Rainy"],
    "Play" : ["No","No","Yes","Yes","Yes","No","Yes","No","Yes","Yes","Yes","Yes","Yes","No"],
})

In [17]:
df_play

Unnamed: 0,Whether,Play
0,Sunny,No
1,Sunny,No
2,Overcast,Yes
3,Rainy,Yes
4,Rainy,Yes
5,Rainy,No
6,Overcast,Yes
7,Sunny,No
8,Sunny,Yes
9,Rainy,Yes


### 날씨가 Overcast 일때 경기를 할까?

#### 사전 확률
* P(Overcast) = 4/14 = 0.29
* P(Yes) = 9/14 = 0.64

#### 사후 확률
* P(Overcast | Yes) = 4/9 = 0.44

#### 베이즈 정리 
* P(Yes|Overcast) = P(Overcast | Yes) * P(Yes) / P(Overcast)  = 0.44*0.64/0.29 =0.98
* P(No|Overcast) = P(Overcast | No) * P(No) / P(Overcast) = 0 

### 날씨가 Overcast 일때 경기를 할 확률이 0.98 , 하지 않을 확률 0이므로 
### 분류기는 경기를 한다고 분류한다 



### Scikit learn 예제

In [70]:
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

In [66]:
wine = load_wine()

wine_set = pd.DataFrame(wine.data , columns= wine.feature_names)

In [68]:
wine_set["labels"] = wine.target

In [69]:
wine_set

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,labels
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0,2
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0,2
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0,2
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0,2


In [63]:
print("features : " ,wine.feature_names)
print('labels: ' , wine.target_names)

features :  ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
labels:  ['class_0' 'class_1' 'class_2']


In [64]:
X_train , X_test , y_train , y_test = train_test_split(wine.data , wine.target , test_size= 0.3, random_state= 136)

In [74]:
gnb = GaussianNB()
gnb.fit(X_train , y_train)
y_pred = gnb.predict(X_test)
print("정확도는 : ", accuracy_score(y_test , y_pred))



정확도는 :  0.9444444444444444


### GaussianNB Hyperparameter 

#### priors=None, var_smoothing=1e-09

* priors는 list [ ] 형태로 받으며 , 리스트 사이즈는 분류 갯수와 동일하며 전체 합은 1이어야하고 가중치를 의미함
* var_smoothing 전혀 학습되지 않은 형태의 훈련되지 않은 값이 들어올 경우 0으로 확률을 인식해서 계산해버리는 오류 


In [87]:
gnb = GaussianNB()

gnb.fit(X_train , y_train)
y_pred = gnb.predict(X_test)
print("정확도는 : ", accuracy_score(y_test , y_pred))


정확도는 :  0.9444444444444444


In [88]:
gnb = GaussianNB(priors= [0.005,0.005,0.99])

gnb.fit(X_train , y_train)
y_pred = gnb.predict(X_test)
print("정확도는 : ", accuracy_score(y_test , y_pred))



정확도는 :  0.8888888888888888


In [89]:
from sklearn.model_selection import GridSearchCV
params = {"var_smoothing" : [0.01,0.001,0.0001,0.00001]}
grid = GridSearchCV(GaussianNB() ,param_grid= params,scoring = 'accuracy' , cv = 4)
grid.fit(X_train , y_train)

y_pred = grid.predict(X_test)
print("정확도는 : ", accuracy_score(y_test , y_pred))
print("Best parameters : " , grid.best_params_)

정확도는 :  0.9814814814814815
Best parameters :  {'var_smoothing': 1e-05}


In [75]:
tree = DecisionTreeClassifier()
tree.fit(X_train , y_train)
y_pred = tree.predict(X_test)
print("정확도는 : ", accuracy_score(y_test , y_pred))

정확도는 :  0.9259259259259259


### Naive Bayesian 모델 

#### Bernoulli Naive Bayes

* 데이터 특징이 0,1 로 구성될때 (feature) - 스팸 메일 분류 등 - 출현했는가 안했는가
  즉 어떤 단어가 있는가 없는가의 개념

#### Multinomial Naive Bayes 

* 데이터 특징이 베르누이보다는 좀 더 디테일하게 몇번 나왔는가 까지 (세그멘테이션 세밀)

##### 추후 텍스트 분석에서 해당 모델 사용

## 2) Support Vector Machine

### SVM 서포트 벡터 머신은 결정경계 (Decision Boundary) 기준선을 정의하는 모델 

![SVM01.png](SVM/SVM01.png)

### 최적의 결정 경계 

![SVM02.png](SVM/SVM02.png)

### Margin , Outlier , Kernel


![SVM03.png](SVM/SVM03.png)

* Margin : C 값으로 표현 높을수록 Hard Margin
* Kernel : 분류하는 기준 Default = rbf  , 그외 sigmoid , linear , poly 등이 있음

![SVM04.png](SVM/SVM04.png)

* Gamma :  Kernel 곡선의 스무스함 정도를 표현

![SVM07.png](SVM/SVM07.png)
![SVM08.png](SVM/SVM08.png)
![SVM09.png](SVM/SVM09.png)

In [98]:
from sklearn.svm import SVC

In [101]:
model = SVC(kernel ='linear')
model.fit(X_train ,y_train)
y_pred = model.predict(X_test)
print("정확도 : ", accuracy_score(y_test , y_pred))

정확도 :  0.9629629629629629


In [107]:
params = {
    "kernel" :["sigmoid" , "linear" , "rbf" , "poly"],
    "gamma" : [0.1 , 0.001 , 0.0001 , 0.00001],
    "C" : [0.1 ,1 ,0.01 , 0.001 ]
}


grid_svc = GridSearchCV(SVC(),param_grid= params,  cv = 4 , scoring= "accuracy"  ,refit= True)
grid_svc.fit(X_train ,y_train)
grid_svc.best_params_
y_pred = grid_svc.predict(X_test)
print("정확도:" , accuracy_score(y_test , y_pred))

정확도: 0.9814814814814815
