<a href="https://colab.research.google.com/github/musicjae/Prob/blob/master/Naive_Bayes_Theorem.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 베이즈 정리  
  
베이즈 정리란 두 확률 변수의 사전 확률(관측자가 관측 전에 갖는 확률 분포)와 사후 확률 관계를 나타낸다.

# 베이즈 추정  
  
표본만을 통해 모수를 추정하는 것 보다, 표본 정보 & 사전 정보 둘다 사용하여 모수를 추정하는 것이 더 바람직할 것이다.  
  
추론 대상을 $\theta$, 관측되는 대상을 $X$라고 해보자.  
  
그러면, $P(\theta|X)=\frac{P(\theta,X)}{P(X)}=\frac{P(X|\theta)P(\theta)}{P(\theta)}$이다.  
  
- $p(X|\theta)$는 $\theta$로부터 관측된 X의 확률 분포  
  
- $P(\theta)$는 사전 확률  
  
- $P(X)$는 관측 대상 X에 대한 확률  
  
- 위 베이즈 추론 식에서 두 번째 항에서 세 번째 항으로 넘어가는 과정에 대한 상세화:  
$$P(X|\theta)=\frac{P(X,\theta)}{P(\theta)} \iff P(X,\theta) = P(X|\theta)P(\theta)$$

# 나이브 베이즈 분류기  
  
이것은 일종의 지도학습이다. 이것은 빠르고, 비교적 정확한 성능을 보인다. 이것은 features 간의 독립성을 요구한다는 특징을 지닌다.

In [7]:
fight=['fight','no','fight','no','no','no','no','no','fight','no','no','no','fight','no']
weather=['Sunny','Sunny','Overcast','Rainy','Rainy','Rainy','Overcast','Sunny','Sunny',
'Rainy','Sunny','Overcast','Overcast','Rainy']
dec=['go_home','go_out','go_home','go_home','go_home','go_out','go_home','go_home','go_out','go_home','go_home','go_out''go_home','go_home','go_out']


String -> Int

In [17]:
# Import LabelEncoder
from sklearn import preprocessing

#creating labelEncoder
le = preprocessing.LabelEncoder()
print(le)

# Converting string labels into numbers.
weather_encoded=le.fit_transform(weather)
fight_encoded = le.fit_transform(fight)
label = le.fit_transform(dec)
print('weather_encoded:',weather_encoded,'\n\n','fight_encoded',fight_encoded,'\n\n','(label) dec_encoded',label)

LabelEncoder()
weather_encoded: [2 2 0 1 1 1 0 2 2 1 2 0 0 1] 

 fight_encoded [0 1 0 1 1 1 1 1 0 1 1 1 0 1] 

 (label) dec_encoded [0 1 0 0 0 1 0 0 1 0 0 2 0 1]


인코딩 된 두 특성 (날씨, 싸움 여부)를 결합

In [11]:
#Combinig weather and temp into single listof tuples
features = zip(weather_encoded,fight_encoded)
features = list(features)
print(features)

[(2, 0), (2, 1), (0, 0), (1, 1), (1, 1), (1, 1), (0, 1), (2, 1), (2, 0), (1, 1), (2, 1), (0, 1), (0, 0), (1, 1)]


나이브 분류기 모델  
  
모델 생성 -> 훈련 데이터 Fitting -> 성능 평가

In [18]:
#Import Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB

#Create a Gaussian Classifier
model = GaussianNB()

# Train the model using the training sets
model.fit(features,label)

#Predict Output
predicted= model.predict([[2,0]]) # 0:Overcast, 2:Mild
print("Predicted Value:", predicted) # 1: Yes


Predicted Value: [0]


### 여러 class에 대한 나이브 베이즈 분류기

In [24]:
#Import scikit-learn dataset library
from sklearn import datasets

#Load dataset
bc = datasets.load_breast_cancer()

# print the names of the 13 features
print("Features: ", bc.feature_names,'\n\n',bc.feature_names.size)

# print the label type of wine(class_0, class_1, class_2)
print("\n\nLabels: ", bc.target_names,'\n\n',bc.target_names.size)



Features:  ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension'] 

 30


Labels:  ['malignant' 'benign'] 

 2


In [30]:
bc.data.shape

(569, 30)

In [32]:
bc.target[0:5]

array([0, 0, 0, 0, 0])

In [35]:
bc.data[0:1]

array([[1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
        3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
        8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
        3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
        1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01]])

훈련셋, 테스트셋으로 나눈 뒤 학습시키기

In [36]:
# Import train_test_split function
from sklearn.model_selection import train_test_split

# Split dataset into training set and test set
# 80% training and 20% test
X_train, X_test, y_train, y_test = train_test_split(bc.data, bc.target, test_size=0.2, random_state=109)

# 70% training and 20% test
X2_train, X2_test, y2_train, y2_test = train_test_split(bc.data, bc.target, test_size=0.3, random_state=109)

#Import Gaussian Naive Bayes model
from sklearn.naive_bayes import GaussianNB

#Create a Gaussian Classifier
gnb = GaussianNB()

#Train the model using the training sets
gnb.fit(X_train, y_train)
gnb.fit(X2_train, y2_train)

#Predict the response for test dataset
y_pred = gnb.predict(X_test)

#Import scikit-learn metrics module for accuracy calculation
from sklearn import metrics

# Model Accuracy, how often is the classifier correct?
print("Accuracy:", metrics.accuracy_score(y_test, y_pred))


Accuracy: 0.956140350877193
