# 분류: 나이브 베이즈

## 나이브 베이즈 분류기 특징
    사전 확률 및 추가 정보를 기반으로 사후 확률을 추론하는 통계적 방법인 베이즈 추정 기반 분류
    종속변수 각 범주의 등장 빈도인 사전확률(prir) 설정이 중요
    각 데이터의 사전 확률을 기반으로 사후확률(posterior)을 계산
    
## sklearn - GaussianNB()
    나이브베이즈 분류 모델을 위한 sklearn의 함수
    독립변수와 종속변수는 GaussianNB() 함수의 메서드인 fit() 함수에 할당
    모델 객체의 predict_proba() 메서드로 예측 확률값을 생산
    이진 분류의 경우 출력된 예측 확률값의 두 번째 열이 1이 될 확률

In [1]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB

In [2]:
df = pd.read_csv("iris.csv")
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [3]:
df["is_setosa"] = (df["Species"] == "setosa") + 0
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1


In [4]:
df["is_setosa"].value_counts()

0    100
1     50
Name: is_setosa, dtype: int64

In [5]:
df["is_setosa"].value_counts(normalize=True)

0    0.666667
1    0.333333
Name: is_setosa, dtype: float64

In [11]:
model = GaussianNB().fit(X = df.iloc[:,:4],
                        y = df["is_setosa"])
model

GaussianNB()

In [12]:
model.class_prior_ #사전확률

array([0.66666667, 0.33333333])

In [13]:
model.theta_ #계수

array([[6.262, 2.872, 4.906, 1.676],
       [5.006, 3.428, 1.462, 0.246]])

In [17]:
pred = model.predict_proba(df.iloc[:,:4])
pred = pred[:,1]
pred[:4]

array([1., 1., 1., 1.])

In [18]:
from sklearn.metrics import accuracy_score

In [19]:
pred_class = (pred > 0.5) + 0

In [22]:
accuracy_score(y_true = df["is_setosa"],
              y_pred = pred_class)

1.0

문제 01. BMI가 0 초과인 데이터만 사용하여 나이브 베이즈 분류를 실시하고자 한다. Outcome을 종속변수로 하고 나머지 변수를 독립변수로 할 때 종속변수의 사전확률은?
Outcome 1을 대상으로 사전확률을 계산한다.

In [23]:
df = pd.read_csv("diabetes.csv")
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [25]:
df_sub = df.loc[df["BMI"]>0,]

In [26]:
df_sub["Outcome"].value_counts(normalize=True)

0    0.648613
1    0.351387
Name: Outcome, dtype: float64

문제 02. 혈당, 혈압, 나이를 독립변수로 하고 당뇨 발병 여부를 종속변수로 했을 때 그 정확도는 얼마인가? Ontcome 1을 대상으로 사전확률을 계산한다.

In [27]:
df = pd.read_csv("diabetes.csv")
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [28]:
model = GaussianNB().fit(X=df.loc[:,["Glucose","BloodPressure","Age"]],
                        y=df["Outcome"])
pred = model.predict_proba(df.loc[:,["Glucose","BloodPressure","Age"]])

In [29]:
pred_class = (pred[:,1] > 0.5) + 0
pred_class[:4]

array([1, 0, 1, 0])

In [30]:
accuracy_score(y_pred = pred_class, y_true=df["Outcome"])

0.7552083333333334

문제 03. 임신여부, 연령대, BMI, 혈당을 독립변수로 하고 당뇨 발병 여부를 종속변수로 했을 때 나이브 베이즈와 로지스틱 회귀 분석을 실시하고 둘 중 정확도가 높은 모델의 정확도는?

In [31]:
df = pd.read_csv("diabetes.csv")
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [33]:
df = df.loc[df["BMI"]>0,]
df["Age_g"] = (df["Age"] // 10)*10 #연령대
df["is_preg"] = (df["Pregnancies"] > 0)+0
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Age_g,is_preg
0,6,148,72,35,0,33.6,0.627,50,1,50,1
1,1,85,66,29,0,26.6,0.351,31,0,30,1


In [34]:
from sklearn.model_selection import train_test_split
df_train, df_test = train_test_split(df, train_size=0.8, random_state=123)
df_train.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Age_g,is_preg
247,0,165,90,33,680,52.3,0.427,23,0,20,0
659,3,80,82,31,70,34.2,1.292,27,1,20,1


In [35]:
model = GaussianNB().fit(X=df_train.loc[:,["is_preg", "Age_g", "BMI", "Glucose"]],
                        y=df_train["Outcome"])
pred = model.predict_proba(df_test.loc[:,["is_preg", "Age_g", "BMI", "Glucose"]])
pred[:4,]

array([[0.09436402, 0.90563598],
       [0.74783283, 0.25216717],
       [0.11042961, 0.88957039],
       [0.57991266, 0.42008734]])

In [37]:
accuracy_score(y_pred = (pred[:,1] > 0.5) + 0,
               y_true=df_test["Outcome"])

0.8026315789473685

In [38]:
from sklearn.linear_model import LogisticRegression

In [39]:
model_lr = LogisticRegression()
model_lr.fit(X=df_train.loc[:,["is_preg", "Age_g", "BMI", "Glucose"]],
                        y=df_train["Outcome"])

LogisticRegression()

In [41]:
pred_lr = model_lr.predict_proba(df_test.loc[:,["is_preg", "Age_g", "BMI", "Glucose"]])
pred_lr = pred_lr[:,1]
pred_lr_class = (pred_lr > 0.5) + 0

In [42]:
accuracy_score(y_pred = pred_lr_class,
               y_true=df_test["Outcome"])

0.8289473684210527