## Key words
### 분류모델, 나이브베이즈, 사전확률, 사후확률, GaussianNB, predict_proba

### 나이브 베이즈 분류기 특징
- 사전 확률 및 추가 정보를 기반으로 사후 확률을 추론하는 통계적인 방법인 베이즈 추정 기반 분류
- 종속변수 각 범주의 등장 빈도인 사전확률(prior) 설정이 중요
- 각 데이터의 사전 확률을 기반으로 사후확률(posterior)을 계산

### sklearn - GaussianNB()
- 나이브베이즈 분류 모델을 위한 sklearn의 함수
- 독립변수와 종속변수는 GaussianNB() 함수의 메서드인 fit() 함수에 할당
- 모델 객체의 predict_proba() 메서드로 예측 확률값을 생산
- 이진 분류의 경우 출력된 예측 확률값의 두 번째 열이 1이 될 확률

In [1]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB

In [2]:
df = pd.read_csv("iris.csv")
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [3]:
df["is_setosa"] = (df["Species"] == "setosa") +0
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1


In [21]:
df[df.Species == "setosa"] #  == df.loc[df["Species"]=="setosa"]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1
5,5.4,3.9,1.7,0.4,setosa,1
6,4.6,3.4,1.4,0.3,setosa,1
7,5.0,3.4,1.5,0.2,setosa,1
8,4.4,2.9,1.4,0.2,setosa,1
9,4.9,3.1,1.5,0.1,setosa,1


In [10]:
df["Species"]

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: Species, Length: 150, dtype: object

In [11]:
df["is_setosa"].value_counts()

0    100
1     50
Name: is_setosa, dtype: int64

In [12]:
df["is_setosa"].value_counts(normalize=True) # 사전확률

0    0.666667
1    0.333333
Name: is_setosa, dtype: float64

In [13]:
model = GaussianNB().fit(X = df.iloc[:, :4],
                         y = df["is_setosa"])
model

GaussianNB()

In [14]:
model.class_prior_ # 사전확률

array([0.66666667, 0.33333333])

In [15]:
model.theta_

array([[6.262, 2.872, 4.906, 1.676],
       [5.006, 3.428, 1.462, 0.246]])

In [23]:
pred = model.predict_proba(df.iloc[:, :4])
pred = pred[:, 1]

pred[:4] # 확률

array([1., 1., 1., 1.])

In [25]:
from sklearn.metrics import accuracy_score

In [26]:
pred_class = (pred > 0.5) + 0

In [27]:
accuracy_score(y_true = df["is_setosa"],
               y_pred = pred_class)

1.0

### 1. BMI가 0 초과인 데이터만 사용하여 나이브 베이즈 분류를 실시하고자 한다. Outcome을 종속변수로 하고 나머지 변수를 독립변수로 할 때 종속변수의 사전확률은?
- diabetes.csv
- Outcome 1을 대상으로 사전확률을 계산한다.

In [28]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB

In [29]:
df = pd.read_csv("diabetes.csv")
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [31]:
df1 = df[df.BMI > 0]

In [32]:
df1.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [35]:
model = GaussianNB().fit(X = df1.iloc[:, :-1],
                         y = df1["Outcome"])

In [41]:
model.class_prior_

array([0.64861295, 0.35138705])

In [40]:
model.predict_proba(df1.iloc[:, :-1])

array([[0.36902653, 0.63097347],
       [0.98439184, 0.01560816],
       [0.23966323, 0.76033677],
       ...,
       [0.94576296, 0.05423704],
       [0.87551034, 0.12448966],
       [0.98142277, 0.01857723]])

정답

In [42]:
df1["Outcome"].value_counts(normalize=True)

0    0.648613
1    0.351387
Name: Outcome, dtype: float64

### 2. 혈당, 혈압, 나이를 독립변수로 하고 당뇨 발병 여부를 종속변수로 했을 때 그 정확도는 얼마인가?
- diabetes.csv
- Outcome 1을 대상으로 사전확률을 계산한다.

In [47]:
df = pd.read_csv("diabetes.csv")
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [48]:
from sklearn.metrics import accuracy_score

In [49]:
model = GaussianNB().fit(X = df.loc[:, ["Glucose", "BloodPressure", "Age"]],
                         y = df["Outcome"])
pred = model.predict_proba(df.loc[:, ["Glucose", "BloodPressure", "Age"]])

In [50]:
pred_class = (pred[:, 1] > 0.5) + 0
pred_class[:4]

array([1, 0, 1, 0])

In [51]:
accuracy_score(y_pred = pred_class, y_true = df["Outcome"])

0.7552083333333334

### 3. 임신여부, 연령대, BMI, 혈당을 독립변수로 하고 당뇨 발병 여부를 종속변수로 했을 때 나이브 베이즈와 로지스틱 회귀분석을 실시하고 둘 중 정확도가 높은 모델의 정확도는?
- diabetes.csv
- BMI가 0 초과인 것을 사용하며 학습/평가 데이터 세트를 8:2로 분할, Seed : 123
- 연령대는 Age가 21인 경우 20으로 39인 경우 30으로 계산
- sklearn의 로지스틱 회귀 함수를 사용하며, 임계값(threshold)은 0.5로 한다

In [55]:
df = pd.read_csv("diabetes.csv")
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [56]:
from sklearn.model_selection import train_test_split

In [57]:
df1 = df[df.BMI > 0]

In [63]:
df1["연령대"] = (df1.Age // 10) * 10
df1.head(2)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1["연령대"] = (df1.Age // 10) * 10


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,연령대
0,6,148,72,35,0,33.6,0.627,50,1,50
1,1,85,66,29,0,26.6,0.351,31,0,30


In [64]:
train, test = train_test_split(df1, train_size=0.8, random_state=123)

In [76]:
model = GaussianNB().fit(X = train.loc[:, ["Pregnancies", "연령대", "BMI", "Glucose"]],
                         y = train["Outcome"])
model

GaussianNB()

In [77]:
pred = model.predict_proba(test.loc[:, ["Pregnancies", "연령대", "BMI", "Glucose"]])
pred #  0번이 아닌 1번 컬럼이 확률

array([[0.06249923, 0.93750077],
       [0.77377309, 0.22622691],
       [0.07358057, 0.92641943],
       [0.77344169, 0.22655831],
       [0.91959694, 0.08040306],
       [0.58486838, 0.41513162],
       [0.6451689 , 0.3548311 ],
       [0.58861661, 0.41138339],
       [0.19143955, 0.80856045],
       [0.01982958, 0.98017042],
       [0.73811672, 0.26188328],
       [0.08945204, 0.91054796],
       [0.09986718, 0.90013282],
       [0.93821251, 0.06178749],
       [0.53705487, 0.46294513],
       [0.90451601, 0.09548399],
       [0.44898401, 0.55101599],
       [0.06319493, 0.93680507],
       [0.79429335, 0.20570665],
       [0.58675928, 0.41324072],
       [0.85321072, 0.14678928],
       [0.11812594, 0.88187406],
       [0.92752114, 0.07247886],
       [0.11037108, 0.88962892],
       [0.75187451, 0.24812549],
       [0.38901944, 0.61098056],
       [0.02196146, 0.97803854],
       [0.88443403, 0.11556597],
       [0.79640621, 0.20359379],
       [0.92525294, 0.07474706],
       [0.

In [78]:
pred1 = (pred[:, 1] > 0.5) + 0

In [80]:
accuracy_score(y_pred = pred1,
               y_true = test["Outcome"])

0.7960526315789473

In [75]:
from sklearn.linear_model import LogisticRegression

In [83]:
model2 = LogisticRegression()
model2.fit(X = train.loc[:, ["Pregnancies", "연령대", "BMI", "Glucose"]],
                         y = train["Outcome"])

LogisticRegression()

In [84]:
pred2 = model2.predict_proba(test.loc[:, ["Pregnancies", "연령대", "BMI", "Glucose"]])

In [85]:
pred3 = (pred2[:, 1] > 0.5) + 0

In [86]:
accuracy_score(y_pred = pred3,
               y_true = test["Outcome"])

0.8289473684210527