In [1]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB

In [2]:
df = pd.read_csv("iris.csv")
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [3]:
df["is_setosa"] = (df["Species"] == "setosa") + 0

In [4]:
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1


In [5]:
df["is_setosa"].value_counts()

0    100
1     50
Name: is_setosa, dtype: int64

In [6]:
df["is_setosa"].unique()

array([1, 0])

In [7]:
df["is_setosa"].value_counts(normalize=True)

0    0.666667
1    0.333333
Name: is_setosa, dtype: float64

In [8]:
model = GaussianNB().fit(X = df.iloc[:, :4], 
                        y = df["is_setosa"])
model

GaussianNB()

In [9]:
model.class_prior_

array([0.66666667, 0.33333333])

In [10]:
model.theta_

array([[6.262, 2.872, 4.906, 1.676],
       [5.006, 3.428, 1.462, 0.246]])

In [12]:
pred = model.predict_proba(df.iloc[:, :4])
pred = pred[:, 1]
pred[:4]

array([1., 1., 1., 1.])

In [13]:
from sklearn.metrics import accuracy_score

In [14]:
pred_class = (pred > 0.5) + 0

In [15]:
accuracy_score(y_true=df["is_setosa"], 
              y_pred=pred_class)

1.0

In [16]:
# 1. BMI 가 0 초과인 데이터만 사용하여 나이브 베이즈 분류를 실시하고자 한다. 
# Outcome을 종속변수로 하고 나머지 변수를 독립변수로 할 때 종속변수의 사전확률은?

In [17]:
# 종속변수의 사전확률은 입력되는 종속변수의 각 항목의 비율이다. 해당 비율을 구할 때 value_counts() 메서드를 사용하면 수월하다.

In [19]:
df = pd.read_csv("diabetes.csv")
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [20]:
df_sub = df.loc[df["BMI"] > 0, ]
df_sub

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [21]:
df_sub["Outcome"].value_counts(normalize=True)

0    0.648613
1    0.351387
Name: Outcome, dtype: float64

In [22]:
# 2. 혈당, 혈압, 나이를 독립변수로 하고 당뇨 발병 여부를 종속변수로 했을 때 그 정확도는 얼마인가?

In [23]:
# 별도의 언급이 없기 때문에 학습/평가 데이터를 동일하게 사용하며 출력된 확률값을 나누는 문턱값 또한 0.5로 지정한다. 
# 정확도를 산출하기 위해 sklearn 의 acuuracy_score() 함수를 사용한다.

In [34]:
df = pd.read_csv("diabetes.csv")
df.head(2)
df.size

6912

In [26]:
model = GaussianNB().fit(X = df.loc[:, ["Glucose", "BloodPressure", "Age"]], 
                        y = df["Outcome"])
pred = model.predict_proba(df.loc[:, ["Glucose", "BloodPressure", "Age"]])

In [33]:
pred.size

1536

In [27]:
pred_class = (pred[:, 1] > 0.5) + 0
pred_class[:4]

array([1, 0, 1, 0])

In [28]:
accuracy_score(y_pred=pred_class, y_true=df["Outcome"])

0.7552083333333334

In [35]:
# 임신여부, 연령대, BMI, 혈당을 독립변수로 하고 당뇨 발병 여부를 종속변수로 했을 떄 나이브 베이즈와 로지스틱 회귀 분석을 실시하고
# 둘 중 정확도가 높은 모델의 정확도는?

In [None]:
# BMI 가 0 초과인 것을 사용하며 학습/평가 데이터 세트를 8:2 분할, seed = 123
# age 가 21인 경우 20으로 39일 경우 30으로 계산

In [36]:
# 임신여부와 연령대는 기존 데이터에서 제공하지 않는 변수로 별도 생성 후 모델에 반영해야 한다. 
# 모델 객체의 predict_proba() method 를 활용하여 예측 확률값을 생성해야 정확도를 확인할 수 있다.

In [None]:
p