# 분류: 나이브 베이즈

In [1]:
import pandas as pd
from sklearn.naive_bayes import GaussianNB

In [2]:
df = pd.read_csv('../datasets/iris.csv')
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [3]:
df['is_setosa'] = (df['Species'] == 'setosa') + 0
df.head(2)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,is_setosa
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1


In [4]:
df['is_setosa'].value_counts()

0    100
1     50
Name: is_setosa, dtype: int64

In [5]:
df['is_setosa'].value_counts(normalize=True)    # 사전 확률

0    0.666667
1    0.333333
Name: is_setosa, dtype: float64

In [6]:
model = GaussianNB().fit(X=df.iloc[:, :4], y=df['is_setosa'])
model

In [7]:
model.class_prior_  # 종속변수 사전확률

array([0.66666667, 0.33333333])

In [8]:
model.theta_    # 계수

array([[6.262, 2.872, 4.906, 1.676],
       [5.006, 3.428, 1.462, 0.246]])

In [10]:
pred = model.predict_proba(df.iloc[:, :4])
pred = pred[:, 1]
pred[:4]

array([1., 1., 1., 1.])

In [11]:
from sklearn.metrics import accuracy_score

In [14]:
pred_class = (pred > 0.99) + 0

In [15]:
accuracy_score(y_true=df['is_setosa'], y_pred=pred_class)

1.0

### 1. BMI가 0 초과인 데이터만 사용하여 나이브 베이즈 분류를 실시하고자 한다. `Outcome`을 종속변수로 하고 나머지 변수를 독립변수로 할 때 종속변수의 사전확률은?

diabates.csv 파일 사용
`Outcome` 1을 대상으로 사전확률을 계산한다.

1. 0.8
2. 0.64
3. 0.35
4. 0.41

In [16]:
df = pd.read_csv('../datasets/diabetes.csv')
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [17]:
df_sub = df.loc[df['BMI'] > 0,]
df_sub.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [19]:
df_sub['Outcome'].value_counts(normalize=True)

0    0.648613
1    0.351387
Name: Outcome, dtype: float64

### 2. 혈당, 혈압. 나이를 독립변수로 하고 당뇨 발생 여부를 종속변수로 했을 때 그 정확도는 얼마인가?

diabates.csv 파일 사용
Outcome 1을 대상으로 사전확률을 계산한다.

1. 78%
2. 76%
3. 74%
4. 72%

In [20]:
df = pd.read_csv('../datasets/diabetes.csv')
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [23]:
df['Outcome'].value_counts(normalize=True)

0    0.651042
1    0.348958
Name: Outcome, dtype: float64

In [24]:
model = GaussianNB().fit(X=df.loc[:, ['Glucose', 'BloodPressure', 'Age']], y=df['Outcome'])
model

In [25]:
model.class_prior_

array([0.65104167, 0.34895833])

In [28]:
pred = model.predict_proba(df.loc[:, ['Glucose', 'BloodPressure', 'Age']])
pred = pred[:, 1]
pred[:4]

array([0.67464823, 0.09936717, 0.87975108, 0.06495508])

In [29]:
pred_class = (pred > 0.5) + 0
accuracy_score(y_true=df['Outcome'], y_pred=pred_class)

0.7552083333333334

### 3. 임신여부, 연령대, BMI, 혈당을 독립변수로 하고 당뇨 발생 여부를 종속변수로 했을 때 나이브 베이즈와 로지스틱 회귀 분석을 실시하고 둘 중 정확도가 높은 모델의 정확도는?

diabates.csv 파일 사용
BMI가 0 초과인 것을 사용하며 학습/평가 데이터 세트를 8:2로 분할, Seed는 123
연령대는 Age가 21인 경우 20으로, 39일 경우 30으로 계산한다.
sklearn의 로지스틱 회귀 함수를 사용하며, 임계값(threshold)은 0.5로 한다.

1. 74%
2. 76%
3. 78%
4. 83%

In [30]:
# 데이터 불러오기
df = pd.read_csv('../datasets/diabetes.csv')
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0


In [54]:
# 연령대 계산
df['age_group'] = (df['Age'] // 10) * 10

# 임신여부 계산
df['is_preg'] = (df['Pregnancies'] > 0) + 0
df.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,age_group,is_preg
0,6,148,72,35,0,33.6,0.627,50,1,50,1
1,1,85,66,29,0,26.6,0.351,31,0,30,1


In [60]:
# BMI가 0 초과인 데이터만
df_sub = df.loc[df['BMI'] > 0, ]
df_sub.head(2)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,age_group,is_preg
0,6,148,72,35,0,33.6,0.627,50,1,50,1
1,1,85,66,29,0,26.6,0.351,31,0,30,1


In [35]:
from sklearn.model_selection import train_test_split

In [61]:
# 데이터 분리
df_train, df_test = train_test_split(df_sub, train_size=0.8, random_state=123)

In [58]:
# 1. 로지스틱 회귀 분석
from sklearn.linear_model import LogisticRegression

# 모델 구축
model = LogisticRegression(random_state=123)
model.fit(X=df_train.loc[:, ['is_preg', 'age_group', 'BMI', 'Glucose']], y=df_train['Outcome'])

# 정확도 예측
pred = model.predict_proba(df_test.loc[:, ['is_preg', 'age_group', 'BMI', 'Glucose']])
pred = pred[:, 1]

# 정확도 평가
accuracy_score(y_true=df_test['Outcome'], y_pred=(pred > 0.5) + 0)

# 로지스틱 회귀 분석을 통한 정확도는 약 83%

0.8289473684210527

In [64]:
# 2. 나이브 베이즈

# 모델 구축
model = GaussianNB().fit(X=df_train.loc[:, ['is_preg', 'age_group', 'BMI', 'Glucose']], y=df_train['Outcome'])

# 정확도 예측
pred = model.predict_proba(df_test.loc[:, ['is_preg', 'age_group', 'BMI', 'Glucose']])
pred_class = (pred[:, 1] > 0.5) + 0

# 정확도 평가
accuracy_score(y_true=df_test['Outcome'], y_pred=pred_class)

# 나이브 베이즈를 통한 정확도는 약 80%

0.8026315789473685