분류 : 나이브 베이즈 
- 1) 사전확률 및 추가정보를 기반으로 사후 확률을 추론 -> 베이즈 추정 기반분류
- 2) 종속변수 각 범주의 등장 빈도를 사전확률(prior) 설정이 중요 
- 3) 각 데이터의 사전 확률을 기반으로 사후 확률(posterior)을 계산 
- 4) 나이브(naive) : 모든 특성들이 서로 독립적이다.
- 5) 모델의 종류 : 가우시안(연속데이터 , 가우시안 정규 분포),다항 나이브(텍스트문서, 이산데이터, 단어의 빈도수), 베르누이(이진 특성(0,1)) 등 


|라벨|특징벡터|
|---|---|
| 1|[1,2,3,4,5,6,7,8]|
| 2|[1,1,3,4,5,6,6,7]|
| 3|[2,1,2,3,4,8,8,8]|

####테스트 데이터

|테스트 데이터|
|---|
|[2,2,4,5,6,8,8,8]|


#### 1. 정규분포(가우시안 분포)
$$
{p(x; \mu, \sigma^{2}) = \frac{1}{\sqrt{2\pi\sigma^{2}}}\exp^{\Bigl\{-\frac{(x-\mu)^{2}}{2\sigma^{2}}\Bigr\}}
}
$$

- GaussianNB클래스로 모델 객체를 생성하고 독립변수와종속변수를 fit()으로 지정해서 실행한다.  
- predict_proba(X)로 예측 확률값을 계산한다. 
- 만약에 이진분류를 할 경우 출력된 예측확률값의 두번째 열이 1이될 확률로 계산된다.  

In [1]:
import numpy as np
from sklearn.naive_bayes import GaussianNB # 가우시안
X = np.array([[1,2,3,4,5,6,7,8],
              [1,1,3,4,5,6,6,7],
              [2,1,2,4,5,8,8,8]]) # 특징 벡터

y = np.array([1,2,3]) # y  라벨

t = np.array([2,2,4,5,6,8,8,8]).reshape(1, -1)  # 테스트 데이터

clf = GaussianNB() # 정규 분포를 가정한 베이즈 분류
clf.fit(X, y) # 학습하기

clf.predict(t) # => [3]

array([3])

2. 베루누이 분포  : 특징이 0과 1로 표현되는 벡터형을 사용할 때 
$$
{p(x;q) = q^{x}(1-q)^{1-x}
}
$$

In [2]:
from sklearn.naive_bayes import BernoulliNB
clf = BernoulliNB()
clf.fit(X, y)
clf.predict(t) #=> [1]

array([1])

3. 다항분포: MultinomialNB(*, alpha=1.0, fit_prior=True, class_prior=None)
: 종속변수 개수가 나열형을  있을 경우 사용된다. 



In [3]:
from sklearn.naive_bayes import  MultinomialNB
t = np.array([2,2,4,5,6,8,8,8])
res =  MultinomialNB(alpha=1.0,fit_prior=True, class_prior=None )
res.fit(X,y)
res.predict([t])

array([2])

In [4]:
#Q1) 아이리스 로드 해서  GaussianNB()로 분류 해보자. accuracy_score()로 확인 해보자.  
from sklearn import datasets 
from sklearn.model_selection import train_test_split
from sklearn import metrics 
from sklearn.naive_bayes import GaussianNB 

#1. 데이터로드  
iris = datasets.load_iris()

#2. data, target
X= iris.data
y= iris.target

#3. split
X_train, X_test, y_train,y_test = train_test_split(X,y, random_state=0)

#4. 모형 선택
model  =  GaussianNB()

#5. 모형 실행
model.fit(X_train,y_train)

#6.예측 (예측은 테스트 ) 
pred  = model.predict(X_test)

#7.점수  
metrics.accuracy_score(y_test,pred ) #정밀도 계산  

#8. 속성 출력 해보자. 
print(model.class_prior_)
print(model.theta_)



[0.33035714 0.30357143 0.36607143]
[[4.9972973  3.38918919 1.45405405 0.24054054]
 [5.91764706 2.75882353 4.19117647 1.30882353]
 [6.66341463 2.9902439  5.58292683 2.03902439]]


In [5]:
#9.예측확률값 출력 해보자.  
res = model.predict_proba(X) 
#print(res)

In [6]:
#10. 80%이상 예측확률이 되는 데이터를 리턴 해보자.  
res_class  = (res > 0.8) +0
res_class

array([[1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [1, 0, 0],
       [0, 0, 0],
       [0, 1, 0],
       [0, 0, 0],
       [0, 1, 0],
       [0, 1, 0],
       [0,

In [16]:
#Q2)diabetes.csv  
# 데이터를 로드 BMI가  0을 초가한 데이터만 사용해서 나이브베이즈로 분류하려고 한다. 
# Outcome를 종속 변수로 주고  나머지를 독립변수로 할 때 종속변수의 사전확률은 ? 
import pandas as pd
df = pd.read_csv('data/diabetes.csv')
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


0   Pregnancies               768 non-null    int64  -> 임신횟수  
1   Glucose                   768 non-null    int64  -> 포도당 내성검사  
2   BloodPressure             768 non-null    int64  -> 혈압 mmHg  
3   SkinThickness             768 non-null    int64  -> 삼두근 피부 주름 두께 : 인슐린 저항성 지표  
4   Insulin                   768 non-null    int64  -> 혈청인슐린 (포도당 처리 능력)  
5   BMI                       768 non-null    float64 -> 체질량 지수  
6   DiabetesPedigreeFunction  768 non-null    float64 -> 당뇨가족력 함수,유전적 요인  
7   Age                       768 non-null    int64   -> 나이가 증가되면서 당뇨병 위험 증가  
8   Outcome                   768 non-null    int64   -> 당뇨병 발병 유무  

위 데이터를 생각해보자.
1. EDA -> 각 특성의 분호를 분석하여 데이터의 기본 특성을 이해한다. -> 상관분석,이상치 탐지
2. 당뇨병 위험에 대한 요인 분석
   - 로지스틱회귀 , 다른 통계적 방법을 사용해서 당뇨 발병과 관련된 주요 위험 요인을 식별
   - 나이, 임신횟수, BMI, 인슐린 수치등 당뇨 발병에 어떤 영향을 미치는지 분석하기
   
3. 분석 모델 개발
    - 나이브베이즈 , 로지스틱회귀, 랜덤포레스트, 서포트 벡터 머신등 당뇨병 발병 유무 예측하기
    - 모델 성능 평가 (정확도, 정밀도, 재현율,F1,ROC 곡선)
    - 특성 선택 및 최적화를 통해 모델의 성능 향상 시키기 
    
4. 클러스터 분석
    - 비지도학습을 이용해서 특성으로 그룹 식별 해보기  
    ex) k-평균 클러스터를 사용하여 다양한 환자 하위 그룹 탐색하기  
 
5. 시계열 분석
    - 데이터 시간적 요소가 있다면 , 시간에 따른 당뇨병 추이 패턴을 분석
    
6. 리스트 모델링
    - 개별환자의 당뇨병 발병 위험도 평가하기  
    - 위험도에 따른 개인별 예방 및 전략 개발 지원 하기  

In [8]:
#2-1 BMI가  0을 초가한 데이터 -> 실제 0 이하가 없지만 데이터 정제의 형태
df_sub=df.loc[df['BMI'] >0 , ]
df_sub

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [9]:
#2-2 Outcome를 종속 변수로 주고  나머지를 독립변수로 할 때 종속변수의 사전확률은 ?  
# 만약에 2진분류를 할 경우 출력된 예측 확률값의 두번째 열이 1이 될 확률로 계산된다.  value_counts
df_sub['Outcome'].value_counts(normalize= True) # 0.351387 

Outcome
0    0.648613
1    0.351387
Name: proportion, dtype: float64

In [10]:
#Q3 ) 혈당, 혈압, 나이를 독립변수로 하고 당뇨발병 유무를 종속변수로 했을 때 정확도를 구해보자. 
# Glucose ,BloodPressure ,   Age   
X = df.loc[: , [ 'Glucose' ,'BloodPressure' ,   'Age' ]]
y =  df['Outcome']
model = GaussianNB().fit(X, y)                         
pred = model.predict_proba(X)
pred

array([[0.32535177, 0.67464823],
       [0.90063283, 0.09936717],
       [0.12024892, 0.87975108],
       ...,
       [0.77355188, 0.22644812],
       [0.59287801, 0.40712199],
       [0.91997342, 0.08002658]])

In [11]:
pred_class = (pred[:, 1] > 0.5) + 0
pred_class[:4]   

array([1, 0, 1, 0])

sklearn.metrics.accuracy_score(y_true, y_pred, *, normalize=True, sample_weight=None)

In [12]:
from sklearn.metrics import accuracy_score
accuracy_score(y_pred = pred_class , y_true = y )

0.7552083333333334

In [19]:
#4-1 데이터 로드, 정보확인
import pandas as pd
df = pd.read_csv('data/diabetes.csv')
df.info()

df=df.loc[df['BMI'] >0 , ]
#4-3  조건 2:

df["Age_g"] = (df["Age"] // 10) * 10

#4-4 조건 1과 임신 유무
df["is_preg"] = (df["Pregnancies"] > 0) + 0   # 임신 유무

df_train, df_test = train_test_split(df, train_size = 0.8, random_state = 123)

model = GaussianNB().fit(X = df_train.loc[:, ["is_preg", "Age_g", "BMI", "Glucose"]],
                         y = df_train["Outcome"])

pred = model.predict_proba(df_test.loc[:, ["is_preg", "Age_g", "BMI", "Glucose"]])
pred[:4, ]

accuracy_score(y_pred = (pred[:, 1] > 0.5) + 0,  y_true = df_test["Outcome"])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


0.8026315789473685

In [20]:
#4-5. LogisticRegression
from sklearn.linear_model import LogisticRegression
model_lr = LogisticRegression()
model_lr.fit(X = df_train.loc[:, ["is_preg", "Age_g", "BMI", "Glucose"]],
             y = df_train["Outcome"])
pred_lr = model_lr.predict_proba(df_test.loc[:, ["is_preg", "Age_g", "BMI", "Glucose"]])
pred_lr = pred_lr[:, 1]
pred_lr_class = (pred_lr > 0.5) + 0
accuracy_score(y_true = df_test["Outcome"], y_pred = pred_lr_class)

0.8289473684210527

In [22]:
#Q5)바이크 데이터 로드해서 상위 5개 추출 하자.  sample() 사용
# 샘플링 , 그룹화, 최대값 계산, 기온데이터 분석 , 일일권 사용자 대여의 최대값을 기반으로 특정 조건을 만족하는 날짜 계산
# 1.23%의 추출한 행은 몇개인가 ? 
import pandas as pd
df = pd.read_csv('data/bike.csv')
res = df.sample(frac = 0.0123, random_state=7)
res #134개 

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
3502,2011-08-15 20:00:00,3,0,1,1,27.06,31.060,74,8.9981,45,240,285
6462,2012-03-06 12:00:00,1,0,1,1,10.66,13.635,41,7.0015,9,129,138
3275,2011-08-06 09:00:00,3,0,0,1,30.34,34.850,70,15.0013,60,155,215
3503,2011-08-15 21:00:00,3,0,1,1,27.06,31.060,65,12.9980,34,150,184
6813,2012-04-02 05:00:00,2,0,1,1,16.40,20.455,76,32.9975,2,22,24
...,...,...,...,...,...,...,...,...,...,...,...,...
934,2011-03-03 09:00:00,1,0,1,1,6.56,6.820,37,19.0012,10,135,145
7091,2012-04-13 20:00:00,2,0,1,1,20.50,24.240,29,8.9981,44,242,286
8354,2012-07-09 11:00:00,3,0,1,2,29.52,34.090,62,8.9981,72,144,216
10393,2012-11-18 11:00:00,4,0,0,1,15.58,19.695,62,19.0012,92,267,359


In [24]:
#Q6)season기준 , 5% 추출하는 행의 수는? 

#case 1 : 전체 데이터 셋에 대한 5% 샘플 추출 -> season 범주내에 동일한 비율로 추출한다는 보장이 없다.
    # 여름이 가을보다 더 많이 또는 적게 표본에 포함될 수 있다.
res02=  df[['season' ]] .sample(frac = 0.05, random_state=7)
print(len(res02))

#case 2 : 각 계절의 데이터가 분포가 고르게 5% 샘플 추출
res03= df.groupby(df['season']).sample(frac = 0.05, random_state=7, replace=True) #중복허용
print(len(res03))

544
545


In [25]:
#Q7)홀드아웃  8:2로 하고 최고 기온은? train_size=0.8  , 39.36
train,test = train_test_split(df, train_size=0.8, random_state=123)
train['temp'].max() , test['temp'].max()  

(41.0, 39.36)

In [26]:
#08) temp, atemp 변수사이의 절대값 평균을 구해보자  abs()소수 셋째자리까지  
df['diff']  = df ['temp'] - df['atemp']
df['diff'].abs().mean()

3.509198511850083

In [27]:
#09)  casual (일일권 사용자대여 ) 최대값이 25 가 넘는 날은 총 몇일인가 ?  384일
 #  datetime 변수에서  일 정보를 추출한 후 해당변수에  casual의  최대 값으로 구한다.  
#df.info()  
df['datetime'] = pd.to_datetime(df['datetime'] )  #-> datetime으로 변환 , 시계열 데이터 처리  
df['date']  =df ['datetime'].dt.date  #날짜 추출
df_agg  = df.groupby('date')['casual'].max() #최대값 추출
df_agg.head()
df_agg_res = df_agg[df_agg> 25]
print(df_agg_res)
df_agg_res.head()

date
2011-01-01    47
2011-01-15    33
2011-01-16    35
2011-02-06    52
2011-02-12    47
              ..
2012-12-14    57
2012-12-15    95
2012-12-16    67
2012-12-18    58
2012-12-19    37
Name: casual, Length: 384, dtype: int64


date
2011-01-01    47
2011-01-15    33
2011-01-16    35
2011-02-06    52
2011-02-12    47
Name: casual, dtype: int64

In [28]:
#번외편  
df_agg  = df.groupby('date')['casual'].max().reset_index()
df_agg.head()

Unnamed: 0,date,casual
0,2011-01-01,47
1,2011-01-02,20
2,2011-01-03,14
3,2011-01-04,18
4,2011-01-05,12


In [30]:
#Q10) bike.csv데이터를 가지고 모형을 추천받아 보자. 
#Q11)추천받은 모형으로  모델을 생성해서 정답률을 출력 해보자.  
# 분류모형 , 차원축소 , 앙상블 , 부스트랩   

import pandas as pd
df = pd.read_csv('data/diabetes.csv')
df

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1
