# 데이터 마이닝 기반 분석 모델
--> 데이터 내에 존재하는 숨겨진 의미 및 패턴을 추출하는 과정. 패턴과 상관성을 중심으로 숫자, 데이터 처리까지 가능

- 분류 모델
  - 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 기법으로 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 변주 중의 하나로 분류하는 모델
    - 통계적 기법 : 로지스틱 회귀, 판별 분석
    - 트리 기반 기법 : 의사결정 규칙에 따라, 변수를 몇 개의 소집단으로 분류
    - 최적화 기법 : 서포터 벡터 머신
    - 기계 학습 : 인간의 학습 방법 ( 퍼셉트론 ) 을 실현하고자 하는 연구 분야. 인공신경망 ( Artificial Neural Network )


- 예측 모델
  - 수치형 등의 과거 데이터로부터 특성을 분석하여 결과값을 예측하는 기법
    - 회귀 분석 : 관찰된 연속형 변수들에 대해 변수 사이의 모델을 구한 뒤 적합도를 측정
    - 의사결정나무 : 의사결정규칙을 도표화해, 소집단으로 분류하거나 예측을 수행
    - 시계열분석 : 연도, 분기, 월별 등을 분석하여 미래를 예측
    - 인공신경망 : 인간의 학습 방법 ( 퍼셉트론 ) 을 실현하고자 하는 연구 분야. 인공신경망 ( Artificial Neural Network )


- 군집화 모델
  - 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 모델
    - 계층적 방법 : 군집 수를 정하지 않고 응집 및 분할을 통해 단계적으로 결과를 산출
    - 비계층적 방법 : 군집 수를 정해놓고 각 소집단으로 배정하는 방법


- 연관규칙 모델
  - 데이터에 숨어 있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 분석 기법
    - Apriori algorithm : 데이터셋의 빈발 항목을 산출하는 알고리즘. 데이터셋 내에서 최소 N번의 트랜잭션이 일어난 아이템 집합들을 발견하는 알고리즘
    - FP-Growth algorithm : 방대한 양에 대한 Apriori의 연산 속도를 개선한 알고리즘

---
# 기계학습 기반 분석 모델
기계 학습은 모델을 만들고 이를 통한 예측을 수행. 데이터 마이닝과의 가장 큰 차이점은 데이터 모델의 매개 변수를 스스로 학습한다는 점


- 지도 학습
  - 정답인 레이블이 포함되어 있는 학습 데이터를 통해 학습 시키는 방법

- 비지도 학습
  - 정답인 레이블 없이 학습시키는 방법 ( 결과보다 과정 문제 활용 )
  
- 강화 학습
  - 주어진 입력값에 대한 출력값의 정답이 주어지지 않은 상태에서 행동 결과에 대한 보상이 주어지게 되며, 이를 최대화하는 행동을 선택하는 학습 방법

---
- 분류 ( Classification )
  - 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 기법으로 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 기법
  - Ex ) 이 이미지는 개인가, 고양이인가?


- 회귀 ( Regression ) = 추정 ( Estimation )
  - 한 개 또는 그 이상의 변수들(독립변수)에 대하여 다른 변수(종속변수) 사이의 관계를 수학적인 모델을 이용하여 설명하고 예측하는 분석 기법
  - Ex ) 3개월 뒤 이 아파트 가격은 2억 1천만원인가, 2억 2천만원인가?

# 분류 모델의 종류
- 확률적 모델
  - 입력 $x$가 주어졌을 때 $y$가 클래스 $k$가 될 확률 $P(y=k|x)$을 모두 계산 후 가장 확률이 큰 클래스를 선택하는 방법
  - 확률적 생성 모델 ( Generative )
    - y의 클래스값에 따른 x의 분포에 대한 정보를 먼저 알아낸 후, 베이즈 정리를 사용하여 주어진 x에 대한 y의 확률분포를 간접적으로 조건부 확률을 구하는 모델. 나이브 베이지안, LDA(Linear Discriminant Analysis), QDA(Quadratic Discriminant Analysis)
  - 확률적 판별 모델 ( Discriminative )
    - 직접 조건부 확률 함수의 모델을 추정하는 모델 ( 함수는 0 ~ 1 사이 ). 로지스틱회귀, 의사결정나무
      
      
- 판별 함수 모델
  - 주어진 데이터를 카테고리에 따라 서로 다른 영역으로 나누는 경계면(Decision Boundary)을 찾아낸 다음, 이 경계면으로부터 주어진 데이터가 어느 위치에 있는지를 계산하는 판별 함수(Discriminant Function)를 이용하는 모델
  - 퍼셉트론, 서포트벡터머신, 인공신경망

# 나이브 베이즈
  - 확률적 생성 모델
    - 베이즈 정리를 사용하여 간접적으로 조건부 확률을 구하는 모델
   
   
- 나이브 베이즈 분류 모델에서는 모든 차원의 개별 독립변수가 서로 조건부 독립이라는 가정을 사용
- 독립변수들 간에 서로 조건부 독립임을 가정하여 조건을 나이브(순진)하게 하고, 베이즈 정리를 사용하여 MLE를 통해 가장 큰 확률값을 갖는 모수를 추정해내는 모델

조건부 확률 ( Conditional Probability )
- A 사건이 이루어진 이후에 B 사건이 발생할 확률

독립사건 ( Independent events )
- 두 사건 중 하나의 사건이 일어날 확률이 나머지 다른 하나의 사건이 일어날 확률에 영향을 미치지 않는다는 것. Ex ) 비오는 날 동전 던지기에서 앞면이 나올 확률

베이즈 정리
- $P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

---
# 나이브 베이즈 실습
- 모든 피처가 연속형의 값 => 가우시안 나이브 베이즈 모델 사용

In [1]:
import numpy as np
import pandas as pd
import scipy as sp
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [6]:
## 가우시안 나이브 베이즈
from sklearn.naive_bayes import GaussianNB

## iris 데이터 로드
iris = load_iris()
df_X = pd.DataFrame(iris.data, columns=iris.feature_names)
df_y = pd.DataFrame(iris.target, columns=['target'])

# 테스트셋 분리
X_train, test_X, y_train, test_y = train_test_split(df_X, df_y, train_size=0.8, test_size=0.2, random_state=123)

In [7]:
# 트레이닝 데이터 확인
X_train.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
17,5.1,3.5,1.4,0.3
98,5.1,2.5,3.0,1.1
66,5.6,3.0,4.5,1.5
126,6.2,2.8,4.8,1.8
109,7.2,3.6,6.1,2.5


In [12]:
import warnings
warnings.filterwarnings(action='ignore')

In [13]:
## 나이브 베이즈는 가우시안 나이브 베이즈
gnb = GaussianNB()

## 학습
## train 데이터로 학습 진행, X_test 데이터로 결과를 예측하여 y_pred에 입력
fitted = gnb.fit(X_train, y_train)
y_pred = fitted.predict(test_X)
y_pred
print(y_pred)

# 실제값과 y의 예측값을 비교하여 틀린 개수 확인
print("테스트 데이터 수 : %d, 틀린 개수 : %d" %(test_X.shape[0], (np.array(test_y.target.tolist()) != y_pred).sum()))

[1 2 2 1 0 2 1 0 0 1 2 0 1 2 2 2 0 0 1 0 0 1 0 2 0 0 0 2 2 0]
테스트 데이터 수 : 30, 틀린 개수 : 1


In [20]:
## 예측한 클래스와 해당 예측 데이터의 클래스별 확률
# 클래스
print(fitted.classes_)

# 분류된 클래스 수
print(fitted.class_count_)

# 테스트 데이터
display(test_X.head())

# 테스트 데이터 1개에 대한 클래스가 나온 확률
print(fitted.predict_proba(test_X)[:1], '\n')
# round(fitted.predict_proba(test_X)[:1][0][1], 3)

# 테스트 데이터 1개의 클래스
print(fitted.predict(test_X.head()), '\n')

[0 1 2]
[37. 44. 39.]


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
72,6.3,2.5,4.9,1.5
112,6.8,3.0,5.5,2.1
132,6.4,2.8,5.6,2.2
88,5.6,3.0,4.1,1.3
37,4.9,3.6,1.4,0.1


[[7.24143720e-126 9.23061979e-001 7.69380215e-002]] 

[1 2 2 1 0] 



In [34]:
for i, j in enumerate(test_X.head(10)):
    print(f'예측 결과 {i}번 X_train : {y_pred[i]} 클래스')

예측 결과 0번 X_train : 1 클래스
예측 결과 1번 X_train : 2 클래스
예측 결과 2번 X_train : 2 클래스
예측 결과 3번 X_train : 1 클래스


In [36]:
## 특정 값의 클래스별 확률 확인
print(fitted.predict_proba(test_X)[[1, 20]])

# 1번째 데이터는 2범주일 확률이 99%
# 20번째 데이터는 0범주일 확률이 100%

# 특정 변수의 범주별 클래스 확인
fitted.predict(test_X)[[1, 20]]

[[1.81805757e-197 1.22131524e-005 9.99987787e-001]
 [1.00000000e+000 8.57846082e-017 1.77097412e-025]]


array([2, 0])

In [37]:
# Confusion matrix 확인
from sklearn.metrics import confusion_matrix

confusion_matrix(test_y, y_pred)

# 0범주와 1범주의 경우 모두 옳게 분류
# 2범주의 경우 1개 오답으로 분류
# 나이브 베이즈는 투자 대비 효용이 높은 간단한 머신러닝 모델

array([[13,  0,  0],
       [ 0,  6,  0],
       [ 0,  1, 10]], dtype=int64)

In [38]:
# 특정 값에 대해 나이브 베이즈 직접 계산
# 추정한 모델의 클래스별 모수 ( 평균과 분산 ) 확인
# var_ / sigma_ : 클래스별 각 컬럼의 분산
# theta_ : 클래스 별 각 컬럼의 평균

In [39]:
# 데이터 확인
test_X.head(1)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
72,6.3,2.5,4.9,1.5


In [40]:
# 예측할 데이터 ( 테스트 데이터 0행 )
predict_data = np.array(test_X.iloc[0])
predict_data

array([6.3, 2.5, 4.9, 1.5])

In [41]:
# 클래스별 각 피쳐의 평균
fitted.theta_

array([[5.01621622, 3.43243243, 1.46756757, 0.25945946],
       [5.95      , 2.78409091, 4.24090909, 1.32272727],
       [6.58717949, 2.95897436, 5.57948718, 2.02820513]])

In [44]:
# 클래스별 각 피쳐의 분산
fitted.sigma_

array([[0.10568298, 0.14975895, 0.02705625, 0.01214025],
       [0.27068182, 0.10042872, 0.22741736, 0.04221075],
       [0.39752795, 0.11011177, 0.29188692, 0.0774096 ]])

In [43]:
# 클래스별 사전 확률 ( prior probability )
fitted.class_prior_

array([0.30833333, 0.36666667, 0.325     ])

In [45]:
## class별 가능도(likelihood) 산출

likelihood = [
# 0클래스
(sp.stats.norm(fitted.theta_[0][0], np.sqrt(fitted.sigma_[0][0])).pdf(predict_data[0]) *\
sp.stats.norm(fitted.theta_[0][1], np.sqrt(fitted.sigma_[0][1])).pdf(predict_data[1]) *\
sp.stats.norm(fitted.theta_[0][2], np.sqrt(fitted.sigma_[0][2])).pdf(predict_data[2]) *\
sp.stats.norm(fitted.theta_[0][3], np.sqrt(fitted.sigma_[0][3])).pdf(predict_data[3])), \
    
# 1클래스
(sp.stats.norm(fitted.theta_[1][0], np.sqrt(fitted.sigma_[1][0])).pdf(predict_data[0]) *\
sp.stats.norm(fitted.theta_[1][1], np.sqrt(fitted.sigma_[1][1])).pdf(predict_data[1]) *\
sp.stats.norm(fitted.theta_[1][2], np.sqrt(fitted.sigma_[1][2])).pdf(predict_data[2]) *\
sp.stats.norm(fitted.theta_[1][3], np.sqrt(fitted.sigma_[1][3])).pdf(predict_data[3])), \
    
# 2클래스
(sp.stats.norm(fitted.theta_[2][0], np.sqrt(fitted.sigma_[2][0])).pdf(predict_data[0]) *\
sp.stats.norm(fitted.theta_[2][1], np.sqrt(fitted.sigma_[2][1])).pdf(predict_data[1]) *\
sp.stats.norm(fitted.theta_[2][2], np.sqrt(fitted.sigma_[2][2])).pdf(predict_data[2]) *\
sp.stats.norm(fitted.theta_[2][3], np.sqrt(fitted.sigma_[2][3])).pdf(predict_data[3]))
]

likelihood

[2.0700298536453225e-126, 0.2218869448618605, 0.020865556464324073]

In [47]:
## 사후 확률
posterior = likelihood * fitted.class_prior_
print(posterior)

## 정규화
posterior / np.sum(posterior, axis=0)

[6.38259205e-127 8.13585464e-002 6.78130585e-003]


array([7.24143720e-126, 9.23061979e-001, 7.69380215e-002])

In [48]:
## scipy gnb를 사용한 추정값
print(fitted.predict_proba(test_X)[[0]])

# 완벽히 일치하진 않지만 그에 근사하는 값을 추정값으로 계산

[[7.24143720e-126 9.23061979e-001 7.69380215e-002]]


In [49]:
## 2범주에 prior를 높게 줘서, 가중치를 주는 경우

gnb2 = GaussianNB(priors= [1/100, 1/100, 98/100])
fitted2 = gnb2.fit(iris.data, iris.target)
y_pred2 = fitted2.predict(iris.data)
confusion_matrix(iris.target, y_pred2)

array([[50,  0,  0],
       [ 0, 33, 17],
       [ 0,  0, 50]], dtype=int64)

In [50]:
## 1범주에 prior를 높게 줘서, 가중치를 주는 경우

gnb3 = GaussianNB(priors= [1/100, 98/100, 1/100])
fitted3 = gnb3.fit(iris.data, iris.target)
y_pred3 = fitted3.predict(iris.data)
confusion_matrix(iris.target, y_pred3)

array([[50,  0,  0],
       [ 0, 50,  0],
       [ 0, 14, 36]], dtype=int64)

In [52]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')