## 정형 데이터와 비정형 데이터
> - 정형 데이터 : **행(Row)**과 열(Column) 형태로 정리된 표(Table) 기반 데이터
> - 정형 데이터 사용 알고리즘 : 선형 회귀 (Linear Regression), 로지스틱 회귀 (Logistic Regression), 의사결정트리 (Decision Tree)
> - 비정형 데이터 : 텍스트, 이미지, 음성, 영상 등 규칙적인 구조가 없는 데이터
> - 비정형 데이터 사용 알고리즘 : <br>
 -- RNN (Recurrent Neural Network) — 순서 있는 데이터 (텍스트, 시계열) <br>
 -- CNN (Convolutional Neural Network) — 공간 구조 있는 데이터 (이미지, 영상)  <br>
 -- LSTM (Long Short-Term Memory) — RNN의 발전형 (장기 기억 가능) // RNN의 기억력 문제를 해결한 고급 RNN 구조

### 1. 랜덤 포레스트
>- 결정 트리(Decision Tree)의 단점을 보완한 앙상블(Ensemble) 모델
>- 결정 트리(Decision Tree)는 해석이 쉽지만, 데이터에 너무 민감해서 과적합(Overfitting) 되기 쉽습니다
>- 여러 트리를 각각 다르게 학습시켜서, 그들의 평균(혹은 투표)을 취하면 → 과적합이 줄고 일반화 성능이 높아집니다
>- 여러 개의 결정 트리(Decision Tree)를 무작위로 만들어, 그들의 예측을 투표(Voting) 나 평균(Averaging) 해서 결과를 내는 모델
> - 여러 트리를 심어서(포레스트 = 숲), 다수결로 예측한다

#### **앙상블 모델**이란 여러 개의 머신러닝 모델을 조합하여, 하나의 예측 결과를 만드는 기법

#### **부트스트랩 샘플**
>  1,000개의 샘플이 들어있는 가방에서 100개의 샘플을 뽑는다면 먼저 1개를 뽑고, <br>
 뽑았던 1개를 다시 가방에 넣는다. 이러식으로 계속해서 100개를 가방에서 뽑으면 중복된 샘플을 뽑을 수 있다. <br>
 이러한 샘플을 **부트스트랩 샘플** 이라고 한다.

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

wine = pd.read_csv('https://bit.ly/wine_csv_data')

# data = wine[['alcohol', 'sugar', 'pH']]
# target = wine['class']

data = wine[wine.columns[:-1]]   # 마지막 열 제외
target = wine[wine.columns[-1]] 
# print(data.head())
# print('*' * 50 )
# print(target.head())

train_input, test_input, train_target, test_target = train_test_split(
    data, target, test_size=0.2, random_state=42)

In [2]:
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier

# n_jobs=-1: CPU 모든 코어를 사용해서 처리
rf = RandomForestClassifier(n_jobs=-1, random_state=42)

# 교차 검증(Cross Validation) 으로 모델 평가
# train_input => 입력 데이터 (특성), train_target -> 타깃 데이터 (정답), return_train_score=True -> 훈련 세트의 점수도 함께 반환
scores = cross_validate(rf, train_input, train_target, return_train_score=True, n_jobs=-1)

print("훈련 세트 평균 점수:", np.mean(scores['train_score']))
print("검증 세트 평균 점수:", np.mean(scores['test_score']))

훈련 세트 평균 점수: 0.9973541965122431
검증 세트 평균 점수: 0.8905151032797809


In [3]:
rf.fit(train_input, train_target)
print("특성 중요도(feature importance) 확인 : ", rf.feature_importances_)

# 'alcohol', 'sugar', 'pH' 순
# [0.23167441 0.50039841 0.26792718]

특성 중요도(feature importance) 확인 :  [0.23167441 0.50039841 0.26792718]


In [4]:
# oob_score=True -> 부트스트랩 샘플을 활용해 모델의 검증 점수를 자동으로 계산하도록 설정하는 것
#                -> OOB(out-of-bag) 점수 계산 활성화
# oob => 사용되지 않은 샘플(out-of-bag)
# oob 샘플을 그 트리의 검증용으로 다시 사용하는 것

rf = RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42)
rf.fit(train_input, train_target)
print("검증 세트 점수:",rf.oob_score_)

검증 세트 점수: 0.8934000384837406


### 2. 엑스트라 트리
> - 랜덤 포레스트(Random Forest) 와 비슷하지만 좀 더 “무작위성(randomness)”을 강하게 적용한 모델
> - 랜덤 포레스트보다 더 랜덤하게 트리를 만드는 모델
> - 여러 개의 무작위한 결정 트리(Decision Tree) 를 만들어 그 예측을 평균(회귀) 또는 투표(분류) 하는 앙상블 모델
> - 부트스트랩을 사용하지 않음
> - 랜덤 포레스트는 데이터를 랜덤하게 조금씩 썩어서 가장 잘 나누는 기준으로 트리를 만듦
> - 데이터를 썩고(그대로 사용) , 대신 나누는 기준 자체를 랜덤하게 정함(약간 운에 좌우됨)

In [5]:
from sklearn.ensemble import ExtraTreesClassifier

et = ExtraTreesClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(et, train_input, train_target,
                        return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9974503966084433 0.8887848893166506


In [6]:
et.fit(train_input, train_target)
print(et.feature_importances_)

[0.20183568 0.52242907 0.27573525]


### 3. 그레이디언트 부스팅
> - **부스팅** 이란? 여러 개의 약한 모델(weak learner, 예: 얕은 결정트리)을 순차적으로 학습시키면서, 이전 모델의 오류를 보완하는 방식
> - **부스팅** 이란? **정확도를 더 높이기 위해 만든 “업그레이드형 트리 모델”**
> - 부스팅(Boosting) 방식 중에서도 오류를 보정할 때 **“기울기(gradient)”** 를 이용하는 방법이에요
> - **“경사하강법(gradient descent)”** 처럼 이전 모델의 오차 방향을 따라 점점 개선해나간다.


In [7]:
from sklearn.ensemble import GradientBoostingClassifier
# 트리 개수를 100
gb = GradientBoostingClassifier(random_state=42)
scores = cross_validate(gb, train_input, train_target,
                        return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.8881086892152563 0.8720430147331015


In [8]:
# 트리 개수를 100 → 500개로 늘림
# 학습률을 0.1 → 0.2로 높임, 매 단계(트리)마다 이전 모델의 오류를 얼마나 크게 보정할지를 결정하는 비율
# 오차의 10%만 반영 => 오차의 20% 반영
gb = GradientBoostingClassifier(n_estimators=500, learning_rate=0.2,
                                random_state=42)
scores = cross_validate(gb, train_input, train_target,
                        return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9464595437171814 0.8780082549788999


In [9]:
gb.fit(train_input, train_target)
print(gb.feature_importances_)

[0.15882696 0.6799705  0.16120254]


### 4. 히스토그램 기반 그레이디언트 부스팅
>- 이전 모델이 틀린 부분(실수한 부분) 을 기억(=히스토리) 해 두고 그걸 다음 모델이 고쳐주는 방식이에요.
>- 이전 모델이 틀린 부분(오류 기록)을 참고해서, 다음 모델이 점점 더 잘 맞추도록 고쳐 나가는 방법

In [10]:
from sklearn.ensemble import HistGradientBoostingClassifier

hgb = HistGradientBoostingClassifier(random_state=42)
scores = cross_validate(hgb, train_input, train_target,
                        return_train_score=True, n_jobs=-1)

print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9321723946453317 0.8801241948619236


In [11]:
from sklearn.inspection import permutation_importance

hgb.fit(train_input, train_target)
result = permutation_importance(hgb, train_input, train_target, n_repeats=10, random_state=42, n_jobs=-1)
print(result.importances_mean)

[WinError 2] 지정된 파일을 찾을 수 없습니다
  File "C:\Users\ict\anaconda3\Lib\site-packages\joblib\externals\loky\backend\context.py", line 257, in _count_physical_cores
    cpu_info = subprocess.run(
        "wmic CPU Get NumberOfCores /Format:csv".split(),
        capture_output=True,
        text=True,
    )
  File "C:\Users\ict\anaconda3\Lib\subprocess.py", line 554, in run
    with Popen(*popenargs, **kwargs) as process:
         ~~~~~^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\ict\anaconda3\Lib\subprocess.py", line 1039, in __init__
    self._execute_child(args, executable, preexec_fn, close_fds,
    ~~~~~~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
                        pass_fds, cwd, env,
                        ^^^^^^^^^^^^^^^^^^^
    ...<5 lines>...
                        gid, gids, uid, umask,
                        ^^^^^^^^^^^^^^^^^^^^^^
                        start_new_session, process_group)
                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "C:\Users\ict\an

[0.08876275 0.23438522 0.08027708]
