In [None]:
# 주피터 노트북 환경설정
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

from IPython.display import Image

from IPython.core.display import display, HTML
# display(HTML("<style>.container { font-weight: bold !important; font-family:'Malgun Gothic' !important;}</style>"))
display(HTML("<style>.container { font-weight: bold !important;}</style>"))
display(HTML("<style>.container { width: 98% !important; }</style>"))

In [None]:
import numpy as np
import pandas as pd
import os

import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# 관련 라이브러리 임포트 
import matplotlib.font_manager as fm

#  한글글꼴로 변경
# plt.rcParams['font.family'] = '한글글꼴명'
plt.rcParams['font.size'] = 11.0
# plt.rcParams['font.family'] = 'batang'
plt.rcParams['font.family'] = 'Malgun Gothic'

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
matplotlib.rcParams['axes.unicode_minus'] = False

# 그래프 기본 크기 설정 
plt.rcParams['figure.figsize'] = [10, 6]

# 회귀 트리 

- 결정 트리 기반의 DecisionTreeRegressor, 앙상블 기반의 GMM Regressor, Light GBM Regressor 등 
- 회귀를 위한 트리를 생성하고 이를 기반으로 회귀 예측. 

### 회귀 Estimator 클래스	
Decision Tree Regressor	 <br>
Gradient Boosting Regressor <br>
XGBRegressor <br>
LGBMRegressor <br>


<img src='https://lucy-the-marketer.kr/wp-content/uploads/2021/03/Regression-tree-and-model-tree-example.png'>



<img src='https://t1.daumcdn.net/cfile/tistory/99D8E1385F3FC38109'>

In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, AdaBoostRegressor
from xgboost import XGBRegressor

from sklearn.linear_model import LinearRegression, Ridge, Lasso, LogisticRegression
from sklearn.ensemble import VotingRegressor

from sklearn.metrics import accuracy_score, mean_absolute_error, r2_score, mean_squared_error
from sklearn.metrics import f1_score, recall_score, precision_score, classification_report, r2_score, confusion_matrix

from sklearn.preprocessing import PolynomialFeatures, StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV

from sklearn.pipeline import Pipeline

## 보스턴 데이타셋 준비

```
CRIM: 지역별 범죄 발생률
ZN: 25,000평방피트를 초과하는 거주 지역의 비율
NDUS: 비상업 지역 넓이 비율
CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0)
NOX: 일산화질소 농도
RM: 거주할 수 있는 방 개수
AGE: 1940년 이전에 건축된 소유 주택의 비율
DIS: 5개 주요 고용센터까지의 가중 거리
RAD: 고속도로 접근 용이도
TAX: 10,000달러당 재산세율
PTRATIO: 지역의 교사와 학생 수 비율
B: 지역의 흑인 거주 비율
LSTAT: 하위 계층의 비율
MEDV: 본인 소유의 주택 가격(중앙값)
```

In [None]:
from sklearn.datasets import load_boston

boston = load_boston()
boston_df = pd.DataFrame(boston.data, columns = boston.feature_names)

boston_df['PRICE'] = boston.target
y_target = boston_df['PRICE']
X_data = boston_df.drop(['PRICE'], axis=1,inplace=False)

In [None]:
boston_df.columns

In [None]:
boston_df.describe()

In [None]:
boston_df.sample(3)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_data, y_target, 
                                                    test_size=0.2, random_state=11)

In [None]:
model_linear = LinearRegression()
model_linear.fit(X_train, y_train)
model_linear.score(X_test, y_test), r2_score(y_test, model_linear.predict(X_test))

In [None]:
model_dtr = DecisionTreeRegressor(random_state=0)
model_dtr.fit(X_train, y_train)
model_dtr.score(X_test, y_test), r2_score(y_test, model_dtr.predict(X_test))

In [None]:
model_rfr = RandomForestRegressor(random_state=0, n_estimators=1000)
model_rfr.fit(X_train, y_train)
model_rfr.score(X_test, y_test), r2_score(y_test, model_rfr.predict(X_test))

In [None]:
model_gbr = GradientBoostingRegressor(random_state=0, n_estimators=1000)
model_gbr.fit(X_train, y_train)
model_gbr.score(X_test, y_test), r2_score(y_test, model_gbr.predict(X_test))

In [None]:
model_xgbr = XGBRegressor(random_state=0, n_estimators=1000)
model_xgbr.fit(X_train, y_train)
model_xgbr.score(X_test, y_test), r2_score(y_test, model_xgbr.predict(X_test))

In [None]:
# 랜덤포레스트 중요 피처 속성 
feature_series = pd.Series(data=model_rfr.feature_importances_, index=X_data.columns )
feature_series = feature_series.sort_values(ascending=False)
sns.barplot(x= feature_series, y=feature_series.index)

In [None]:

feature_series = pd.Series(data=model_gbr.feature_importances_, index=X_data.columns )
feature_series = feature_series.sort_values(ascending=False)
sns.barplot(x= feature_series, y=feature_series.index)

In [None]:
from sklearn.tree import plot_tree

plt.figure(figsize=(20,20))
plot_tree(model_dtr, max_depth=3, filled=True, feature_names=X_data.columns, fontsize=12)
plt.show()

In [None]:
model_rfr.get_params()

In [None]:
plt.figure(figsize=(20,20))
plot_tree(model_rfr[999], max_depth=3, filled=True, feature_names=X_data.columns, fontsize=12)
plt.show()