<font color='tomato'><font color="#CC3D3D"><p>
# 실습#1. Regression with scikit-learn

#### 자주 사용하는 사이킷런 모듈
- 데이터 정제(Data Cleasing) & 속성 공학(Feature Engineering)
    - sklearn.preprocessing: 데이터 전처리(인코딩, 정규화 등)
    - sklearn.feature_selection: 속성선택
    - sklearn.feature_extraction: 속성추출(이미지나 텍스트에서 속성 추출)
- 모형 성능 평가와 개선
    - sklearn.model_selection: 데이터 분리, 검증 및 파라미터 튜닝(GridSearch 등)
    - sklearn.metrics: 성능평가(Recall, Precision, AUC 등)
- 지도학습(Supervised Learning) 알고리즘
    - sklearn.ensemble: 앙상블 알고리즘(RF, AdaBoost 등)
    - sklearn.linear_model: 선형모델(선형회귀, 로지스틱회귀 등) 
    - sklearn.svm: Support Vector Machines (SVM)
    - sklearn.tree: 의사결정나무(Decision Trees)
- 비지도학습(Unsupervised Learning) 알고리즘
    - sklearn.cluster: 군집분석(K-means, DBSCAN 등)
    - sklearn.decomposition: 차원축소(PCA, SVD 등)
- 유틸리티와 데이터 세트 
    - sklearn.pipeline: 워크플로우 효율화
    - sklearn.datasets: 예제 데이터 세트(iris, digits 데이터 등) 
    
#### 사이킷런 기반 머신러닝 프레임워크    
- 사이킷런에서는 분류 알고리즘을 구현한 클래스를 **Classifier**로, 회귀 알고리즘을 구현한 클래스를 **Regressor**로 지칭
    - Ex) DecisionTreeClassifier(분류문제에 사용하는 의사결정나무) vs. DecisionTreeRegressor(회귀문제에 사용하는 의사결정나무)
- Classifier와 Regressor를 합쳐서 **Estimator** 클래스라고 함
    - ML 학습을 위해 fit()을, 예측을 위해 predict()를 제공    

In [None]:
import sklearn
sklearn.__version__

#### 데이터 준비

In [None]:
import pandas as pd

X = pd.read_csv('boston_features.csv')
y = pd.read_csv('boston_target.csv')

In [None]:
X

In [None]:
y

보스턴 주택 가격 데이터: 506개 타운의 주택 가격 중앙값 (단위 1,000 달러)
 - CRIM: 범죄율
 - ZN: 25,000 평방피트를 초과 거주지역 비율
 - INDUS: 비소매상업지역 면적 비율
 - CHAS: 찰스강의 경계에 위치한 경우는 1, 아니면 0
 - NOX: 일산화질소 농도
 - RM: 주택당 방 수
 - AGE: 1940년 이전에 건축된 주택의 비율
 - DIS: 직업센터의 거리
 - RAD: 방사형 고속도로까지의 거리
 - TAX: 재산세율
 - PTRATIO: 학생/교사 비율
 - B: 인구 중 흑인 비율
 - LSTAT: 인구 중 하위 계층 비율

#### 데이터 분할

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

#### 모형 생성 - 선형회귀분석

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
model = LinearRegression()

In [None]:
model.fit(X_train, y_train)

#### 모형 검토

In [None]:
print(model.coef_)
print(model.intercept_)

#### 모형 평가

In [None]:
model.score(X_test, y_test) # R-square(r2_score)

#### 분석결과 시각화

In [None]:
y_pred = model.predict(X_test)
y_pred

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

plt.scatter(y_test, y_pred, edgecolors=(0, 0, 0))
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=4)
plt.xlabel('Measured')
plt.ylabel('Predicted')

#### 새로운 모형 생성 - 회귀나무모형

In [None]:
from sklearn.tree import DecisionTreeRegressor

model = DecisionTreeRegressor(random_state=0)
model.fit(X_train, y_train)
model.score(X_test, y_test)

In [None]:
# 정해진 형식으로 예측결과를 저장
output = pd.DataFrame({'house_id': range(X_test.shape[0]), 'house_price': y_pred.flatten()})
output.to_csv('submission.csv', index=False)

<font color='tomato'><font color="#CC3D3D"><p>
# End