In [1]:
# 경고메시지 무시
import warnings

warnings.filterwarnings("ignore")

## 1. 문제 정의

- 무얼 할 것인지 (What)
- 어떻게 할 것인지 (How)
- 왜 하는지 (Why)
- 어느 데이터를 사용할 것인지 (Which)

## 2. 데이터 수집

- 공공데이터 활용
- 크롤링을 통해 직접 수집
- 설문조사를 통해 직접 수집
- 전화 등을 통해 수집

### 보스톤 집값 데이터 셋

In [2]:
from sklearn.datasets import load_boston

# 데이터 로드

In [3]:
# 딕셔너리로 된 데이터를 데이터프레임으로 변경
import pandas as pd


In [4]:
# !pip install mglearn

### 확장 보스톤 집값 데이터 셋

In [5]:
import mglearn
from mglearn.datasets import load_extended_boston

# 데이터 로드

# 데이터프레임으로 변경


### wine 데이터셋

In [6]:
import pandas as pd

# 파일데이터 로드

In [7]:
# 도수(10)를 Y로 사용


## 3. 데이터 분석 (시각화, EDA - 탐색적 데이터분석)

- 데이터를 세부적으로 살펴보는 것 <br> 
  (결측치, 이상치, 데이터분포, 라벨의 분포, 범주형 데이터의 종류 등 확인)
- 데이터를 시각화
- 데이터를 어떻게 수정할 것인지 결정

#### heatmap

- Target Feature와 나머지 독립변수들의 상관계수를 직관적으로 확인
- 데이터.corr() : heatmap에 사용할 데이터의 상관계수

In [8]:
import seaborn as sb
import matplotlib.pyplot as plt

# heatmap


In [9]:
# 결측치 확인


In [10]:
# 이상치 확인


## 4. 데이터 전처리 / 특성공학 

- 데이터를 목적에 맞게 변경
- 결측치, 이상치 제거
- 데이터 정재 (틀린 데이터를 수정)
- 특성 선택 (어떤 특성을 사용할 것인지 선택)
- 스케일링 (숫자형 데이터를 일정 범위로 변경)
- 일반화 (데이터를 정규분포로 변경)
- 정규화 (범주형 데이터의 class의 수를 변경 - 감소)
- 범주형 데이터를 숫자로 변경 (one-hot-encoding)
- 훈련데이터와 테스트데이터로 분리

#### 훈련 데이터와 테스트 데이터 분리

In [11]:
from sklearn.model_selection import train_test_split


## 5. 모델 선택 및 학습

- 좋은 모델을 선택
- 학습 -> fit()

### KNN

In [12]:
from sklearn.neighbors import KNeighborsRegressor

# model_knn

###  Linear Regression

In [13]:
from sklearn.linear_model import LinearRegression

# model_lr

### Ridge

- L2 규제 : 큰 값은 줄이고 작은 값은 크게하여 feature가 적은 경우에 숫자가 작은 feature도 학습에 참여할 수 있게 함
- alpha 값으로 설정

In [14]:
from sklearn.linear_model import Ridge

# model_ridge

### Lasso

- L1 규제 : feature가 많은 경우 크기가 작은 feature를 버리고 학습하는 것
- alpha 값으로 설정
- feature selection에서 사용

In [15]:
from sklearn.linear_model import Lasso

# model_lasso

### SVM

- 전처리로 스케일링이 필요

In [16]:
from sklearn.svm import SVR, LinearSVR

# model_svr

# model_lsvr

## 6. 평가

- MSE / RMSE : mean_squared_error()
-  R^2 점수 -> score(), r2_score() <br>
(정밀도(R^2) : 평균 모델과 비교하여 얼마나 유사한지를 평가)
- 교차검증

In [17]:
from sklearn.metrics import mean_squared_error
import numpy as np

# KNN, 선형회귀, Ridge, Lasso, SVR, LinearSVR MSE 오차점수 확인

## 7. 모델 개선

- 파라미터 튜닝 -> GridSearchCV()
- 모델을 중복해서 사용 -> Stacking, Pipeline()

#### 파라미터 튜닝

In [18]:
import matplotlib.pyplot as plt

# KNeighborsClassifier의 n_neighbors 파라메터의 이웃 수 변화에 따른 RMSE 오차 변화


In [19]:
# 최적의 alpha값은? (Ridge, Lasso)
import matplotlib.pyplot as plt

train_error = []
test_error = []


## 8. 예측

In [20]:
# KNN 
# print("실제값 : ", )
# print("예측값 : ", )