## 비선형 회귀

![비선형회귀_2](https://user-images.githubusercontent.com/35517797/70027683-05ab5f80-15e6-11ea-959b-b378ab20d631.png)

![비선형회귀_3](https://user-images.githubusercontent.com/35517797/70027684-07752300-15e6-11ea-9f40-a639726a81d0.png)

![비선형회귀_1](https://user-images.githubusercontent.com/35517797/70027612-de549280-15e5-11ea-8006-1a228ba44c82.png)



> 첫번째 이미지에서 보이는 데이터들의 패턴을 파악할 경우, 직선(선형)만으로 파악할 경우 패턴을 제대로 따르지 못한다. 따라서 이 경우 선형이 아닌 비선형(곡선)으로 패턴을 파악하여야 한다.

* 예를들어 이 패턴의 경우 겨울과 여름철 에어컨 가격 변동이라하자, 선형으로 패턴을 파악할 경우 시간이 지남에 따라 가격이 계속해서 하락하는 패턴으로 잘못파악하게 된다

## scikit-learn pipeline

여러 변환 단계를 정확한 순서대로 실행할 수 있도록 하는 파이프라인 <br>
연속된 변환을 순서대로 처리할 수 있도록 도와주는 scikit-learn의 pipeline 클래스

> 전처리 단계를 한번에

Pipeline은 연속된 단계를 나타내는 이름/추정기 쌍의 목록을 입력으로 받습니다. 마지막 단계에는 변환기와 추정기를 모두 사용할 수 있고 그 외에는 모두 변환기여야 합니다(즉 fit_transform() 메서드를 가지고 있어야 합니다). 이름은 무엇이든 상관없지만, 이중 밑줄 문자(__)는 포함하지 않아야 합니다. <br>

파이프라인의 fit() 메서드를 호출하면 모든 변환기의 fit_transform() 메서드를 순서대로 호출하면서 한 단계의 출력을 다음 단계의 입력으로 전달합니다. 마지막 단계에서는 fit()메서드만 호출합니다. <br>

파이프라인 객체는 마지막 추정기와 동일한 메서드를 제공합니다. 이 예에서는 마지막 추정기가 변환기 StandardScaler이므로 파이프라인이 데이터에 대해 모든 변환을 순서대로 적용하는 transform() 메서드를 가지고 있습니다(또한 fit_transform() 메서드도 가지고 있습니다)

In [6]:
# 설명 및 코드출처 https://stickie.tistory.com/77

In [8]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import Imputer, StandardScaler
from sklearn.preprocessing import OnehotEncoder, CategoricalEncoder

# 숫자형 변수를 전처리하는 Pipeline
num_pipeline = Pipeline([
    ('selector', DataFrameSelector(num_attr)),
    ('imputer', Imputer(strategy = 'median')),
    ('std_scaler', StandardScaler())
])

# 범주형 변수를 전처리하는 Pipeline
cat_pipeline = Pipeline([
    ('selector', DataFrameSelector(cat_attr)),
    ('cat_encoder', CategoricalEncoder(encoding = 'onehot-dense'))
])

위와 같이 하나의 데이터셋에서 수치형 변수, 범주형 변수에 대한 파이프라인을 각각 만들었습니다. <br>
어떻게 두 파이프라인을 하나로 합칠 수 있을까요? 정답은 사이킷런의 FeatureUnion입니다. <br>
변환기 목록을 전달하고 transform() 메서드를 호출하면 각 변환기의 transform() 메서드를 병렬로 실행합니다.그런 다음 각 변환기의 결과를 합쳐 반환합니다. 숫자형과 범주형 특성을 모두 다루는 전체 파이프라인은 다음과 같습니다.

In [None]:
# num_pipeline과 cat_pipeline을 합치는 FeatureUnion
full_pipeline = FeatureUnion(transformer_list = [
  ('num_pipeline', num_pipeline),
  ('cat_pipeline', cat_pipeline),
  ])
  
# 전체 파이프라인 실행  
housing_prepared = full_pipeline.fit_transform(housing)
print(housing_prepared)

In [None]:
### 전체 코드

from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.preprocessing import Imputer, StandardScaler
from sklearn.preprocessing import OnehotEncoder, CategoricalEncoder


num_attr = list(housing_num)
cat_attr = ["ocean_proximity"]

# 숫자형 변수를 전처리하는 Pipeline
num_pipeline = Pipeline([
    ('selector', DataFrameSelector(num_attr)),
    ('imputer', Imputer(strategy = 'median')),
    ('std_scaler', StandardScaler())
])

# 범주형 변수를 전처리하는 Pipeline
cat_pipeline = Pipeline([
    ('selector', DataFrameSelector(cat_attr)),
    ('cat_encoder', CategoricalEncoder(encoding = 'onehot-dense'))
])

# num_pipeline과 cat_pipeline을 합치는 FeatureUnion
full_pipeline = FeatureUnion(transformer_list = [
  ('num_pipeline', num_pipeline),
  ('cat_pipeline', cat_pipeline),
  ])

# 전체 파이프라인 실행  
housing_prepared = full_pipeline.fit_transform(housing)
print(housing_prepared)

In [None]:
# 예제2

# 데이터에서 패턴을 찾는 일은 종종 기능 선택, 정규화 및 분류와 같은 일련의 데이터 처리 단계에서 진행됩니다. sklearn 에서는이 단계에 대한 파이프 라인이 사용됩니다.
# 예를 들어, 다음 코드는 두 단계로 구성된 파이프 라인을 보여줍니다. 첫 번째는 피처의 크기를 조정하고 두 번째는 결과로 생성되는 증분 된 데이터 세트의 분류자를 훈련시킵니다.

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

pipeline = make_pipeline(StandardScaler(), KNeighborsClassifier(n_neighbors=4))

# 일단 파이프 라인이 생성되면 일반 단계와 같이 사용할 수 있습니다 (구체적인 단계에 따라 다름). 예를 들어, 파이프 라인은 분류 자처럼 작동합니다. 따라서 다음과 같이 사용할 수 있습니다.

# fitting a classifier
pipeline.fit(X_train, y_train)
# getting predictions for the new data sample
pipeline.predict_proba(X_test)