#**스마트폰 센서 데이터 기반 모션 분류**
# 단계3 : 단계별 모델링


## 0.미션

* 나만의 앙상블 모델 만들기.
    * 1. 다양한 종류의 모델을 생성(미션3에서 생성한 모델 활용)
    * 2. 각 모델을 통합하여 예측하는 앙상블 모델링
        * Voting, Stacking
        * 앙상블을 위한 다양한 시도를 해 봅시다.
            - 예① : 미션3에서 생성한 모델을 이용한 앙상블
            - 예② : Random Jungle!(Random Forest 여러 개로 예측하는 모델)

* 파이프라인 구축
    * 테스트 데이터를 입력하면, 전처리 + 예측 예측결과가 나오도록 파이프라인을 구성합니다.

* 성능 가이드
    * Accuracy : 0.97 ~


## 1.환경설정

* 세부 요구사항
    - 경로 설정 : 로컬 수행(Ananconda)
        * 제공된 압축파일을 다운받아 압축을 풀고
        * anaconda의 root directory(보통 C:/Users/< ID > 에 project3_1 폴더를 만들고, 복사해 넣습니다.
    - 기본적으로 필요한 라이브러리를 import 하도록 코드가 작성되어 있습니다.
        * 필요하다고 판단되는 라이브러리를 추가하세요.


### (1) 라이브러리 로딩

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm.auto import tqdm
import warnings
warnings.filterwarnings('ignore')

import joblib
from sklearn.ensemble import StackingClassifier, VotingClassifier

# 필요한 라이브러리, 함수 로딩 ------------------




* 제공 함수 생성
    * 변수 중요도를 시각화할 수 있는 함수를 제공합니다.
    * 입력 :
        * importance : 트리모델의 변수 중요도(예: model.feature_importances_)
        * names : 변수 이름 목록(예 : x_train.columns
        * result_only  : 변수 중요도 순으로 데이터프레임만 return할지, 그래프도 포함할지 결정. False이면 결과 데이터프레임 + 그래프
        * topn : 중요도 상위 n개만 표시. all 이면 전체.
    * 출력 :
        * 중요도 그래프 : 중요도 내림차순으로 정렬
        * 중요도 데이터프레임 : 중요도 내림차순으로 정렬

In [None]:
# 변수의 특성 중요도 계산하기
def plot_feature_importance(importance, names, result_only = False, topn = 'all'):
    feature_importance = np.array(importance)
    feature_name = np.array(names)

    data={'feature_name':feature_name,'feature_importance':feature_importance}
    fi_temp = pd.DataFrame(data)

    #변수의 특성 중요도 순으로 정렬하기
    fi_temp.sort_values(by=['feature_importance'], ascending=False,inplace=True)
    fi_temp.reset_index(drop=True, inplace = True)

    if topn == 'all' :
        fi_df = fi_temp.copy()
    else :
        fi_df = fi_temp.iloc[:topn]

    #변수의 특성 중요도 그래프로 그리기
    if result_only == False :
        plt.figure(figsize=(10,20))
        sns.barplot(x='feature_importance', y='feature_name', data = fi_df)

        plt.xlabel('importance')
        plt.ylabel('feature name')
        plt.grid()

    return fi_df

### (2) 데이터 불러오기

* 주어진 데이터셋
    * data01_train.csv : 학습 및 검증용
    * data01_test.csv : 테스트용
    
* 세부 요구사항
    * 칼럼 삭제 : data01_train.csv와 data01_test.csv 에서 'subject' 칼럼은 불필요하므로 삭제합니다.

#### 1) 데이터로딩

In [None]:
file1 = 'data01_train.csv'
file2 = 'data01_test.csv'

In [None]:
data = pd.read_csv(file1)
test = pd.read_csv(file2)

In [None]:
# 불필요한 칼럼 삭제
data.drop('subject', axis=1, inplace=True)
test.drop('subject', axis=1, inplace=True)

#### 2) 기본 정보 조회

In [None]:
#전체 데이터의 행,열 개수 확인
data.shape

In [None]:
#전체 데이터의 상위 5개 행 확인
data.head()

In [None]:
#전체 데이터의 수치형 변수 분포 확인
data.describe()

In [None]:
#전체 데이터의 모든 변수 확인
data.columns

## **2. 데이터 전처리**

* 가변수화, 데이터 분할, NaN 확인 및 조치, 스케일링 등 필요한 전처리를 수행한다.


### (1) 데이터 분할1 : x, y

* 세부 요구사항
    - x, y로 분할합니다.

### (2) 데이터분할2 : train, validation

* 세부 요구사항
    - train : val = 8 : 2 혹은 7 : 3
    - random_state 옵션을 사용하여 다른 모델과 비교를 위해 성능이 재현되도록 합니다.

### (3) 스케일링


* 세부 요구사항
    - 스케일링을 필요로 하는 알고리즘 사용을 위해서 코드 수행
    - min-max 방식 혹은 standard 방식 중 한가지 사용.

### (4) (옵션)KNN을 위한 전처리
* KNN은 대량의 데이터에 대한 거리 계산을 할때, 데이터를 연속적인 메모리 블록에 저장하는 것이 중요합니다.
* c_contiguous 속성을 요구

In [None]:
x_train = np.ascontiguousarray(x_train)
x_val = np.ascontiguousarray(x_val)

## **3.앙상블 모델링**
* Voting 혹은 Stacking 방식의 앙상블 모델을 구성하고 성능을 평가해 봅시다.


### (1) 모델 로딩하기

* 세부 요구사항
    * 2.기본 모델링 파일에서 저장한 모델을 로딩합니다.(joblib.load)


### (2) 앙상블 모델 생성


## 4.파이프라인 구성

### (1) 함수 만들기

### (2) test 셋으로 예측하고 평가하기