#**스마트폰 센서 데이터 기반 모션 분류**
# 단계2 : 기본 모델링


## 0.미션

* 데이터 전처리
    * 가변수화, 데이터 분할, NaN 확인 및 조치, 스케일링 등 필요한 전처리 수행
* 다양한 알고리즘으로 분류 모델 생성
    * 최소 4개 이상의 알고리즘을 적용하여 모델링 수행 
    * 성능 비교
    * 각 모델의 성능을 저장하는 별도 데이터 프레임을 만들고 비교
* 옵션 : 다음 사항은 선택사항입니다. 시간이 허용하는 범위 내에서 수행하세요.
    * 상위 N개 변수를 선정하여 모델링 및 성능 비교
        * 모델링에 항상 모든 변수가 필요한 것은 아닙니다.
        * 변수 중요도 상위 N개를 선정하여 모델링하고 타 모델과 성능을 비교하세요.
        * 상위 N개를 선택하는 방법은, 변수를 하나씩 늘려가며 모델링 및 성능 검증을 수행하여 적절한 지점을 찾는 것입니다.

## 1.환경설정

### (1) 라이브러리 불러오기

* 세부 요구사항
    - 기본적으로 필요한 라이브러리를 import 하도록 코드가 작성되어 있습니다.
    - 필요하다고 판단되는 라이브러리를 추가하세요.

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from joblib import Parallel, delayed
# 필요하다고 판단되는 라이브러리를 추가하세요.

#One-hot Encoding
from sklearn.preprocessing import MinMaxScaler

#train,test split
from sklearn.model_selection import train_test_split

#ML
from sklearn.ensemble import RandomForestClassifier

#Random search
from sklearn.model_selection import RandomizedSearchCV

* 함수 생성

In [6]:
# 변수의 특성 중요도 계산하기
def plot_feature_importance(importance, names, result_only = False, topn = 'all'):
    feature_importance = np.array(importance)
    feature_name = np.array(names)

    data={'feature_name':feature_name,'feature_importance':feature_importance}
    fi_temp = pd.DataFrame(data)

    #변수의 특성 중요도 순으로 정렬하기
    fi_temp.sort_values(by=['feature_importance'], ascending=False,inplace=True)
    fi_temp.reset_index(drop=True, inplace = True)

    if topn == 'all' :
        fi_df = fi_temp.copy()
    else :
        fi_df = fi_temp.iloc[:topn]

    #변수의 특성 중요도 그래프로 그리기
    if result_only == False :
        plt.figure(figsize=(10,20))
        sns.barplot(x='feature_importance', y='feature_name', data = fi_df)

        plt.xlabel('importance')
        plt.ylabel('feature name')
        plt.grid()

    return fi_df

### (2) 데이터 불러오기

* 주어진 데이터셋
    * data01_train.csv : 학습 및 검증용
* 세부 요구사항
    - 전체 데이터 'data01_train.csv' 를 불러와 'data' 이름으로 저장합니다.
        - data에서 변수 subject는 삭제합니다.
    - 데이터프레임에 대한 기본 정보를 확인합니다.( .head(), .shape 등)

#### 1) 데이터 로딩

In [7]:
import joblib
importance= joblib.load('result_df.pkl')

In [8]:
importance_agg = joblib.load('sensor_agg.pkl')

In [9]:
origin = pd.read_csv('data01_train.csv')

In [10]:
df_le = origin.copy()

#### 2) 기본 정보 조회

In [11]:
df_le.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5881 entries, 0 to 5880
Columns: 563 entries, tBodyAcc-mean()-X to Activity
dtypes: float64(561), int64(1), object(1)
memory usage: 25.3+ MB


In [12]:
le = LabelEncoder()
df_le['Activity'] = le.fit_transform(df_le['Activity'])

In [13]:
df_le['Activity'].unique()

array([2, 0, 3, 4, 5, 1])

## **2. 데이터 전처리**

* 가변수화, 데이터 분할, NaN 확인 및 조치, 스케일링 등 필요한 전처리를 수행한다. 


### (1) 데이터 분할1 : x, y

* 세부 요구사항
    - x, y로 분할합니다.

In [14]:
target = 'Activity'
x = df_le.drop(target, axis=1)
y = df_le[target]

### (2) 스케일링(필요시)


* 세부 요구사항
    - 스케일링을 필요로 하는 알고리즘 사용을 위해서 코드 수행
    - min-max 방식 혹은 standard 방식 중 한가지 사용.

In [1]:
# scaler = MinMaxScaler()
# x = scaler.fit_transform(x)

### (3) 데이터분할2 : train, validation

* 세부 요구사항
    - train : val = 8 : 2 혹은 7 : 3
    - random_state 옵션을 사용하여 다른 모델과 비교를 위해 성능이 재현되도록 합니다.

In [16]:
x_train, x_val, y_train, y_val = train_test_split(x,y,test_size=0.2, random_state=1)

## **3. 기본 모델링**



* 세부 요구사항
    - 최소 4개 이상의 알고리즘을 적용하여 모델링을 수행한다. 
    - 각 알고리즘별로 전체 변수로 모델링, 상위 N개 변수를 선택하여 모델링을 수행하고 성능 비교를 한다.
    - (옵션) 알고리즘 중 1~2개에 대해서, 변수 중요도 상위 N개를 선정하여 모델링하고 타 모델과 성능을 비교.
        * 상위 N개를 선택하는 방법은, 변수를 하나씩 늘려가며 모델링 및 성능 검증을 수행하여 적절한 지점을 찾는 것이다.

### (1) 알고리즘1 : 
#### 전체 변수 + Hyper parameter Tuning(RS) + RF

In [17]:
model_dt = RandomForestClassifier(random_state=1)

In [18]:
param ={
    'max_depth':range(1,51),
    'n_estimators':range(1,51),
    'min_samples_leaf':range(1,51),
    'min_samples_split':range(1,51)
    
}

In [15]:
model = RandomizedSearchCV(model_dt, param,cv=5,n_iter=20,scoring='accuracy')

In [16]:
model.fit(x_train,y_train)

In [17]:
print('=' * 80)
print(model.cv_results_['mean_test_score'])
print('-' * 80)
print('최적파라미터:', model.best_params_)
print('-' * 80)
print('최고성능:', model.best_score_)
print('=' * 80)

[0.94132634 0.93558822 0.94196599 0.94961833 0.93962647 0.94260293
 0.94260407 0.93707667 0.92878626 0.93580053 0.8175992  0.9470674
 0.81526421 0.93771294 0.94047754 0.9545063  0.95472065 0.76871074
 0.94876817 0.94983019]
--------------------------------------------------------------------------------
최적파라미터: {'n_estimators': 8, 'min_samples_split': 3, 'min_samples_leaf': 6, 'max_depth': 43}
--------------------------------------------------------------------------------
최고성능: 0.9547206457593778


### (2) 알고리즘2 : 모델 경량화 RFE 적용

In [22]:
from sklearn.feature_selection import RFECV

In [23]:
estimator = RandomForestClassifier(random_state=1)

In [24]:
rfecv = RFECV(estimator, step=0.05, cv=5, n_jobs=-1, verbose=1)

In [None]:
rfecv.fit(x, y)

### (3) 알고리즘3 : 

In [13]:
df_fl = df_le.copy()

In [14]:
features = pd.read_csv('features_fixed.csv')

In [19]:
feature_temp = features.copy()
feature_temp

Unnamed: 0,sensor,agg,axis,feature_name
0,tBodyAcc,mean(),X,tBodyAcc-mean()-X
1,tBodyAcc,mean(),Y,tBodyAcc-mean()-Y
2,tBodyAcc,mean(),Z,tBodyAcc-mean()-Z
3,tBodyAcc,std(),X,tBodyAcc-std()-X
4,tBodyAcc,std(),Y,tBodyAcc-std()-Y
...,...,...,...,...
556,angle,tBodyGyroMean,gravityMean,"angle(tBodyGyroMean,gravityMean)"
557,angle,tBodyGyroJerkMean,gravityMean,"angle(tBodyGyroJerkMean,gravityMean)"
558,angle,X,gravityMean,"angle(X,gravityMean)"
559,angle,Y,gravityMean,"angle(Y,gravityMean)"


In [24]:
del_name1 = feature_temp['feature_name'].loc[(feature_temp['sensor']=='fBodyAccJerk') | (feature_temp['sensor']=='fBodyBodyAccJerkMag') | (feature_temp['sensor']=='fBodyBodyGyroJerkMag') | (feature_temp['sensor']=='tBodyGyroMag')]

In [26]:
# feature_temp['feature_name'].loc[feature_temp['sensor']!='fBodyAccJerk']
temp = df_fl.drop(del_name1, axis=1)

In [57]:
# feature_temp.loc[feature_temp['sensor']=='fBodyBodyAccJerkMag']
# feature_temp.loc[feature_temp['sensor']=='fBodyBodyGyroJerkMag']
# feature_temp.loc[feature_temp['sensor']=='fBodyBodyGyroJerkMag']

In [27]:
temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5881 entries, 0 to 5880
Columns: 445 entries, tBodyAcc-mean()-X to Activity
dtypes: float64(443), int32(1), int64(1)
memory usage: 19.9 MB


In [49]:
# importance.sort_values(by='all',ascending=False)[:64]

In [36]:
importance_num = importance.drop('feature_name',axis=1)

In [40]:
df_importance = importance.copy()
df_importance['total_sum'] = importance_num.sum(axis=1)

In [42]:
df_importance['total_mean'] = importance_num.mean(axis=1)

In [44]:
df_importance['max'] = importance_num.max(axis=1)

In [55]:
top100 = df_importance.sort_values(by='total_sum',ascending=False)[:100]
top100_features = top100['feature_name']

In [57]:
df_fl[top100_features].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5881 entries, 0 to 5880
Data columns (total 100 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   tGravityAcc-mean()-Y                5881 non-null   float64
 1   angle(Y,gravityMean)                5881 non-null   float64
 2   tGravityAcc-min()-Y                 5881 non-null   float64
 3   tGravityAcc-energy()-X              5881 non-null   float64
 4   tGravityAcc-min()-X                 5881 non-null   float64
 5   angle(X,gravityMean)                5881 non-null   float64
 6   tGravityAcc-mean()-X                5881 non-null   float64
 7   tGravityAcc-max()-Y                 5881 non-null   float64
 8   tGravityAcc-energy()-Y              5881 non-null   float64
 9   tGravityAcc-max()-X                 5881 non-null   float64
 10  tGravityAcc-min()-Z                 5881 non-null   float64
 11  fBodyAccJerk-bandsEnergy()-1,24     5881 n

In [None]:
estimator = RandomForestClassifier(random_state=1)
rfe = RFE(estimator,n_features_to_select=64,step=1)


### (4) 알고리즘4 : 