## 赛事介绍
如今的智能机已经很智能了，如果手机可以觉察到我们在生活中的一举一动，知道我们行动的意图，你觉得会如何？智能手机不仅搭载了多种惯性传感器，这使得基于智能手机的人体行为识别研究越来越受关注。

![](https://ai-studio-static-online.cdn.bcebos.com/849f5b245156468c850ad6adad6f5ba649184a062cb44d128ba504c61652ae8a)

在本次赛题由志愿者使用智能手机时，通过基本活动的行为构建而成。希望选手能够构建模型对活动行为进行预测。

## 赛事任务
实验是在 19-48 岁年龄段的 30 名志愿者中进行的。每个人在腰部佩戴智能手机（三星 Galaxy S II）进行六项活动（步行、楼上步行、楼下步行、坐、站、躺）。实验以 50Hz 的恒定速率捕获 3 轴线性加速度和 3 轴角速度。

赛题训练集案例如下：
- 训练集8千条数据；
- 测试集共2000条数据；

数据总共100MB，赛题数据均为csv格式，列使用逗号分割。若使用Pandas读取数据，可参考如下代码：

```
import pandas as pd
import numpy as np

train = pd.read_csv('train.csv.zip')
```

对于数据集中的每一条记录，都提供了以下内容，来自加速度计的三轴加速度（总加速度）和估计的身体加速度、和来自陀螺仪的三轴角速度。总共是具有时域和频域变量的561个特征向量。

测试集中label字段Activity为空，需要选手预测。

## 评审规则

1. 数据说明：选手需要提交测试集队伍排名预测，具体的提交格式如下：
```
Activity
STANDING
LAYING
WALKING
SITTING
WALKING
WALKING_DOWNSTAIRS
STANDING
```

2. 评估指标：本次竞赛的使用准确率进行评分，数值越高精度越高，评估代码参考：
```
from sklearn.metrics import accuracy_score
y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
accuracy_score(y_true, y_pred)
```

## Baseline使用指导
1、点击‘fork按钮’，出现‘fork项目’弹窗         
2、点击‘创建按钮’ ，出现‘运行项目’弹窗    
3、点击‘运行项目’，自动跳转至新页面      
4、点击‘启动环境’ ，出现‘选择运行环境’弹窗     
5、选择运行环境（启动项目需要时间，请耐心等待），出现‘环境启动成功’弹窗，点击确定        
6、点击进入环境，即可进入notebook环境      
7、鼠标移至下方每个代码块内（代码块左侧边框会变成浅蓝色），再依次点击每个代码块左上角的‘三角形运行按钮’，待一个模块运行完以后再运行下一个模块，直至全部运行完成  
![](https://ai-studio-static-online.cdn.bcebos.com/226c72f88f5b4e9d8a55e59129e4c79770aa200f10ef413ca1420ae7d273bc88)  
![](https://ai-studio-static-online.cdn.bcebos.com/866a22a341d64166aaf9a8a3abee09b5a6e2d0cba1c649bb8bdef6b2ad7955f1)  
    
8、下载页面左侧submission.zip压缩包  
![](https://ai-studio-static-online.cdn.bcebos.com/b7f3076301e34462abaf2013dcdbf10a5dcbfe287d5845f1869493e578391f7a)  
     
9、在比赛页提交submission.zip压缩包，等待系统评测结束后，即可登榜！    
![](https://ai-studio-static-online.cdn.bcebos.com/95a9fc4140144a2d8a76258f7a536751c5c6969994154d3da71c80e23757c6c8)  
       
10、点击页面左侧‘版本-生成新版本’  
![](https://ai-studio-static-online.cdn.bcebos.com/e62d0f5ca1454f7485c3eb1351823315480356cafad143c2ab2ff065f95104fe)  
        
11、填写‘版本名称’，点击‘生成版本按钮’，即可在个人主页查看到该项目（可选择公开此项目哦）  

## 数据分析

In [1]:
import pandas as pd
import paddle
import numpy as np

%pylab inline
import seaborn as sns

train_df = pd.read_csv('data/data137267/train.csv.zip')
test_df = pd.read_csv('data/data137267/test.csv.zip')

  from collections import MutableMapping
  from collections import Iterable, Mapping
  from collections import Sized


Populating the interactive namespace from numpy and matplotlib


In [2]:
train_df['Activity'] = train_df['Activity'].map({
    'LAYING': 0,
    'STANDING': 1,
    'SITTING': 2,
    'WALKING': 3,
    'WALKING_UPSTAIRS': 4,
    'WALKING_DOWNSTAIRS': 5
})

## 对数据进行标准化处理，使数据均值为0，方差为1

In [3]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()   #标准化，均值为0，方差为1
scaler.fit(train_df.values[:, :-1])
train_df.iloc[:, :-1] = scaler.transform(train_df.values[:, :-1])
test_df.iloc[:, :] = scaler.transform(test_df.values)

## 利用GradientBoosting对数据特征进行排序，并且生成特征索引列表

In [None]:
columns = train_df.columns
features_columns = columns.delete(len(columns) - 1)  #去掉最后的分类结果
features = train_df[features_columns]
labels = train_df['Activity']



# The labels are in the last column ('Class'). Simply remove it to obtain features columns
from sklearn.ensemble import GradientBoostingClassifier
clf = GradientBoostingClassifier()
X_train  = train_df.iloc[:,:-1]
y_train = train_df["Activity"]
clf.fit(X_train,y_train)
#这个值就是属性重要性的量化
feature_importance = clf.feature_importances_     #找到重要特征
cols = X_train.columns



#从大到小进行排序，就可以看出来那个属性重要了
index = feature_importance.argsort()[::-1]  #由于数据量非常大，排序所用的时间非常的长

In [7]:

importance_feature=list(index)     #将index转化为列表


In [10]:
print(index)

[ 52   9  56  41  53 274 504  50 445 276 348  69  73 508 316 503 201 182
   4  62 450 451 302 351  84 354 296 295 228 209  37 397 434 275 139 214
  63  40 142  74  22  89 117 433 268  25 145 369 233 459 449 104 205 559
 429  51 280 456  67 105 159  70 557 222 166 507 132 185 457 158 474 558
  66 458 371 144 269  55 310   3 301 518 509 179  57 141  54 352 330 314
 300 556 454   5 290 184 374 446 128 298 537 100  75  71 271 345 544  65
  38 265  92 426 239 297 372  28  85  42 163 521 135  39 197 113 549 131
 526 196  24   6 102 149 527  95 447  77 129 176 143 247 198  68 461 281
 215  78 120 368 152 126 299 218 199 202 157  72  87 167 361 432 505  93
 193 376 192 289 325 428 349 266  58 317  86 256 186 223 150 257 353 430
 251 291 560 172 183 541 248 262 138 118 442 240 431 339 411 421 282 551
 232 502  15 216 492 253 403 210 512 133 536  36 462 191  79 170 169  90
 373 270 154 227 318 494 112  45 109 319 343  91 402 516 515  16 493 220
  61 307 475 236 417 204 480 464 362 171 499 181 27

## 搭建模型

## 调用sklearn中的SVM进行模型训练并打印出模型的准确率

In [8]:
# 使用sklearn中的SVM
import sklearn.svm as svm
from sklearn.model_selection import KFold,cross_val_score as CVS,train_test_split as TTS
from sklearn.metrics import accuracy_score

train_X = train_df.iloc[:,importance_feature[:89]] #提取特征集
train_Y = train_df['Activity'] #提取标签
test_X = test_df.iloc[:,importance_feature[:89]]
xtrain,xtest,ytrain,ytest = TTS(train_X,train_Y,test_size = 0.1, random_state = 180)

clf = svm.SVC(kernel='rbf',C = 6.5,gamma=0.0445)  #linear poly rbf sigmoid
clf.fit(xtrain, ytrain)
ytest_pred = clf.predict(xtest)
#模型的测试结果
ACC = accuracy_score(ytest,ytest_pred)

#用于提交的测试结果
test_predict = clf.predict(test_X)
test_predict = pd.DataFrame({'Activity': test_predict})
test_predict['Activity'] = test_predict['Activity'].map({
    0:'LAYING',
    1:'STANDING',
    2:'SITTING',
    3:'WALKING',
    4:'WALKING_UPSTAIRS',
    5:'WALKING_DOWNSTAIRS'
})

test_predict.to_csv('submission.csv', index=None)

!zip submission.zip submission.csv
print(ACC)

updating: submission.csv (deflated 93%)
0.98375


## 未来上分点

1. 模型可以加入残差结构，参考resnet。
2. 数据可以加入数据扩增，比如加噪音。