# 实例：人体运动状态预测
1、**背景介绍**

- 可穿戴设备流行，从而可以获取到人体各项数据，包括生理数据
- 当采集到大量数据后，即可通过数据进行分析和建模，利用各项特征的数值进行用户状态的判断，根据用户所处的状态霆给用户更精确、便利的服务。

2、**数据介绍**

- 收集A、B、C、D、E五位用户可穿戴设备的数据，每个用户的数据集包含一个特征文件（a.feature）和一个标签文件（a.label）

- 特征文件中每一行对应一个时刻的所有数值，标签文件中每行记录了和特征文件中对于时刻的标记过的用户姿态，两个文件行数一致，相同行之间互相对应。

- 特征文件数据介绍：
 - 第一列：时间戳
 - 第二列：心率数据
 - 第3-15列：传感器1的数据
   - 第三列：温度数据，反映当前活动的剧烈程度，静止状态体温趋于36.5度上下；当温度高于37度时，可能是短时间的剧烈运动，如：跑步、骑行
   - 4-6列：一型三轴加速度；7-9列：二型三轴加速度。通过使用这两个型号的加速度传感器，利用互相印证方式保证数据完整性和准确性。通过加速度传感器对应三个数值，可以知道空间中x、y、z三个轴上对应的加速度，而空间上的加速度和用户的姿态有密切关系，如：用户向上跳起，z轴的加速度会激增。
   - 10-12列：三轴陀螺仪，该仪器为角运动检测常用仪器，可以判断用户佩戴传感器时的身体角度是水平、倾斜或垂直，也是推断用户姿态的重要指标。
   - 13-15列：三轴磁场，可用于检验用户周围的磁场强度和数值大小，从而了解用户所处环境，如：在一个办公场所，用户座位附近磁场大体上固定，当磁场发生变化时即可推断用户所处位置和场景发生了变化。
   
- 标签文件数据介绍
 - 每一行代表与特征文件中对应行的用户姿态类别，0-24共25种身体姿态，如：无活动姿态、坐姿、跑态等，该文件作为训练集的目标变量，可进行特征的监督学习。
 
3、**算法流程**

- 从特征文件和标签文件中将所有数据加载到内存中，由于存在缺失值，故需要进行数据预处理
- 根据具体算法创建对应的分类器，并使用训练数据进行训练
- 利用测试集预测，通过使用真实值和预测值对比，计算模型整体准确率和召回率，评测模型效果

### 1、导入相关模块

In [10]:
# 数组结构，进行高效计算
import numpy as np
# 数据分析库
import pandas as pd
# 路径模块
import os

# 数据预处理模块，用于缺失值的插补
from sklearn.preprocessing import Imputer
# 将数组或矩阵随机分割为训练集和测试集
from sklearn.model_selection import train_test_split
# 生成展示分类结果的文本报告
from sklearn.metrics import classification_report

# 分别导入K近邻、决策树、高斯朴素贝叶斯算法
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB

### 2、导入数据
- 分别导入特征数据和标签数据

In [13]:
# 数据导入函数，参数feature_path、label_path分别为特征文件列表和标签文件列表
def loadData(features_path, label_path):
   
    # 定义特征数组变量，列数量和特征维度一致为41
    feature = np.ndarray(shape = (0, 41))
    # 定义标签数组变量，列数量与标签维度一致为1
    label = np.ndarray(shape = (0, 1))

    # 处理特征文件
    for file in feature_path:
        # 使用逗号分隔符读取特征数据，设置缺失值为“？”,文件不包含表头
        df = pd.read_table(file, delimiter=',', na_values='?', header=None)
        # 使用平均值填补缺失值，strategy = 'mean'用于指定平均值插补缺失值
        imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
        # 用于训练预处理器
        imp.fit(df)
        # 用于生成预处理结果
        df = imp.transform(df)
        # 将新读入的数据合并到特征集合中
        feature = np.concatenate((feature, df))
    
    # 处理标签文件
    for file in label_path:
        # 读取标签数据，文件中不含表头
        df = pd.read_table(file, header = None)
        # 将读入数据合并到标签集合中
        label = np.concatenate((label, df))
    # 将标签归整为一维向量
    label = np.ravel(label)
    
    return feature, label

### 3、数据准备 
**注意**：

- 在Windows中使用Pandas库读取数据时，应当按照以下方式进行读取，否则会出现异常：OSError:Initializing from file failed
 - 首先导入**os模块**
 - 初始化路径，即将当前路径赋值：pwd = os.getcwd()
 - 将路径切换到要读取的文件路径下：file_path = os.chdir(r'目标路径')
 - 利用Pandas模块读取文件：df = pd.read_csv(file)
 - 返回初始路径：os.chdir(pwd)

In [15]:
# 设置数据路径
pwd = os.getcwd()
file_path = os.chdir(r'D:\学习资料\学习笔记\Python项目\案例数据')

feature_path = ['A.feature', 'B.feature', 'C.feature', 'D.feature', 'E.feature']
label_path = ['A.label', 'B.label', 'C.label', 'D.label', 'E.label']

# 将前4个数据作为训练集读入
x_train, y_train = loadData(featurePaths[:4],labelPaths[:4])
# 将最后一个数据作为测试集读入
# x_test, y_test = loadData(feature_path[4:], label_path[4:])

# # 使用全量数据作为训练集，借助train_test_split函数将训练集打乱
# x_train, x_, y_train, y_ = train_test_split(x_train, y_train, test_size = 0.0)
print(len(x_train), len(y_train))
os.chdir(pwd)

1741640 1366857


### 4、调用算法，构建模型

In [None]:
# 创建K近邻分类器，并利用测试集进行预测
print('Start training KNN')
knn = KNeighborsClassifier().fit(x_train, y_train)
print('Training done!')
knn_pre = knn.predict(x_test)
print('Prediction done!')

In [12]:
import os
import pandas as pd
import numpy as np  
 
from sklearn.preprocessing import Imputer
from sklearn.cross_validation import train_test_split 
from sklearn.metrics import classification_report
   
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
 
def load_datasets(feature_paths, label_paths):
    
    feature = np.ndarray(shape=(0,41))
    
    label = np.ndarray(shape=(0,1))
    
    for file in feature_paths:
        df = pd.read_table(file, delimiter=',', na_values='?', header=None)
        imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
        imp.fit(df)
        df = imp.transform(df)
        feature = np.concatenate((feature, df))
     
    for file in label_paths:
        df = pd.read_table(file, header=None)
        label = np.concatenate((label, df))
         
    label = np.ravel(label)
    return feature, label

pwd = os.getcwd()
file_path = os.chdir(r'D:\学习资料\学习笔记\Python项目\案例数据')

''' 数据路径 '''
featurePaths = ['A.feature','B.feature','C.feature','D.feature','E.feature']
labelPaths = ['A.label','B.label','C.label','D.label','E.label']
''' 读入数据  '''
x_train,y_train = load_datasets(featurePaths[:4],labelPaths[:4])
# x_test,y_test = load_datasets(featurePaths[4:],labelPaths[4:])
# x_train, x_, y_train, y_ = train_test_split(x_train, y_train, test_size = 0.0)

print(len(x_train), len(y_train))

os.chdir(pwd)

1366857 1366857
