#### 1. 利用Logistic回归预测疝气病症的病马的死亡率

- 数据集: [下载地址](http://archive.ics.uci.edu/ml/machine-learning-databases/horse-colic/)
- 数据集描述 :
- horse-colic.data : 训练数据
- horse-colic.names : 数据集字段描述
- horse-colic.test : 测试数据

#### 1.1 读取数据

1. 读取数据
2. 处理数据, 对标签的 ? 值标记为0, 同时去掉没有用的属性列
3. 数据集字段可以查看 horse-colic-names

In [20]:
import numpy as np


def readData(path):
    """
    :param path: 需要读取的数据
    :return: 对缺失值处理后的数据
    """

    Data = []  # 特征
    Label = []  # 标签

    #没有用的属性的下标
    index = [2, 24, 25, 26, 27]
    with open(path) as f:
        for line in f.readlines():
            # 去除数据两端的空格, 然后使用空格分隔数据
            LineArr = line.strip().split(" ")
            # 获取数据的列的大小
            m = np.shape(LineArr)[0]
            data = []
            for i in range(m):
                if i in index:
                    # 没有用的属性直接跳过
                    continue
                elif i == 22:
                    # 下标为22的属性是分类
                    # 1代表活着，标记设为1
                    # 2,3分别代表死亡，安乐死，标记设为0
                    if LineArr[i] == '?':
                        Label.append(0)
                    elif int(LineArr[i]) == 1:
                        Label.append(1)
                    else:
                        Label.append(0)
                else:
                    #剩下的是有用数据
                    if LineArr[i] == '?':
                        #缺失数据首先由0代替
                        data.append(0.0)
                    else:
                        data.append(float(LineArr[i]))
            Data.append(data)
        Data = np.array(Data)
        Label = np.array(Label)
    return Data, Label

In [21]:
 data, label = readData('./data/horse-colic.data')

print(data[:5])
print(label[:5])

[[  2.    1.   38.5  66.   28.    3.    3.    0.    2.    5.    4.    4.
    0.    0.    0.    3.    5.   45.    8.4   0.    0.    2. ]
 [  1.    1.   39.2  88.   20.    0.    0.    4.    1.    3.    4.    2.
    0.    0.    0.    4.    2.   50.   85.    2.    2.    2. ]
 [  2.    1.   38.3  40.   24.    1.    1.    3.    1.    3.    3.    1.
    0.    0.    0.    1.    1.   33.    6.7   0.    0.    2. ]
 [  1.    9.   39.1 164.   84.    4.    1.    6.    2.    2.    4.    4.
    1.    2.    5.    3.    0.   48.    7.2   3.    5.3   1. ]
 [  2.    1.   37.3 104.   35.    0.    0.    6.    2.    0.    0.    0.
    0.    0.    0.    0.    0.   74.    7.4   0.    0.    2. ]]
[0 0 1 0 0]


#### 1.2 处理缺失值数据以及数据归一化

 - np.all()函数用于判断整个数组中的元素的值是否全部满足条件，如果满足条件返回True，否则返回False。
 - np.any()函数用于判断整个数组中的元素至少有一个满足条件就返回True，否则返回False。

In [22]:
def zeroProcess(data):
    """
    :param data:需要进行0值处理的数据
    :return: 返回把0值已经处理好的数据
    """
    # 获取行列数据
    m, n = np.shape(data)
    # 对0值数据使用当前列的平均数填充
    for i in range(n):
        # 获取当前列的平均值
        avg = np.average(data[:, i])
        #  np.any(data[:,i]) 判断指定列的数据是否有 0 值
        if np.any(data[:, i] == 0):
            # 将当前列的 0 值替换为平均值
            for j in range(m):
                data[j, i] = avg
        else:
            continue
    return data

 - 数据归一化 :
 - np.tile(value, (row, col)) : 通过重复的 value 值构造数组

In [23]:
def autoNorm(data):
    # 获取数据中的最小值和最大值
    data_min = data.min()
    data_max = data.max()
    data_range = data_max - data_min

    # 对数据进行归一化
    row = np.shape(data)[0]
    norm_data = data - np.tile(data_min, (row, 1))
    norm_data = norm_data / data_range
    return norm_data

In [24]:
def preProcessor(data):
    """
    数据预处理
    :param data: 待处理的数据
    :return: 缺失值填充和数据归一化后的数据
    """
    none_zero_data = zeroProcess(data)
    norm_data_result = autoNorm(none_zero_data)
    return norm_data_result

In [25]:
tmp_res = preProcessor(data)
print(tmp_res[:1])

[[0.0085976  0.00257673 0.45466745 1.         0.3628594  0.01650637
  0.01104676 0.02410899 0.00512794 0.02416001 0.0253846  0.01548588
  0.0048218  0.0029339  0.         0.01512871 0.02155777 0.62742047
  0.3204582  0.00130112 0.00298492 0.01788402]]


#### 1.3 使用逻辑回归算法进行预测

In [26]:
# 读取训练数据和预测数据
train_data, train_label = readData('./data/horse-colic.data')
test_data, test_label = readData('./data/horse-colic.test')

In [27]:
# 数据预处理
train_data_process = preProcessor(train_data)
test_data_process = preProcessor(test_data)

In [28]:
from sklearn.linear_model import LogisticRegression

# 训练 Logistic 模型
logistic_model = LogisticRegression()
# 训练数据
logistic_model.fit(train_data_process, train_label)

print("逻辑回归的系数 : " , logistic_model.coef_, "\n常数项 : " , logistic_model.intercept_)

逻辑回归的系数 :  [[-3.61893767e-08 -2.53734946e-01 -1.91380592e-06 -4.20924331e-06
  -1.52736352e-06 -6.94793078e-08 -4.64985167e-08 -1.01480597e-07
  -2.15847617e-08 -1.01695370e-07 -1.06849940e-07 -6.51838326e-08
  -2.02961192e-08 -1.23494906e-08  0.00000000e+00 -6.36804164e-08
  -9.07419088e-08 -2.64096541e-06 -1.34888653e-06 -5.47673061e-09
  -1.25642643e-08  3.24975284e-01]] 
常数项 :  [0.37827198]


In [29]:
accuracy = logistic_model.score(test_data_process, test_label) * 100

print("准确率 : %.2f%%" % accuracy)

准确率 : 69.12%
