## Logistic Regression
### 利用Logistic 回归进行分类的主要思想：
根据现有数据对分类边界线建立回归公式，以此进行分类。

训练分类器的做法就是寻找最佳你和参数，使用的是最优化算法。

### Logistic回归的一般过程：
1. 收集数据：任意
2. 准备数据：由于要进行距离计算，所以需要数据为数值型。结构化数据最佳
3. 分析数据：任意
4. 训练算法： 大部分时间用于训练，训练的目的是为了找到最佳的分类回归系数
5. 测试算法：训练完成后，分类很快
6. 使用算法： 首先，需要input data,将其转化为对应的结构化数值。
接着，基于训练好的回归系数就可以对这些数值进行简单的回归计算，判定他们属于哪个类别。在这之后，就可以在输出类别上做其他工作。


### 5.1 基于logistic回归和Sigmoid函数的分类
### Logistic 回归：
- 优点： 计算代价不高，易于理解实现
- 缺点：容易欠拟合，分类精度可能不高
- 适用数据类型： 数值型和标称型数据


### Sigmoid 函数
#### $ \sigma(z)=\frac{1}{1+e^{-z}}$
#### 性质：x=0时y=0.5，随着x增大，y趋近于1，随着x减小，y趋近于0.如果横坐标足够大，则类似于阶跃函数

- 为了实现Logistic回归分类器，可以在每个特征上乘以一个回归系数，然后将所有的结果值相加。总和带入Sigmoid函数。得到一个范围在0~1之间的数值。大于0.5的为分类1，小于0.5则为分类0。所以，Logistic回归也看做是概率估计。
### 最佳回归系数

$ z=w_0x_0 + w_1x_1+...+w_nx_n$

$ z=w^Tx$ (向量写法）

- 相当于两个数值向量对应元素相乘后$\Sigma$.其中向量x是分类器的输入数据，向量w是要找的最佳参数

#### 5.2.1 梯度上升法;
##### 思想： 要找到某函数的最大值，最好的方法是沿着该函数的梯度方向探寻。如果梯度为$\Delta$,则函数f(x,y)的梯度为：
- 沿着x的方向移动f(x,y)对x的偏导数，沿着y的方向移动f(x,y)对y的偏导，到下一点后继续，直到满足停止条件。

梯度算子总是指向函数值增长最快的方向。移动量的大小叫做步长$\alpha$.梯度上升算法的迭代公式为：
$$w := w + \alpha\Delta_wf(w)$$

对于梯度下降算法而言，公式中的加法变成减法，用于求函数的最小值。
$$w := w - \alpha\Delta_wf(w)$$

#### 5.2.2 训练算法：使用梯度上升找到最佳参数
##### 伪代码如下：
每个回归系数初始化为1

重复R次：
    
    计算整个数据集的梯度
    
    使用alpha * Gradient更新回归系数的向量
返回回归系数

#### 5.2.4 训练算法：随机梯度上升
##### 伪代码：

所有回归系数初始化为1

对数据集中每个样本：
    
    计算该样本的梯度
    使用alpha*gradient更新回归系数值
  
返回回归系数值

#### 5.3 实例：从疝气病症预测病马的死亡率
##### 5.3.1 准备数据：处理数据中的缺失值

可选做法：
- 使用可用特征的均值填补缺失值
- 使用特殊值来填补缺失值，如-1
- 忽略有缺失值的样本
- 使用相似样本的均值添补缺失值
- 使用其他算法预测缺失值

In [None]:
import numpy as np

def loadDataSet():
	dataMat = []; labelMat = []
	fr = open('testSet.txt')
	for line in fr.readlines():
		lineArr = line.strip().split()
		dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
		labelMat.append(int(lineArr[2]))
	return dataMat, labelMat

def sigmoid(inX):
	return 1.0/(1+np.exp(-inX))

def gradAscent(dataMatIn, classLabels):
	dataMatrix = np.mat(dataMatIn)
	labelMat = np.mat(classLabels).transpose() # 对label行向量转置
	m,n = np.shape(dataMatrix)
	alpha = 0.001 # 移动步长
	maxCycles = 500 # 迭代次数
	weights = np.ones((n,1))
	for k in range(maxCycles):
		h = sigmoid(dataMatrix * weights)
		error = (labelMat - h)
		weights = weights + alpha * dataMatrix.transpose() * error
	return weights

def plotBestFit(weights):
	import matplotlib.pyplot as plt
	dataMat, labelMat = loadDataSet()
	dataArr = np.array(dataMat)
	n = np.shape(dataArr)[0]
	xcord1 = []; ycord1 = []
	xcord2 = []; ycord2 = []
	for i in range(n):
		if int(labelMat[i]) == 1:
			xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])
		else:
			xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])
	fig = plt.figure()
	ax = fig.add_subplot(111)
	ax.scatter(xcord1,ycord1, s=30 ,c ='red', marker='s')
	ax.scatter(xcord2,ycord2, s=30 ,c ='green')
	x = arange(-3.0,3.0,0.1)
	y = (-weights[0]-weights[1]*x)/weights[2]
	ax.plot(x,y)
	plt.xlabel('X1')
	plt.xlabel('X2')
	plt.show()

def stocGradAscent0(dataMatrix, classLabels):
	m,n = np.shape(dataMatrix)
	alpha = 0.01
	weights = ones(n)
	for i in range(n):
		h = sigmoid(sum(dataMatrix[i]*weights))
		error = classLabels[i] - h
		weights = weights + alpha * error * dataMatrix[i]
	return weights

def stocGradAscent1(dataMatrix, classLabels, numIter):
	m,n = np.shape(dataMatrix)
	weights = np.ones(n)
	for j in range(numIter):
		dataIndex = list(range(m))
		for i in range(m):
			alpha = 4/(1.0+j+i)+0.01 # alpha 随着迭代次数逐渐减小，并且，j是迭代次数，i是样本点的下标。这样当j<<max(i)的时候，alpha不是严格下降。
			randIndex = int(np.random.uniform(0,len(dataIndex)))# 选择随机数
			h = sigmoid(sum(dataMatrix[randIndex]*weights)) 
			error = classLabels[randIndex] - h
			weights = weights + alpha * error * dataMatrix[randIndex]
			del(dataIndex[randIndex])#将该样本删除
	return weights

def classifyVector(inX, weights):
    prob = sigmoid(sum(inX*weights))
    if prob > 0.5: return 1.0
    else: return 0.0



def colicTest():
	frTrain = open('horseColicTraining.txt')
	frTest = open('horseColicTest.txt')
	trainingSet = [] ; trainingLabels = []
	for line in frTrain.readlines():
		currLine = line.strip().split('\t')
		lineArr = []
		for i in range(21):
			lineArr.append(float(currLine[i]))
		trainingSet.append(lineArr)
		trainingLabels.append(float(currLine[21]))
	trainWeights = stocGradAscent1(np.array(trainingSet), trainingLabels,500)
	errorCount = 0; numTestVec = 0.0
	for line in frTest.readlines():
		numTestVec += 1.0
		currLine = line.strip().split('\t')
		lineArr = []
		for i in range(21):
			lineArr.append(float(currLine[i]))
		if int(classifyVector(np.array(lineArr),trainWeights))!= int(currLine[21]):
			errorCount += 1
	errorRate = (float(errorCount)/numTestVec)
	print("The error Rate of this test is : %f"%errorRate)
	return errorRate

def multiTest():
	numTests = 10; errorSum = 0.0
	for k in range(numTests):
		errorSum += colicTest()
	print("after %d iterations the average error rate is %f"%(numTests,errorSum/float(numTests)))

def main():
    multiTest()

if __name__ == '__main__':
    main()

The error Rate of this test is : 0.283582
The error Rate of this test is : 0.388060
The error Rate of this test is : 0.462687
The error Rate of this test is : 0.358209
The error Rate of this test is : 0.343284
The error Rate of this test is : 0.343284
The error Rate of this test is : 0.388060
The error Rate of this test is : 0.313433
