# the threoy of logistics regreesion

## 概念

### 1. 集中趋势衡量

* 均值
* 中位数
* 众数


### 2. 离散程度度量

* 方差
* 标准差

### 3.  回归中的相关度

* 皮尔逊相关度:衡量两个相关强度的量 取值范围为[-1, 1] 计算公式为:
* $\rho = Cor(X, Y) = \frac {Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$
* $r_{X, Y} = \frac{\sum(x-\bar x)(y-\bar y)}{\sqrt{\sum(x-\bar x)^2(y-\bar y)^2}}$
* 分子为x,y的协方差 分母为x的方差和y的方差

### R的平方数

* 决定系数（可决系数，拟合优度），反应因变量的全部变异能通过回归关系被自变量解释的比例，取值范围[0,1]，可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，模型拟合优度越好。反之可决系数小，说明模型对样本观测值的拟合程度越差。
* 描述：如R平方为0.8，则表示回归关系可以解释因变量80%的变异，换句话说，如果我们能控制自变量不变，则因变量变异程度将会减少80%
* 对于 简单线性回归来说，R^2= r * r
* $R^2 = \frac{SSR}{SST} = \frac{\sum(\hat{y} - \bar y)^2}{\sum(y_i - \bar y)^2}$
#### SSR表示由模型引起的误差平方和， SST表示由实际值引起的差值平方和

In [12]:
import math
import numpy as np

def correlation(x, y):
    barX = np.mean(x)
    barY = np.mean(y)
    cor = 0
    varX = 0
    VarY = 0
    for i in range(len(x)):
        diffxx = x[i] - barX
        diffyy = y[i] - barY
        cor += (diffxx * diffyy)
        varX += diffxx**2
        varY = diffyy**2
    varXY = math.sqrt(varX * varY)
    return cor / varXY

def polyfit(x, y , degree):
    result = {}
    coeffs = np.polyfit(x, y, degree)
    result['polynomial'] = coeffs.tolist()
    parse = np.poly1d(coeffs)
    yhat = parse(x)
    ybar = np.sum(y) / len(y)
    ssr = np.sum((yhat - ybar) ** 2)
    sst = np.sum((y- ybar) **2 )
    result['determination'] = ssr / sst
    return result
testX = [1, 3, 8, 7, 9]
testY = [10, 12, 24, 21, 34]
print('correlation:', correlation(testX, testY))
print('polyfit:', polyfit(testX, testY, 1))
print(polyfit(testX, testY, 1)["determination"])

correlation: 1.322657658
polyfit: {'polynomial': [2.65677966101695, 5.322033898305075], 'determination': 0.88418304005181969}
0.884183040052


In [7]:
import numpy as np
#多项式拟合(从给定的x,y中解析出最接近数据的方程式)
#要拟合的x,y数据
x = np.arange(1, 17, 1)
y = np.array([4.00, 6.40, 8.00, 8.80, 9.22, 9.50, 9.70, 9.86, 10.00, 10.20, 10.32, 10.42, 10.50, 10.55, 10.58, 10.60])
z1 = np.polyfit(x, y, 4)#3为多项式最高次幂，结果为多项式的各个系数
#最高次幂3，得到4个系数,从高次到低次排列
#最高次幂取几要视情况而定
p1 = np.poly1d(z1)#将系数代入方程，得到函式p1
print(z1)#多项式系数
print(p1)#多项式方程

# 

[ -9.24538084e-04   3.76792011e-02  -5.54639386e-01   3.60545597e+00
   1.03629808e+00]
            4           3          2
-0.0009245 x + 0.03768 x - 0.5546 x + 3.605 x + 1.036


## 简单线性回归

### 1. 回归与分类的区别

* 回归(regression):Y为连续型数值,如房价、降雨、人数
* 分类(classification):Y为类别型数值,如颜色 电脑品牌 有无信誉

### 2. 简单线性回归介绍

#### 回归分析：指建立方程模拟两个或多个变量之间如何关联
#### 回归模型：指被用来描述因变量（y）和自变量（x）及偏差（error）之间关系的方程
#### 函数表示为： $ y = \beta_0 + \beta_1x + \xi $

#### 简单回归模型转变为：$E(x) = \beta_0 + \beta_1x$
#### 即为回归方程（类似于一条直线，参数为斜率和y轴的交点）
* 线性关系为:正相关，负相关， 无关
* 估计线性方程为：$\hat y = \beta_0 + \beta_1x$
* $其中 \beta_0是线性方程的纵截据  \beta_1是估计线性方程的斜率 \hat y是在自变量等于一个给定值的时候，y的估计值$

##### 关于偏差的假定$\xi$
* 是一个均值为0的随机变量
* 符合正态分布
* 是独立分布的（非相依关系）

#### 计算简单线性回归

* 最小二乘法：是利用样本数据 通过使应变量的观测值$y_i$与应变量的预测值$\hat y_i$之间的离差平方和达到最小的方法求得$b_0$和$b_1$的值

#### 最小二乘法准则
### $ min\sum (y_i - \hat y)^2$
#### 式中 $y_1$对于第$i$次观测，应变量的观测值，$\hat y$为对于第$i$次观测，应变量的预测值

#### 估计的回归方程的斜率和y轴的截据

#### $b_1 = \frac{\sum(x_i - \bar x)(y_i - \bar y)}{\sum (x_i - \bar x)^2}$
#### $b_0 = \bar y - b_i\bar x$

In [17]:
# 实现估计线性回归方程
import numpy as np

#周广告播放数量
x = [1,3,2,1,3]
#周汽车销售数据
y = [14,24,18,17,27]

def fitSLR(x, y):
    barX = np.mean(x)
    barY = np.mean(y)
    numerator = 0
    denominator = 0
    for i in range(len(x)):
        numerator += (x[i] - barX) * (y[i] - barY)
        denominator += (x[i] - barX)**2
    b1 = numerator / denominator
    b0 = barY - b1*barX
    return b1, b0
def predict(b1, b0, x):
    return b0+b1*x
b1, b0 = fitSLR(x, y)
predict(b1, b0, x=6)

40.0

## 线性回归和logistics回归完全不是一个概念

logistics回归总结 http://blog.csdn.net/achuo/article/details/51160101 
线性回归总结 http://www.bijishequ.com/detail/331680