In [2]:
# 路径没有加载，需要os导入内存
import os
os.chdir(".")

In [66]:
import numpy as np
import copy

## 加载数据，209张（64，46，3）

In [222]:
from data_1_2.lr_utils import  load_dataset

train_set_x_orig , train_set_y , test_set_x_orig , test_set_y , classes=load_dataset()

classes=[i.decode() for i in classes]

In [223]:
train_set_x_orig=train_set_x_orig/255

test_set_x_orig=test_set_x_orig/255

In [224]:
# 对数据进行flatten
train_set_x_orig=train_set_x_orig.reshape(train_set_x_orig.shape[0],-1).T
test_set_x_orig =test_set_x_orig.reshape(test_set_x_orig.shape[0],-1).T

In [226]:
test_set_x_orig.shape

(12288, 50)

## 建立模型


- 初始化模型的参数
- 定义模型结构（例如输入特征的数量）
- 循环：

    - 计算当前损失（正向传播）

    - 计算当前梯度（反向传播）

    - 更新参数（梯度下降）


In [61]:
# 先定义一个sigmod函数
def sigmod(z):
    """
    参数：
        z - shape为（1,209）的模型矩阵
    
    1是指每一个图片计算完z=w*x+b模型之后的值（w和x不止一个）
    np.exe是指对每一个z求e^x，是一个SIMD操作，之后的除法和加法都是遵循广播算法进行的，可以达到
    对209张图片进行sigmod函数计算
    
    返回：
        res - shape应为（1,209）的矩阵
    
    209个样本运算完sigmod的值
    
    """
    res=1/(1+np.exp(-z))
    
    return res

In [136]:
# 验证若有4个样本
a=np.zeros(shape=(4,2))
c=copy.copy(a)
b=sigmod(c)
print("original:\n",a)
print("after sigmod:\n",b)

original:
 [[0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]]
after sigmod:
 [[0.5 0.5]
 [0.5 0.5]
 [0.5 0.5]
 [0.5 0.5]]


In [211]:
# 初始化weight和bias
def initialize(shape):
    """
    参数：
        shape - x数据的形状
         
    模型的形状，需要创建对应attribute个的weight，attribute的个数其实就是pixel的个数=height*width*channel
    bias的初始化只需声明一个实数，因为遵循广播原则，所以会自动补齐
    
    返回：
        w - 带有初始化的权重矩阵
        b - 带有初始化的bias矩阵
        
    对应shape个的weitht和单独的bias
    """

    w=np.zeros(shape=(shape[0],1))
    b=0
    assert(w.shape==(shape[0],1))
    assert(isinstance(b,float)or isinstance(b,int))
    return w,b

In [208]:
# 建立模型
def build_model(w,b,x,y):
    """
    参数：
        w  - 权重，大小不等的数组（num_px * num_px * 3，1）
        b  - 偏差，一个标量
        X  - 矩阵类型为（num_px * num_px * 3，训练数量）
        Y  - 真正的“标签”矢量（如果非猫则为0，如果是猫则为1），矩阵维度为(1,训练数据数量)

    返回：
        cost- 逻辑回归的负对数似然成本
        dw  - 相对于w的损失梯度，因此与w相同的形状
        db  - 相对于b的损失梯度，因此与b的形状相同
    
    实现前向和后向传播的成本函数及其梯度
   """

    # 模型建立
    z=np.dot(w.T,x)+b

    # m为样本数    
    m=x.shape[1]
    
    # 正向传播
    
    # 计算sigmod值
    a=sigmod(z)

    J=(y*np.log(a))+(1-y)*np.log(1-a)
    
    cost=(-1/m)*J.sum()
    
    # 反向更新参数

    # 因为dw=x*dz 且dz为dj/dz
    dz=a-y
    
    # 通过矩阵乘积可以直接计算相加后的各个attribute的值    
    dw=(1/m)*np.dot(x,dz.T)
    
    db=(1/m)*np.sum(dz)
    
    
    assert(dw.shape==(x.shape[0],1))
    assert(db.shape==())
    assert(cost.shape==())
    grads={"dw":dw,
              "db":db}
    
    return cost,grads
    

## 进行优化
- 通过不断的更新参数来降低cost值

In [239]:
# optimize
def optimize(w,b,x,y,iterations,lr,print_cost = False):
    """
      参数：
        w  - 权重，大小不等的数组（num_px * num_px * 3，1）
        b  - 偏差，一个标量
        x  - 维度为（height * weight * 3，训练数据的数量）的数组。
        y  - 真正的“标签”矢量（如果非猫则为0，如果是猫则为1），矩阵维度为(1,训练数据的数量)
        iterations  - 优化循环的迭代次数
        lr  - 梯度下降更新规则的学习率
        print_cost  - 每100步打印一次损失值
    
    返回：
        params  - 包含权重w和偏差b的字典
        grads  - 包含权重和偏差相对于成本函数的梯度的字典
        cost - 优化期间计算的所有成本列表，将用于绘制学习曲线。
    """
    costs=[]
    
    for i in range(iterations):
        cost,grads=build_model(w,b,x,y)
        
        w=w-lr*grads["dw"]
        b=b-lr*grads["db"]
        
        # 记录cost
        if i%100==0: 
            costs.append(cost)
            
            if print_cost:
                print("%d次迭代：cost：%f"%(i,cost))

        
    params  = {
                "w" : w,
                "b" : b }
    
    return params,costs
    

In [165]:
# 测试
w, b, X, Y = np.array([[1], [2]]), 2, np.array([[1,2], [3,4]]), np.array([[1, 0]])
params , costs = optimize(w , b , X , Y , iterations=100 , lr = 0.009 , print_cost = False)
print ("w = " + str(params["w"]))
print ("b = " + str(params["b"]))


w = [[0.1124579 ]
 [0.23106775]]
b = 1.5593049248448891


In [188]:
def predict(w,b,x):
    """
    参数：
        w - 已经训练好的权重矩阵
        b - 已经训练好的偏置量
        x - 待预测的x数据
        
    返回：
        y_predict - 各个样本的预测值
    """
    
    m=x.shape[1]
    
    y_predict=np.zeros(shape=(1,m))
    
    w=w.reshape(x.shape[0],1)
    
    z=np.dot(w.T,x)+b
    
    a=sigmod(z)
    
    for i in range(m):
        y_predict[0,i]=1 if a[0,i]>0.5 else 0
    
    assert(y_predict.shape==(1,m))
    return y_predict.astype(int)

In [180]:
w, b, X, Y = np.array([[1], [2]]), 2, np.array([[1,2], [3,4]]), np.array([[1, 0]])
print("predictions = " + str(predict(w, b, X)))

predictions = [[1 1]]


## 对模型进行封装

In [233]:
def model(train_x,train_y,test_x,test_y,iterations,lr,print_cost = False):
    """
    参数：
        x_train  - 维度为（height * weight * 3，训练数据的数量）训练集的数组。
        y_train  - 真正的训练集的“标签”矢量（如果非猫则为0，如果是猫则为1），矩阵维度为(1，训练数据的数量)
        x_test  - 维度为（height * weight * 3，训练数据的数量）测试集的数组。
        y_test  - 真正的测试集的“标签”矢量（如果非猫则为0，如果是猫则为1），矩阵维度为(1，测试数据的数量)
        iterations  - 优化循环的迭代次数
        lr  - 梯度下降更新规则的学习率
        print_cost  - 每100步打印一次损失值
        
    """

    # 初始化参数
    w,b=initialize(train_x.shape)
    # 建立模型并优化
    params,costs=optimize(w=w,b=b,x=train_x,y=train_y,iterations=iterations,lr=lr,print_cost = print_cost)
    
    predict_train_y=predict(params["w"],params["b"],train_x)
    
    predict_test_y=predict(params["w"],params["b"],test_x)
    
    acc_train=np.mean(np.equal(predict_train_y,train_y))
    acc_test=np.mean(np.equal(predict_test_y,test_y))
    
    print("Acc_train:"+str(acc_train*100)+"%")
    print("Acc_test:"+str(acc_test*100)+"%")
    
    return costs
    

In [242]:
def run():
    print(train_set_x_orig.shape)
    print(test_set_x_orig.shape)
    costs=model(train_x=train_set_x_orig,train_y=train_set_y,test_x=test_set_x_orig,test_y=test_set_y,iterations=2000,lr=0.01,print_cost = True)
    return costs


In [243]:
costs=run()

(12288, 209)
(12288, 50)
True
0次迭代：cost：0.693147
100次迭代：cost：0.823921
200次迭代：cost：0.418944
300次迭代：cost：0.617350
400次迭代：cost：0.522116
500次迭代：cost：0.387709
600次迭代：cost：0.236254
700次迭代：cost：0.154222
800次迭代：cost：0.135328
900次迭代：cost：0.124971
1000次迭代：cost：0.116478
1100次迭代：cost：0.109193
1200次迭代：cost：0.102804
1300次迭代：cost：0.097130
1400次迭代：cost：0.092043
1500次迭代：cost：0.087453
1600次迭代：cost：0.083286
1700次迭代：cost：0.079487
1800次迭代：cost：0.076007
1900次迭代：cost：0.072809
Acc_train:99.52153110047847%
Acc_test:70.0%


In [244]:
costs

[0.6931471805599453,
 0.8239208681629392,
 0.4189443741523992,
 0.6173497043891899,
 0.5221157712553265,
 0.3877087484834722,
 0.23625445672833312,
 0.15422213306441673,
 0.13532782831640808,
 0.12497148000431883,
 0.11647833125791879,
 0.10919251128264036,
 0.10280446418272579,
 0.0971298100799662,
 0.09204326923642153,
 0.08745251991763427,
 0.0832860305362993,
 0.07948657037807491,
 0.07600734572080525,
 0.07280949458514266]