In [3]:
from torchvision import datasets
import matplotlib.pyplot as plt
import numpy as np
import sympy as sp

training_data = datasets.FashionMNIST(".",download=True,train=True)
test_data = datasets.FashionMNIST(".",download=True,train=False)

#plt.imshow(training_data[1000][0])

test_data = [(np.ndarray.flatten(np.array(img))/255,cat) for img,cat in test_data]
training_data = [(np.ndarray.flatten(np.array(img))/255,cat) for img,cat in training_data]
np.random.shuffle(training_data) # on mélange les données d'entraînement qui étaient classées

def propagate(w,b,training_data):
  ps = np.array([(cat - np.vdot(w,img) - b) for img,cat in training_data])
  cout = np.sum([x**2 for x in ps])/len(training_data)
  gradw = np.array([(np.sum([-2*ps[k]*training_data[k][0][i] for k in range(len(training_data))])) for i in range(len(w))])
  gradb = np.sum([-2*x for x in ps])
  return(cout,gradw,gradb)

def optimize_gd(w,b,training_data,rate=5e-3,maxiter=1000,info=10):
  counter = 0
  couts, wr, br = [], [], []
  wn = w
  bn = b
  grad = 1
  while grad > 0.01 and counter < maxiter:
    cout, gradw, gradb = propagate(wn,bn,training_data)
    if  counter%info == 0:
      print("Iteration : " + str(counter) + "; Cout actuel : " + str(cout))
    couts.append(cout)
    wn = wn - rate*gradw
    wr.append(wn)
    bn = bn - rate*gradb
    br.append(bn)
    counter+=1
    grad = np.linalg.norm(gradw)+abs(gradb)
  return(wr,br,couts)

#optimize_gd(np.array([1]*784), 0,training_data[:1000],rate = 5e-6, maxiter = 100, info = 1)

def test_params(w,b,test_data):
  correct = 0
  for img, cat in test_data:
    if abs(cat - np.vdot(w,img) - b) <= 0.5:
      correct+=1
  return (1.0*correct/len(test_data))

w , b , couts = optimize_gd(np.array([0.0]*784), 0,training_data[:2000],rate = 4e-6, maxiter = 1000, info = 1)
test_params(w[-1],b[-1],test_data)



28.6745
17.875193920387318
11.96645384591719
8.6883587792469
6.836653369709812
5.765921940780048
5.127934205923151
4.733323542179056
4.478150803327597
4.3047276207814225
4.180602324965543
4.087218831397737
4.013753504826357
3.9537396527371254
3.9032023091796977
3.8596170430073236
3.821321887366046
3.787180617212553
3.7563868219287917
3.7283477248796606
3.7026137485078507
3.6788347078538908
3.6567317706435687
3.63607893936382
3.616690416877201
3.5984117027818043
3.581113123968041
3.564685002391169
3.5490339586162536
3.534080027325337
3.5197543697082643
3.5059974356186334
3.4927574718657532
3.4799893015754684
3.4676533188376157
3.4557146562536065
3.4441424925651227
3.4329094745588415
3.421991232705624
3.411365974023409
3.4010141387920205
3.3909181102264196
3.381061968192877
3.371431279644658
3.362012919743809
3.352794918686165
3.3437663301056064
3.3349171176379815
3.326238056804175
3.317720649848851
3.3093570515649433
3.3011400044592456
3.2930627818834983
3.2851191379783184
3.27730326346

0.3512

In [70]:
def propagate_s(w,b,training_data, i):
  img = training_data[i][0]
  cat = training_data[i][1]
  cout = (cat - np.vdot(w,img) - b)**2
  gradw = np.array([-2*(cat - np.vdot(w,img) - b)*img[i] for i in range(len(w))])
  gradb = -2*(cat - np.vdot(w,img) - b)
  return(cout,gradw,gradb)

def optimize_sgd(w,b,training_data,rate=5e-4,maxiter=40,info=1):
  counter = 0
  couts, wr, br = [], [], []
  wn = w
  bn = b
  grad = 1
  i = 0
  while grad > 0.001 and counter < maxiter:
    cout, gradw, gradb = propagate_s(wn,bn,training_data, counter%len(training_data))
    if counter%info == 0:
      print("Iteration : " + str(counter) + "; Cout actuel : " + str(cout))
    couts.append(cout)
    wn = wn - rate*gradw
    wr.append(wn)
    bn = bn - rate*gradb
    br.append(bn)
    counter+=1
    grad = np.linalg.norm(gradw)+abs(gradb)
  return(wr,br,couts)

w , b , couts = optimize_sgd(np.array([0.0]*784), 0,training_data[:10000],rate = 1e-3, maxiter = 8000, info = 100)
test_params(w[-1],b[-1],test_data)

Iteration : 0; Cout actuel : 64.0
Iteration : 100; Cout actuel : 0.024077209642752267
Iteration : 200; Cout actuel : 1.2278938210138246
Iteration : 300; Cout actuel : 0.02643589523231636
Iteration : 400; Cout actuel : 0.5022564129207979
Iteration : 500; Cout actuel : 0.07686729135881093
Iteration : 600; Cout actuel : 0.43224015083563905
Iteration : 700; Cout actuel : 16.37347565137759
Iteration : 800; Cout actuel : 10.814391152352904
Iteration : 900; Cout actuel : 0.5113521828840754
Iteration : 1000; Cout actuel : 0.08368174280660601
Iteration : 1100; Cout actuel : 0.526456100994436
Iteration : 1200; Cout actuel : 0.01400489138138159
Iteration : 1300; Cout actuel : 4.328490038402007
Iteration : 1400; Cout actuel : 3.029566046666506
Iteration : 1500; Cout actuel : 11.826374190809332
Iteration : 1600; Cout actuel : 1.5318785436230609
Iteration : 1700; Cout actuel : 0.29091513359241566
Iteration : 1800; Cout actuel : 3.840151004497897
Iteration : 1900; Cout actuel : 0.010650874151459013
I

0.3308

In [72]:
def propagate_sgdm(w,b,training_data, i, batch_size):
  ps = np.array([(cat - np.vdot(w,img) - b) for img,cat in training_data])
  cout = np.sum([x**2 for x in ps[i:i+batch_size]])/batch_size
  gradw = np.array([(np.sum([-2*ps[k]*training_data[k][0][j] for k in range(i,i+batch_size)])) for j in range(len(w))])
  gradb = np.sum([-2*x for x in ps[i:i+batch_size]])
  return(cout,gradw,gradb)

def optimize_sgdm(w,b,training_data,batch_size=100, rate=5e-4,maxiter=40,info=1):
  counter = 0
  couts, wr, br = [], [], []
  wn = w
  bn = b
  grad = 1
  i = 0
  while grad > 0.01 and counter < maxiter:
    cout, gradw, gradb = propagate_sgdm(wn,bn,training_data, batch_size*counter%len(training_data), batch_size)
    if counter%info == 0:
      print("Iteration : " + str(counter) + "; Cout actuel : " + str(cout))
    couts.append(cout)
    wn = wn - rate*gradw
    wr.append(wn)
    bn = bn - rate*gradb
    br.append(bn)
    counter+=1
    grad = np.linalg.norm(gradw)+abs(gradb)
  return(wr,br,couts)

w , b , couts = optimize_sgdm(np.array([0.0]*784), 0,training_data[:10000],rate = 1e-5,maxiter = 2000, info = 50)
test_params(w[-1],b[-1],test_data)

Iteration : 0; Cout actuel : 26.45
Iteration : 50; Cout actuel : 5.854408649941072
Iteration : 100; Cout actuel : 2.97945316241332
Iteration : 150; Cout actuel : 4.334294972039249
Iteration : 200; Cout actuel : 2.7532607078035123
Iteration : 250; Cout actuel : 3.9892698348517035
Iteration : 300; Cout actuel : 2.6583722073652414
Iteration : 350; Cout actuel : 3.793951354185483
Iteration : 400; Cout actuel : 2.5868496150499345
Iteration : 450; Cout actuel : 3.6511018000567934
Iteration : 500; Cout actuel : 2.5266858736942495
Iteration : 550; Cout actuel : 3.5341562676953
Iteration : 600; Cout actuel : 2.4744400236555766
Iteration : 650; Cout actuel : 3.432863274887193
Iteration : 700; Cout actuel : 2.428339864415338
Iteration : 750; Cout actuel : 3.3424264931757564
Iteration : 800; Cout actuel : 2.3872265758834144
Iteration : 850; Cout actuel : 3.2602475325081217
Iteration : 900; Cout actuel : 2.3502642469394797
Iteration : 950; Cout actuel : 3.1847358295230532
Iteration : 1000; Cout act

0.3092

In [31]:
def optimize_sgd_moment(w,b,training_data,rate=1e-3,mu=0.95,maxiter=40,info=1):
  counter = 0
  couts, wr, br = [], [], []
  wn = w
  bn = b
  vw = 0
  vb = 0
  grad = 1
  i = 0
  while grad > 0.01 and counter < maxiter:
    cout, gradw, gradb = propagate_sgdm(wn,bn,training_data, 100*counter%len(training_data), 100)
    if counter%info == 0:
      print("Iteration : " + str(counter) + "; Cout actuel : " + str(cout))
    couts.append(cout)
    vw = mu*vw - rate*gradw
    wn = wn + vw
    wr.append(wn)
    vb = mu*vb - rate*gradb
    bn = bn + vb
    br.append(bn)
    counter+=1
    grad = np.linalg.norm(gradw)+abs(gradb)
  return(wr,br,couts)

w , b , couts = optimize_sgd_moment(np.array([0.0]*784), 0,training_data[:10000], rate = 4e-6, maxiter = 500, info = 10)
test_params(w[-1],b[-1],test_data)

Iteration : 0; Cout actuel : 26.45
Iteration : 10; Cout actuel : 20.516531768118025
Iteration : 20; Cout actuel : 9.173374103415336
Iteration : 30; Cout actuel : 7.917192042129499
Iteration : 40; Cout actuel : 5.2484004884085165
Iteration : 50; Cout actuel : 4.411005951150283
Iteration : 60; Cout actuel : 4.65417726567261
Iteration : 70; Cout actuel : 3.9646970272900357
Iteration : 80; Cout actuel : 2.8055764106696137
Iteration : 90; Cout actuel : 3.2990608063547233
Iteration : 100; Cout actuel : 2.452240154333103
Iteration : 110; Cout actuel : 2.928037090245171
Iteration : 120; Cout actuel : 3.5212848867050917
Iteration : 130; Cout actuel : 3.540620524525826
Iteration : 140; Cout actuel : 3.5421006824785017
Iteration : 150; Cout actuel : 3.101623732437019
Iteration : 160; Cout actuel : 3.48566648844859
Iteration : 170; Cout actuel : 3.3987692825158335
Iteration : 180; Cout actuel : 2.3006429486592355
Iteration : 190; Cout actuel : 2.6801377020991026
Iteration : 200; Cout actuel : 2.18

0.3323

In [46]:
def optimize_sgd_nesterov(w,b,training_data,rate=1e-3,mu=0.95,maxiter=40,info=1):
  counter = 0
  couts, wr, br = [], [], []
  wn = w
  bn = b
  vw = 0
  vb = 0
  grad = 1
  i = 0
  while grad > 0.01 and counter < maxiter:
    cout, gradw, gradb = propagate_sgdm(wn+mu*vw,bn+mu*vb,training_data, 100*counter%len(training_data), 100)
    if counter%info == 0:
      print("Iteration : " + str(counter) + "; Cout actuel : " + str(cout))
    couts.append(cout)
    wn += mu*vw
    bn += mu*vb
    vw = mu*vw - rate*gradw
    wn = wn + vw
    wr.append(wn)
    vb = mu*vb - rate*gradb
    bn = bn + vb
    br.append(bn)
    counter+=1
    grad = np.linalg.norm(gradw)+abs(gradb)
  return(wr,br,couts)

w , b , couts = optimize_sgd_nesterov(np.array([0.0]*784), 0,training_data[:10000], rate = 2e-5, maxiter = 500, info = 10)
test_params(w[-1],b[-1],test_data)

Iteration : 0; Cout actuel : 26.45
Iteration : 10; Cout actuel : 11.016986525144588
Iteration : 20; Cout actuel : 4.723208000630337
Iteration : 30; Cout actuel : 4.71702873818798
Iteration : 40; Cout actuel : 4.054186981478666
Iteration : 50; Cout actuel : 3.2028894176877283
Iteration : 60; Cout actuel : 3.22195865463275
Iteration : 70; Cout actuel : 2.568757200132793
Iteration : 80; Cout actuel : 1.828049903415552
Iteration : 90; Cout actuel : 2.197831525426017
Iteration : 100; Cout actuel : 3.807263246592159
Iteration : 110; Cout actuel : 1.864291280272882
Iteration : 120; Cout actuel : 2.7592480622976647
Iteration : 130; Cout actuel : 2.4777314275513933
Iteration : 140; Cout actuel : 2.395303621025686
Iteration : 150; Cout actuel : 2.1574137829501128
Iteration : 160; Cout actuel : 2.5176080272317467
Iteration : 170; Cout actuel : 2.9972165603743246
Iteration : 180; Cout actuel : 1.973934523381045
Iteration : 190; Cout actuel : 1.6773438349978986
Iteration : 200; Cout actuel : 2.9127

0.3351

In [101]:
def optimize_sg_nesterov(w,b,training_data,rate=1e-3,mu=0.95,maxiter=40,info=1):
  counter = 0
  couts, wr, br = [], [], []
  wn = w
  bn = b
  vw = 0
  vb = 0
  grad = 1
  i = 0
  while grad > 0.01 and counter < maxiter:
    cout, gradw, gradb = propagate(wn+mu*vw,bn+mu*vb,training_data)
    if counter%info == 0:
      print("Iteration : " + str(counter) + "; Cout actuel : " + str(cout))
    couts.append(cout)
    wn += mu*vw
    bn += mu*vb
    vw = mu*vw - rate*gradw
    wn = wn + vw
    wr.append(wn)
    vb = mu*vb - rate*gradb
    bn = bn + vb
    br.append(bn)
    counter+=1
    grad = np.linalg.norm(gradw)+abs(gradb)
  return(wr,br,couts)

w , b , couts = optimize_sg_nesterov(np.array([0.0]*784), 0,training_data[:2000], rate = 1e-6, maxiter = 200, info = 10)
test_params(w[-1],b[-1],test_data)

Iteration : 0; Cout actuel : 28.6745
Iteration : 10; Cout actuel : 15.077920361398322
Iteration : 20; Cout actuel : 8.28817680366241
Iteration : 30; Cout actuel : 5.02250793547469
Iteration : 40; Cout actuel : 3.2424152789719423
Iteration : 50; Cout actuel : 2.5318911003306965
Iteration : 60; Cout actuel : 2.306209460146989
Iteration : 70; Cout actuel : 2.17387061810416
Iteration : 80; Cout actuel : 2.077497082206427
Iteration : 90; Cout actuel : 2.03470145995277
Iteration : 100; Cout actuel : 1.9647668894421169
Iteration : 110; Cout actuel : 1.898975467648835
Iteration : 120; Cout actuel : 1.8474394012668254
Iteration : 130; Cout actuel : 1.8015469812763178
Iteration : 140; Cout actuel : 1.7634465197176008
Iteration : 150; Cout actuel : 1.7340517113203036
Iteration : 160; Cout actuel : 1.7104301477026838
Iteration : 170; Cout actuel : 1.6906285369353788
Iteration : 180; Cout actuel : 1.6743823543699523
Iteration : 190; Cout actuel : 1.6603058345936024


0.3476

In [94]:
def optimize_sgd_adam(w,b,training_data,rate=1e-3,beta1=0.9,beta2=0.999,epsilon=1e-8,maxiter=10,info=1):
  counter = 1
  couts, wr, br = [], [], []
  wn = w
  bn = b
  vw = 0
  vb = 0
  mw = 0
  mb = 0
  grad = 1
  i = 0
  while grad > 0.01 and counter < maxiter:
    cout, gradw, gradb = propagate_sgdm(wn,bn,training_data, 100*counter%len(training_data), 100)
    if counter%info == 0:
      print("Iteration : " + str(counter) + "; Cout actuel : " + str(cout))
    couts.append(cout)
    mw = beta1*mw + (1-beta1)*gradw
    vw = beta2*vw + (1-beta2)*gradw**2
    wn = wn - rate*(mw/(1-beta1**counter))/(np.sqrt(vw/(1-beta2**counter))+epsilon)
    wr.append(wn)
    mb = beta1*mb + (1-beta1)*gradb
    vb = beta2*vb + (1-beta2)*gradb**2
    bn = bn - rate*(mb/(1-beta1**counter))/(np.sqrt(vb/(1-beta2**counter))+epsilon)
    br.append(bn)
    counter+=1
    grad = np.linalg.norm(gradw)+abs(gradb)
  return(wr,br,couts)

w , b , couts = optimize_sgd_adam(np.array([0.0]*784), 0,training_data[:10000], rate = 1e-2, maxiter=1000, info = 50)
test_params(w[-1],b[-1],test_data)

Iteration : 50; Cout actuel : 3.7596845085279025
Iteration : 100; Cout actuel : 2.476281150442948
Iteration : 150; Cout actuel : 2.9053676102470867
Iteration : 200; Cout actuel : 3.1756174934284367
Iteration : 250; Cout actuel : 2.503044477734406
Iteration : 300; Cout actuel : 3.146644801730967
Iteration : 350; Cout actuel : 2.2463702513552093
Iteration : 400; Cout actuel : 2.768290243505734
Iteration : 450; Cout actuel : 2.080984738912655
Iteration : 500; Cout actuel : 2.473570807332114
Iteration : 550; Cout actuel : 1.9814793916742293
Iteration : 600; Cout actuel : 2.284977716168922
Iteration : 650; Cout actuel : 1.9149133251225168
Iteration : 700; Cout actuel : 2.1776015117379672
Iteration : 750; Cout actuel : 1.8603805468283552
Iteration : 800; Cout actuel : 2.1170172947201547
Iteration : 850; Cout actuel : 1.8128865547233857
Iteration : 900; Cout actuel : 2.080237588050679
Iteration : 950; Cout actuel : 1.7727815883243445


0.3358