## Primer modelo
Vamos a tomar un conjunto de datos creados de manera sintética y utilizaremos el descenso del gradiente para optimizar un modelo que se ajuste a ellos.
Para el caso más sencillo utilizaremos una relación lineal entre las variables


Supondremos un modelo que depende de dos variables $f(x_1,x_2)=y$ con una relación lineal entre las variables de la manera 
$y=w_1x_1+w_2x_2+b$

Supondremos que partimos de un conjunto de n datos, los cuales llamaremos ejemplos: de la forma 
$$y_1=w_1x_1^1+w_2x_1^2+b$$
$$y_2=w_1x_2^1+w_2x_2^2+b$$
$$...$$
$$y_n=w_1x_n^1+w_2x_n^2+b$$

$$Y=XW+b$$

Con Y el vector que contiene a los $y_i$, X y W análogamente contienen a $w_i$ y a $x_i^j$

Para entrenar este modelo vamos a generar definir un par de $w_1$ y $w_2$ y les agregaremos ruido aleatorio

In [1]:
import numpy as np
import random
from descenso import *

In [2]:
# xx = np.random.rand()

In [3]:


#trabajamos en el dominio [-10,10]
#Incluimos a b en w, w=[w1,w2,b]
def datos_prueba(w,n):
    #n será el número de ejemplos
    #generamos el dominio de los datos, aleatorios con distribución normal
    X=np.random.normal(-10,10,(n,len(w)-1))
    
    X1=[]
    for i in X:
        i=np.append(i,1.0)
        X1.append(i)
    X1=np.array(X1)
    Y = np.dot(X1, w) 
    Y=Y+np.random.normal(-1.0,0.8,Y.shape)
    return X1,Y



#### Minibatch
Con el fin de ahorrar costo computacional sólo trabajaremos con un porcentaje del número total de ejemplos, a este subconjunto se le llama minibatch

In [4]:
def minibatch(size,X,Y):
    n=len(X)
    #tomamos la lista de índices de tamaño n
    indices=np.arange(0,n)
    indices=list(indices)
    #Tomamos una lista aleatoria de índices de tamaño=size
    ibatch=random.sample(indices, size)
    Xbatch=[]
    Ybatch=[]
    # Generamos las nuevas listas random
    for i in ibatch:
        Xbatch.append(X[i])
        Ybatch.append(Y[i])
        
    return np.array(Xbatch),np.array(Ybatch)
    

##### Definiendo la función error
Para calcular el error en nuestro modelo de aproximación debemos calcular el error de aproximación por cada ejemplo y para el conjunto completo: la suma de estos.
Es decir la función de error para un conjunto de n ejemplos será:
$$Error=E(W,b)=\sum_{i=1}^{n}l_i(W,b)$$

Donde $l_i$ será el error de cada ejemplo, en este caso se tomará el error cuadrático medio.
Entonces:
$$l_i=\frac{1}{2}(\bar{y_i}-y_i)^2$$

Donde $\bar{y_i} será el valor estimado por nuestro modelo$
entonces para este caso la función error será 
$$l_i=\frac{1}{2}((w_1x_1^i+w_2x_2^i+b)-y_i)²$$

Y el error total
$$E(W,b)=\sum_{i=1}^{n}\frac{1}{2}((w_1x_1^i+w_2x_2^i+b)-y_i)²$$


Modificaremos las variables para meter b en W, agregamos b a w
y añadimos una columna de "1" a X


#### Aprendizaje
Con ayuda del descenso del gradiente podemos encontrar los valores que nos otorguen el modelo esperado

In [11]:
w=[3,5,7] #w real de la forma [w1,w2,b] 
X1,Y1=datos_prueba(w,100)# datos sintéticos

def error(W):
    X,Y=minibatch(10,X1,Y1)
    #suma del error medio cuadrático de cada ejemplo
    s=0
    print('W', W)
    for i in range(0,len(Y)):
        l= 0.5*(np.dot(X[i],W)-Y[i])**2
#         l= np.dot(X[i],W)-Y[i]
        print("l", i, l)
        s=s+l
    return s



In [12]:
descenso_grad(error,[3,5,7], 0.5)

W [3.000000001, 5, 7]
l 0 0.775056689601648
l 1 2.2187793325968395
l 2 0.4882872821048801
l 3 0.44731737175349023
l 4 0.10539097320118498
l 5 2.0670860049132767
l 6 0.3631041456098273
l 7 0.020660111135650853
l 8 1.5630347083163008
l 9 1.413569672140966
W [3 5 7]
l 0 0.026004389242639887
l 1 1.2363982285882071
l 2 1.8853100539153314
l 3 3.216188903156077
l 4 0.8583141548690341
l 5 3.4752211477241235
l 6 1.2495388266086542
l 7 1.025252887431428
l 8 0.19863382148800934
l 9 0.010202102301555898
dp -3718778223.9509964
W [3.000000001, 5.000000001, 7]
l 0 0.12518756775017006
l 1 0.8583141508843544
l 2 1.2165594042175878
l 3 0.22614355507249265
l 4 1.2566841770270818
l 5 0.6348663208885269
l 6 0.13713283282295244
l 7 0.404473290989948
l 8 2.576422670411999
l 9 0.7750566721542086
W [3. 5. 7.]
l 0 0.968909315097749
l 1 0.775056689601648
l 2 0.5589831764245922
l 3 0.12518757351822368
l 4 5.217237394372765e-05
l 5 1.1248170435096194
l 6 0.3924394484159268
l 7 0.00359832603961671
l 8 0.85831414735

  # Remove the CWD from sys.path while we load stuff.


W [ 1.66192370e+156  1.12284474e+156 -1.38403391e+156]
l 0 inf
l 1 inf
l 2 inf
l 3 inf
l 4 inf
l 5 inf
l 6 inf
l 7 inf
l 8 inf
l 9 inf
W [ 1.66192370e+156  1.12284474e+156 -1.38403391e+156]
l 0 inf
l 1 inf
l 2 inf
l 3 inf
l 4 inf
l 5 inf
l 6 inf
l 7 inf
l 8 inf
l 9 inf
dp nan
grd [nan, nan, nan]
X0 [nan nan nan]
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
grd [nan, nan, nan]
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 n

l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
grd [nan, nan, nan]
X0 [nan nan nan]
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
grd [nan, nan, nan]
W [n

W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
grd [nan, nan, nan]
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
grd [nan, nan, nan]
X0 [nan nan nan]
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 

W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
grd [nan, nan, nan]
X0 [nan nan nan]
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
grd [nan, nan, nan]
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 

W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
grd [nan, nan, nan]
X0 [nan nan nan]
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
dp nan
grd [nan, nan, nan]
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4 nan
l 5 nan
l 6 nan
l 7 nan
l 8 nan
l 9 nan
W [nan nan nan]
l 0 nan
l 1 nan
l 2 nan
l 3 nan
l 4

array([nan, nan, nan])

In [7]:
def h(X):
    return X[0]**2 + 2*X[1]**2

descenso_grad(h, [0.1, 0.1], 0.01)

dp 0.19999999920083944
dp 0.3999999984016789
grd [0.19999999920083944, 0.3999999984016789]
X0 [0.098 0.096]
dp 0.19600000442099308
dp 0.38400000540450563
grd [0.19600000442099308, 0.38400000540450563]
dp 0.19600000095154613
dp 0.38400001234339953
grd [0.19600000095154613, 0.38400001234339953]
X0 [0.09604 0.09216]
dp 0.1920800046795179
dp 0.36864001434766536
grd [0.1920800046795179, 0.36864001434766536]
dp 0.19208001161841182
dp 0.36864001434766536
grd [0.19208001161841182, 0.36864001434766536]
X0 [0.0941192 0.0884736]
dp 0.18823841096970995
dp 0.35389442071265265
grd [0.18823841096970995, 0.35389442071265265]
dp 0.1882384144391569
dp 0.3538944241820996
grd [0.1882384144391569, 0.3538944241820996]
X0 [0.09223682 0.08493466]
dp 0.184473648162653
dp 0.3397386504067068
grd [0.184473648162653, 0.3397386504067068]
dp 0.184473648162653
dp 0.33973865387615376
grd [0.184473648162653, 0.33973865387615376]
X0 [0.09039209 0.08153728]
dp 0.18078417929334734
dp 0.32614911119055456
grd [0.18078417929

array([0.0436787 , 0.01875519])

In [8]:
def partial(g,k,X):
    h=1e-9
    Y=np.copy(X)
    X[k-1] = X[k-1]+h
    dp=(g(X)-g(Y))/h
    return dp
    #Ahora definimos la función que nos dará el gradiente
def grad(f,X):
    grd=[]
    for i in np.arange(0,len(X)):
        ai=partial(f,i+1,X)
        grd.append(ai)
    return grd

In [9]:
W=[1,1,1]
error(W)
#for i in range(1):
print(grad(error,W))
W=W-0.3*np.array(grad(error,W))
print(W)

W [1, 1, 1]
l 0 6977.952840600091
l 1 13377.496171198905
l 2 796.997774671996
l 3 4390.063883022603
l 4 2061.8175721025377
l 5 8706.174017201884
l 6 317.4387830712711
l 7 381.45300236476373
l 8 5780.637438525156
l 9 4221.606455449042
l 10 812.8613442734388
l 11 13229.642061403036
l 12 46.71636972789236
l 13 2663.4266941011088
l 14 3714.4292859787506
l 15 2382.72985067787
l 16 2723.3545856940973
l 17 11.74513262443237
l 18 1902.3371094027443
l 19 866.5836946173555
l 20 474.1768702882099
l 21 4498.804421575493
l 22 2642.003361967549
l 23 199.22196159403
l 24 395.6439734520557
l 25 1394.1656966210796
l 26 1933.5745080786467
l 27 143.0117607443975
l 28 222.64798528030815
l 29 2167.4296743801583
l 30 5351.69499145449
l 31 73.56071488891403
l 32 1478.5018998490657
l 33 727.126951718053
l 34 3232.4051231603544
l 35 9344.62639237786
l 36 1605.2307211552038
l 37 1846.6308814280258
l 38 544.4719705203237
l 39 1596.878702912689
l 40 121.39496125189136
l 41 3118.0262995293674
l 42 4111.58718473317

l 58 2167.4296726144275
l 59 1092.6417930273726
l 60 1411.6897058056722
l 61 395.6439732998478
l 62 10954.37827596974
l 63 8706.174011360155
l 64 4896.937247622055
l 65 1846.63088034717
l 66 9344.62638660576
l 67 3118.0262974477687
l 68 4221.60645329359
l 69 653.7576505981266
l 70 1605.2307202217512
l 71 41.492579361096055
l 72 321.9554087773495
l 73 43.43541037488254
l 74 4390.06387948847
l 75 7688.664507465799
l 76 2723.354583690883
l 77 5780.637434530179
l 78 13377.496162720487
l 79 199.22196151304905
W [1. 1. 1.]
l 0 317.43878280925446
l 1 2167.429672548588
l 2 4390.063879394767
l 3 1929.5759197282578
l 4 788.0388341856915
l 5 46.71636962950634
l 6 5119.705082241765
l 7 595.4326806551147
l 8 3714.429283551074
l 9 796.9977736816875
l 10 1902.3371079723195
l 11 2382.7298487695466
l 12 573.1590697924961
l 13 6268.876538261461
l 14 71.56596675759553
l 15 6259.323744264674
l 16 6977.952836128972
l 17 13377.49616255692
l 18 727.1269511428836
l 19 1275.7451322010131
l 20 1603.016897778219

l 25 812.86134314034
l 26 111.47388826391665
l 27 183.16936234015682
l 28 3358.6269580739217
l 29 381.45300217225673
l 30 4111.587178328904
l 31 5298.239015657964
l 32 161.3889546862262
l 33 91.4712610552542
l 34 1115.082880885237
l 35 8706.17400551843
l 36 9344.62638083366
l 37 957.8694277787605
l 38 71.56596666321745
l 39 6414.938756405334
l 40 2723.354581687668
l 41 5780.637430535203
l 42 2400.0521173812613
l 43 474.1768701089827
l 44 4448.604497259661
l 45 3118.0262953661713
l 46 4498.094611942457
l 47 10954.378269500576
l 48 12033.495661591427
l 49 121.39496126013498
l 50 327.58804892664887
l 51 199.2219614320681
l 52 5119.705078778813
l 53 2203.653717126532
l 54 727.1269506439838
l 55 41.49257936794229
l 56 3232.405119544665
l 57 1411.6897045617625
l 58 2382.729846999288
l 59 43.43541035053668
l 60 1760.808222819739
l 61 2701.6957861403453
l 62 395.64397314763994
l 63 1929.5759187838062
l 64 4896.937244399517
l 65 222.6479849069233
l 66 1357.7700292042498
l 67 6172.747734544807
l

In [10]:
grad(error,[1,1,1])

W [1.000000001, 1, 1]
l 0 5351.694990590924
l 1 796.9977736019977
l 2 1933.574507893077
l 3 1275.745132121889
l 4 2167.429673005068
l 5 6268.87654025539
l 6 4390.063880358124
l 7 812.8613439842861
l 8 3291.012457045958
l 9 2301.2113213453076
l 10 3714.4292850942984
l 11 357.1984993008961
l 12 43.43541039439183
l 13 1929.5759207767433
l 14 222.6479851301076
l 15 1357.7700305576661
l 16 5119.7050839901685
l 17 73.56071492892208
l 18 2701.695788835092
l 19 2242.348218554845
l 20 13229.642056185103
l 21 2205.0755718105956
l 22 1846.630881160468
l 23 2642.003361526879
l 24 3358.626961429354
l 25 957.8694287714782
l 26 2663.426692358728
l 27 5298.239020970725
l 28 5780.637436401601
l 29 1115.0828820073887
l 30 1092.641793459896
l 31 727.1269513930783
l 32 3779.6794123979207
l 33 544.4719700898496
l 34 143.01176058652783
l 35 4498.804421168224
l 36 1607.566698566477
l 37 1394.1656960618259
l 38 12033.495673761658
l 39 4221.60645540511
l 40 653.7576506665393
l 41 1605.2307209445523
l 42 395.64

l 30 5119.705082342955
l 31 321.9554087773495
l 32 1760.8082239926957
l 33 4111.587181531042
l 34 653.7576505981266
l 35 474.1768701985963
l 36 43.43541037488254
l 37 12033.49566905667
l 38 1846.63088034717
l 39 41.492579361096055
l 40 1596.8787018552994
l 41 2242.348217813932
l 42 1902.3371080340019
l 43 4448.60450010221
l 44 544.4719700177433
l 45 111.47388826319833
l 46 2642.003360377201
l 47 2400.0521187802215
l 48 183.16936228871086
l 49 1092.6417930273726
l 50 6268.8765383734335
l 51 4498.804419082153
l 52 866.5836937443736
l 53 2061.817571185871
l 54 3779.6794105758036
l 55 1115.0828816590345
l 56 317.4387828344512
l 57 2922.9364424384116
l 58 7688.664507465799
l 59 129.94763527447662
l 60 3358.6269599059488
l 61 46.71636961984028
l 62 1394.1656956382928
l 63 327.5880492282365
l 64 5351.694988320268
l 65 4221.60645329359
l 66 1474.8349272173607
l 67 1603.0168978348415
l 68 2167.4296726144275
l 69 2382.729848838579
l 70 1495.767902912953
l 71 1.1515038610196981
l 72 7428.97179659

[-9175982653949.06, -3172386011828.319, 7946457629733.631]