<font size=4 color='blue'>

# <center>Clase 3, junio 09 del 2021 <center>


<font size=4 color='blue'>
    
## Generación de las muestras



<font size=5 color='b'>

1.  Se genera un conjunto de numeros aleatorios ($(x_1,y_1),(x_2,y_2),…,(x_n,y_n)$)

In [None]:
# Importing the python libraries

import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline

# To have a reproducible code we use a random seed 
np.random.seed(3)

In [None]:
# Esta función genera un conjunto de datos que simulan 
# la medición de la distancia de un carrito en un riel de aire
# en la ausencia de una fuerza sobre el carrito.
# Se propone un error en la medición de la distancia

def generador_datos_simple(n_points, distance_0, measuring_time, speed, max_distance_error):
    
    # n_points es el número de puntos que serán generados
    
    x = np.random.random(n_points) * measuring_time
     
    # x es arreglo con m numeros aleatorios entre 0.0 y measure_time
    
    error = np.random.randn(n_points) * max_distance_error 
    
    # e es un error generado aleatoriamente con un valor maximo max_distance_error

    y = distance_0 + speed*x + error 
        
    return x, y


In [None]:
# Generacción de las muestras (x,yi)
n_points = 5000
distance_0 = 100.0
measuring_time = 100.0
speed = 20.0
max_distance_error = 100

x, y = generador_datos_simple(n_points, distance_0, measuring_time, speed, max_distance_error)

print("x type", type(x), "x shape", x.shape)
print("y type", type(y), "y shape", y.shape)

In [None]:
# Plotting y versus x

plt.figure(figsize=(13,8))
plt.rc('xtick', labelsize=16)
plt.rc('ytick', labelsize=16)
plt.rc('legend', fontsize=16)
plt.ylabel('Y(cm)', fontsize=16)
plt.xlabel('X(seg)', fontsize=16)

plt.scatter(x, y)
plt.show()

<font size=5 color ='blue'>
    
Se generan histogramas de los datos originales, (x) y (y)

In [None]:
plt.figure(figsize=(13,5))
plt.rc('xtick', labelsize=14)
plt.rc('ytick', labelsize=14)
plt.rc('legend', fontsize=14)

plt.subplot(1, 2, 1)
plt.hist(x, bins=30, edgecolor='black', alpha=0.5)
plt.xlabel('tiempo(s)', fontsize=16)
plt.ylabel('frecuencia', fontsize=16)


plt.subplot(1, 2, 2)
plt.hist(y, bins=30, edgecolor='black', alpha=0.5)
plt.xlabel('distancia(cm)', fontsize=16)
plt.ylabel('frecuencia', fontsize=16);

<font size=2, color='blue'>
    
# Buscando la correlación entre las muestras:



<font size=4>

Se tiene un conjunto de muestras (puntos) $(x_i, y_i)$, y se busca encontrar una función F que describa una posible correlación entre ellos. En una primera aproximación que x (en el presente caso el tiempo) es una variable independiente, mientras que y (la distancia en el presente caso) depende de x.

Para encontrar la correlación entre las muestras, proponemos un conjunto de funciones definidas mediante la siguiente relación lineal:

$$ F(x, w, b) = b + w x $$
  
Vemos que esta relación funcional es derivable respecto a todas sus variables, x, w, b.
La letra w se emplea como abreviación de la palabra en ingles "weight", porque se relaciona con la importancia que tiene la variable x en el valor de la función $F$. La letra b es la abreviación de la palabra "bias" en ingles, y se refiere a la referencia respecto a cero de la función $F$.


<font size = 4>

Para encontrar la función que describe la correlación entre los puntos, es necesario generar una métrica para describir que tanto se acerca cada una de las funciones específicas (con valores definidos de w y de b) a esta descripción.

La métrica que se propone es la siguiente: $$ $$

Para cada muestra $(x_i, y_i)$ se evalua $F(x_i,w,b)$ y se compara con el correspondiente valor $y_i$, la diferencia entre estos valores se eleva al cuadrado. $$ (F(x_i,w,b)-y_i)^{2}$$


Finalmente se calcula el promedio de este valor sobre todas las muestras, el cual definimos como error cuadrático medio (MSE, por sus siglas en ingles, mean squared error). 
Si m es el número de muestras, el MSE queda como:

$$MSE = 1/m∑_{i=1}^{m}(F(x_i,w,b)-y_i)^{2} $$

<font size=4, color='blue'>
    
En el siguiente código se implementa la generación del error cuadrático medio dada una función específica definida por los pesos iniciales w = weight_0, y b = bias_0.

<font size =4>
    

Los parámetros *w* y *b* se eligen al azar: 

``` python 

weight_0 = random.random()*10  # It generates a random float number between 0.0 and 1.0
 
bias_0 = random.random()*10    # It generates a random float number between  0.0 and 1.0

```

In [None]:
import random

random.seed(3)

#Initializing the variables (parámetros) of the function f

weight_0 = np.random.random()*10
bias_0 = np.random.random()*10

print(weight_0, bias_0)

<font size=4 color="blue">

Se grafica la correspondiente función $F(X,w,b)$, junto con los puntos que representan a las muestras

In [None]:

#The following arrays are generated for plotting the Function F(x, weight_0, bias_0)
x_ = np.arange(0.0, measuring_time, 0.1)
y_ = weight_0*x_ + bias_0


# Using this function F, the residuos is calculated by comparing the calculated and measured values

residuo = 0

for i in range(len(x)):

    residuo += (y[i] - weight_0*x[i] - bias_0)**2

residuo = residuo/len(x)

print('residuo:', residuo)

# Samples and function F are plotted
plt.figure(figsize=(13,8))

#Plotting function
plt.plot(x_, y_, color='green', lw=4, label='F(x, w, b)')
plt.legend()
plt.rc('xtick', labelsize=16)
plt.rc('ytick', labelsize=16)
plt.rc('legend', fontsize=16)
plt.ylabel('Y(cm)', fontsize=16)
plt.xlabel('X(seg)', fontsize=16)

#Plotting samples
plt.scatter(x, y)

plt.show()

<font size=5, color='blue'>
Se varian los valores de los parámetros w y b buscando reducir el residuo.

<font size=5, color='blue'>

Se emplea el método de gradiente descendente para realizar esta variación.
    
[Cauchy, Gradiente descendente](./Literatura/Cauchy_gradient-descent.pdf)

<font size=4 color='black'>
    
Los parámetros $\omega$ y $b$ se deben actualizar, de manera que el residuo, MSE, disminuya. 

Estos se actualizan usando la siguientes relaciones:

$$ w => w - \alpha \dfrac{\partial MSE(w, b)}{\partial w}$$

$$ b => b - \alpha \dfrac{\partial MSE(w, b)}{\partial b}$$

$\alpha$, relación de aprendizaje, es un parámetro del modelo, y controla la rapidez con que se varían a los parametros $w$ y $b$.


Dado que el residuo, MSE, está definido mediante la relación siguiente:

$$ MSE = \dfrac{1}{m}∑_{i=1}^{m}(F(x_i,w,b) - y_i)^{2} = \dfrac{1}{m}∑_{i=1}^{m}(w x_i + b -y_i)^2 $$

las derivadas quedan como:

$$ \dfrac{\partial MSE(w, b)}{\partial w} = \dfrac{2}{m}∑_{i=1}^{m}[(w x_i + b -y_i)(x_i)]$$

$$ \dfrac{\partial MSE(w, b)}{\partial b} = \dfrac{2}{m}∑_{i=1}^{m}[(w x_i + b -y_i)]$$



In [None]:
#Function to update weight and bias

def update_parameters(x, y, weight, bias, alfa, num_iteraciones):
    
    # inicializacion de parametros

    alfa = alfa
    residuo = 0
    d_w = 0.0
    d_b = 0.0
    m = len(x)

    # Especificaciones de las graficas
    plt.figure(figsize=(20,8))    
    
    ax1 = plt.subplot(1,3,1)
    ax2 = plt.subplot(1,3,2)
    ax3 = plt.subplot(1,3,3)
    
    ax1.scatter(x, y)

    ax1.set_title('Distancia vs tiempo', size=24)
    ax1.set_xlabel('Tiempo', size=18)
    ax1.set_ylabel('Distancia', size=18)

    # Recta generada con los parametros iniciales

    y_ = weight*x + bias
    
    ax1.plot(x, y_, color='green', lw=4 )
    
    weights = []
    biases = []
    residuos = []
    
    for i in range(num_iteraciones):

        # calculo de derivadas y el residuo

        for i in range(m):

            r = (y[i]-weight*x[i] - bias)**2

            d_w += 2*(weight*x[i] + bias- y[i])*x[i]
            
            d_b += 2*(weight*x[i]+bias-y[i])

            residuo += r

        residuo /= m

        d_w /= m

        d_b /= m
        
        weights.append(weight)
        biases.append(bias)
        residuos.append(residuo)
        
        # Actualizacion de los parametros

        weight = weight - alfa*d_w
        bias = bias - alfa*d_b


        # Recta generada con la actualizacion de los parametros
        
        y_ = weight*x + bias
        
        ax1.plot(x, y_, lw=4 )

        # Grafica de los residuos como funcion de uno de los parametros (el peso)
        
        ax2.scatter(weight, residuo)
        ax2.set_title('MSE vs weight', size=24)
        ax2.set_xlabel('weight', size=18)
        ax2.set_ylabel('MSE', size=18)

        # Grafica de los residuos como funcion de uno de los parametros (el bias)
        
        ax3.scatter(bias, residuo)
        ax3.set_title('MSE vs bias', size=24)
        ax3.set_xlabel('bias', size=18)
        ax3.set_ylabel('MSE', size=18)


    return weights, biases, residuos

In [None]:
# inicializacion de parametros

weight = weight_0 
bias = bias_0 
alfa = 0.00001
num_iter = 100
weights, biases, residuos = update_parameters(x, y, weight, bias, alfa, num_iter)

<font size=4, color='blue'>
Se grafica el residuo como función de cada iteración en que se modificaron el bias y el peso.

In [None]:
plt.figure(figsize=(13, 8))
plt.scatter(range(num_iter), residuos, color='blue')
plt.title('MSE vs Iteración', size=20)
plt.xlabel('Iteración', size=15)
plt.ylabel('MSE', size=15);

<font size=5, color='blue'>

Evaluación del ajuste obtenido


<font size=4, color='blue'>
El total de los datos son divididos en dos grupos: uno con el 90 % de los datos y el segundo con el restante 10 %

<font size=4>
    
La funcion shuffle reordena de forma aleatoria la posicion de un conjunto de datos en una lista.

     x = [ 1, 5, 7, 3, 8]
     shuffle(x) = [5, 8, 3, 1, 7]

 La funcion zip permite hacer conjuntos ordenados de datos combinando dos vectores de igual dimensión, por ejemplo

     x = [1, 2, 3]
     y = [5, 6, 7]
    
     zip(x, y) = ((1, 5), (2, 6), (3, 7))
    
 De esta manera, junto con la funcion shuffle, se asegura que los datos correspondientes a x y y intercambian su posición de la misma manera.
 
 Por otra parte, la operación zip(*c)
 
     (x, y) = zip(*c)
     
Separa a los datos x e y, ya mezclados.

In [None]:
# Los datos se cambian de posicion aleatoriamente

from random import shuffle

c = list(zip(x, y)) 

shuffle(c)
    
(x, y) = zip(*c)

print("Número total de muestras:", len(x))

# Los datos se dividen

muestras_ajustar = (x[0:int(0.90*len(x))], y[0:int(0.90*len(y))])
print("Número de muestras para ajustar:", len(muestras_ajustar[0]))

muestras_test = (x[int(0.90*len(x)):], y[int(0.90*len(y)):])
print("Número de muestras para evaluar el ajuste", len(muestras_test[0]))

plt.figure(figsize=(15, 8))
plt.subplot(1, 2, 1)
plt.scatter(muestras_ajustar[0], muestras_ajustar[1])
plt.title('Muestras_ajustar', size=20)
plt.xlabel('Tiempo(s)', size =15)
plt.ylabel('Distancia(cm)', size =15)
plt.subplot(1, 2, 2)
plt.scatter(muestras_test[0], muestras_test[1], color='red')
plt.title('Muestras_test', size=20)
plt.xlabel('Tiempo(s)', size =15)
plt.ylabel('Distancia(cm)', size =15);

<font size =4, color = 'blue'>
    
 ## Normalizacion de las muestras que se emplearan para el ajuste
 

<font size=4 color='b'>
    
 Si se normalizan con 3 veces la desviacion estandar, el 99.7 de los datos tendrán valores entre -1 y 1. El rango con que se normaliza tambien se puede variar entre una desviación o dos desviaciones estandar. En el primer caso el 68 % de los datos tendrán valores entre -1 y 1, mientras que en el segundo caso este rango correspondera al 95 % de los datos.

<font size=5, color='blue'>
Normalizando los datos con una desviación estandar

In [None]:
x_ajustar = muestras_ajustar[0]
y_ajustar = muestras_ajustar[1]

In [None]:
mean_distance = np.mean(y_ajustar)
std_distance = np.std(y_ajustar)

y_ajustar = (y_ajustar-mean_distance)/std_distance

mean_time = np.mean(x_ajustar)
std_time = np.std(x_ajustar)

x_ajustar = (x_ajustar-mean_time)/std_time

In [None]:
plt.figure(figsize=(13,5))
plt.rc('xtick', labelsize=14)
plt.rc('ytick', labelsize=14)
plt.rc('legend', fontsize=14)


plt.subplot(1, 2, 1)
plt.hist(x_ajustar, bins=30,color='blue', edgecolor='b', alpha=0.5)
plt.xlabel('Tiempo(unidades relativas)', fontsize=14)
plt.ylabel('Frecuencia',fontsize=14)


plt.subplot(1, 2, 2)
plt.hist(y_ajustar, bins=30,color='blue', edgecolor='b', alpha=0.5)
plt.xlabel('Distancia(unidades relativas)',fontsize=14)
plt.ylabel('Frecuencia',fontsize=14);

<font size=4, color='blue'>
Se vuelve a correr el ajuste de datos empleando el metodo de gradiente descendente, pero usando sólo el conjunto de datos correspondiente al 90 %

In [None]:

weight_0 = np.random.random()
bias_0 = np.random.random()
print(weight_0, bias_0)

alfa = 0.04
num_iter = 100

weights, biases, residuos = update_parameters(x_ajustar, y_ajustar, weight_0, bias_0, alfa, num_iter)


<font size=4, color='blue'>
Graficar el error cuadrático medio obtenido como función del número paso

In [None]:
plt.figure(figsize=(11, 6))
plt.scatter(range(num_iter), residuos, color='blue')
plt.title('MSE vs iteración', size=20)
plt.xlabel('iteración', size=15)
plt.ylabel('MSE', size=15);


In [None]:
def residuo(x, y, weight, bias):
    
    r = 0

    m = len(x)
    
    for i in range(m):

        r += (y[i]-weight*x[i] - bias)**2

    r /= m
    
    return r

In [None]:
print("Residuo mas pequeño que se obtuvo durante el ajuste=  %.5f" \
      %np.squeeze(residuo(x_ajustar, y_ajustar, weights[-1], biases[-1])))


<font size=4, color='blue'>
Con los valores optimos del bias y el peso se calcula el error cuadrático medio que se obtiene con el 10 % de los datos restantes.

<font size=4, color='black'>

Para calcular el residuo asociado a las muestras_test, estas se normalizan con los parámetros (valore medio y desviación estandard) utilizados para normalizar los datos de las muestras_ajustar.

In [None]:
y_test = (muestras_test[1]-mean_distance)/std_distance

x_test = (muestras_test[0]-mean_time)/std_time

<font size=4, color='blue'>

Con los valores óptimos obtenidos para el peso y el bias, evaluamos ahora el residuo que se obtiene las muestras_test.

In [None]:
print("Residuo =  %.5f" %np.squeeze(residuo(x_test, y_test, weights[-1], biases[-1])))


<font size=5, color='blue'>

Otra forma de evaluar el ajuste obtenido.

<font size=4, color='blue'>
   
En este caso, las muestras seleccionadas para hacer el ajuste se dividen en dos grupos:

El 90 % (este valor es solo un ejemplo) de ellos se emplea para hacer el ajuste,
    
el 10 % restantes se emplean para evaluar el residuo que se obtiene en cada iteración del ajuste.


<font size=4, color='black'>

Modificamos la función que se tiene para actualizar el peso y se bias en cada ciclo.

A esta nueva función se le proporciona la proporción de los datos que se van a emplear para validar el ajuste.

In [None]:
#Function to update weight and bias

def update_parameters_1(x, y, weight, bias, alfa, iteraciones, val_ratio=0.1):
    
    # inicializacion de parametros
    
    #x = np.squeeze(x)
    #y = np.squeeze(y)
    alfa = alfa
    residuo = 0
    d_w = 0.0
    d_b = 0.0
    m = len(x)

    # Especificaciones de las graficas
    plt.figure(figsize=(13,8)) 
    plt.title('MSE vs iteración', size=24)
    plt.xlabel('iteración', size=18)
    plt.ylabel('MSE', size=18)
    
    ajustar_ratio = int((1.0-val_ratio)*len(x))  
   
    samples_ajustar = (x[0:ajustar_ratio], y[0:ajustar_ratio])
    samples_val = (x[ajustar_ratio:], y[ajustar_ratio:])
    x = samples_ajustar[0]
    y = samples_ajustar[1]
    x_val = samples_val[0]
    y_val = samples_val[1]
       
    weights = []
    biases = []
    residuos = []
    residuos_val = []
    
    m_ajustar = len(x)
    m_val = len(x_val)
    
    for i in range(iteraciones):

        # calculo de derivadas y el residuo
        residuo = 0.0
        residuo_val = 0.0
        
        for j in range(m_ajustar):

            r = (y[j]-weight*x[j] - bias)**2

            d_w += 2*(weight*x[j] + bias- y[j])*x[j]
            
            d_b += 2*(weight*x[j]+bias-y[j])

            residuo += r

        residuo /= m_ajustar

        d_w /= m_ajustar

        d_b /= m_ajustar
        
        #calculo del residuo de las muestras de valoración
        
        for j in range(m_val):

            r = (y_val[j]-weight*x_val[j] - bias)**2

            #r += np.squeeze(r)
            residuo_val += r

        residuo_val /= m_val
                      
        weights.append(weight)
        biases.append(bias)
        residuos.append(residuo)
        residuos_val.append(residuo_val)
        
        # Actualizacion de los parametros

        weight = weight - alfa*d_w
        bias = bias - alfa*d_b
        
        plt.scatter(i, residuo, color='blue')
        
        plt.scatter(i, residuo_val, color='orange')

    return weights, biases, residuos, residuos_val

In [None]:
weight_0 = np.random.random()
bias_0 = np.random.random()
alfa = 0.04
num_iter = 100
validacion_ratio = 0.1

weights, biases, residuos, residuos_val = update_parameters_1 \
        (x_ajustar, y_ajustar, weight_0, bias_0, alfa, num_iter, validacion_ratio)


<font size=4, color='blue'>

Con los valores óptimos obtenidos para el peso y el bias, evaluamos ahora el residuo que se obtiene las muestras_test.

In [None]:
print("Residuo =  %.5f" %np.squeeze(residuo(x_test, y_test, weights[-1], biases[-1])))


<font size=5, color='blue'>

Inferencia

<font size=4, color='black'>

Dado el tiempo t podemos obtener una predicción (inferencia) del valor de la distancia.

In [None]:
def inference(t, w, b, mean_t, std_t, mean_y, std_y) :
    
    t = (t-mean_t) / std_t 
    d = w * t + b
    
    d = d * std_y + mean_y
    
    return d

In [None]:
tiempos = [1.65, 32.20, 43.5, 84.7]

for t in tiempos :
    distance = inference(t,weights[-1], biases[-1], mean_time, std_time, mean_distance, std_distance)

    print ("Para el tiempo de {0:5.2f} s la distancia inferida es {1:6.2f} cm ".format(t,distance))

<font size=4 color='black'>

Vemos entonces que con el ajuste de una función al conjunto de puntos $(x_i, y_i)$ podemos hacer predicciones de valores y dado el valor de x. 
    
Es decir, el sistema desarrollado "aprendió" la correlación que hay entre las $x_i$ y la $y_i$, y por ello puede hacer inferencias.

<font size=6 color='blue'>

<center>Inteligencia Artificial <center>

<font size=5 color='blue'>

Pasaremos conceptualmente de la nomenclatura de ajuste de datos a
    
la nomenclatura que se emplea en Inteligencia Artificial

<font size=4 color='black'>

Esta transición la haremos empleando toda la matematica desarrollada en las celdas anteriores

<font size=4 color='black'>
    
En inteligencia artificial, un sistema es inteligente cuando despues de ser entrenado con información que le es suministrada, es capaz de hacer inferencias (predicciones).



<font size=5 color='blue'>
 
Dada la dinámica en inteligencia artificial a nivel mundial, en el presente curso,
    
emplearemos la nomenclatura estandar que se emplea en el idioma Ingles.

<font size=4 color='black'>

Al analizar una area de estudio, se deben encontrar las conceptos que la identifican.
    
Se hace una cuantificación de estos conceptos definiendo variables que identifican a cada uno de ellos.
    
Existe un conjunto que estas variables $\textbf{X}$ que son idependientes y que determinan al resto, a las cuales denominaremos como $\textbf {Y}$.
    



<font size=4 color='black'>

Se obtiene un cojunto m de muestras de estas variables.

Se genera un sistema de aprendizaje, al cual se le suministran estas muestras.

Con esta información el sistema aprende y puede hacer inferencias.

Por ejemplo, si se le presenta un nuevo dato X del área de estudio, el sistema puede predecir (inferir) los correspondientes valores de las variable Y.

<font size=5 color='blue'>
    
El ejemplo que vimos de ajuste de una función a un conjunto de puntos $(x_i, y_i)$ lo traduciremos a un sistema de aprendizaje artificial.

<font size=4 color='black'>
    
El área que analizamos corresponde al movimiento de un cuerpo. 
    
Esta área la caracterizamos por los conceptos tiempo y distancia. 
    
Definimos la viable $x$ para identificar al tiempo y la variable $y$ para idenficar la distancia.

<font size=5 color='blue'>

Analizaremos un ejemplo de esta área.

<font size=4 color='black'>

Tenemos un cuerpo, del cual se han obtenido $m$ muestras de estas variables. Cada muestra de este cuerpo la identificamos por la dupla $(x_i, y_i)$.
    
Generaremos un sistema de aprendizaje, en donde proponemos que la función $F(x)$ describe la relación entre estas variables. 
    
Esta función puede tener diferentes formas. Por ejemplo:
    
$$F(x, w, b) = b + w x$$
    
o bien:
    
$$ F(x,w,b) = 1.7159*tanh(weight*x+bias) $$
    
o bien:
    
$$ F(x,weights, biases) = Artificial-Neural-Network (ANN)$$
    
o bien:
    
$$ F(x,weights, biases) = Supported-Vector-Machine(SVM)$$
    
o bien: 
    
$$ F(x,weight, biases) = Decision-Tree $$
    
o bien:
    
$$ F(x,weight, biases) = Decision-Forest $$
    
entre otros.   

<font size=4 color='black'>

Dada la simplicidad de nuestros datos, para nuestro sistema de aprendizaje proponemos que la relación entre las vairables que describen nuestro sistema es una relación lineal, descrita por la función:
    
 $$F(x, w, b) = b + w x$$
    
En la nomenclatura de inteligencia artificial, esto significa que nuestro problema se resuelve con una "regresión lineal" (Linear regression).

<font size=5 color='blue'>

Estos son los datos que describen el movimiento de nuestro cuerpo

In [None]:
# Generacción de las muestras (x,yi)
n_points = 5000
distance_0 = 100.0
measuring_time = 100.0
speed = 20.0
max_distance_error = 100

x, y = generador_datos_simple(n_points, distance_0, measuring_time, speed, max_distance_error)

print("x type", type(x), "x shape", x.shape)
print("y type", type(y), "y shape", y.shape)

In [None]:
plt.figure(figsize=(13,8))
plt.rc('xtick', labelsize=16)
plt.rc('ytick', labelsize=16)
plt.rc('legend', fontsize=16)


plt.scatter(x, y)
plt.title('Movimiento del cuerpo', size=24)
plt.xlabel('X(segundos)', size=18)
plt.ylabel('Y(cm)', size=18);

plt.show()

<font size=4 color ='blue'>
Se generan histogramas de los las variables $x$ y $y$

In [None]:
plt.figure(figsize=(13,5))
plt.rc('xtick', labelsize=14)
plt.rc('ytick', labelsize=14)
plt.rc('legend', fontsize=14)

plt.subplot(1, 2, 1)
plt.hist(x, bins=30, edgecolor='black', alpha=0.5)
plt.xlabel('X(segundos)', fontsize=16)
plt.ylabel('frecuencia', fontsize=16)


plt.subplot(1, 2, 2)
plt.hist(y, bins=30, edgecolor='black', alpha=0.5)
plt.xlabel('Y(cm)', fontsize=16)
plt.ylabel('frecuencia', fontsize=16);

<font size=4, color='blue'>
El total de los datos son divididos en dos grupos: uno con el 90 % de los datos y el segundo con el restante 10 %

In [None]:
# Los datos se cambian de posicion aleatoriamente

from random import shuffle

c = list(zip(x, y)) 

shuffle(c)
    
(x, y) = zip(*c)

print(len(x), len(y))

# Los datos se dividen

muestras_train = (x[0:int(0.90*len(x))], y[0:int(0.90*len(y))])
print(len(muestras_train[0]), len(muestras_train[1]))

muestras_test = (x[int(0.90*len(x)):], y[int(0.90*len(y)):])

plt.figure(figsize=(15, 8))
plt.subplot(1, 2, 1)
plt.scatter(muestras_train[0], muestras_train[1])
plt.title('Muestras_train', size=20)
plt.xlabel('X(s)', size =15)
plt.ylabel('Y(cm)', size =15)
plt.subplot(1, 2, 2)
plt.scatter(muestras_test[0], muestras_test[1], color='red')
plt.title('Muestras_test', size=20)
plt.xlabel('X(s)', size =15)
plt.ylabel('Y(cm)', size =15);

<font size=5, color='blue'>
Para las muestras de entrenamiento, las variables se normalizan empleando el promedio y la desviación estandar de la variable.

In [None]:
x_train = muestras_train[0]
y_train = muestras_train[1]

In [None]:
y_mean = np.mean(y_train)
y_std = np.std(y_train)

y_train = (y_train-y_mean)/y_std

x_mean = np.mean(x_train)
x_std = np.std(x_train)

x_train = (x_train-x_mean)/x_std

In [None]:
plt.figure(figsize=(13,5))
plt.rc('xtick', labelsize=14)
plt.rc('ytick', labelsize=14)
plt.rc('legend', fontsize=14)


plt.subplot(1, 2, 1)
plt.hist(x_train, bins=30,color='blue', edgecolor='b', alpha=0.5)
plt.xlabel('X', fontsize=14)
plt.ylabel('Frecuencia',fontsize=14)


plt.subplot(1, 2, 2)
plt.hist(y_train, bins=30,color='blue', edgecolor='b', alpha=0.5)
plt.xlabel('Y',fontsize=14)
plt.ylabel('Frecuencia',fontsize=14);

<font size=4, color='blue'>
   
Las muestras seleccionadas para hacer el entrenamiento se dividen en dos grupos:

El 90 % (este valor es solo un ejemplo) de ellos se emplea para hacer el entrenamiento,
    
el 10 % restantes se emplean para evaluar el error ($\textbf {costo}$) que se obtiene una vez que el sistema ha terminado su aprendizaje.


<font size=4, color='black'>

Generamos la función "training" que contiene la arquitectura que emplearemos para entrenar el sistema aprendizaje. 
    
De momento, en esta función incluiremos también la métrica que emplearemos para obtener el entrenamiento, ejecutaremos el entrenamiento y generaremos las graficas del costo como función de la época. 
    
Estas tres últimas acciones normalmente se definen por separado.
    

<font size=4, color='blue'>
Sea $F(x_i,w,b)$, la función que describe el sistema de aprendizaje. En donde w y b, son los parámetros que la definen.

<font size = 4>

Para encontrar los valores de $w$ y $b$, es necesario generar una metrica que nos indique la evolución del aprendizaje. Esta métrica compara los valores de la función $F(x_i,w,b)$ con los valores $y_i$ para cada una de las muestras.

La siguiente es un ejemplo de este tipo de métricas:
    
$$ (F(x_i,w,b)-y_i)^{2}$$

Para cada muestra $(x_i, y_i)$ se evalua $F(x_i,w,b)$ y se compara con el correspondiente valor $y_i$, la diferencia entre estos valores se eleva al cuadrado. 

Se hace esto para cada una de las muestras para obtener, en el presente caso, el error cuadrático medio (MSE, por sus siglas en ingles, mean squared error). 

Si m es el número de muestras, el MSE queda como:

$$MSE = 1/m∑_{i=1}^{m}(F(x_i,w,b)-y_i)^{2} $$

    
    
Dado un valor de $w$ y $b$, y generamos este error cuadrático medio, decimos que generamos una época. Se compara este error con el mínimo deseado, si es mayor, entonces modificamos los valores de los parámetros $w$ y $b$, es decir, el sistema sigue aprendiendo, e iniciamos una nueva epoca. 
    

<font size=4 color='black'>
    
Por ejemplo, los parámetros $w$ y $b$ se pueden actualizar usando la siguientes relaciones:

$$ w => w - \alpha \dfrac{\partial MSE(w, b)}{\partial w}$$

$$ b => b - \alpha \dfrac{\partial MSE(w, b)}{\partial b}$$

$\alpha$, relación de aprendizaje, es un parámetro del modelo, y controla la rapidez con que se varían a los parametros $w$ y $b$.


<font size=5, color='blue'>
Es muy importante evaluar el aprendizaje en cada época. 

<font size=4, color='black'>
    
Esto se realiza separando una porción (10 %) de los datos proporcionados al sistema de aprendizaje. Con ellos se obtiene un error en cada época, llamado el error de validacion, el cual se grafica junto con el error asociado al aprendizaje.


In [None]:
#Function to update weight and bias

def training(x_train, y_train, weight, bias, alpha, epochs, val_ratio=0.1):
    
    # inicializacion de parametros

    alpha = alfa
    d_w = 0.0
    d_b = 0.0

    # Especificaciones de las graficas
    plt.figure(figsize=(13,8)) 
    plt.title('Error vs Epoca', size=24)
    plt.xlabel('Época', size=18)
    plt.ylabel('Error', size=18)
    
    train_ratio = int((1.0-val_ratio)*len(x_train))  
   
    samples_train = (x_train[0:train_ratio], y_train[0:train_ratio])
    samples_val = (x_train[train_ratio:], y_train[train_ratio:])
    x = samples_train[0]
    y = samples_train[1]
    x_val = samples_val[0]
    y_val = samples_val[1]
       
    weights = []
    biases = []
    costs = []
    costs_val = []
    
    m_train = len(x)
    m_val = len(x_val)
    
    for i in range(epochs):

        # calculo de derivadas y el residuo
        cost = 0.0
        cost_val = 0.0
        
        for j in range(m_train):

            r = (y[j]-weight*x[j] - bias)**2

            d_w += 2*(weight*x[j] + bias- y[j])*x[j]
            
            d_b += 2*(weight*x[j]+bias-y[j])

            cost += r

        cost /= m_train

        d_w /= m_train

        d_b /= m_train
        
        #calculo del residuo de las muestras de valoración
        
        for j in range(m_val):

            cost_val += (y_val[j] - weight*x_val[j] - bias)**2

        cost_val /= m_val
               
       
        weights.append(weight)
        biases.append(bias)
        costs.append(cost)
        costs_val.append(cost_val)
        
        # Actualizacion de los parametros

        weight = weight - alpha*d_w
        bias = bias - alpha*d_b
        
        plt.scatter(i, cost, color='blue')
        
        plt.scatter(i, cost_val, color='orange')
        plt.legend(['Training', 'Validation'], loc='upper right')

    return weights, biases, costs, costs_val

In [None]:
weight_0 = np.random.random()
bias_0 = np.random.random()
alpha = 0.04
num_epochs = 100
validation_ratio = 0.1

weights, biases, cost, cost_val = training \
        (x_train, y_train, weight_0, bias_0, alpha, num_epochs, validation_ratio)


<font size=5, color='blue'>

Inferencia (predicción)

<font size=4, color='black'>

Dado el tiempo t el sistema de aprendizaje puede predecir (inferir) del valor de la distancia para ese tiempo.

<font size=4 color='blue'>
    
Recuerdese que para realizar el entrenamiento del sistema de aprendizaje, tanto la variable dependiente, y, como la variable independiente, x, fueron normalizadas.
    


<font size=4>

Para poder explotar lo aprendido por el sistema de aprendizaje con un conjunto de muestras nuevas, es necesario reescalar el valor de la variable independiente, x, de cada muestra nueva. 
    
Una vez inferido, para una muestra, el valor de la variable dependiente, y, es necesario reescalarlo para tener un valor que se pueda comparar con lo valores originales de la muestras empleadas para el entrenamiento.

In [None]:
def inference(x, w, b, x_train_mean, x_train_std, y_train_mean, y_train_std) :
    
    # reescalando la variable x
    x = (x - x_train_mean) / x_train_std
    
    y = w * x + b
    
    # reescalando el valor inferido
    y = y * y_train_std + y_train_mean
    
    return y

In [None]:
tiempos = [1.65, 32.20, 43.5, 84.7]
distancia_inferida =[]

for t in tiempos :
    distancia = inference(x=t,w=weights[-1], b=biases[-1], \
                          x_train_mean = x_mean, x_train_std = x_std,\
                          y_train_mean = y_mean, y_train_std = y_std)
    distancia_inferida.append(round(distancia,1))

    print ("Para el tiempo de {0:5.2f} s la distancia inferida es {1:6.2f} cm ".\
           format(t,distancia))

In [None]:
# se obtiene la distancia real
w_real=20
b_real=100
distancia_real = [w_real*t+b_real for t in tiempos]
distancia_real

In [None]:
# para medir el error se comparan las inferencias con las etiquetas reales. 

cont=0
for i in range(len(distancia_real)):
    if distancia_real[i]==distancia_inferida[i]:
        cont =+1
accuracy= cont/len(distancia_real)
print('accuracy:', accuracy)