# Regresión Lineal Simple. Un ejemplo minimalista

### Importar las librerías relevantes

In [26]:
import pandas as pd
import numpy as np
import plotly.express as px
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D  # Para graficar en 3-D

### Generar datos al azar para entrenar al modelo

Se trabajará con dos variables de entrada, las x1 y x2 en los ejemplos vistos en clase. Se generan al azar a partir de una distribución uniforme.

Se creará una matriz con estas dos variables.  La matriz X del modelo lineal y = x * w + b

In [58]:
# Por facilidad, se declara una variable para indicar el tamaño del conjunto 
#      de datos de entrenamiento. Puede probarse con 100,000 o 1,000,000 pero hay 
#      que tener cuidado ya que con tantas observaciones puede que la máquina se quede!

observaciones = 1000

x1 = np.random.uniform(low = -10, high = 10, size = (observaciones,1))
x2 = np.random.uniform(-10, 10, (observaciones,1))

X = np.column_stack((x1,x2))

# Verificar la forma de la matriz 
# Debiera ser n x k, donde n es el número de observaciones, y k es el número de variables.

print (X.shape)

(1000, 2)


### Generar las metas a las que debemos apuntar

Para el modelo se usará la función f(x1, x2) = 2 * x1 - 3 * x2 + 5 + <ruido pequeño>.  El ruido es para hacerlo más realista.

Se utiliza la metodología de ML, y al finalizar se determinará si el algoritmo la ha aprendido.  

Al utilizar esta función, se espera que la red neuronal genere los pesos w1 = 2, w2 = -3 y el sesgo b = 5.  Si no se logra, es que algo se ha hecho mal. 

In [59]:
ruido = np.random.uniform(-1, 1, (observaciones,1))

metas = 13 * x1 + 7 * x2 -12

# Verificar las dimensiones. Deben ser n x m, donde m es el número de variables de salida.
print (metas.shape)

(1000, 1)


### Graficar los datos a usar para el entrenamiento

La idea es ver que haya una fuerte tendencia que el modelo debe aprender a reproducir.


In [60]:
print(x1.shape)
print(x2.shape)
print(metas.shape)

(1000, 1)
(1000, 1)
(1000, 1)


In [61]:
x1N = x1.reshape(observaciones,)
x2N = x2.reshape(observaciones,)
metasN = metas.reshape(observaciones,)

fig = px.scatter_3d(x = x1N, y = x2N, z = metasN)

fig.update_layout(
    width = 500,
    height = 500,)

fig.show()

### Inicializar variables

Se inicializan los pesos y sesgos, al azar, dentro de un rango inicial pequeño.  Es posible "jugar" con este valor pero no es recomendable ya que el uso de rangos iniciales altos inhibe el aprendizaje por parte del algoritmo

Los pesos son de dimensiones k x m, donde k es el numero de variables de entrada y m es el número de variables de salida.  

Como solo hay una salida, el sesgo es de tamaño 1, y es un escalar

In [62]:
rango_inicial = 0.1     #  valor máximo para los pesos y sesgos iniciales

pesos = np.random.uniform(low = -rango_inicial, high = rango_inicial, size = (2, 1))

sesgos = np.random.uniform(low = -rango_inicial, high = rango_inicial, size = 1)

#Ver cómo fueron inicializados.
print (pesos)
print (sesgos)

[[ 0.06487971]
 [-0.07662273]]
[-0.00378234]


In [63]:
pesos.shape

(2, 1)

### Asignar la tasa de aprendizaje (Eta)

Se asigna una tasa de aprendizaje pequeña.  Para este ejemplo funciona bien 0.02.  Vale la pena "jugar" con este valor para ver los resultados de hacerlo.

In [64]:
eta = 0.02

### Entrenar el modelo

Se utilizará un valor de 100 para iterar el modelo con el conjunto de datos de entrenamiento.  Ese valor funciona bastante bien con la tasa de aprendizaje de 0.02.  Cómo saber el número adecuado de iteraciones es algo que se verá en futuras sesiones, pero generalmente una tasa de aprendizaje baja requiere de más iteraciones que una más alta.  Sin embargo hay que tener en mente que una tasa de aprendizaje alta puede causar que la pérdida "Loss" diverja a infinito, en vez de converger a cero (0)

Puesto que esta es una regresión, se usará la función de pérdida L2-norm (dividido por 2, para ser consistente con la clase).  Es más, también se dividirá por el número de observaciones para obtener un promedio de pérdida por observación.  Se discutió en clase sobre la libertad de modificar esta función una vez no se pierda la característica de ser más baja para los resultados mejores, y vice versa.

Se mostrará la función de pérdida (loss) en cada iteración, para ver si está decreciendo como se desea.

Otro pequeño truco es escalar las deltas de la misma manera que se hizo con la función de pérdida.  De esta forma la tasa de aprendizaje es independiente del número de observaciones.  De nuevo esto no cambia el principio, solo hace más fácil la selección de una tasa única de aprendizaje. 

Finalmente se aplica la regla de actualización del decenso de gradiente.

Ojo!  los pesos son de dimensión 2 X 1, la tasa de aprendizaje es 1 X 1 (escalar), las entradas son 1000 X 2, y las deltas escaladas son 1000 X 1.  Es necesario obtener la transpuesta de las entradas para que no hayan problemas de dimensión en las operaciones. 



In [65]:
for i in range (100):
    
    # Esta es la ecuacion del modelo lineal: y = xw + b 
    y = np.dot(X, pesos) + sesgos
    
    # Las deltas son las diferencias entre las salidas y las metas (targets)
    # deltas es un vector 1000 x 1
    deltas = y - metas
        
    perdida = np.sum(deltas ** 2) /2/ observaciones
    
    print(perdida)
    
    deltas_escaladas = deltas / observaciones
      
    pesos = pesos - eta * np.dot(X.T, deltas_escaladas)
    sesgos = sesgos - eta * np.sum(deltas_escaladas)
    
    # Los pesos son actualizados en forma de algebra lineal(una matriz menos otra)
    # Sin embargo, los sesgos en este caso son solo un número (solo se calcula una salida), 
    #       es necesario transformar las deltas a un escalar.      
    # Ambas líneas son consistentes con la metodología de decenso de gradiente

3714.0529928945516
477.71396792866824
111.6452679389075
68.06050134312423
60.935542546499605
58.02335945022262
55.67247281504811
53.46527896270602
51.35112030484855
49.32119253503733
47.37158073636543
45.49904318850949
43.70052558469936
41.9731011355854
40.313959521346376
38.720401599561214
37.18983493159652
35.71976955569081
34.30781393513878
32.95167106755839
31.649134748059673
30.398085980137143
29.19648952843684
28.04239060778775
26.933911703111676
25.869249515037883
24.84667202625354
23.864515683817505
22.921182692853588
22.015138417220445
21.144908882929766
20.309078380250856
19.5062871606011
18.735229224475102
17.99465019681425
17.28334528636004
16.600157325671624
15.943974888618602
15.313730482287198
14.708398810357757
14.126995105128842
13.568573525474054
13.032225618125622
12.517078839781446
12.022295137631172
11.547069585992467
11.090629076838988
10.652231062090246
10.231162345617005
9.826737922997228
9.438299867134848
9.06521625792855
8.706880154249511
8.362708606555302
8.0

### Desplegar los pesos y el sesgo para ver si funcionaron correctamente.

Por el diseño de los datos, los pesos finales deben ser 2 y -3, y el sesgo: 5

**NOTA:**  Si aún no están los valores correctos, puede que aún estén convergiendo y sea necesario iterar más veces.  Para esto solo se requiere ejecutar la celda anterior cuantas veces sea requerido

In [66]:
print(pesos, sesgos)      

[[13.00312393]
 [ 7.01148048]] [-10.41344549]


### Graficar las últimas salidas vrs las metas (targets)

Como son los últimos valores, luego del entrenamiento, representan la exactitut del modelo final de.  Entre más cercana esté esta gráfica a una línea de 45 grados, más cercanas están las salidas y metas.

Como este ejemplo es pequeño, es posible hacerlo, en los problemas que se veran posteriormente en el curso, esto ya no sería posible.

In [67]:
yN = y.reshape(observaciones,)
metasN = metas.reshape(observaciones,)
fig = px.scatter(x = yN, y =  metasN)

fig.update_layout(
    width = 400,
    height = 400,)

fig.show()

# PREGUNTA 2

### ETA = 0.0001

1. El tiempo de ejecución fue de 9ms lo que representa un nivel de procesamiento más lento a comparacion de la utilizada en clase (eta = 0.02) la cual tuvo un tiempo de ejecución de 2ms, esto pasa debido a que los pesos cambian más lentamente en comparación con una tasa de aprendizaje más grande 

2. Los valores de pérdida iniciales rondaban por los 200, sin embargo cada vez que se ejecutaba el código para entrenar el modelo, se reducían las pérdidas drásticamente, llegando a valores máximos de 8 con 7 ejecuciones  

3. En el caso de los pesos, gracias a que la tasa de aprendizaje fue más pequeña los pesos cambian más lentamente y alcanzaron diferentes valores finales: [[2.00085742], [-2.99841668]]. En el caso del sesgo este se acopla de la misma manera que con la tasa de aprendizaje, teniendo un valor de [4.32521104]

4. Una tasa de aprendizaje más alta generalmente conduce a una convergencia más rápida pero puede ser propensa a oscilaciones o divergencias si es demasiado alta. Por otro lado, una tasa de aprendizaje más baja generalmente conduce a una convergencia más lenta pero puede ser más estable y menos propensa a oscilaciones.

5. Observando que los datos de pérdida disminuyen con cada ejecución y que el modelo converge, se puede inferir que el problema se soluciona, sin embargo hay que hacer diversas pruebas para verificar el modelo con diferentes variedades de escenarios y conjuntos de datos.

6. En la siguiente grafica se puede observar que la linea tiene una inclinación de 45 grados:

![image.png](attachment:image.png)

podemos concluir que el modelo está cumpliendo de manera excelente con la condición de ajustarse de manera precisa a las metas reales.



### ETA = 1

1. El tiempo de ejecución es relativamente constante, alrededor de 10 ms en cada iteración, lo que sugiere que el tiempo de ejecución no está aumentando significativamente a medida que avanza el proceso de entrenamiento.

2. La pérdida inicial disminuye rápidamente durante las primeras iteraciones, pero luego comienza a aumentar dramáticamente y alcanza valores extremadamente altos. Esto sugiere que el modelo inicialmente mejora, pero luego se desestabiliza y no logra converger a una solución aceptable.

3. Los valores de los pesos y los sesgos se vuelven extremadamente grandes ([[-4.96636458e+148] [-1.65915759e+148]], [2.13801574e+146]), lo que indica que el modelo está experimentando problemas de divergencia. Estos valores tan grandes pueden ser indicativos de desbordamiento numérico o problemas de estabilidad en el proceso de entrenamiento.

4. El número de iteraciones continúa aumentando, pero no parece haber una mejora significativa en el rendimiento del modelo. Esto sugiere que el proceso de entrenamiento no está convergiendo hacia una solución útil.

5. No, el problema no queda resuelto. De hecho, parece haber empeorado, ya que el modelo no logra minimizar la pérdida y los pesos y sesgos se vuelven extremadamente grandes, lo que indica problemas graves en el proceso de entrenamiento.

6. La última gráfica muestra una dispersión de datos, sin seguir una línea de 45 grados. Esto indica que las predicciones del modelo no se alinean bien con las metas reales, lo que sugiere un rendimiento deficiente del modelo. No se cumple con la condición de que la gráfica sea de 45 grados, lo que indica que las predicciones del modelo están muy alejadas de las metas reales.

![image-2.png](attachment:image-2.png)


# 1.

# Análisis de escalabilidad del modelo

## 10000 observaciones 


In [None]:
observaciones = 100000

x1 = np.random.uniform(low = -10, high = 10, size = (observaciones,1))
x2 = np.random.uniform(-10, 10, (observaciones,1))

X = np.column_stack((x1,x2))

# Verificar la forma de la matriz 
# Debiera ser n x k, donde n es el número de observaciones, y k es el número de variables.

print (X.shape)

In [None]:
ruido = np.random.uniform(-1, 1, (observaciones,1))

metas = 2 * x1 - 3 * x2 + 5 + ruido

# Verificar las dimensiones. Deben ser n x m, donde m es el número de variables de salida.
print (metas.shape)
print(x1.shape)
print(x2.shape)
print(metas.shape)

In [None]:
x1N = x1.reshape(observaciones,)
x2N = x2.reshape(observaciones,)
metasN = metas.reshape(observaciones,)

fig = px.scatter_3d(x = x1N, y = x2N, z = metasN)

fig.update_layout(
    width = 500,
    height = 500,)

fig.show()

In [None]:
rango_inicial = 0.1     #  valor máximo para los pesos y sesgos iniciales

pesos = np.random.uniform(low = -rango_inicial, high = rango_inicial, size = (2, 1))

sesgos = np.random.uniform(low = -rango_inicial, high = rango_inicial, size = 1)

#Ver cómo fueron inicializados.
print (pesos)
print (sesgos)

In [None]:
pesos.shape

In [None]:
eta = 0.02
for i in range (100):
    
    # Esta es la ecuacion del modelo lineal: y = xw + b 
    y = np.dot(X, pesos) + sesgos
    
    # Las deltas son las diferencias entre las salidas y las metas (targets)
    # deltas es un vector 1000 x 1
    deltas = y - metas
        
    perdida = np.sum(deltas ** 2) / 2 / observaciones
    
    print(perdida)
    
    deltas_escaladas = deltas / observaciones
      
    pesos = pesos - eta * np.dot(X.T, deltas_escaladas)
    sesgos = sesgos - eta * np.sum(deltas_escaladas)

In [None]:
print(pesos, sesgos)

In [None]:
yN = y.reshape(observaciones,)
metasN = metas.reshape(observaciones,)
fig = px.scatter(x = yN, y =  metasN)

fig.update_layout(
    width = 400,
    height = 400,)

fig.show()

## 1 Millón de observaciones 

In [None]:
observaciones = 1000000

x1 = np.random.uniform(low = -10, high = 10, size = (observaciones,1))
x2 = np.random.uniform(-10, 10, (observaciones,1))

X = np.column_stack((x1,x2))

# Verificar la forma de la matriz 
# Debiera ser n x k, donde n es el número de observaciones, y k es el número de variables.

print (X.shape)

In [None]:
ruido = np.random.uniform(-1, 1, (observaciones,1))

metas = 2 * x1 - 3 * x2 + 5 + ruido

# Verificar las dimensiones. Deben ser n x m, donde m es el número de variables de salida.
print (metas.shape)

In [None]:
print(x1.shape)
print(x2.shape)
print(metas.shape)

In [None]:
x1N = x1.reshape(observaciones,)
x2N = x2.reshape(observaciones,)
metasN = metas.reshape(observaciones,)

fig = px.scatter_3d(x = x1N, y = x2N, z = metasN)

fig.update_layout(
    width = 500,
    height = 500,)

fig.show()

In [None]:
rango_inicial = 0.1     #  valor máximo para los pesos y sesgos iniciales

pesos = np.random.uniform(low = -rango_inicial, high = rango_inicial, size = (2, 1))

sesgos = np.random.uniform(low = -rango_inicial, high = rango_inicial, size = 1)

#Ver cómo fueron inicializados.
print (pesos)
print (sesgos)

In [None]:
pesos.shape
eta = 0.02

for i in range (100):
    
    # Esta es la ecuacion del modelo lineal: y = xw + b 
    y = np.dot(X, pesos) + sesgos
    
    # Las deltas son las diferencias entre las salidas y las metas (targets)
    # deltas es un vector 1000 x 1
    deltas = y - metas
        
    perdida = np.sum(deltas ** 2) / 2 / observaciones
    
    print(perdida)
    
    deltas_escaladas = deltas / observaciones
      
    pesos = pesos - eta * np.dot(X.T, deltas_escaladas)
    sesgos = sesgos - eta * np.sum(deltas_escaladas)

In [None]:
print(pesos, sesgos)

In [None]:
yN = y.reshape(observaciones,)
metasN = metas.reshape(observaciones,)
fig = px.scatter(x = yN, y =  metasN)

fig.update_layout(
    width = 400,
    height = 400,)


fig.show()

1. Tiempo de ejecucion

Podemos ver que a comparacion entre el primer intento (1000), el segundo intento (100000) y el tercer intento (1000000), se va incrementando exponencialmente el tiempo de ejecucion y es mas visible en las graficas, podemos ver que en el primer intento son 0.28s, para el segundo intento son 0.5s y para el tercer intento son 4.5s. Por lo que podemos decir que la cantidad de observaciones afectan negativamente el tiempo de ejecucion.

2. El resultado final vs lo encontrado en clase
<br> <br>
Para el intento en clase los sesgos son: x = 0.01015558;  y = -0.0964783; z = 0.05190546 <br>
Para el segundo intento los sesgos son: x = 0.01229753; y = 0.08494911; z = -0.07532277 <br>
Para el tercer intento los sesgos son: x = 1.99975309; y = -2.99989665; z = 4.33000699 <br>

Podemos ver que en realidad entre 1000 y 1000000 observaciones el resultado es muy similar, por lo que no es necesario tener tantas observaciones para obtener un resultado similar.
Mientras que al tener tantas observaciones se genera un sesgo muy alto y variado en comparación con los otros dos intentos.

3. Graficas para representar los datos/resultados

En cuanto a las graficas, en la primera podemos observar que hay espacion vacios, mientras que a partir de 100000 observaciones realmente se dificulta observar datos en las graficas y se vuelven practicamente una linea segun el modelo lineal.

# Pregunta 3.4

1. El resultado al eliminar el 2 de la division se genera una diferencia de un milisegundo menos entre los resultados de clase y la version sin la division entre 2

2. Al eliminar la division entre 2 podemos observar que la perdida practicamente se duplica.

3. Realmente no genera un gran impacto al peso y al sesgo a la hora de eliminar el 2 en la division, pues produce resultados similares y difieren por decimas.

4. Si se resuelve pero con un resultado no tan exacto como el primero, pues los valores de perdida se duplican. 

5. No se obtiene un mejor resultado pues se genera mas perdida.

# PREGUNTA 3.5

## Cambio a 'L1-norm'

1. Con la eta predeterminada de 0.02 el tiempo de ejecución del entrenamiento del modelo fue de 13ms, lo cual es un poco elevado a comparación de el método de L2-norm el cual fue de 9ms. 
2. En cuanto a la pérdida del modelo, los valores rondaban alrededor 0.5 a 0.6, lo cual aumentó ya que utilizando el método anterior la pérdida era de 0.17 
3. Los sesgos y los pesos originales fueron de [[ 2.00462283] [-3.00234264]] [4.97932173] y con la aplicación de L1 norms fueron de [[ 2.00462282] [-3.00234263]] [4.97932491] el cual se puede observar que el cambio es mínimo.
4. Si se resuelve el problema, sin embargo los datos que se pueden visualizar en la gráfica parecen estár mas dispersos a comparación del ejemplo inicial, por lo que la presición del modelo puede no ser el más óptimo.
5. Como se menciona anteriormente, los datos salen un poco más dispersos.
6. Se tiene más limitaciones en el caso de L1-norm ya que los valores de pérdida se triplicaron , mientras que en la modificación de l2-norm solamente se duplicaron, además el tiempo de ejecución aumentó, mientras que en la modificación anterior se disminuyó el tiempo de ejecución.

# PREGUNTA 4

El algoritmo cambió drásticamente, esto se puede ver desde el principio de las ejecuciones, en donde la gráfica mostro que las observaciones se dispresaron 10 veces más. Al etrenar el modelo se multiplicó aproximadamente 15 veces la pérdida, llegando a tener un valor máximo de 3714. Los pesos se incrementaron casi 6 veces el primer valor y el segundo valor se duplicó, en el caso del sesgo generó un valor negativo, el cual no se acopla con la tasa de aprendizaje.