# Redes Neuronales

***1. Explicar en qué consiste Transfer Learning.***

Basicamente tiene que ver con reutilizar la información adquirida en aprendizaje anterior. Más información [aca](https://en.wikipedia.org/wiki/Transfer_learning).

***3. En este ejercicio se plantea la aplicación de Redes Convoluciones para textos. Se tienen oraciones de un texto y se quiere clasificarlas en 10 categorías diferentes. Se quiere usar cada palabra del texto como una unidad indivisible.***

***a) Explicar cómo se aplicaría una capa de convolución sobre el texto, cuáles serían los hiperparámetros a definir, y cuáles son los parámetros que debe encontrar la red neuronal.***

***b) Diseñar y explicar una arquitectura para resolver el problema propuesto usando una única capa de
convolución, una de pooling, una capa fully-connected y luego la capa final para clasificar. Justificar.***

Transformamos cada oración en el conjunto de vectores que representan las palabras hasheadas. Los mismos son luego procesados por diferentes filtros convolucionales (producto interno) y entre los resultados de los filtros se puede hacer un max pooling para generar un vector reducible por una softmax.

Los hiperparámetros son la cantidad de filtros a usar y los coeficientes de los mismos, la dimensionalidad de estos y los hiperparámetros de la red que le sigue.

***4. Se parte de imágenes RGB de 20x20 píxeles que se quieren clasificar entre 3 clases posibles con una red neuronal convolucional. Se aplica una capa convolucional del tipo “same” con 5 filtros de 3x3, luego se aplica una capa max pooling de 4x4 con stride de 4, a continuación una capa fully-connected y finalmente una capa softmax.***

***a. Diagramar el modelo de red. ¿Cuántas neuronas tienen las dos últimas capas del modelo?***

***b. ¿Cuántos parámetros se deben entrenar en total?***

Se puede diagramar en [esta página](http://alexlenail.me/NN-SVG/LeNet.html).

***5. Se quiere aprender un clasificador tipo Perceptron para 6 puntos en el plano (A, B, C, D, E y F) y sus correspondientes clases (Ca, Cb, Cc, Cd, Ce y Cf) comenzando con el vector de pesos Wo = [1 1]. Se sabe que el algoritmo converge luego de 5 iteraciones:***

***• En la primera iteración clasifica mal al punto “A”;***

***• En la segunda iteración clasifica mal al punto “B”;***

***• En la tercera iteración clasifica mal al punto “A”;***

***• En la cuarta iteración clasifica mal al punto “F”;***

***• En la quinta iteración todos los puntos quedan bien clasificados.***

***Expresar el resultado final de W en función de los puntos A, B, C, D, E, F (no olvidar el término
independiente).***


En la página 431 del apunte (sección 12.32) tenemos que el algorítmo de corrección de $W$ es:

```
while not done =>
    tomar un punto y su clase (xi, yi)
    if sign(w ∗ x) != y =>
        w = w + y ∗ x
```

Por lo que en un principio `W := W + Ca * A` pues debe ajustarse producto de la mala clasificación. Si hacemos esto para el resto de malas clasificaciones llegamos a que: `W_final := W + 2 * Ca * A + Cb * B + Cf * F`.

***6. Dados los puntos:***

- $X_1 = (-2, 2) \text{   Clase 1}$

- $X_2 = (0, -2) \text{   Clase 1}$

- $X_3 = (4,  4) \text{   Clase -1}$

- $X_4 = (4,  5) \text{   Clase -1}$

***a. Entrenar un Perceptron utilizando el vector de pesos inicial Wo = [1 1] y learning rate 0,5 hasta que todos los puntos queden correctamente clasificados.***

***b. Graficar los puntos y la separación de clases encontrada en base al vector de pesos resultante.***

***c. Indicar si existe alguna mejor separación entre clases y, en caso afirmativo, indicar cómo poder
encontrarla.***

Sabemos que $\theta_{n+1} = \theta_n + \gamma \cdot (y_i - f_{\theta_n}(x_i)) \cdot x_i$

Que $f_{\theta_n}(x) = \begin{cases}
1 \text{  if  } \theta_{n}^t \cdot x \geq 0 \\
-1 \text{  else}\\
\end{cases}$

Y que el learning rate es $\gamma = 0.5$

Por lo tanto vemos a ajustar nuestro $W_0$ con los datos incluidos ejecutando el algorítmo.

In [61]:
from  random  import randint

producto_interno = lambda x,y: sum([x[i]*y[i] for i in range(len(x))])
suma_vectores    = lambda x,y: [x[i]+y[i] for i in range(len(x))]

def activacion(xi,w):
    prod = (producto_interno(xi,w) < 0)
    return (prod) * -1 + (not prod) * 1

def todas_correctas(x,c,w):
    for i in range(len(x)):
        if  activacion(x[i],w)  !=  c[i]:
            return  False
    return  True

def perceptron(x,c,w,l):
    x = [i+[w[-1]] for i in x]
    cant_elementos  = len(x)
    while not todas_correctas(x,c,w):
        i = randint(0,cant_elementos-1)
        if  activacion(x[i],w) != c[i]:
            v = l * (c[i] - activacion(x[i],w))
            w = suma_vectores(w, [i*v for i in  x[i]]) 
            print(f"pruebo {i+1} y me  da  un  nuevo w = {w}")  
    print(w)

perceptron([[-2,2],[0,-2],[4,4],[4,5]],[1,1,-1,-1],[1,1,1],0.5)

pruebo 4 y me  da  un  nuevo w = [-3.0, -4.0, 0.0]
pruebo 1 y me  da  un  nuevo w = [-5.0, -2.0, 1.0]
[-5.0, -2.0, 1.0]


***7. Dados los siguientes puntos en una dimensión (con sus correspondientes clases dadas por el signo):***

$(1,+1), (5,-1), (0,+1), (6,-1), (4,+1), (7,-1)$

***se aplica Perceptron para clasificar los puntos a partir del vector inicial de pesos w = [1 1]. Se observa que el perceptron converge luego de 33 pasos, y que en el proceso se clasificó 6 veces mal al primer punto, 13 veces mal al segundo puntos y 14 veces mal al quinto. En base a esto, se pide:***

***a. Indicar el valor final del vector de pesos;***

***b. Graficar el vector final de pesos y los puntos.***

***c. indicar qué se podría hacer para lograr la convergencia de forma más rápida.***

***Item adicional: para la propuesta dada en el item c, indicar en cuántos pasos convergería Perceptron y cuál sería el valor final del vector de pesos.***

In [None]:
def perceptron_definido(x,c,w,l,iteraciones):
    x = [i+[1] for i in x]
    cant_elementos  = len(x)
    while not todas_correctas(x,c,w):
        i = randint(0,cant_elementos-1)
        if  activacion(x[i],w) != c[i]:
            v = l * (c[i] - activacion(x[i],w))
            w = suma_vectores(w, [i*v for i in  x[i]]) 
            print(f"pruebo {i+1} y me  da  un  nuevo w = {w}")  
    print(w)
    
perceptron([[-2,2],[0,-2],[4,4],[4,5]],[1,1,-1,-1],[1,1,1],0.5)