# Clase 01: Regresion Lineal

## Indice
- Preambulo
    - Linealidad
    - Algebra Lineal
        - Vectores y Matrices
        - Producto interno
            - producto interno vs producto punto 
            - Proyección
    - Calculo
        - Derivada en una dimension
        - Regla de la cadena
        - Derivadas parciales
        - Gradiente
    - Optimización
        - Minimización/Maximización a traves de derivadas
            - 1 D
        - Minimización/Maximización a traves de derivadas parciales
            - 2D+ (Gradiente como aparece y se usa)
    


## Preámbulo

### Linealidad

Definición (1):
un mapa $f: U \rightarrow V$, donde $U$ y $V$ son espacios vectoriales, se denomina lineal si cumple con las siguientes propiedades:
1. Dado $\mathbf{x}$, $\mathbf{y}\in U$: $f(x+y) = f(x) + f(y)$
2. Dado $\alpha \in \mathbb{R}$: $f(\alpha x) = \alpha f(x)$
3. Corolario: $f(0_{U}) = 0_{V}$

In [2]:
def f(x: int):
    return 2*x

print (f"f(3 + 2) = f(3) + f(2) =>  {f(3+2)} = {f(3)} + {f(2)}")


f(3 + 2) = f(3) + f(2) =>  10 = 6 + 4


In [3]:
def f(x):
    return x**2
print (f"f(3 + 2) != f(3) + f(2) =>  {f(3+2)} != {f(3)} + {f(2)}")

f(3 + 2) != f(3) + f(2) =>  25 != 9 + 4


## Algebra Lineal

### Vectores y Matrices

Los vectores y matrices son elementos fundamentales del algebra lineal.
Para poder desarrollar el curso de Deep Learning necesitaremos responder estas tres preguntas:
- como se operan estos objetos?
- que propiedades tienen?
- que representan en terminos de información? o porque se utilizan para representar datos?

Los Vectores y Matrices se utilizan bajo el contexto de espacio vectorial real (Utilizaremos numeros reales $\mathbb{R}$)
Un espacio para considerase vectorial debe cumplir con 10 axiomas:

1. Cerradura bajo la suma: si $\mathbf{x} \in V$ y  $\mathbf{y} \in V$ entonces $\mathbf{x} + \mathbf{y} \in V$
2. Asociatividad de la suma de vectores: $(\mathbf{x} + \mathbf{y}) + \mathbf{z} = \mathbf{x} + (\mathbf{y} + \mathbf{z})$
3. Existe un vector/matriz $0$ tal que para todo $\mathbf{x} \in V$, $\mathbf{x} + 0 = 0 + \mathbf{x} = \mathbf{x}$
4. Conmutatividad de la suma de vectores: $\mathbf{x} + \mathbf{y} = \mathbf{y} + \mathbf{x}$
5. Cerradura en la multiplicación de escalares: $\alpha \cdot \mathbf{x} \in V$, tal que $\alpha \in \mathbb{R}$ y $\mathbf{x} \in V$
6. Distribucion de suma de escalares: $(\alpha + \beta) \cdot \mathbf{x} = \alpha \cdot \mathbf{x} + \beta \cdot \mathbf{x}$ tal que $\alpha$ , $\beta \in \mathbb{R}$, y $\mathbf{x} \in V$
7. Distribución de suma vectorial: $\alpha \cdot (\mathbf{x} + \mathbf{y}) = \alpha \cdot \mathbf{x} + \alpha \cdot \mathbf{y}$ tal que $\alpha \in \mathbb{R}$, y $\mathbf{x}$, $\mathbf{y} \in V$
8. Distribución de escalares: $\alpha \cdot (\beta + \gamma) = \alpha \cdot \beta + \alpha \cdot \gamma$ tal que $\alpha, \beta, \gamma \in \mathbb{R}$.
9. Ley asociativa de multiplicacion por escalares: $\alpha \cdot (\beta \cdot \mathbf{x}) = (\alpha \cdot \beta) \cdot \mathbf{x}$ tal que $\alpha, \beta \in \mathbb{R}$, y $\mathbf{x} \in V$
10. Identico multiplicativo escalar: para cada vector $\mathbf{x} \in V$, 1 $\cdot \mathbf{x} = \mathbf{x}$ tal que $\mathbf{x} \in V$

Ej:
- El espacio de vectores de dimension $n$, tambien escrito como $\mathbb{R}^{n}$ cumple con los axiomas
- El espacio de Matrices de dimension $n \times n$, tambien escrito como $\mathbb{R}^{n \times n}$ cumple con los axiomas

Las Matrices se pueden pensar como funciones lineales, es decir cumplen con la definicion de linealidad vista anteriormente.
La librería de ```python``` que permite trabajar con definiciones y operaciones del álgebra lineal se llama ```numpy```

In [4]:
import numpy as np
def f(x: np.array):
    m = np.array([[1,2],[3,4]])
    return m@x

x = np.array([[1], [1]])
y = np.array([[-1], [-1]])

print(f"f(x+y) = f(x) + f(y)")
print(f"{f(x+y)}")
print(f"f(x):\n {f(x)}")
print(f"f(y):\n {f(y)}")
# Imprimir bonito

f(x+y) = f(x) + f(y)
[[0]
 [0]]
f(x):
 [[3]
 [7]]
f(y):
 [[-3]
 [-7]]


#### Operaciones sobre vectores y matrices

- Las matrices son funciones que transforman nuestros vectores, son mapas lineales. Una matriz $A\in \mathbb{R}^{m\times n}$ transforma un vector $\mathbf{x}\in \mathbb{R}^{n}$ a un nuevo vector $\mathbf{y} \in  \mathbb{R}^{m}$ a través de la operación $M\mathbf{x}$ llamada producto matriz vector.
- Las matrices ademas contienen información de nuestros datos (mas adelante veremos como los datos son representados en la matriz)
- Existen maneras de caracterizar las matrices para medir la cantidad de información que poseen:
    - Tamaño: Se mide a traves de la norma matricial.
    - Cantidad de información: Se puede tener una nocion de la cantidad de información contando la cantidad de auto valores diferentes de cero.
    - ¿Cómo una matriz transforma un vector?: se puede saber como una matriz estire/comprime o rota a un vector a traves de sus espacios fundamentales (SVD)
 
Por ahora nos interesa entender como se hacen las operaciones fundamentales entre vectores y matrices:
1. Suma de matrices
2. Suma de vectores
3. Multiplicar matriz por escalar
4. Multiplicar vector por escalar
5. Producto interno entre vectores
6. Producto matriz/vector
7. Producto de matrices

## Operaciones fundamentales

1. Suma de matrices: la suma de matrices se realiza componente a componente para matrices de dimension $\mathbb{R}^{m\times n}$. Es decir, dadas las matrices $A$ y $B\in \mathbb{R}^{m \times n}$ donde $A = a_{ij}$, $B = b_{ij}$ con $i=1,\dots,m$ y $j=1,\dots,m$ son las componentes, la suma es dada por: 
\begin{equation*}
A + B = a_{ij}+b_{ij}
\end{equation*}

In [7]:
np.random.seed(0) #reproducibilidad del notebook

In [17]:
m = 3
n = 2
A = np.random.randint(0,10,(m,n))
B = np.random.randint(0,10,(m,n))

In [18]:
A

array([[7, 9],
       [3, 5],
       [2, 4]])

In [19]:
B

array([[7, 6],
       [8, 8],
       [1, 6]])

In [20]:
A+B

array([[14, 15],
       [11, 13],
       [ 3, 10]])

In [21]:
A-B

array([[ 0,  3],
       [-5, -3],
       [ 1, -2]])

2. Suma de vectores: La lógica de suma es análoga para vectores (sean filas o columnas)

In [22]:
# Vectores fila
n = 2
a = np.random.randint(0,10,(1,n))
b = np.random.randint(0,10,(1,n))

print(f"vector a: {a}")
print(f"vector a: {b}")
print(f"vector a+b: {a+b}")
print(f"vector a-b: {a-b}")

vector a: [[7 7]]
vector a: [[8 1]]
vector a+b: [[15  8]]
vector a-b: [[-1  6]]


3-4. Multiplicación matriz por escalar o vector por escalar

In [23]:
alpha = 3
3*A

array([[21, 27],
       [ 9, 15],
       [ 6, 12]])

In [24]:
alpha*a

array([[21, 21]])

5. Producto interno

Dentro de un espacio vectorial un producto interno es una función o mapa definido como:

\begin{align*}
\langle \cdot, \cdot\rangle :&  U\times U \rightarrow \mathbb{K}\\
& (\mathbf{x},\mathbf{y}) \rightarrow a = \langle \mathbf{x},\mathbf{y} \rangle
\end{align*}

donde $\mathbb{K}$ es un cuerpo sobre el que está definido. Es decir, la función toma un par de vectores y los convierte en un solo número real.
Esta operación permitirá comparar vectores o saber si son perpendiculares. También permite crear nuevas funciones, por ejemplo ```proyectores```.

Para fines de este curso $\mathbb{K} = \mathbb{R}$. Dados $\mathbf{x}$,$\mathbf{y}$,$\mathbf{z}\in U$ algunas propiedades del producto interno: 

- Linealidad: $ \langle \alpha \cdot \mathbf{x} + \beta \cdot \mathbf{y}, \mathbf{z} \rangle = \alpha \cdot\langle \mathbf{x}, \mathbf{z} \rangle + \beta \cdot \langle \mathbf{y}, \mathbf{z} \rangle$ con $\alpha$, $\beta \in \mathbb{R}$

- Hermiticidad: $\langle \mathbf{x},\mathbf{y} \rangle = \langle \mathbf{y},\mathbf{x} \rangle$

- Definida positiva: $\langle \mathbf{x},\mathbf{x} \rangle \geq 0$ y $\langle \mathbf{x},\mathbf{x} \rangle = 0 $, si y solo si $\mathbf{x}= 0$

Estas propiedades son fundamentales para enteneder conceptos relacionados a similaridad, producto de matrices y tamaño de vectores. La información que trabajemos a futuro para entrenar nuestros modelos se representará a través de vectores y matrices, siendo la operación ```producto punto``` un tipo de producto interno que cumple con las propiedades anteriores y que usaremos para operar tanto en redes neuronales como otros modelos.

El producto punto es definido para el caso de vectores en $\mathbb{R}^{n}$ de la siguiente forma:

\begin{equation}
    \langle \mathbf{a}, \mathbf{b} \rangle = \sum_{i=1}^{n} a_i b_i
\end{equation}

**Ejemplo** 

Dados los vectores:

$
\mathbf{a} = 
\begin{pmatrix}
a_1 \\
a_2 \\
a_3
\end{pmatrix},
\quad
\mathbf{b} = 
\begin{pmatrix}
b_1 \\
b_2 \\
b_3
\end{pmatrix}
$

Calculamos el producto interno de la siguiente forma: 

$\langle \mathbf{a}, \mathbf{b} \rangle = a_1 \cdot b_1 + a_2 \cdot b_2 + a_3 \cdot b_3$

En forma vectorial
$
\begin{pmatrix}
a_1 & a_2 & a_3
\end{pmatrix}_{1\times 3}
\cdot
\begin{pmatrix}
b_1 \\
b_2 \\
b_3
\end{pmatrix}_{3\times 1}= (a_1b_1 + a_2b_2 + a_3b_3)_{1\times 1}$

Observe que las dimensiones "externas" de cada vector, en este caso 1, determinan la dimensión final que en este caso es un escalar $1\times 1 = 1$ este solo posee una dimensión. Las dimensiones "internas" dadas por 3 deben coincidir para poder operar los vectores. Veamos algunos ejemplos en ```numpy``` para observar tanto el caso correcto de uso como el caso que puede dar error. Este tipo de error es común al momento de construir modelos desde cero.

In [29]:
# Vectores fila
n = 2
a = np.random.randint(0,10,(1,n))
b = np.random.randint(0,10,(1,n))

print(f"vector a: {a} con dimensión {a.shape}")
print(f"vector a: {b} con dimensión {b.shape}")

vector a: [[3 7]] con dimensión (1, 2)
vector a: [[0 1]] con dimensión (1, 2)


In [35]:
print(f"vector a*b: {np.dot(a,b.T)} con dimensión {np.dot(a,b.T).shape}")

vector a*b: [[7]] con dimensión (1, 1)


In [37]:
print(f"vector a*b: {a@b.T} con dimensión {(a@b.T).shape}")

vector a*b: [[7]] con dimensión (1, 1)


Uso incorrecto:

In [30]:
print(f"vector a*b: {a@b}")

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 1 is different from 2)

In [31]:
print(f"vector a*b: {np.dot(a,b)}")

ValueError: shapes (1,2) and (1,2) not aligned: 2 (dim 1) != 1 (dim 0)

El producto interno puede interpretarse geométricamente