# Álgebra Linear e Otimização para Machine Learning

Notas e resumos do estudo sobre álgebra linear e otimização focado em machine learning, baseado no livro 
_[Linear Algebra and Optimization for Machine Learning](https://doi.org/10.1007/978-3-030-40344-7)_ de Charu C. Aggarwal. Para facilitar a localização das notas, estou utilizando o sumário do livro nos tópicos.

In [1]:
import math
import latexify
import numpy as np

# Notações
- Vetores ou data points multidimensionais serão representados pela notação com barra como $\bar{X}$ ou $\bar{y}$.
- Os produtos entre vetores serão representandos com pontos centralizados $\bar{X}$ ${\cdot}$ $\bar{Y}$.
- Uma matrix será representada por uma letra maíscula sem barra, como R.
- Matrizes n × d correspondem a todo o data set de treinamento, denotado por D, com n pontos de dados e d dimensões.
- Os data points individuais em D são vetores linhas d-dimensionais e são denotados por $\bar{X}$1... $\bar{X}$n
- Vetores com um componente para cada data point são vetores colunas n-dimensionais.


# Álgebra Linear e Otimização: Uma Introdução

## Introdução

- Modelos de machine learninig contrõem modelos matemáticos a partir dos dados, que contêm multiplos atributos ou variáveis. 
- O relacionamento entre o modelo e os dados são expressos de forma linear ou não linear.
- Esses relacionamentos são descobertos de forma data driven otimizando (maximizando) o ajuste ("agreement") entre o modelo e os dados observados
- Álgebra linear é o *estudo de operações lineares em espaços vetoriais*. Um espaço vetorial é o conjunto infinito de todas as coordenadas cartesianas em duas dimensões em relação a um ponto fixo, a origem. Álgebra linear pode ser vista como uma forma de generalização da geometria de coordenadas Cartesiana em d-dimensões.
- Em machine learning, o conjunto de dados é representado com multiplas dimensões (atributos).
- Uma prática comum é aplicar funções lineares a vetores com alta dimencionalidade para extrair suas propriedades analíticas.

## Scalars, Vetores e Matrizes

<img src="scalar-vector-matrix.jpg">


- Scalars: São valores numéricos individuais normalmente extraídos do domínio real em machine learning, como o atritubo "idade".

- Vetores: São arrays de valores numéricos (arrays de escalares). Também são referidos como coordenadas. Os valores numéricos individuais dos arrays são chamados de entidades, componentes ou dimensões do vetor. E o número de componentes é referido como dimensionalidade do vetor. Um vetor de 3 dimensões de uma pessoa de 25 anos, fazendo 30 USD por hora e possuindo 5 anos de experiência é representado como um array com os números [25, 30, 5]

- Matrizes: São arrays de números retangulares que contêm linhas e colunas. Para acessarmos o elemento na matriz, devemos especificar o índice da linha e o índice da coluna (i, j). O tamanho da matriz é denotada por n x d, sendo n o número de indivíduos e d o número de dimensões. Quando uma matriz possui o mesmo número de linhas e colunas, é chamada de square matrix ou matriz quadrada, nos demais casos de matriz retangular.

- Por padrão, vetores são assumidos como vetores coluna em álgebra linear

### Operações Básicas com Scalars e Vetores

- Vetores de mesma dimensionalidade podem ser somados ou subtraídos.
- Considerando dois vetor de d-dimensões $\bar{x} = [x1... xd]$ e $\bar{y} = [yi...yd]$, podem ser somados como 

<center> $$ \bar{x} + \bar{y}$ = $[xi...xd] + [yi...yd] = [x1 + y1... xd + yd] $$ </center>

assim como subtraídos da mesma forma 

<center> $$ \bar{x} + \bar{y} = [xi...xd] - [yi...yd] = [x1 - y1... xd - yd] $$ </center>

- A adição de vetores é comutativa (como adição escalar) porquê $\bar{x}$ + $\bar{y}$ = $\bar{y}$ + $\bar{x}$. A comutatividade da adição, ou simplesmente propriedade comutativa, diz para gente que a ordem da adição não importa, sempre chegaremos ao mesmo resultado. Ou seja, 2 + 3 é igual a 3 + 2, pois 3 + 2 é igual a 5, da mesma forma que 2 + 3 também é igual a 5.

- É possível multiplicar um vetor com um escalar, multiplicando cada elemento do vetor com o escalar. Multiplicando o vetor $\bar{x} = [x1... xd]$ escalado pelo fator de a

<center> $$ \bar{x}' = a\bar{x} = [ax1...axd] $$ </center>

- Um comprimento (length) do vetor pode ser escalado, não alterando a sua direção com uma multiplicação escalar. Considere o vetor $\bar{x}$ contendo o número de unidades vendidas de um produto, o número de unidades vendidas pode ser convertida em milhões de unidades vendidas ao multiplicar o vetor com a = 10⁻⁶.

- Os vetores podem ser multiplicados com a noção do produto escalar (dot produt). **O produto escalar entre dois vetores é a soma da multiplicação elemento a elemento de seus componentes individuais.** 

<center> $$ \bar{x} \cdot \bar{y} = \sum_{i=1}^{d} xiyi $$ </center>

- [inserir gif de multiplicação de matrizes]***

- O produto escalar dos vetores $\bar{x}$ = [1, 2, 3] e $\bar{y}$ = [6, 5, 4] pode ser computado da seguinte forma:

<center> $$ \bar{x} \cdot \bar{y} = (1)(6) + (2)(5) + (3)(4) = 28 $$ </center> 

- O produto escalar é um caso especial de uma operação mais geral, chamada de produto interno, e preserva muitas regras fundamentais da geometria euclidiana. O espaço de vetores que inclui uma operação de produto escalar é chamado de espaço euclidiano. O produto escalar é uma operação comutativa

<center> $$ \bar{x} \cdot \bar{y} = \sum_{i=1}^{d} xiyi = \sum_{i=1}^{d}yixi = \bar{y} \cdot \bar{x}$$</center>

- O produto escalar também herda as propriedades distributivas da multiplicação escalar. A propriedade distributiva é utilizada quando um número está multiplicando uma adição ou subtração. Basta multiplicar separado cada termo e, somar ou subtrair o resultado. Nós distribuímos a multiplicação do 2, para o 8 e para o 3. Uma dica importante é colocar em evidência.

<center>$$ \bar{x} \cdot (\bar{y}+\bar{z}) = \bar{x} \cdot \bar{y} + \bar{x} \cdot \bar{z} $$</center>

- O produto escalar de um vetor $\bar{x} = [x1... xd]$ com ele mesmo é chamado **norma quadrada (squared norm)** ou [**norma Euclidiana**](https://www.youtube.com/watch?v=41XmlK7itG8). Essa norma define o comprimento do vetor e é denotado por $||\cdot||$

<center> $$||\bar{x}||^{2} = \bar{x} \cdot \bar{x} = \sum_{i=1}^{d}x_{i}^{2}$$ </center>

- **A norma (comprimento) de um vetor é a distância** Euclidiana de suas coordenadas a partir de sua origem.

<center> $$\bar{v} = \sqrt{ (c-a)^{2} + (d-b)^2 } $$</center>

<center> <img src="norma-do-vetor-v(1).png"> $$</center>

Frequentemente os vetores são normalizados para o comprimento unitário dividindo eles pela sua norma

<center> $$\bar{x}' = \frac{\bar{x}}{||\bar{x}||} = \frac{\bar{x}}{\sqrt{\bar{x} \cdot \bar{x}}}$$ </center>

- Dimensionar (scaling) um vetor por sua norma não altera os valores relativos de seus componentes, que definem a direção do vetor. Por exemplo, a distância euclidiana de [4, 3] da origem é 5. A divisão de cada componente do vetor por 5 resulta no vetor [4/5, 3/5], que altera o comprimento do vetor para 1, mas não sua direção. O vetor resultante é chamado de vetor unitário.

Uma generalização da norma Euclidiana é a $L_{p}-norm$, que é denotada por $||\cdot||_{p}$:

<center> $$ ||\bar{x}||_{p} = (\sum_{i=1}^{d}|xi|^{p})^{(1/p)} $$ </center>

Aqui, $|\cdot|$ indica o valoe absoluto do escalar, e o p é um inteiro positivo. Por exemplo, quando p é definido como 1, a norma resultante é referida como norma Manhattan ou $L_{1}-norm

- A distância Euclidiana quadrada entre $\bar{x} = [x1,... xd]$ e $\bar{y} = [y1,... yd]$ pode ser mostrada pelo produto escalar de $\bar{x}-\bar{y}$ com ele mesmo, como:

<center> $$ ||\bar{x}-\bar{y}||^{2} = (\bar{x}-\bar{y}) \cdot (\bar{x}-\bar{y}) = \sum_{i=1}^{d}(xi-yi)^{2} = Euclidian(\bar{x}, \bar{y})^{2} $$ </center>

- Produtos escalares satisfazem a [desigualdade de Cauchy-Schwarz](https://pt.wikipedia.org/wiki/Desigualdade_de_Cauchy-Schwarz), segundo a qual o produto escalar entre um par de vetores é limitado acima pelo produto de seus comprimentos

<center> $$ |\sum_{i=1}^{d}xiyi = |\bar{x}\cdot\bar{y}| \leq ||\bar{x}||  ||\bar{y}|| $$ </center>

- A desigualdade de Cauchy-Schwarz mostra que **o produto escalar entre um par de vetores não é maior que o produto dos comprimentos dos vetores**. A desigualdade de Cauchy-Schwarz pode ser provada promeiro mostrando que $|\bar{x}\cdot\bar{y}| \leq 1$ quando $\bar{x}$ e $\bar{y}$ são vetores unitários, ou seja, o resultado é válido quando so argumentos são vetores unitários. Isso porquê ambos $||\bar{x}-\bar{y}||^{2} = 2-2\bar{x}\cdot\bar{y}$ e $||\bar{x}+\bar{y}||^{2} = 2+2\bar{x}\cdot\bar{y}$ são não negativos. Isso é possível quando $|\bar{x}\cdot\bar{y}| \leq 1$. Pode-se então generalizar esse resultado para vetores de comprimento arbitrário observando que o produto escalar aumenta linearmente com as normas dos argumentos subjacentes. Portanto, pode-se escalar ambos os lados da desigualdade com as normas dos vetores.

Exemplos:
- [Desigualdade de Cauchy-Schwarz](https://www.youtube.com/watch?v=cuq5om9TAPQ)
- [Desigualdade de Cauchy-Schwarz](https://www.youtube.com/watch?v=IxxIyceUAXA)


### Operações Básicas com Vetores e Matrices

- Uma matriz transposta é obtida invertendo as linhas e colunas. Sendo assim, a (i, j)-ésima entrada da transposta é o mesmo que a (j, i) entrada da matriz original. A transposta de uma matriz n x d é uma matriz d x n. Uma matriz transposta é denotada com o "t" elevado, como $A^{T}$.

<matriz transposta>

<center> $$\begin{bmatrix} a11 & a12\\ a21 & a22 \\ a31 & a32 \end{bmatrix}^{T} =  \begin{bmatrix} a11 & a21 & a31\\ a12 & a22 & a32 \end{bmatrix} $$</center>

- Assim como vetores, matrizes podemos fazer operações de adição, desde que possuam o mesmo tamanho. A adição de matrizes é comutativa.

<center>$$ A + B = B + A $$</center>

- Uma matriz zero ou nula é uma matriz que contêm somente valores 0. As somas feitas com ela não afetam os valores.

<center>$$ A + 0 = A $$</center>

- A soma de deuas matrizes transpostas $A = [a_{ij}]$ e $B = [b_{ij}]$ é dada pela soma de suas transpostas

<center>$$ (A + B)^{T} = A^{T} + B^{T} $$</center>

- Também podemos realizar multiplicação entre matrizes. Uma matriz n x d pode ser multiplicada por um vetor coluna d-dimensional $\bar{x}$ como $A\bar{x}$, ou, pode ser multiplicada com um vetor linha n-dimensional $\bar{y}$ como $\bar{x}A$. Quando uma matriz é multiplicada por um vetor coluna, uma multiplicação elemento a elemento é feita entre os d-elementos de cada linha da matriz.

<center>$$ \begin{bmatrix} a11 & a12\\ a21 & a22\\ a31 & a32 \end{bmatrix} \begin{bmatrix} x1\\ x2 \end{bmatrix} = \begin{bmatrix} a11x1 + & a12x2\\ a21x1 + & a22x2\\ a31x1 + & a32x2 \end{bmatrix} $$ </center>

- A multiplicação entre matrizes e vetores **não é comutativa**.

- Uma multiplicação de uma matriz n x d com um vetor coluna d-dimensional $\bar{x}$ cria um vetor coluna n-dimensional $A\bar{x}$. Isso é interpretado como uma transformação linear de um espaço d-dimensional para um espaço n-dimensional. O resultado de uma multiplicação é a soma ponderada das colunas da matriz Z, onde os pesos são dados pelos componentes escalares do vetor $\bar{x}$.

<center>$$ \begin{bmatrix} a11 & a12\\ a21 & a22\\ a31 & a32 \end{bmatrix} \begin{bmatrix} x1\\ x2 \end{bmatrix} = x1 \begin{bmatrix} a11\\ a21\\ a31\end{bmatrix} + x2 \begin{bmatrix} a12\\ a22\\ a32 \end{bmatrix} $$</center>

Aqui, um vetor 2-dimensional é mapeado em um vetor 3-dimensional como a combinação ponderada das colunas da matriz. Isso resulta na forma de uma multiplicação matriz-vetor usando a coluna A e a coluna vetor $\bar{x} = [x_{1}, ... x_{d}]^{T}$ de coeficientes.

<center>$$ A\bar{x} = \sum_{i=1}^{d}x_{i}\bar{a}_{i} = \bar{b} $$</center>

Aqui, cada xi corresponde ao "peso" da i-ésima direção de $\bar{a}_{i}$, também chamada de i-ésima **coordenada** de \{b} usando as direções contidas em A.

- O produto escalar entre dois vetores pode ser visto como um caso especial de multiplicação amtriz-vetor. Nesse caso, uma matriz 1xd (vetor linha) é multiplicada com uma matriz dx1 (vetor coluna), e o resultado é o mesmo que obteríamos performando um produto escalar entre dois vetores.

<center>$$ \bar{x} \cdot \bar{x} = [v1, v2, v3] \begin{bmatrix} x1\\ x2 \\ x3 \end{bmatrix}
= [v1x1 + v2x2 + v3x3] $$</center>

- O resultado de uma multiplicação de matriz é uma matriz 1x1 contendo o produto escalar, que é um escalar

<center>$$\bar{x} \cdot \bar{v} = \bar{v} \cdot \bar{x}, \bar{x}^{T}\bar{v} = \bar{v}^{T}\bar{x} $$</center>

O produto escalar é comutativo nesse caso.

- Se ordenarmos a "matriz alta" antes da "matriz larga", o que vamos obter é um produto externo (outer product). O produto externo entre dois vetores 3-dimensionais é uma matriz 3x3.

<center>$$ \bar{x} \otimes \bar{v} = \bar{x}\bar{v}^{T} = \begin{bmatrix} x1\\ x2 \\ x3 \end{bmatrix} [v1, v2, v3] =  \begin{bmatrix} v1x1 & v2x1 & v3x1\\ v1x2 & v2x2 & v3x2\\ v1x3 & v2x3 & v3x3\\ \end{bmatrix} $$</center>

- Diferente de produto escalar, o produto externo pode ser executado entre dois vetores de diferentes tamanhos e **não é comutativo**.

<center>$$ \bar{x} \otimes \bar{v} \neq \bar{v} \otimes \bar{x}, \bar{x}\bar{v}^{T} \neq \bar{v}\bar{x}^{T} $$</center>

- A multiplicação entre dois vetores ou entre matrizes e vetores é um caso espacial de multiplicação entre matrizes. As operações de produto escalar dentro da multiplicação exigem que os vetores subjacentes sejam do mesmo tamanho

<center>$$ (UV)_{ij} = \sum_{r=1}^{k}u_{ir}v_{rj} $$</center>

- Um exemplo de multiplicação de matrizes seria:

<center>$$ \begin{bmatrix} u11 & u12\\ u21 & u22\\ u31 & u32 \end{bmatrix} \begin{bmatrix} v11 & v12 & v13\\ v21 & v22 & v23 \end{bmatrix} = \begin{bmatrix} u11v11 + & u12v21 & u11v12 + u12 & u11v13 + u12+v13\\ u21v11 + & u22v21 & u21v12 + u22v22 & u21v13 + u22+v13\\ u31v11 + & u32v21 & u31v12 + u32v22 & u31v13 + u32+v13\\ \end{bmatrix} $$</center>

### Classes Especiais de Matrizes

- Uma matriz simétrica é uma matriz quadrada que é igual a sua transposta $A = A^{T}$

<center>$$ \begin{bmatrix} 2 & 1 & 3\\ 1 & 4 & 5\\ 3 & 5 & 6 \end{bmatrix} $$</center>

- A diagonal de uma matriz é definida como um conjunto de entradas em que as linhas e colunas é a mesma.

- Uma matriz em que em sua diagonal é composta por 1, e os valores acima, abaixo ou ambos são nulos, é chamada de **matriz identidade**, denotado pela letra $I$ maíscula.

- Quando os elementos não-diagonais forem zero e os elementos na diagonal forem diferentes de 1, a matriz é chamada de **matriz diagonal**.

- Multiplicar uma matriz A $nxd$ com uma matriz identidade de mesma ordem (tamanho) resulta na mesma matriz A. Podemos ver a matriz identidade como análoga ao valor 1 numa multiplicação escalar.

<center>$$ AI = IA = A $$</center>

- Uma matriz retangular diagonal é uma matriz $nxd$ em que as entradas (i, j) tem valores não zero se e apenas se i=j. A diagonal das entradas diferentes de zero começam no canto superior esquerdo e não atingem o inferior direito.

- Uma matriz diagonal em blocos (block diagonal matrix) contêm blocos quadrados B1...br de possíveis entradas diferentes de zero. Todas as demais entradas são zero. Mesmo que cada bloco seja quadrado, eles não precisam ter o mesmo tamanho.

- Uma matriz quadrada é ```upper triangular matrix``` se todas as entradas (i, j) abaixo da diagonal principal (satisfazendo i>j) forem zeros.

- Uma matriz quadrada é ```lower triangular matrix``` se todas as entradas (i, j) acima da diagonal principal (satisfazendo i < j) são zeros.

- Uma matriz é ***estritamente*** triangular se for triangular e toda a diagonail forem elementos zeros.

- A soma ou produto de uma matriz upper triangular é upper triangular.

<center> <img src="matrix_exemples.png"> </center>

<center> (Aggarwal, 2020) </center>

### Potência de Matrizes, Polinomiais e Inversas

- Matrizes quadradas podem ser multiplicadas com elas mesmas sem violar a restrição de tamanho da multiplicação de matrizes. Fazer isso é análogo a elevar um escalar a determinada potência.

<center>$$ A^{m} = \underbrace{AA...A$}_{_{n}times} $$</center>

- A potência zero de uma matriz é definida como sendo a matriz identidade de mesmo tamanho.

- Quando uma matriz satisfaz $A^{k} = 0$ pra algum inteiro k, é chamada de **nilpotent**.

- Podemos computar uma função polinomial $f(A)$ de uma matriz quadrada do mesmo jeito que computamos com escalares. Em vez do termo constante usado em um polinômio escalar, são usados múltiplos da matriz identidade; a matriz de identidade é uma matriz análoga ao valor escalar de 1. Por exemplo, uma matriz análoga ao polinômio escalar $f(x) = 3x^{2}+5x+2$ quando aplicado à uma matriz dxd é:
<center>$$ f(A) = 3A^{2}+5A+2I $$</center>

- Todos os polinômios da mesma matriz A sempre comutam em relação ao operador de multiplicação.

- ~~Matrizes polinomiais são comutativas*. ~~ Dois polinômios $f(A)$ e $g(A)$ de uma mesma matriz sempre vão comutar. O produto de uma matriz com sua inversa é sempre comutativo e conduz à matriz identidade (Comutatividade é uma propriedade de operações binárias, ou de ordem mais alta, em que a ordem dos operandos não altera o resultado fina)

<center>$$ f(A)g(A) = g(A)f(A)$$</center>

- A **inversa** de uma matriz quadrada A é outra matriz quadrada denotada por $$A^{-1}. 

- A multiplicação dede duas matrizes (em qualquer ordem) resultará numa matriz identidade:

<center> $$ AA^{-1} = A^{-1}A = I$$ </center>

- Existe uma fórmula simples para inverter matrizes 2 × 2
<center>$$  \begin{bmatrix} a & b \\ c & d\end{bmatrix} = \frac{1}{ad-bc} \begin{bmatrix} d & -b\\ -c & a \end{bmatrix} $$</center>

- Um exemplo de duas matrizes que são inversas uma da outra:

<center>$$ 
\begin{bmatrix}8 & 3\\5 & 2 \end{bmatrix} \begin{bmatrix} 2 & -3\\ -5 & 8 \end{bmatrix}
=  \begin{bmatrix} 2 & -3\\ -5 & 8 \end{bmatrix}\begin{bmatrix}8 & 3\\5 & 2 \end{bmatrix} = \begin{bmatrix}1 & 0\\0 & 1 \end{bmatrix} $$</center>

- A inversa de uma matriz 1 × 1 contendo o elemento a é simplesmente a matriz 1 × 1 contendo o elemento 1/a. Portanto, uma matriz inversa naturalmente generaliza uma escalar inversa. Nem todas as matrizes possuem inversas, assim como não existe inversa para o escalar a = 0.

- Uma matriz para a qual existe uma inversa é referida como invertível ou não singular. Caso contrário, diz-se que é singular.

### Norma de Frobenius, Trace e Energia

## Multiplicação de Matrizes como Decomposable Operator

In [2]:
# exemplo de matriz em latex

\begin{bmatrix}
1 & 2 & 3\\
a & b & c
\end{bmatrix}

# lista de simbolos matemáticos: https://oeis.org/wiki/List_of_LaTeX_mathematical_symbols

SyntaxError: unexpected character after line continuation character (2157153464.py, line 3)

### Multiplicação de MAtrizes como Decomposable Row e Column Operators

### Multiplicação de MAtrizes como Decomposable Geometric Operators

## Problemas Básicos em Machine Learning

### Fatorização de Matrizes

### Clusterização

### Modelagem de Classificação e Regressão

### Detecção de Outliers

## Otimização para Machine Learning

### Expansão de Taylor para Simplificação de Funções

### Exemplos de Otimização em Machine Learning

### Otimização em Grafos Computacionais

## Summary

## Exercícios

- latex on jupyter notebook https://towardsdatascience.com/write-markdown-latex-in-the-jupyter-notebook-10985edb91fd
- latexfy
https://colab.research.google.com/drive/1MuiawKpVIZ12MWwyYuzZHmbKThdM5wNJ?usp=sharing#scrollTo=hViDMhyMFNCO

In [None]:
# ocultar células