# Aplicações Práticas

Aprendemos álgebra linear o suficiente para sermos perigosos e nos acostumarmos com o uso de bibliotecas de aprendizado de máquina e ciência de dados. No entanto, vamos dar um passo adiante e usar a álgebra linear para resolver alguns problemas "do zero", usando apenas o NumPy. Ao resolver esses problemas, você verá como a álgebra linear é usada na prática e terá uma visão mais aprofundada de como bibliotecas e técnicas funcionam.

Vamos começar resolvendo um sistema de equações.

## Sistemas de equações

Vamos dar um uso às matrizes inversas. Digamos que você tenha um sistema de equações lineares como o mostrado abaixo e precise resolver para $ x $, $ y $ e $ z $.

$
2x + 9y - 3z = 12 \\
x + 2y + 7z = 5 \\
x + 2y + 3z = 6
$

Você poderia tentar resolver isso algebricamente, mas, na verdade, pode usar uma abordagem de álgebra linear. Primeiro, vamos extrair os coeficientes multiplicados em cada variável. Observe que, se não houver coeficiente, o coeficiente é efetivamente $ 1 $, pois multiplicar por $ 1 $ não tem impacto. Além disso, uma subtração em vez de uma adição de um elemento tratará o coeficiente como negativo.


$
A = \begin{bmatrix} 
2 & 9 & -3 \\
1 & 2 & 7 \\
1 & 2 & 3 
\end{bmatrix}
$

Antes de prosseguirmos, vamos garantir que o determinante desta matriz não seja zero. Se for, significa que nosso sistema de equações será insolúvel.

In [None]:
from numpy.linalg import det
from numpy import array 

A = array([
    [2, 9, -3],
    [1, 2, 7],
    [1, 2, 3]
])

det(A)

Certo, o determinante é aproximadamente 20, então podemos prosseguir.

A seguir, vamos pegar os termos à direita do sinal de igual $ = $ e criar esse vetor como $ B $.

$
B = \begin{bmatrix} 12 \\ 5 \\ 6 \end{bmatrix}
$

Agora, vamos considerar um vetor $ X $ que contém todas as três variáveis ​​não resolvidas $ x $, $ y $ e $ z $. 

$ 
X = \begin{bmatrix} x \\ y \\ z \end{bmatrix}
$

Se realizarmos a multiplicação de vetores matriciais entre $ A $ e $ X $, isso resultará no vetor $ B $.

$
AX = B
$

$
\begin{bmatrix} 
2 & 9 & -3 \\
1 & 2 & 7 \\
1 & 2 & 3 
\end{bmatrix} \begin{bmatrix} x \\ y \\ z \end{bmatrix} = \begin{bmatrix} 12 \\ 5 \\ 6 \end{bmatrix}
$

$
\begin{bmatrix} 
2x + 9y -3z \\
x + 2y + 7z \\
x + 2y + 3z 
\end{bmatrix} = \begin{bmatrix} 12 \\ 5 \\ 6 \end{bmatrix}
$

Voltemos a esta expressão:

$
AX = B
$

Se "multiplicarmos" cada lado pela inversa da matriz $A$, que denotaremos como $ A^{-1} $, podemos isolar efetivamente $ X $.

$ 
A^{-1}AX= A^{-1}B
$

$ 
X = A^{-1}B
$

A razão pela qual $ A^{-1}A $ se cancela é que a multiplicação de suas matrizes resulta em uma matriz identidade, isolando efetivamente $ x $, $ y $ e $ z $. Multiplicar por uma matriz identidade é o equivalente em álgebra linear de multiplicar por $ 1 $. Não tem efeito.

$
A^{-1}A = \begin{bmatrix} 
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 
\end{bmatrix} 
$

$
A^{-1}AX = \begin{bmatrix} 
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 
\end{bmatrix} \begin{bmatrix} x \\ y \\ z \end{bmatrix} = \begin{bmatrix} x \\ y \\ z \end{bmatrix}
$



Posso provar isso usando o NumPy. Vamos calcular o inverso de $ A $.

In [None]:
from numpy import array
from numpy.linalg import inv

A = array([
    [2, 9, -3],
    [1, 2, 7],
    [1, 2, 3]
])

A_inv = inv(A)

A_inv

E vamos aplicar o inverso $ A^{-1} $ a $ A $.

In [None]:
A_inv @ A 

No entanto, como o NumPy tem algumas complicações com ponto flutuante, como mostrado acima, prefiro usar o SymPy, pois ele me dará uma resposta muito mais limpa, com apenas 1 e 0. Isso porque ele faz matemática simbólica em vez de aritmética de ponto flutuante.

In [None]:
from sympy import Matrix

A = Matrix([
    [2, 9, -3],
    [1, 2, 7],
    [1, 2, 3]
])

A_inv = A.inv()
A_inv @ A 

Devido a esse raciocínio, podemos calcular o vetor $ X $ contendo $ x $, $ y $ e $ z $ usando o inverso da matriz $ A $ multiplicado pelo vetor $ B $.

$
X = A^{-1}B
$

Vamos usar o NumPy para resolver este sistema de equações usando a expressão simples que resolve $ X $.

In [None]:
from numpy import array
from numpy.linalg import inv

# 2x + 9y - 3z = 12
# 1x + 2y + 7z = 5
# 1x + 2y + 3z = 6

A = array([
    [2, 9, -3],
    [1, 2, 7],
    [1, 2, 3]
])

B = array([
    12,
    5,
    6
])

X = inv(A) @ B 

X

Portanto, encontramos que $ X = \begin{bmatrix} 7,65 \\ -0,45 \\ -0,25 \end{bmatrix} $. Isso significa $ x = 7,65 $, $ y = -0,45 $ e $ z = -0,25 $.

Resolver um sistema de equações como este se estende a muitos problemas, como programação linear e muitas áreas da pesquisa científica.

Aqui está uma visualização deste sistema de equações sendo resolvido. Observe como o vetor amarelo $ B $ se desloca após os vetores base que refletem a matriz $ A $ serem movidos para suas posições de identidade. Isso resulta no vetor $ B $ se tornando o vetor $ X $, resolvendo efetivamente as variáveis.
<br><br>

<video src="https://github.com/thomasnield/anaconda_linear_algebra/raw/main/media/01_SystemOfEquationsScene.mp4" controls="controls" style="max-width: 730px;">
</video>


## Decomposição própria

A decomposição matricial consiste em dividir uma matriz em componentes, de forma semelhante à fatoração de números (por exemplo, 6 pode ser fatorado para 2 × 3). Usamos a decomposição matricial para diversas tarefas, como ajustar uma regressão linear (o que faremos após esta seção) e calcular matrizes inversas. Neste exemplo, falaremos sobre um tipo comum de decomposição matricial chamado autodecomposição, frequentemente usada em aprendizado de máquina e análise de componentes principais. Neste nível, não temos espaço para nos aprofundarmos em cada uma dessas aplicações, mas pelo menos aprenderemos o processo para nos familiarizarmos com a decomposição.

A fórmula para autodecomposição é a seguinte, onde $ v $ são os autovalores e $ \lambda $ são os autovetores. $ A $ é a matriz original.

$
Av = \lambda v
$

Há um autovetor e um autovalor para cada dimensão da matriz $ A $, e nem toda matriz pode ser decomposta com autodecomposição.

Vamos realizar a autodecomposição na matriz $A$ abaixo usando a função `eig()` no pacote `linalg` do NumPy. Isso resultará nestes dois componentes: autovetores e autovalores.

In [None]:
from numpy import array, diag
from numpy.linalg import eig, inv 


A = array([
    [2, 9,],
    [1, 2,]
])


eigenvals, eigenvecs = eig(A)

print("AUTOVALORES")
print(eigenvals)
print("\nAUTOVETORES")
print(eigenvecs)

Agora, como recompomos a matriz $A$ a partir dos autovetores e autovalores? Para reconstruir, precisamos desta fórmula:

$
A = Q \Lambda Q^{-1}
$

$Q$ são os autovetores, $ \Lambda $ são os autovalores na forma diagonal e $Q^{-1}$ é a matriz inversa de $Q$.

Vamos reconstruir isso com NumPy e, com certeza, você verá a matriz original $A$ montada novamente.

In [None]:
Q = eigenvecs
Q_inv = inv(Q)

L = diag(eigenvals)
A = Q @ L @ Q_inv

print(A)

## Regressão Linear

Aqui está outro caso em que podemos usar a álgebra linear para um problema altamente útil. Uma **regressão linear** ajusta uma reta aos dados observados, tentando demonstrar uma relação linear entre variáveis ​​e fazer previsões sobre novos dados ainda a serem observados. Embora existam muitas maneiras de ajustar uma regressão linear, incluindo gradiente descendente, podemos usar matrizes inversas, bem como técnicas de decomposição de matrizes. Vamos começar com uma técnica de matriz inversa.

Vamos primeiro obter um conjunto de dados contendo duas colunas $ x $ e $ y $ do GitHub e salvá-lo em um DataFrame do Pandas.

In [None]:
import pandas as pd 
import numpy as np 

url = r"https://raw.githubusercontent.com/thomasnield/machine-learning-demo-data/master/regression/linear_normal.csv"

df = pd.read_csv(url, delimiter=",")
df

Em seguida, vamos visualizar esses dados usando matplotlib.

In [None]:
import matplotlib.pyplot as plt

# Extrair variáveis ​​de entrada (todas as linhas e todas as colunas, exceto a última)
X = df.values[:, :-1]

# Extrair coluna de saída (todas as linhas, última coluna)
Y = df.values[:, -1]
plt.plot(X, Y, 'o') # gráfico de dispersão
plt.show()

Observando esses dados, parece haver definitivamente uma relação linear, pois quando $ x $ aumenta/diminui proporcionalmente, $ y $ também aumenta/diminui proporcionalmente. Vamos aprender a ajustar uma reta usando algumas técnicas de álgebra linear.

Primeiro, vamos observar a seguinte fórmula para obter um vetor de coeficientes $ b $ para uma função linear.

$
\Large b = (X^T \cdot X)^{-1} \cdot X^T \cdot y
$

$ X $ é uma matriz dos valores da variável de entrada, que neste caso possui apenas uma coluna. No entanto, vamos preencher alguns 1s como uma coluna extra para que isso gere um coeficiente de interceptação e não apenas uma inclinação. $ y $ é o vetor da variável de saída. $ X^T $ é a matriz transposta de $ X $.

Vamos primeiro preencher $ X $ com uma coluna extra de 1s e chamá-la de `X_1`. Usaremos isso no lugar de $ X $ em nossa fórmula acima.

In [None]:
# Adicionar coluna de espaço reservado "1" para gerar interceptação
X_1 = np.vstack([X.flatten(), np.ones(len(X))]).transpose()

X_1

Agora, vamos aplicar esta fórmula e executá-la usando o NumPy. Agora, obteremos os coeficientes no vetor $b$.

$
\Large b = (X^T \cdot X)^{-1} \cdot X^T \cdot y
$

In [None]:
b = inv(X_1.transpose() @ X_1) @ (X_1.transpose() @ Y)
b

$ 1,75919315 $ é o valor da inclinação e $ 4,69359655 $ é o valor da interceptação. Vamos traçar a reta que passa pelos pontos.

In [None]:
plt.plot(X, Y, 'o') # gráfico de dispersão
plt.plot(X, X_1 @ b) # linha
plt.show()

Isso parece correto e, para este problema específico, está correto. No entanto, quando você tem muitos dados com muitas colunas, os computadores podem começar a produzir resultados instáveis ​​devido a problemas de precisão de ponto flutuante. Este é um caso de uso para decomposição matricial, que neste caso podemos usar a decomposição QR. Decompondo primeiro $ X $ nos componentes $ Q $ e $ R $ (e por $ X $ quero dizer com a coluna de 1s), podemos tornar esta regressão linear mais estável numericamente.

Podemos primeiro decompor $ X $ nos componentes $ Q $ e $ R $.

In [None]:
from numpy.linalg import qr

Q,R = qr(X_1)
print("Q:")
print(Q)

print("R:")
print(R)

Podemos então usar esta fórmula para calcular os coeficientes no vetor $ b $.

$
\Large b = R^{-1} \cdot Q^T \cdot y
$

Tudo o que precisamos do NumPy é algum trabalho de matriz inversa e transposição, e depois alguma multiplicação de matrizes.

In [None]:
b = inv(R) @ Q.transpose() @ Y 
b

Novamente, 1,75919315 é o valor da inclinação e 4,69359655 é o valor da interceptação. Isso nos dá exatamente a mesma resposta que a técnica inversa simples, mas para conjuntos de dados maiores e mais complexos, essa abordagem de decomposição QR será mais estável numericamente.

## Redes Neurais

Um caso de uso intensivo para álgebra linear tornou-se redes neurais e aprendizado profundo. Vamos ver como isso funciona para implementar uma rede neural simples de propagação direta completamente do zero usando apenas o NumPy. Não vamos aprender sobre retropropagação e gradiente descendente aqui, leiam o livro [_Matemática Essencial para Ciência de Dados_](https://learning.oreilly.com/library/view/essential-math-for/9781098102920/).

Digamos que temos alguns dados representando diferentes cores de fundo (com as variáveis ​​de entrada `RED`, `GREEN` e `BLUE`). Também temos um `LIGHT_OR_DARK_FONT_IND` que indica se uma fonte clara (0) ou escura (1) funcionará melhor com esse fundo.

In [None]:
import pandas as pd

df = pd.read_csv("https://tinyurl.com/y2qmhfsr")
df.sample(10, random_state=7)

Vamos capturar as três colunas de entrada como matriz $ X $ e a coluna de saída como vetor $ Y $.

$
X = \begin{bmatrix}179 & 204 & 255\\179 & 179 & 179\\205 & 102 & 29\\173 & 216 & 230\\122 & 197 & 205\\ & ... & \\ 0 & 197 & 205\\197 & 193 & 170\\70 & 130 & 180\\205 & 200 & 177\\0 & 139 & 69\end{bmatrix}
$

$
Y = \begin{bmatrix}1\\1\\0\\1\\1\\...\\1\\1\\0\\1\\0\end{bmatrix}
$

Podemos extrair $ X $ e $ Y $ como matrizes NumPy do `DataFrame`. Também reduziremos $ X $ em 255 para que os valores de entrada fiquem entre 0 e 1. Isso reduzirá o espaço numérico para um intervalo menor e matematicamente mais conveniente do que o intervalo completo de 0 a 255.

In [None]:
X = df.values[:,:3] / 255 
Y = df.values[:,-1]

Normalmente, usaríamos esses dados para treinar uma rede neural para prever uma fonte clara ou escura para uma determinada cor de fundo. No entanto, a rede neural que estamos prestes a construir já está "treinada" para fins de escopo nesta aula.

Poderíamos usar modelos mais simples, como regressão logística, para este problema, mas este é um ótimo problema de brinquedo para entender redes neurais. É também um microcosmo da visão computacional, já que as três variáveis ​​de entrada `VERMELHO`, `VERDE` e `AZUL` podem representar um único pixel em uma imagem.

Vamos fazer um rápido curso intensivo sobre redes neurais com o auxílio de alguma animação. Uma rede neural é uma série de operações de multiplicação e adição em várias camadas (portanto, multiplicação de matrizes) com algumas funções não lineares na mistura. A saída é um valor entre 0 e 1, sugerindo a "probabilidade" de uma fonte escura.


<video src="https://github.com/thomasnield/anaconda_linear_algebra/raw/main/media/02_NeuralNetworkScene.mp4" controls="controls" style="max-width: 730px;">
</video>

Acima, representamos as entradas `VERMELHO`, `VERDE` e `AZUL` como $x_1$, $x_2$ e $x_3$. Isso representaria uma linha da matriz $ X $. Temos três nós na *camada oculta* e associamos pesos de $w_1$ a $w_9$ para cada par de nós de entrada ao nó oculto. Também adicionamos um valor de viés a cada nó. O valor resultante é passado para uma função não linear chamada ReLU, que simplesmente transforma valores negativos em 0. Repetimos esse processo novamente entre os nós ocultos e o nó de saída, o que envolve outros três pesos de $w_{10}$ a $w_{12}$ e outro valor de viés $b_4$. Este é passado por uma função sigmoide. Se esse valor de saída for menor que $0,5$, o categorizamos como `LIGHT`. Caso contrário, o categorizamos como `DARK`.

Observe como cada camada de nós pode ser representada puramente por matrizes de pesos e vieses. Vamos capturá-los abaixo.

<br><br>


$
W_{hidden} = \begin{bmatrix}
w_1 & w_2 & w_3 \\
w_4 & w_5 & w_6 \\
w_7 & w_8 & w_9
\end{bmatrix}
$

$
W_{output} = \begin{bmatrix}
w_{10} \\
w_{11} \\
w_{12} 
\end{bmatrix}
$


$
B_{hidden} = \begin{bmatrix}b_1\\b_2\\b_3 \end{bmatrix}
$

$
B_{output} = \begin{bmatrix}b_4\end{bmatrix}
$ 

<br><br>

Normalmente, você resolveria esses valores de peso e viés por meio de um procedimento complicado chamado retropropagação com gradiente descendente estocástico. Para este exemplo, no entanto, já resolvi esses valores de peso e viés, conforme mostrado abaixo.

<br><br>

$
W_{hidden} = \begin{bmatrix}3.5574801792467 & 8.48639024065542 & 1.59453643090894\\4.28982009818168 & 8.35518250953765 & 1.36713925567114\\3.7207429234428 & 8.13223257221876 & 1.48165938844881\end{bmatrix}
$

$
W_{output} = \begin{bmatrix}4.27394193741564 & 3.656340721696 & 2.63047525734278\end{bmatrix}
$

$
B_{hidden} = \begin{bmatrix}-6.67311750917892\\-6.34084123159501\\-6.10933576744567\end{bmatrix}
$

$
B_{output} = \begin{bmatrix}-5.46880991264584\end{bmatrix}
$ 
<br><br>

Eu os declarei em NumPy abaixo.

In [None]:
import numpy as np 

w_hidden = np.array([
    [3.55748018, 8.48639024, 1.59453643],
    [4.2898201,  8.35518251, 1.36713926],
    [3.72074292, 8.13223257, 1.48165939]
])

w_output = np.array([
    [4.27394194, 3.65634072, 2.63047526]
])

b_hidden = np.array([
    [-6.67311751],
    [-6.34084123],
    [-6.10933577]
])

b_output = np.array([
    [-5.46880991]
])

Agora aqui está uma operação de multiplicação e adição de matrizes, com as funções não lineares `sigmoid` e `relu`, que receberão uma determinada entrada de uma ou mais cores de fundo $ X $

$ 
Y_{pred} = \text{Sigmoid}(W_{output} \cdot \text{ReLU}(W_{hidden} \cdot X + B_{hidden}) + B_{output})
$

Vamos implementar toda essa linha no NumPy usando a função `forward_prop()`. Ela gerará as probabilidades sugeridas de ser uma fonte `DARK`.

In [None]:
# Funções de ativação
relu = lambda x: np.maximum(x, 0)
sigmoid = lambda x: 1 / (1 + np.exp(-x))

# Executa entradas através da rede neural para obter saídas previstas
def forward_prop(X):
    hidden = relu(w_hidden @ X + b_hidden)
    output = sigmoid(w_output @ hidden + b_output)
    return output

# Calcular previsões para todas as cores de fundo 
previsoes = forward_prop(X.transpose())
previsoes

Para resumir melhor esse desempenho (não usaremos práticas recomendadas como divisões de treinamento/teste ou matrizes de confusão aqui), podemos definir todos os valores que sejam pelo menos $ 0,5 $ como $ 1 $ e qualquer valor menor como $ 0 $. Em seguida, podemos comparar os valores reais de $ Y $ com esses novos valores $ Y{pred} $ previstos. Isso nos dá os meios para calcular a porcentagem total de previsões precisas.

In [None]:
comparacao = np.equal((previsoes >= .5).flatten().astype(int), Y)
precisao = sum(comparacao.astype(int) / Y.shape[0])
print("Precisão: ", precisao)

## Exercício

Resolva o sistema de equações abaixo usando o NumPy.

$
4x + 1y - 1z = 1 \\
1x + 0.5y + 2z = 3 \\
2x + 1y + 2z = -2
$

### RESPOSTA A BAIXO

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
v 

Os valores de $ x $, $y$ e $z$ podem ser calculados encontrando a inversa da matriz de coeficientes e multiplicando-a pelo vetor da direita, como mostrado abaixo.

O vetor $\begin{bmatrix}7.5 & -25.0 & 4.0\end{bmatrix} $ contém os três valores, respectivamente.

In [None]:
from numpy import array
from numpy.linalg import inv

import sympy as sp 

# 4x + 1y - z = 1
# 1x + 0.5y + 2z = 3
# 2x + 1y + 2z = -2

A = array([
    [4, 1, -1],
    [1, 0.5, 2],
    [2, 1, 2]
])

B = array([
    1,
    3,
    -2
])

X = inv(A) @ B 

X