<!-- Projeto Desenvolvido na Data Science Academy - www.datascienceacademy.com.br -->
# <font color='blue'>Data Science Academy</font>
## <font color='blue'>Matemática e Estatística Aplicada Para Data Science, Machine Learning e IA</font>
## <font color='blue'>Lab 5</font>
### <font color='blue'>Operações com Matrizes, Determinantes, Autovalores e Autovetores em Ciência de Dados</font>

## Instalando e Carregando os Pacotes

In [1]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# !pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
#!pip install -q -U watermark

In [2]:
# Imports
import numpy as np
import sympy as sym

In [3]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" 

Author: Data Science Academy



### Transposta da Matriz

Obter a transposição de uma matriz é realmente fácil com o NumPy. Basta acessar seu atributo T. Há também a função transpose() que retorna o mesmo resultado.

In [4]:
m = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

In [5]:
print(m)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [6]:
m.T

array([[ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

NumPy faz isso sem realmente mover qualquer dado na memória - ele simplesmente muda a maneira como ele indexa a matriz original - por isso é bastante eficiente.

No entanto, isso também significa que você precisa ter cuidado com a forma como você modifica objetos, porque eles compartilham os mesmos dados. Por exemplo, com a mesma matriz m acima, vamos criar uma nova variável m_t que armazene a transposição de m. Então, veja o que acontece se modificarmos um valor em m_t:

In [7]:
m_t = m.T

In [8]:
m_t

array([[ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

In [9]:
m_t[3][1] = 200

In [10]:
print(m_t)

[[  1   5   9]
 [  2   6  10]
 [  3   7  11]
 [  4 200  12]]


In [11]:
print(m)

[[  1   2   3   4]
 [  5   6   7 200]
 [  9  10  11  12]]


Observe como ele modificou a transposição e a matriz original também! Isso porque eles estão compartilhando a mesma cópia de dados. Então lembre-se de considerar a transposição apenas como uma visão diferente de sua matriz, ao invés de uma matriz diferente, inteiramente.

Ou então use o método copy().

In [12]:
m_t2 = m.T.copy()

In [13]:
m_t2

array([[  1,   5,   9],
       [  2,   6,  10],
       [  3,   7,  11],
       [  4, 200,  12]])

In [14]:
m_t2[3][1] = 400

In [15]:
print(m_t2)

[[  1   5   9]
 [  2   6  10]
 [  3   7  11]
 [  4 400  12]]


In [16]:
print(m)

[[  1   2   3   4]
 [  5   6   7 200]
 [  9  10  11  12]]


### Exemplo em Redes Neurais

Digamos que você tenha as seguintes duas matrizes, chamadas inputs e pesos:

In [17]:
inputs = np.array([[-0.27,  0.45,  0.64, 0.31]])

In [18]:
print(inputs)

[[-0.27  0.45  0.64  0.31]]


In [19]:
inputs.shape

(1, 4)

In [20]:
pesos = np.array([[0.02, 0.001, -0.03, 0.036], [0.04, -0.003, 0.025, 0.009], [0.012, -0.045, 0.28, -0.067]])

In [21]:
print(pesos)

[[ 0.02   0.001 -0.03   0.036]
 [ 0.04  -0.003  0.025  0.009]
 [ 0.012 -0.045  0.28  -0.067]]


In [22]:
pesos.shape

(3, 4)

Os pesos são multiplicados aos inputs nas camadas das redes neurais, logo precisamos multiplicar pesos por inputs. Uma multiplicação de matrizes. Isso é muito fácil com o NumPy.

In [23]:
np.matmul(inputs, pesos)

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 4)

Ops, o que deu errado? Se você fez a aula de multiplicação de matrizes, então você já viu esse erro antes. As matrizes estão shapes incompatíveis porque o número de colunas na matriz esquerda, 4, não é igual ao número de linhas na matriz direita, 3.

Como resolvemos isso? Podemos usar a transposta da matriz:

In [24]:
np.matmul(inputs, pesos.T)

array([[-0.01299,  0.00664,  0.13494]])

Também funciona se você gerar a transposta da matriz de inputs e trocar a ordem dos parâmetros na função:

In [25]:
np.matmul(pesos, inputs.T)

array([[-0.01299],
       [ 0.00664],
       [ 0.13494]])

## Calculando o Determinante com NumPy e SymPy

In [26]:
# Cria uma matriz 2x2
matrix = np.array([[1, 2], [3, 4]])

In [27]:
# Calcula o determinante
determinante_1 = np.linalg.det(matrix)

In [28]:
print(determinante_1)

-2.0000000000000004


In [29]:
# Cria uma matriz 2x2
matrix = sym.Matrix([[1, 2], [3, 4]])

In [30]:
# Calcula o determinante
determinante_2 = matrix.det()

In [31]:
print(determinante_2)

-2


Fómula do determinante:

Considerando uma matriz 2 x 2 com os elementos
   

In [32]:
# Cria uma matriz 2x2 de exemplo
matrix = np.array([['a', 'b'], ['c', 'd']])

In [33]:
print(matrix)

[['a' 'b']
 ['c' 'd']]


Calculamos o determinante assim:

|Det| = ad − bc

In [34]:
# Cria uma matriz 2x2
matrix = np.array([[1, 2], [3, 4]])

In [35]:
print(matrix)

[[1 2]
 [3 4]]


In [36]:
# Calculando o determinante com operações aritméticas
determinante_3 = (1 * 4) - (2 * 3)

In [37]:
determinante_3

-2

> E para matriz com 3 dimensões?

In [38]:
b = np.array([[6,1,1], [4, -2, 5], [2,8,7]]) 

In [39]:
print(b) 

[[ 6  1  1]
 [ 4 -2  5]
 [ 2  8  7]]


In [40]:
print(np.linalg.det(b))

-306.0


In [41]:
print(6*(-2*7 - 5*8) - 1*(4*7 - 5*2) + 1*(4*8 - -2*2))

-306


Fórmula para outras dimensões:

https://www.mathsisfun.com/algebra/matrix-determinant.html

## Matriz Inversa

A matriz inversa é uma matriz que, quando multiplicada por uma matriz dada, produz a matriz identidade. A matriz identidade é uma matriz quadrada com 1s na diagonal principal e 0s em todas as outras posições.

Por exemplo, se A é uma matriz quadrada e A^-1 é sua matriz inversa, então AA^-1 = A^-1A = I, onde I é a matriz identidade.

A inversa de uma matriz só existe se a matriz é não-singular, ou seja, se o determinante da matriz é diferente de zero. Matrizes singulares não possuem inversa.

Existem vários métodos para calcular a inversa de uma matriz, como a decomposição LU, a decomposição QR, e a eliminação gaussiana. Algumas bibliotecas científicas, como o NumPy, também fornecem funções para calcular a inversa de uma matriz, como a função numpy.linalg.inv().

Aqui está um exemplo de como calcular a matriz inversa de uma matriz 2x2:

In [42]:
matriz = np.array([[1, 2], [3, 4]])

In [43]:
print(matriz)

[[1 2]
 [3 4]]


In [44]:
inversa = np.linalg.inv(matriz)

In [45]:
print(inversa)

[[-2.   1. ]
 [ 1.5 -0.5]]


> Se o determinate de uma matriz é zero, ela não tem matriz inversa.

In [46]:
mat = np.array([[1, 2], [2, 4]])

In [47]:
print(mat)

[[1 2]
 [2 4]]


In [48]:
print(np.linalg.det(mat))

0.0


In [49]:
# Observe o erro
inversa = np.linalg.inv(mat)

LinAlgError: Singular matrix

**Quando Usamos Matriz Inversa em Machine Learning?**

A matriz inversa é usada em aprendizado de máquina (Machine Learning) principalmente nos seguintes contextos:

**Regressão Linear**: Na regressão linear, um dos métodos para calcular os coeficientes (pesos) do modelo é através do método dos mínimos quadrados. Este método frequentemente envolve inverter uma matriz (a matriz X transposta multiplicada por X, onde X é a matriz de características). A inversão desta matriz permite resolver a equação normal para encontrar os coeficientes que minimizam o erro do modelo.

**Regularização**: Em alguns casos, como na regressão ridge ou LASSO, a inversão de matrizes é parte do processo de regularização. A regularização é usada para evitar o sobreajuste (overfitting) adicionando uma penalidade ao tamanho dos coeficientes. Na regressão ridge, por exemplo, a inversão de matrizes é usada para calcular os coeficientes de forma que eles sejam penalizados.

**Análise de Componentes Principais (PCA)**: No PCA, que é uma técnica de redução de dimensionalidade, a inversão de matrizes é usada no cálculo dos autovalores e autovetores da matriz de covariância. Isso é essencial para identificar as direções (componentes principais) que capturam a maior variação nos dados.

**Algoritmos Baseados em Distância**: Em algoritmos que usam medidas de distância, como o K-Nearest Neighbors (KNN) ou algoritmos de clustering, a inversão de matrizes pode ser usada em contextos específicos, como quando se ajusta uma métrica de distância ou se realiza uma transformação de características.

**Redes Neurais**: Em redes neurais, a inversão de matrizes pode ser usada em algumas técnicas de otimização, como o método de Newton, embora métodos mais modernos geralmente utilizem gradientes e não requeiram inversão de matrizes.

É importante notar que a inversão de matrizes pode ser computacionalmente custosa e, em alguns casos, pode levar a problemas de instabilidade numérica. Por isso, em prática, muitas vezes são usadas técnicas alternativas para evitar a inversão direta de matrizes, como a decomposição em valores singulares (SVD) ou métodos iterativos.

## Resolvendo Sistema de Equações Lineares com Eliminação Gaussiana em Python

Aqui está um exemplo de código Python que usa o pacote NumPy para escalonar uma matriz e resolver um sistema de equações lineares usando o método de eliminação gaussiana. Antes criaremos o processo manualmente.

Este método consiste em transformar o sistema de equações em uma forma escalonada ou reduzida (matriz triangular superior) por meio de operações elementares nas linhas e depois resolver as equações de cima para baixo.

Considere o dataset abaixo como um exemplo didático:

Dados originais:

- Idade, Salario, Número de Filhos, Número de Anos Para Promoção
- 34, 10000, 2, 1
- 42, 12000, 3, 3
- 27, 8000, 5, 9


Dados normalizados:

- Idade, Salario, Número de Filhos, Número de Anos Para Promoção
- 2, 3, 2, 1
- 4, 1, 3, 3
- 1, 2, 5, 9

Divisão entrada/saída:

- Variáveis de entrada: Idade, Salario, Número de Filhos
- Variável de saída: Número de Anos Para Promoção

Vamos colocar os dados no formato de equações e resolver o seguinte sistema de equações como exemplo:

- 2x + 3y + 2z = 1
- 4x + y + 3z = 3
- x + 2y + 5z = 9

O objetivo é encontrar os valores de x, y e z que satisfazem todas as três equações simultaneamente. 

In [50]:
# Matriz de coeficientes A (representa dados de entrada)
A = np.array([[2, 3, 2],
              [4, 1, 3],
              [1, 2, 5]])

In [51]:
# Matriz de termos constantes (representa dados de saída)
b = np.array([1, 3, 9])

x, y e z representam as incógnitas (ou pesos ou coeficientes) que estabelecem a relação entre dados de entrada e saída. Isso é o que um modelo de Machine Learning encontra ao final do treinamento.

In [52]:
# Função para escalonamento de matrizes usando eliminação gaussiana
def dsa_gaussian_elimination(A, b):
    """
    Resolve um sistema de equações lineares Ax = b usando eliminação de Gauss 

    :param A: matriz de coeficientes
    :param b: vetor de termos constantes
    :return: vetor solução mat
    """
    n = len(b)
    
    # Formando a matriz combinando A e b
    Ab = np.hstack([A, b.reshape(-1, 1)])

    # Eliminação para frente
    for i in range(n):
        
        # Escolhendo o maior pivô para estabilidade numérica
        max_row = np.argmax(np.abs(Ab[i:, i])) + i
        Ab[[i, max_row]] = Ab[[max_row, i]]
        
        # Tornando zero os elementos abaixo do pivô
        for j in range(i + 1, n):
            Ab[j] = Ab[j] - Ab[j, i] / Ab[i, i] * Ab[i]

    # Matriz de zeros
    mat = np.zeros(n)
    
    # Substituição para trás
    for i in range(n - 1, -1, -1):
        mat[i] = (Ab[i, -1] - np.dot(Ab[i, i + 1:n], mat[i + 1:n])) / Ab[i, i]

    return mat

In [53]:
# Resolvendo o sistema
resultado = dsa_gaussian_elimination(A, b)

In [54]:
print(resultado)

[-0.75  0.    2.  ]


In [55]:
# Extrai os valores de x, y e z
x_val, y_val, z_val = resultado

Sistema de equações:

- 2x + 3y + 2z = 1
- 4x + y + 3z = 3
- x + 2y + 5z = 9

O objetivo é encontrar os valores de x, y e z que satisfazem todas as três equações simultaneamente. 

In [56]:
# Verificando cada equação
eq1 = np.isclose(2 * x_val + 3 * y_val + 2 * z_val, 1)
eq2 = np.isclose(4 * x_val + y_val + 3 * z_val, 3)
eq3 = np.isclose(x_val + 2 * y_val + 5 * z_val, 9)

In [57]:
eq1, eq2, eq3

(False, True, False)

SEMPRE verifique seus resultados. O arredondamento afeta a precisão dos cálculos. Vamos tentar resolver com o NumPy.

In [58]:
# Resolvendo o sistema usando a função do NumPy para solução de sistemas lineares
solucao_numpy = np.linalg.solve(A, b)

In [59]:
print(solucao_numpy)

[-0.74358974 -0.64102564  2.20512821]


In [60]:
# Extrai os valores de x, y e z
x_val_np, y_val_np, z_val_np = solucao_numpy

In [61]:
# Verificando cada equação
eq1_np = np.isclose(2 * x_val_np + 3 * y_val_np + 2 * z_val_np, 1)
eq2_np = np.isclose(4 * x_val_np + y_val_np + 3 * z_val_np, 3)
eq3_np = np.isclose(x_val_np + 2 * y_val_np + 5 * z_val_np, 9)

In [62]:
eq1_np, eq2_np, eq3_np

(True, True, True)

In [63]:
%reload_ext watermark
%watermark -a "Data Science Academy"

Author: Data Science Academy



In [64]:
#%watermark -v -m

In [65]:
#%watermark --iversions

## Fim