## Álgebra Linear
***
### Escalares, Vetores, Matrizes e Tensores
***

Deep Learning envolve muita matemática e operações com matrizes, sendo importante você entender o básico antes de mergulhar na construção de suas próprias redes neurais. Este bonus oferece um passo a passo de como realizar essas operações matemáticas e utilizar a biblioteca Python de computação científica, o Numpy, base de quase todos os frameworks de Deep Learning.

Como você aprendeu até aqui na Formação IA, as redes neurais esperam receber os dados em um formato específico e o tratamento do shape (formato) dos dados de input é sua responsabilidade. Os dados podem assumir os mais variados formatos e conhecer o que você vai processar com as redes neurais é de extrema importância.

Os dados que vão alimentar a rede neural, podem assumir basicamente 4 formatos: Scalar, Vetor, Matriz e Tensor. O número de dimensões que serão representados, definem qual desses  formatos  você  deverá  utilizar! Pode  ser  necessário  combinar  esses  formato,  para representar o shape dos dados que você quer processar e isso é simplesmente uma operação matemática.

![img](https://user-images.githubusercontent.com/14116020/56332956-abe64a00-6168-11e9-9f18-bab401bb928e.png)

Dados com alta dimensionalidade podem ser difíceis de visualizar. Podemos ter uma matriz com 3 dimensões, ou mesmo uma matriz de vetores. Para dados com quatro dimensões, você poderia imaginar uma matriz em que cada elemento é uma matriz (algo como uma matriz de  matrizes).  Daí  em  diante  você consegue  imaginar  a  dificuldade  no  tratamento  de  dados altamente dimensionais.

Uma imagem, por exemplo, é composta de 3 canais RGB, conforme figura abaixo:

![img](https://user-images.githubusercontent.com/14116020/56332997-d89a6180-6168-11e9-8df2-0be921cbeabf.png)

Portanto,  uma  imagem  poderia  ser  armazenada  no  formato  de  um  tensor  de  3 dimensões, com uma dimensão para cada canal da imagem: Red, Blue e Green.

Dentro de uma matriz, cada posição é representada pelos índices, que nos ajudam a acessar cada elemento para o processamento.

![img](https://user-images.githubusercontent.com/14116020/56333038-fec00180-6168-11e9-8136-1501cf8cdee8.png)

Algo que costuma causar confusão, é a forma como usamos os índices para buscar os dados na matriz. Na matemática (e como você pode observar na figura acima), começamos o índice  por  1.  Portanto,  o  valor  4  na  matrix  está  na  posição  a21  (linha  2,  coluna  1).  Mas  as linguagens  de  programação  possuem  uma  representação  diferente  e  no  caso  da  linguagem Python,  índices  começam  por  0.  Logo,  em  Python,  a  matriz  seria  representada  por  esta combinação  de  índices  da  figura  abaixo.  Fique  atento  para  não  confundir  a  representação matemática  com  a  representação  da  linguagem  de  programação. O  número  4  agora  seria representado pelo índice a10 (linha 2, coluna 1, com índices em Python).

![img](https://user-images.githubusercontent.com/14116020/56333093-2f07a000-6169-11e9-93ee-1799d9383550.png)

***
### Tipos de Dados e Shapes
***

Python é uma excelente linguagem de programação, mas ela pode ser lenta quando usada na sua forma básica. No entanto, ele permite que você acesse bibliotecas que executem código mais rápido escrito em linguagens como C. NumPy é uma dessas bibliotecas: fornece alternativas rápidas para operações matemáticas em Python e foi projetado para funcionar de forma eficiente com grupos de números - como matrizes.

NumPy é uma excelente biblioteca, sendo a base de quase todos os frameworks de Deep Learning, como você viu no curso anterior. Veremos agora algumas operações matemáticas essenciais para a construção de redes neurais e como realizar seu processamento com o NumPy.

A maneira mais comum de trabalhar com números em NumPy é através de objetos ndarray. Eles são semelhantes às listas em Python, mas podem ter qualquer número de dimensões. Além disso, o ndarray suporta operações matemáticas rápidas, o que é exatamente o que queremos.

Como você pode armazenar qualquer número de dimensões, você pode usar ndarrays para representar qualquer um dos tipos de dados que abordamos antes: escalares, vetores, matrizes ou tensores.

In [1]:
import numpy as np

***
### Escalares
***

Escalares em NumPy são mais eficientes do que em Python. Em vez dos tipos básicos do Python como int, float, etc., o NumPy permite especificar tipos mais específicos, bem como diferentes tamanhos. Então, em vez de usar int em Python, você tem acesso a tipos como uint8, int8, uint16, int16 e assim por diante, ao usar o NumPy.

Esses tipos são importantes porque todos os objetos que você cria (vetores, matrizes, tensores) acabam por armazenar escalares. E quando você cria uma matriz NumPy, você pode especificar o tipo (mas cada item na matriz deve ter o mesmo tipo). Nesse sentido, os arrays NumPy são mais como arrays C do que as listas em Python.

Se você quiser criar uma matriz NumPy que contenha um escalar, usamos a função array do NumPy:

In [2]:
escalar = np.array(8)

In [3]:
escalar

array(8)

Você ainda pode realizar matemática entre ndarrays, escalares NumPy e escalares Python normais, como veremos mais adiante.

Você pode ver o shape da matriz usando o atributo shape, conforme abaixo. Esse comando retorna um () vazio, indicando que este objeto é um escalar.

In [4]:
escalar.shape

()

Mesmo que os escalares estejam dentro de arrays, você ainda os usa como um escalar normal, para operações matemáticas:

In [5]:
x = escalar - 2

In [6]:
x

6

E x seria igual a 6. Se você verificar o tipo de x, vai perceber que é numpy.int64, pois você está trabalhando com tipos NumPy, e não com os tipos Python.

Mesmo os tipos escalares suportam a maioria das funções de matriz. Então você pode chamar x.shape e retornaria () porque tem zero dimensões, mesmo que não seja uma matriz. Se você tentar usar o objeto como um escalar Python normal, você obterá um erro.

In [7]:
type(x)

numpy.int64

***
### Vetores
***

Para criar um vetor, você passaria uma lista Python para a função array(), assim:

In [8]:
array = np.array([1,2,3])

In [9]:
array

array([1, 2, 3])

In [10]:
array.shape

(3,)

Se você verificar o atributo de shape do vetor, ele retornará um único número representando o comprimento unidimensional do vetor. No exemplo acima, vec.shape retorna (3,).

Agora que há um número, você pode ver que a forma é uma tupla com os tamanhos de cada uma das dimensões do ndarray. Para os escalares, era apenas uma tupla vazia, mas os vetores têm uma dimensão, então a tupla inclui um número e uma vírgula. (Python não entende (3) como uma tupla com um item, por isso requer a vírgula.

Você pode acessar um elemento dentro do vetor usando índices, como este abaixo (como você pode ver, em Python a indexação começa por 0 e o índice 1 representa o segundo elemento da matriz).

In [11]:
array[1]

2

NumPy também suporta técnicas avançadas de indexação. Por exemplo, para acessar os itens do segundo elemento em diante, você usaria:

In [12]:
array[:2]

array([1, 2])

NumPy slicing é bastante poderoso, permitindo que você acesse qualquer combinação de itens em um ndarray. 

***
### Matrizes
***

Você cria matrizes usando a função de array() NumPy, exatamente como você fez com os vetores. No entanto, em vez de apenas passar uma lista, você precisa fornecer uma lista de listas, onde cada lista representa uma linha. Então, para criar uma matriz 3x3 contendo os números de um a nove, você poderia fazer isso:

In [13]:
matriz = np.array([[1,2,3], [4,5,6], [7,8,9]])

In [14]:
matriz

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [15]:
matriz.shape

(3, 3)

Verificando o atributo shape, retornaria a tupla (3, 3) para indicar que a matriz tem duas dimensões, cada dimensão com comprimento 3.

Você pode acessar elementos de matrizes como vetores, mas usando valores de índice adicionais. Então, para encontrar o número 6 na matriz acima, você usaria:

In [16]:
matriz[1][2]

6

***
### Tensores
***

Os tensores são como vetores e matrizes, mas podem ter mais dimensões. Por exemplo, para criar um tensor 3x3x2x1, você pode fazer o seguinte:

In [17]:
tensor = np.array([
    [
        [[1], [2]],
        [[3], [4]],
        [[5], [6]]
    ],
    [
        [[7], [8]],
        [[9], [10]],
        [[11], [12]]
    ],
    [
        [[13], [14]],
        [[15], [16]],
        [[17], [17]]
    ]
])

In [18]:
# Tensor de 4 dimensões
tensor.shape

(3, 3, 2, 1)

Para acessar um elemento do tensor, usamos a indexação da mesma forma que fizemos com vetores e matrizes:

In [19]:
tensor[2][2][1][0]

17

***
### Alterando o Formato (shape)
***

Às vezes, você precisará alterar a forma de seus dados sem realmente alterar seu conteúdo. Por exemplo, você pode ter um vetor, que é unidimensional, mas precisa de uma matriz, que é bidimensional. Há duas maneiras pelas quais você pode fazer isso.

Digamos que você tenha o seguinte vetor:

In [20]:
array = np.array([1,2,3,4])

In [21]:
array

array([1, 2, 3, 4])

In [22]:
array.shape

(4,)

Chamando array.shape retornaria (4,). Mas e se você quiser uma matriz 1x4? Você pode conseguir isso com a função de reshape, assim:

In [23]:
matriz = array.reshape(1,4)

In [24]:
matriz

array([[1, 2, 3, 4]])

In [25]:
matriz.shape

(1, 4)

A função reshape pode ser usada para outras atividades com matrizes.

***
### Operação Elementares com Scalar
***

Operações  matemáticas  com  escalares  é  algo  bem  simples  e  você realizar  estas operações  todos  os  dias,  tal  como  adição,  subtração,  multiplicação  e  divisão.  Ao  construir modelos de redes neurais, você terá que realizar estas operações em algum momento, a fim de definir  parâmetros,  ajustar  os  dados  ou  gerar  um  resultado.  Ao  trabalhar  com  milhares  ou mesmo milhões de parâmetros, pode ser necessário escrever um programa que faça loops por uma lista de valores e realize operações matemáticas com valores escalares.

Mas em alguns casos (talvez em muitos casos, ao se trabalhar com redes neurais), pode fazer mais sentido armazenar seus valores em matrizes e depois realizar operações **element-wise**, ou seja, tratar os itens na matriz de forma individual, a fim de realizar operações, mas no fim  ter  um  único  objeto  com  o  resultado  dos  seus  cálculos.  Embora  estejamos  falando  de matrizes,  o  conceito  de  realizar  operações  element-wise  de  aplica  a  objeto  com  qualquer número de dimensões.

Operações  matemáticas  entre  escalares  é  uma  conta  matemática  simples  e  entre escalares e matrizes, basicamente o mesmo conceito, pois realizamos operações element-wise.

![img](https://user-images.githubusercontent.com/14116020/56333914-79d6e700-616c-11e9-9ce4-d5093fe1de43.png)

![img](https://user-images.githubusercontent.com/14116020/56333927-8c512080-616c-11e9-978d-e8b648e72dce.png)

Operações element-wise podem ser muito úteis durante a fase de pré-processamento dos dados para omodelo de rede neural. Considere o seguinte exemplo.

Imagine que tenham uma matriz de valores que representam o canal de cor vermelho (red) de uma imagem qualquer, assumindo que a imagem está definida com cores RGB. Cada valor será um único byte de 0 a 255, conforme figura abaixo.

![img](https://user-images.githubusercontent.com/14116020/56333986-e18d3200-616c-11e9-98c8-4b50b9a52306.png)

Uma das operações mais comuns em conjuntos de dados, antes de entregá-los a um algoritmo,  é  a  **normalização**,  que  consiste  basicamente  em  converter  todos  os  valores  para ponto flutuante (float) cujo valores estarão no range de 0 e 1. Isso é fácil. Precisamos apenas aplicar  uma  operação  element-wise  à  matriz,  dividindo  cada  valor  por  255. Operações element-wise não funcionam apenas entre escalares e matrizes. Funcionam também entre matrizes. Mas para que isso funcione, existem algumas regras. Uma delas é que as 2 matrizes devem ter o mesmo formato (mesmo shape). Por exemplo, para somar as duas matrizes abaixo, elas precisam ter o mesmo shape:

![img](https://user-images.githubusercontent.com/14116020/56334324-439a6700-616e-11e9-9241-783f1c3c7c10.png)

E tudo que precisamos fazer é somar pares de números na mesma posição e armazenar o resultado na mesma posição, da matriz resultante:

![img](https://user-images.githubusercontent.com/14116020/56334376-6c226100-616e-11e9-837f-96c204701956.png)

#### Primeiro, como você faria usando Python puro

Suponha que você tenha uma lista de números e que você deseja adicionar 5 a cada item da lista. Sem NumPy, você pode fazer algo como isto:

In [26]:
# Lista de valores
valores = [1, 2, 3, 4, 5]

In [27]:
# Looop for para adicionar 5 a cada elemento da lista
for i in range(len(valores)):
    valores[i] += 5

In [28]:
print(valores)

[6, 7, 8, 9, 10]


Isso faz sentido, mas é muito código para escrever e é mais lento, pois é Python puro.

#### Agora sim, usando NumPy

In [29]:
valores = [1,2,3,4,5]

In [30]:
valores = np.array(valores) + 5

In [31]:
print(valores)

[ 6  7  8  9 10]


NumPy facilita muito nosso trabalho e vários frameworks de Deep Learning se baseiam no NumPy.

Um outro exemplo de operação element-wise com escalares e objetos ndarrays. Digamos que você tenha um objeto chamado "valores" e você queira reutilizá-lo, mas primeiro você precisa definir todos os seus valores em zero. Fácil, basta multiplicar por zero e atribuir o resultado de volta ao objeto, assim:

In [32]:
valores *= 0

In [33]:
print(valores)

[0 0 0 0 0]


#### Operações Element-wise com Matrizes

As mesmas funções e operadores que trabalham com escalares e matrizes também funcionam com outras dimensões. Você só precisa se certificar de que os itens que você executa a operação possuem shapes compatíveis.

In [34]:
x = np.array([[1,3],[5,7]])

In [35]:
x

array([[1, 3],
       [5, 7]])

In [36]:
y = np.array([[2,4],[6,8]])

In [37]:
y

array([[2, 4],
       [6, 8]])

In [38]:
x + y

array([[ 3,  7],
       [11, 15]])

Isso funciona porque é uma soma de elementos entre duas matrizes de forma (shape) idêntica. Experimente alterar o shape de uma das matrizes e repetir a soma. Você receberá uma mensagem de erro.

***
### Produto de Matrizes
***

Vimos as operações element-wise e na verdade esse tipo de operação cobre muito  do  que  é  feito no  pré-processamento  de  dados  para  redes  neurais.  Mas  quando precisamos multiplicar matrizes, as coisas ficam um pouco mais complicadas. Vejamos como isso funciona.

Aqui temos duas matrizes e queremos realizar a multiplicação entre elas.

![img](https://user-images.githubusercontent.com/14116020/56334686-be17b680-616f-11e9-8f1b-d68d657991c3.png)

O resultado deixa claro como a operação de multiplicação foi realizada e na prática realizamos uma operação element-wise, totalmente válida.

![img](https://user-images.githubusercontent.com/14116020/56334725-ed2e2800-616f-11e9-890b-0fb416161c37.png)

Entretanto,  quando  realizamos  operações  de  multiplicação  entre  matrizes, normalmente outro método é usado, chamado **matrix products**, gerando um resultado como demonstrado na figura abaixo:

![img](https://user-images.githubusercontent.com/14116020/56334753-0c2cba00-6170-11e9-8a74-4cfa7bf7f4da.png)

Mas como chegamos a esse resultado? Continue acompanhando.

Antes de voltar as matrizes, vamos realizar a operação de multiplicação entre 2 vetores com o mesmo shape:

![img](https://user-images.githubusercontent.com/14116020/56334785-2ebed300-6170-11e9-8b6e-25f5f82dd903.png)

Uma operação que podemos realizar com estes vetores, é chamado de **dot product**. Para  encontrar  o  “dot  product”,  primeiro  multiplicamos  os  elementos  correspondentes  em cada vetore depois somamos os resultados, conforme imagem abaixo:

![img](https://user-images.githubusercontent.com/14116020/56334829-54e47300-6170-11e9-8290-6c7c33bef012.png)

Ou seja, multiplicando 2 vetores de qualquer comprimento, mas que tenham o mesmo shape, nos dá como resultado um valor escalar, nesse caso um único número, 180.

E como encontramos então o “dot product” de duas matrizes? Simples. Aplicamos o mesmo conceito que usamos nos vetores, encontrando o “dot product” entre uma linha da primeira  matriz,  com  uma  coluna  da  segunda  matriz  (na  prática  é  como  se  estivéssemos encontrando o dot product entre 2 vetores).

![img](https://user-images.githubusercontent.com/14116020/56334875-8a895c00-6170-11e9-861a-612665050515.png)

Quando estamos multiplicando 2 matrizes, estamos operando as linhas de uma matriz com as colunas da outra matriz:

![img](https://user-images.githubusercontent.com/14116020/56334899-a8ef5780-6170-11e9-9aec-13c1ab2395df.png)

Com isso, tudo que precisamos fazer é encontrar o dot product entre a linha da primeira matriz e a coluna correspondente na segunda matriz e assim por diante.

![img](https://user-images.githubusercontent.com/14116020/56334947-e522b800-6170-11e9-9ed9-696a6299b6ed.png)

Perceba que a matriz resultante terá o mesmo número de linhas da primeira matriz e o mesmo  número  de  colunas  da  segunda  matriz. Para  encontrar  a  matriz  resultante,  foram necessárias  24  multiplicações  e  18  adições,  tudo  isso  para  encontrar  os  6  números  finais. Imagine grandes conjuntos de dados. A multiplicação de matrizes vai requerer muito poder computacional e muitas tarefas repetitivas serão realizadas. Por isso as GPUs são indicadas para este  tipo  de  operação. Quando  trabalhamos  com  reconhecimento  de  imagens,  estamos essencialmente trabalhando com matrizes.

![img](https://user-images.githubusercontent.com/14116020/56334987-0683a400-6171-11e9-9258-e9c30b3a0465.png)

Lembretes importantes sobre a multiplicação de Matrizes:

* O número de colunas na matriz esquerda deve ser igual ao número de linhas na matriz direita.


* A  matriz  de  respostas  sempre  possui  o  mesmo  número  de  linhas  que  a  matriz esquerda e o mesmo número de colunas que a matriz direita.


* Ordem importa aqui. Multiplicar A • B não é o mesmo que multiplicar B • A


* Os  dados  na  matriz  esquerda  devem  ser  organizados  como  linhas,  enquanto  os dados na matriz direita devem ser organizados como colunas.

Se você tiver estes quatro pontos em mente, você sempre irá descobrir como organizar adequadamente as suas multiplicações de matriz ao construir uma rede neural.

#### Multiplicação Element-wise

Já vimos a multiplicação de matrizes com element-wise. Apenas para relembrar:

In [39]:
# Definimos uma matriz
matriz = np.array([[1,2,3],[4,5,6]])

In [40]:
matriz

array([[1, 2, 3],
       [4, 5, 6]])

In [41]:
# Usamos o operador de multiplicação para multiplicar cada elemento da matriz por 0.50. 
# Isso vai gerar uma nova matriz n.
matriz_resultante = matriz * 0.50

In [42]:
matriz_resultante

array([[0.5, 1. , 1.5],
       [2. , 2.5, 3. ]])

In [43]:
# Multiplicamos as duas matrizes, element-wise
matriz * matriz_resultante

array([[ 0.5,  2. ,  4.5],
       [ 8. , 12.5, 18. ]])

####  Matrix Product

Para encontrar o produto da matriz, você usa a função matmul() do NumPy. O shape das matrizes precisa ser compatível.

In [44]:
a = np.array([[1,2,3,4],[5,6,7,8]])

In [45]:
a

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [46]:
a.shape

(2, 4)

In [47]:
b = np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]])

In [48]:
b

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [49]:
b.shape

(4, 3)

observe que o número de colunas da primeira matriz é igual ao número de linhas da segunda matriz. Relebrando as regras:

* O número de colunas na matriz esquerda deve ser igual ao número de linhas na matriz direita.

* A matriz de respostas sempre possui o mesmo número de linhas que a matriz esquerda e o mesmo número de colunas que a matriz direita.

* Ordem importa aqui. Multiplicar A • B não é o mesmo que multiplicar B • A.

* Os dados na matriz esquerda devem ser organizados como linhas, enquanto os dados na matriz direita devem ser organizados como colunas.

In [50]:
matriz_reposta = np.matmul(a, b)

In [51]:
matriz_reposta

array([[ 70,  80,  90],
       [158, 184, 210]])

In [52]:
matriz_reposta.shape

(2, 3)

In [53]:
# Se as matrizes tiverem shape incompatível, você recebe a mensagem de erro abaixo.
# Veja que A x B não é a mesma coisa que B x A na multiplicação de matrizes.
np.matmul(b, a)

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 2 is different from 3)

#### Função dot() do NumPy

Às vezes, você pode ver a função dot() do NumPy em lugares onde você esperaria um matmul. Acontece que os resultados das funções dot() e matmul() são os mesmos se as matrizes forem de duas dimensões.

In [54]:
a = np.array([[1,2],[3,4]])

In [55]:
a

array([[1, 2],
       [3, 4]])

In [56]:
np.dot(a, a)

array([[ 7, 10],
       [15, 22]])

In [57]:
# Podemos chamar a função dot() diretamente do objeto ndarray
a.dot(a)

array([[ 7, 10],
       [15, 22]])

In [58]:
np.matmul(a, a)

array([[ 7, 10],
       [15, 22]])

Embora essas funções retornem os mesmos resultados para dados bidimensionais, você deve ter cuidado com o que você escolher ao trabalhar com outras formas de dados. Seguem abaixo referências nas documentações oficiais:

* NumPy matmul() - https://docs.scipy.org/doc/numpy/reference/generated/numpy.matmul.html#numpy.matmul

* NumPy dot() - https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html

***
### Transposta da Matriz
***

Já  vimos  que  o  shape  das  matrizes  afeta  as  operações  matemáticas  que realizamos nestes objetos e por isso a Transposta da Matriz pode se usada como forma de nos ajudar a deixar as matrizes no mesmo shape e realizar as operações necessárias.

A Transposta de umaMatriz é uma matriz com os mesmos valores que a original, mas com colunas e linhas “trocadas”.

![img](https://user-images.githubusercontent.com/14116020/56335326-721a4100-6172-11e9-9822-dc25c0d3fb42.png)

![img](https://user-images.githubusercontent.com/14116020/56335361-9118d300-6172-11e9-90e5-d9744bab9071.png)

As matrizes transpostas possuem 2 importantes características:

* Se a matriz original não for quadrada (3, 3) por exemplo, a matriz transposta terá um  novo  shape,  como  no  exemplo  2  acima. Isso  pode  ser  útil  quando  você precisa multiplicar duas matrizes, mas elas possuem shapes incompatíveis. Nesse caso, podemos gerar a transpostade uma delas.


* Os  dados  representados  na  matriz  original,  são  representados  de  forma diferente na matriz transposta. No exemplo 2 acima, se a matriz da esquerda possuía  linhas  de  dados  (representando  observações  por  exemplo),  na  matriz transposta  essa  informação  será  representada  como  colunas. Isso  é  bastante crítico,  pois  ao  fazer  a  transposta  da  matriz,  você  transforma  as  observações (linhas)  em  atributos  (colunas)  e  isso  afetará  completamente  seu  modelo. Portanto, fique atento.

**Obs**: Para usar transposta com segurança na multiplicação de matrizes, o ideal é que os dados estejam  organizados  como  linhas  em  ambas  as  matrizes,  original  e  transposta,  sempre  que possível.

Obter a transposição de uma matriz é realmente fácil em NumPy. Basta acessar seu atributo T. Há também a função transpose() que retorna a mesma coisa, mas raramente você verá isso usado em qualquer lugar porque digitar T é muito mais fácil.

In [59]:
m = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

In [60]:
m

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [61]:
m.T

array([[ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11],
       [ 4,  8, 12]])

NumPy faz isso sem realmente mover qualquer dado na memória - ele simplesmente muda a maneira como ele indexa a matriz original - por isso é bastante eficiente.

No entanto, isso também significa que você precisa ter cuidado com a forma como você modifica objetos, porque eles compartilham os mesmos dados. Por exemplo, com a mesma matriz m acima, vamos fazer uma nova variável m_t que armazene a transposição de m. Então, veja o que acontece se modificarmos um valor em m_t:

In [62]:
m_t = m.T
m_t[3][1] = 200

In [63]:
m_t

array([[  1,   5,   9],
       [  2,   6,  10],
       [  3,   7,  11],
       [  4, 200,  12]])

In [64]:
m

array([[  1,   2,   3,   4],
       [  5,   6,   7, 200],
       [  9,  10,  11,  12]])

Observe como ele modificou a transposição e a matriz original também! Isso porque eles estão compartilhando a mesma cópia de dados. Então lembre-se de considerar a transposição apenas como uma visão diferente de sua matriz, ao invés de uma matriz diferente, inteiramente.

***
### Exemplo em Redes Neurais
***

Digamos que você tenha as seguintes duas matrizes, chamadas inputs e pesos:

In [65]:
inputs = np.array([[-0.27,  0.45,  0.64, 0.31]])

In [66]:
inputs

array([[-0.27,  0.45,  0.64,  0.31]])

In [67]:
inputs.shape

(1, 4)

In [68]:
pesos = np.array([[0.02, 0.001, -0.03, 0.036], [0.04, -0.003, 0.025, 0.009], [0.012, -0.045, 0.28, -0.067]])

In [69]:
pesos

array([[ 0.02 ,  0.001, -0.03 ,  0.036],
       [ 0.04 , -0.003,  0.025,  0.009],
       [ 0.012, -0.045,  0.28 , -0.067]])

In [70]:
pesos.shape

(3, 4)

Como você já sabe, os pesos são multiplicados aos inputs nas camadas das redes neurais, logo precisamos multiplicar pesos por inputs. Uma multiplicação de matrizes. Isso é muito fácil com o NumPy.

In [71]:
np.matmul(inputs, pesos)

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 4)

Ops, o que deu errado?. As matrizes estão shapes incompatíveis porque o número de colunas na matriz esquerda, 4, não é igual ao número de linhas na matriz direita, 3.

Como resolvemos isso? Podemos usar a transposta da matriz:

In [72]:
np.matmul(inputs, pesos.T)

array([[-0.01299,  0.00664,  0.13494]])

Também funciona se você gerar a transposta da matriz de inputs e trocar a ordem dos parâmetros na função:

In [73]:
np.matmul(pesos, inputs.T)

array([[-0.01299],
       [ 0.00664],
       [ 0.13494]])

As duas respostas são transpostas uma da outra, de modo que a multiplicação que você usa realmente depende apenas da forma (shape) que deseja para a saída.

***
### Singular Value Decomposition
***

Um dos resultados mais bonitos e úteis da álgebra linear é uma decomposição de matriz conhecida como a Decomposição do Valor Singular (ou Singular Value Decomposition). Vamos examinar a teoria por trás dessa decomposição de matriz e mostrar alguns exemplos de porque o  SVD  é  uma  das  ferramentas  matemáticas  mais  úteis,  principalmente  no  tratamento  de imagens.

Grande parte da álgebra linear é sobre operadores lineares, ou seja, transformações lineares  de  um  espaço.  Um  resultado  típico  é  que,  escolhendo  uma  base  adequada  para  o espaço, o operador pode ser expresso de forma simples, por exemplo, diagonal. No entanto, isso não se aplica a todos os operadores.

A decomposição do valor singular é o único resultado principal sobre as transformações lineares  entre  dois  espaços  diferentes. Ao escolher  bases  adequadas  para  os  espaços,  a transformação pode ser expressa em uma matriz simples, uma matriz diagonal. E isso funciona para  todas  as  transformações  lineares.  Além  disso,  as  bases  são  muito  agradáveis:  bases ortogonais.

O SVD é  usado  para  remover  os  recursos  redundantes  em  um  conjunto  de  dados. Suponha que você tenha um conjunto de dados composto por 1000 recursos. Definitivamente, qualquer conjunto de dados reais com uma grande quantidade de recursos vai conter recursos redundantes. Os recursos redundantes causam muitos problemas na execução de algoritmos de aprendizado da máquina.

Além disso, executar um algoritmo no conjunto de dados original será ineficiente em termos de tempo de processamento e exigirá muita memória. Então, como resolvemos esse  problema?  Nós  temos  uma  escolha?  Podemos  omitir  alguns  recursos?  Isso levará a uma quantidade significativa de perda de informação? Poderemos obter um modelo suficientemente eficiente mesmo depois de omitir as linhas? Vou responder a essas perguntas com a ajuda de uma ilustração.

![img](https://user-images.githubusercontent.com/14116020/56335856-9119d280-6174-11e9-8a47-ea23f8af4089.png)

Podemos converter este tigre em preto e branco e podemos pensar nisso como uma matriz cujos elementos representam a intensidade do pixel como local relevante. Em palavras mais simples, a matriz contém informações sobre a intensidade dos pixels da imagem na forma de  linhas  e  colunas.  Mas,  é  necessário  ter  todas  as  colunas  na  matriz  de  intensidade? Poderemos  representar  o  tigre  com  uma  quantidade  menor  de  informações?  A  próxima imagem esclarecerá o meu ponto. Abaixo, imagens diferentes são mostradas correspondentes a  diferentes  classificações  com  resolução  diferente.  Por  enquanto,  basta  assumir  que  uma classificação mais alta implica a maior quantidade de informações sobre a intensidade de pixels.

![img](https://user-images.githubusercontent.com/14116020/56335918-be668080-6174-11e9-8e72-0daf8de45c83.png)

É claro que podemos alcançar uma imagem muito boa com 20 ou 30 fileiras em vez de 100 ou 200 fileiras e é isso que queremos fazer em um caso de dados altamente redundantes. O que eu quero transmitir é que, para obter uma hipótese razoável, não precisamos reter todas as informações presentes no conjunto de dados original. Mesmo alguns dos recursos causam um problema ao alcançar uma solução para o melhor modelo. Para o exemplo, a presença de recursos  redundantes  provoca  multi-linearidade  na  regressão  linear.  Além  disso,  alguns recursos não são significativos para o nosso modelo. Omitindo esses recursos ajuda a encontrar um ajuste melhor do modelo, juntamente com a eficiência do tempo e menor espaço em disco. A decomposição do valor singular é usada para eliminar os recursos redundantes presentes em nossos dados.

#### Diagonalização

Vamos  passar  rapidamente  pela  diagonalização.  Uma  matriz  A  é  “diagonalizável”  se pudermos reescrevê-la (decompor) como um produto:

$$A = PDP^{-1}$$

Onde P é uma matriz reversível (e, portanto, $P^{-1}$ existe) e D é uma matriz diagonal (onde todos os elementos fora da diagonal são iguais a zero).

Apenas a partir desta definição, podemos deduzir algumas coisas importantes sobre a diagonalização. Antes de tudo, uma vez que o P é reversível, deve ser quadrado. Portanto, essa definição realmente só faz sentido para matrizes quadradas. Uma matriz que não é quadrada não é diagonalizável, simplesmente porque o conceito de diagonalização não faz sentido para matrizes não-quadradas.

Em certo sentido, a decomposição do valor singular é essencialmente a diagonalização em  um  sentido  mais  geral.  A  decomposição  do  valor  singular  desempenha  um  papel semelhante à diagonalização. Ou seja, o SVD aplica-se a matrizes de qualquer forma. Não só isso, mas o SVD aplica-se a todas as matrizes, o que torna muito mais aplicável e útil que a diagonalização!

#### Exemplo

Uma aplicação do SVD é a compressão de dados. Considere alguma matriz A com o rank de 500. Ou seja, as colunas desta matriz abrangem um espaço de 500 dimensões. Codificar esta matriz em um computador vai demorar bastante e requerer muita memória! Podemos estar interessados em aproximar esta matriz com uma de menor classificação - quão perto podemos chegar a essa matriz se apenas a aproximarmos como uma matriz com classificação cem, de modo que só precisamos armazenar centenas de colunas? E se usarmos uma matriz de rank vinte? Podemos resumir toda a informação da matriz de rank 500 com apenas uma matriz de 20? Sim, podemos. Usando SVD.