# Estudaremos nessa aula:
- Conceitos básicos e operações com o numpy
- Algebra Linear

Material de suporte:

1.   [Book: Python for Data Analysis ](https://www.cin.ufpe.br/~embat/Python%20for%20Data%20Analysis.pdf) 
2.   [Book: Dive into Deep Learning](http://d2l.ai/chapter_preliminaries/ndarray.html)
3.   [Video: Algebra Linear](https://youtu.be/dtX8iQGQQkI)




In [None]:
#importando bibliotecas para uso em todo o code
import numpy as np

# Utilizando o numpy

In [None]:
#criando arrays
data1 = [1,2,3,4,5.5]
data2 = np.array([1,2,3,4,5.5]) #a partir de uma lista
data3 = np.array(data1)

#exibindo tamanho e shape
print(type(data1), np.size(data1))
print(type(data2), np.size(data2), data2.shape)

#criando arrays de zeros
data_zeros = np.zeros((2,3))
data_cont = np.arange(5)

#criando array, especificando o tipo
data_float = np.array([1,2,3], dtype=np.int32)
print(data2.dtype)
print(data_float.dtype)

#criando array com o linspace
array_lins1 = np.linspace(5,25,5)
print(array_lins1)

#cirando array e mudando o shape
data4 = np.arange(12)
print(data4)
data4 = data4.reshape(3,4)
print(data4)

#ciando uma array, utilizando uma distribuicao de probabilidades normal, mean=0, std=1
dist = np.random.normal(0, 1, size=(3, 4))
print(dist)

# Operações básicas com arrays

In [None]:
#criando array
#numpy permite operacoes de batch em vez de loops, like matlab
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print(arr)

#element-wise operations entre arrays de mesmo tamanho
print(arr * arr)
print(arr - arr)
print(1 / arr)
print(arr ** 3)
print(arr > arr/2)

#sum, prod, mean, std, var, min, max, argmin, argmax
arr_ope = np.array([1,2,3,4,5])
print("---------------")
print(arr_ope)
print(np.sum(arr_ope))
print(np.prod(arr_ope))
print(np.mean(arr_ope))
print(np.std(arr_ope))
print(np.var(arr_ope))
print(np.min(arr_ope))
print(np.max(arr_ope))
print(np.argmin(arr_ope)) #retorna o indice do valor min
print(np.argmax(arr_ope)) #retorna o indice do valor max

***Data Manipulation***

Dados dois vetores $u$ e $v$ de mesma dimensão, e uma operação binária $f$, isto é, uma função de mapeamento $f:ℝ,ℝ \to ℝ$, podemos produzir um vetor resultande $c=F(u,v)$. 
Considere que $c_i \gets (u_i,v_i)$ para todo $i$, onde $c_i$, $u_i$ e $v_i$ são $i^{th}$ elementos dos vetores $c$, $u$, e $v$.
Desta forma, pode-se produzir valores vetoriais $F:ℝ^d, ℝ^d \to ℝ^d$ utilizando uma função escalar a partir de operações vetoriais elementares, do inglês, *elementwise operations*.
É importante resaltar que os operadores aritméticos padrão ($+,-,*,/,**$), realizam operações elementares nos arrays, veja o exemplo abaixo.  





In [None]:
#outras operacoes
x = np.array([1, 2, 4, 8])
y = np.array([2, 2, 2, 2])
print(x + y, x - y, x * y, x / y, x ** y)  # O operador ** é exponencial

#np.where: mostra os indices dos elementos que obedecem a uma certa condição
print("---------------")
a = np.array([1, 2, 3, 4, 5, 6]) 
print(a)   
print ('Indices de elementos < 4') 
b = np.where(a < 4) 
print(b) 
print("Elementos que sao < 4") 
print(a[b]) 

In [None]:
#Trabalhando com indices
arr = np.arange(10)
print(arr)
print(arr[1:3])
print(arr[-1])

arr2 = arr[1:5]
arr2[0] = 123

#veja a referencia
print('arr: ',arr)
print('arr2: ',arr2)

#arrays com 2 dimensoes
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d[0][1]=22
print('2D: ')
print(arr2d)

#arrays com 3 dimensoes
arr3d = np.array([[[1,2,3],[4,5,6],[7,8,9]], [[1,2,3],[4,5,6],[7,8,9]]])
print('3D: ')
print(arr3d)

In [None]:
# verificando dimensao e tamanho
print(arr3d.shape)
print(np.size(arr3d))

**(Exercício)** Mover para lista de exercicios

Muitas vezes precisamos convertes tipos de dados, por exemplo, um vetor de inteiros deveria ser do tipo float. Pesquisem como fazer isso em Python utilizando a bibliotexa numpy, mostrando exemplos de funcionamento. 

In [None]:
#convertendo tipos
a = np.array([1.5,2.4,3])
print('Original',type(a))
print(a)

a = a.astype(int)
print('Convertido para int')
print(a)

a = a.astype(float)
print('Convertido para float')
print(a)

# Álgebra Linear
- Conteúdo baseado no book: http://d2l.ai/chapter_preliminaries/linear-algebra.html#
- Extra video: [How to Become a Data Scientist](https://youtu.be/jMvhFNGGT_0)

## Vetores

Para o *machine learning*, você pode pensar em um vetor como sendo uma simples lista de escalares:

Exemplo: $\mathbf{x} = [1,2,3,4,5]$

In [None]:
#vet = np.arange(1,6,1)
x = np.array([1,2,3,4,5])
print('Valores:', x)
print('Shape: ',x.shape)
print('Tamanho:', len(x))

Na matemática, a disposição em colunas é o padrão, assim, o vetor $\mathbf{x}$ pode ser escrito da sequinte forma:

$$
\mathbf{x} =\begin{bmatrix}x_{1}  \\x_{2}  \\ \vdots  \\x_{n}\end{bmatrix},
$$

onde $x_1, \ldots, x_n$ são elementos do vetor "`ndarray`".

## Matrizes

Na notação matemática, utilizamos $\mathbf{A} \in \mathbb{R}^{m \times n}$
para expressar que a matriz $\mathbf{A}$ consiste em $m$ linhas e $n$ colunas de valores escalares reais.
Visualmente, pode-se ilustrar qualquer matriz $\mathbf{A} \in \mathbb{R}^{m \times n}$ como uma tabela, onde cada elemento $a_{ij}$ pertence a $i^{\mathrm{th}}$ linha e $j^{\mathrm{th}}$ coluna, descrito no exemplo abaixo:

$$
\mathbf{A}=\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \\ \end{bmatrix}.
$$

Para qualquer $\mathbf{A} \in \mathbb{R}^{m \times n}$, a dimensão de $\mathbf{A}$ é ($m$, $n$) ou $m \times n$. Quando a matriz tem o mesmo numero de linhas e colunas, chamamos de matriz quadrada, do inglês, *square matrix*.

Pode-se criar uma matriz $m \times n$ matrix com o numpy, especificando sua dimensão $m$ and $n$ como no exemplo abaixo:

In [None]:
A = np.arange(20).reshape(5, 4)
print(A)

Pode-se facilmente acessar qualquer elemento escalar $a_{ij}$ da matriz $\mathbf{A}$. Para isso, é preciso apenas especificar o índice para acesso da linha ($i$) e coluna ($j$), respectivamente, por exemplo $[\mathbf{A}]_{ij}$.
Algumas vezes é preciso trabalhar a matriz transposta, ou seja, trocar as linhas por colunas desta matriz. Formalmente, temos a matriz $\mathbf{A}$ transposta, definida como $\mathbf{A}^\top$.
Considerando $\mathbf{B} = \mathbf{A}^\top$, temos $b_{ij} = a_{ji}$ para
qualquer $i$ e $j$. 

Por exemplo:

\begin{equation}
  \mathbf{A}^\top =
  \begin{bmatrix}
      a_{11} & a_{21} & \dots  & a_{m1} \\
      a_{12} & a_{22} & \dots  & a_{m2} \\
      \vdots & \vdots & \ddots  & \vdots \\
      a_{1n} & a_{2n} & \dots  & a_{mn}
  \end{bmatrix}.
\end{equation}

Em um Python code, podemos obter uma matriz transposta via atributo `T`.

In [None]:
#matriz transposta
print(A.T)

Existe um tipo especial de matriz quadrada na qual chamamos de matriz simétrica, isto é, a original é igual a sua transposta: 
$\mathbf{A} = \mathbf{A}^\top$.

In [None]:
B = np.array([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
print('Original: \n', B)
print('Transposta: \n',B.T)
print('---------------')
#testando valores lógicos
print('Teste Lógico: \n', B==B.T)

## Tensores (*Tensors*)

Assim como os vetores generalizam os escalares, as matrizes generalizam os vetores, os tensores as matrizes, e assim por diante. Desta forma, podemos criar estruturas ainda maiores. Utilizando `ndarray`s pode-se definir o número de axes desejado, por exemplo, tensores de primeira ordem (vetores), de segunda ordem (matrizez), e qualquer outra ordem superior.

Tensores são descritos com *capital letters* assim como as matrizes
(e.g., $\mathsf{X}$, $\mathsf{Y}$, and $\mathsf{Z}$), tendo seu mecanismo de indexação também similar (e.g., $x_{ijk}$ and $[\mathsf{X}]_{1, 2i-1, 3}$).

Tensores são especialmente importantes quando se deseja trabalhar com imagens e vídeos (sequeência de frames). Uma imagem colorida possui altura, largura e normalmente 3 canais de cores, *red* (R), *green* (G) e *blue* (B).


In [None]:
#exemplo de tensor
X = np.arange(24).reshape(2, 3, 4) 
print(X)

Escalares, vetores, matrizes e tensores possuem uma relação direta com o número de *axes*, com isso, diversas propriedades.

Primeiramente, note que as oeprações *elementwise* nãão mudam a dimensão do tensor resultando, assim como ocorre nas matrizes. O exemplo abaixo realixa a soma de dois tensores.

In [None]:
A = np.arange(24).reshape(2,3,4)
B = A.copy()  # Realiza uma cópia de A para alocação em um novo espaço em memória para B
print("---> A\n", A)
print("---> A + B\n", A+B)

**(Exercício)** Escreva uma função em Python que permita realizar a soma ou subtração de dois arrays (vetores, matrizes ou tensores), e retorne seu resultado. Escreva sua própria solução, sem utilizar a biblioteca numpy ou similares.

Operações do tipo *Elementwise multiplication* entre duas matrizes são chamadas [Hadamard product](https://en.wikipedia.org/wiki/Hadamard_product_(matrices)) (notação matemática $\odot$).
Considere as matrizes $\mathbf{A}$, $\mathbf{B} \in \mathbb{R}^{m \times n}$, onde cada elemento da linha $i$ e coluna $j$ é representado como $a_{ij}$, $b_{ij}$. O Hadamard product entre as matrizes $\mathbf{A}$ e $\mathbf{B}$ pode ser realizado da seguinte forma:

$$
\mathbf{A} \odot \mathbf{B} =
\begin{bmatrix}
    a_{11}  b_{11} & a_{12}  b_{12} & \dots  & a_{1n}  b_{1n} \\
    a_{21}  b_{21} & a_{22}  b_{22} & \dots  & a_{2n}  b_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    a_{m1}  b_{m1} & a_{m2}  b_{m2} & \dots  & a_{mn}  b_{mn}
\end{bmatrix}.
$$

In [None]:
#exemplo do produto entre arrays
print(A*B)

In [None]:
Multiplicar ou adicionar tensores por escalares não mudam a dimensão do tensor. 
Cada elemento do tensor será apenas multiplicado ou somado com o escalar. 
Veja o exmplo abaixo: 

In [None]:
C = A + 2
D = A * 2
print('Shape A', A.shape)
print(C)
print("----------")
print('Shape C', C.shape)
print(D)
print("----------")
print('Shape D', D.shape)

## Reduction

Uma operação básica e bastente útil para o *machine learning* é a possibilidade e somar todos os elementos de um tensor.
Na notação matemática, expressamos a soma utilizando o símbolo $\sum$. 
Desta forma, para expressar a soma dos elementos de um vetor $\mathbf{x}$ de tamanho $d$, escrevemos $\sum_{i=1}^d x_i$. Em Python, utilizando o nunmpy, basta chamar uma função `sum`.

In [None]:
#somando de todos os elementos de um vetor
x = np.arange(4)
print(x, x.sum())

[0 1 2 3] 6


Pode-se expressar a soma os elementos de um tensor em qualquer dimensão. Por exemplo, a soma dos elementos de uma matriz $\mathbf{A}$ de dimensão $m \times n$ pode ser escrita como $\sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}$.

In [None]:
#soma de todos os elementos de um tensor
A = np.arange(12).reshape(6,2)
print(A)
print("Shape:",A.shape, "Soma: ",A.sum())

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]]
Shape: (6, 2) Soma:  66


Outro possibilidade de redução, pode ser a soma apenas dos elemenos de um referido axis, por exemplo, somar as linhas ou mesmo, as colunas. Veja o exemplo abaixo:

In [None]:
#axis 0, linhas
A_sum_axis0 = A.sum(axis=0)
print(A_sum_axis0, A_sum_axis0.shape)

#axis 1, colunas
A_sum_axis1 = A.sum(axis=1)
print(A_sum_axis1, A_sum_axis1.shape)

[30 36] (2,)
[ 1  5  9 13 17 21] (6,)


Pode-se calcular a média do tensor, dividindo sua soma pelo número de elementos ou apenas chamando a função `mean`. Lembre-se que também é possível informar o axis que se deseja calcular, por exemplo:


In [None]:
# calculando a media para todo o tensor
print('Media: ', A.mean(), 'ou', A.sum() / A.size)

#calculando a media para um referido axis
print (A.mean(axis=0), A.sum(axis=0) / A.shape[0])

Media:  5.5 ou 5.5
[5. 6.] [5. 6.]


## Produto Escalar (*Dot Products*)

Umas das operações mais fundamentais da Algebra Linear é o produto escalar entre vetores.
Dado dois vetores $\mathbf{x}, \mathbf{y} \in \mathbb{R}^d$, seu produto escalar $\mathbf{x}^\top \mathbf{y}$ (or $\langle \mathbf{x}, \mathbf{y}  \rangle$) é a soma dos produtos dos elementos na mesma posição, e isto retorna um escalar: $\mathbf{x}^\top \mathbf{y} = \sum_{i=1}^{d} x_i y_i$.

In [None]:
#dot product
x = np.arange(4)
y = x+1
print('x =',x,'\ny =',y)
print('x.y =', np.dot(x, y))

#equivalente a soma da multiplicação dos elemetos
print('Soma da Mult: ',np.sum(x * y))

x = [0 1 2 3] 
y = [1 2 3 4]
x.y = 20
Soma da Mult:  20


Em *machine learning* o produto escalar entre vetores, no contexto em que dados um vetor de entrada $\mathbf{x} \in \mathbb{R}^d$ e uma lista de pesos (*weights*) $\mathbf{w} \in \mathbb{R}^d$, temos o seguinte produto escalar, $\mathbf{x}^\top \mathbf{w}$. Considerando que os pesos são não negativos, teremos: $\left(\sum_{i=1}^{d} {w_i} = 1\right)$,

Lembre-se que o produto escalar entre dois vetores $\mathbf{x}$ e $\mathbf{y}$, pode ser expresso como o produto do comprimento (norma ou módulo) de $\mathbf{y}$ pela projeção escalar de $\mathbf{x}$ em $\mathbf{y}$, temos: 

$\mathbf{x}$ $\mathbf{y}$ = |$\mathbf{x}| |\mathbf{y}| cos(\theta)$ 

Veja:
- [Wiki Produto Escalar](https://pt.wikipedia.org/wiki/Produto_escalar)
- [Video Demostração](https://youtu.be/0iNrGpwZwog)

In [None]:
#Calculando o angulo entre os vetores
a = np.array([2,2,-1])
b = np.array([5,-3, 2])

ct = np.dot(a,b) / (np.linalg.norm(a) * np.linalg.norm(b))
theta = np.arccos(ct)

print('theta=',theta, 'degrees:',np.degrees(theta))

theta= 1.4624367813109531 degrees: 83.79145537381416


## Protudo entre Matrizes (*Matrix-Vector Products*)

Considerando duas matrizes $\mathbf{A} \in \mathbb{R}^{n \times k}$ e $\mathbf{B} \in \mathbb{R}^{k \times m}$:

$$\mathbf{A}=\begin{bmatrix}
 a_{11} & a_{12} & \cdots & a_{1k} \\
 a_{21} & a_{22} & \cdots & a_{2k} \\
\vdots & \vdots & \ddots & \vdots \\
 a_{n1} & a_{n2} & \cdots & a_{nk} \\
\end{bmatrix},\quad
\mathbf{B}=\begin{bmatrix}
 b_{11} & b_{12} & \cdots & b_{1m} \\
 b_{21} & b_{22} & \cdots & b_{2m} \\
\vdots & \vdots & \ddots & \vdots \\
 b_{k1} & b_{k2} & \cdots & b_{km} \\
\end{bmatrix}.$$

O produto matricial estabelecido em $\mathbf{C} = \mathbf{A}\mathbf{B}$, é relizado nos termos em que $\mathbf{A}$ representa um vetor linha e $\mathbf{B}$ representa um vetor coluna. Desta forma, temos:

$$\mathbf{A}=
\begin{bmatrix}
\mathbf{a}^\top_{1} \\
\mathbf{a}^\top_{2} \\
\vdots \\
\mathbf{a}^\top_n \\
\end{bmatrix},
\quad \mathbf{B}=\begin{bmatrix}
 \mathbf{b}_{1} & \mathbf{b}_{2} & \cdots & \mathbf{b}_{m} \\
\end{bmatrix}.
$$

Então o produto entre matrizes $\mathbf{C} \in \mathbb{R}^{n \times m}$ é realizado simplemente calculando o produto escalar de cada elemento 
$c_{ij}$ =  $\mathbf{a}^\top_i \mathbf{b}_j$:


$$\mathbf{C} = \mathbf{AB} = \begin{bmatrix}
\mathbf{a}^\top_{1} \\
\mathbf{a}^\top_{2} \\
\vdots \\
\mathbf{a}^\top_n \\
\end{bmatrix}
\begin{bmatrix}
 \mathbf{b}_{1} & \mathbf{b}_{2} & \cdots & \mathbf{b}_{m} \\
\end{bmatrix}
= \begin{bmatrix}
\mathbf{a}^\top_{1} \mathbf{b}_1 & \mathbf{a}^\top_{1}\mathbf{b}_2& \cdots & \mathbf{a}^\top_{1} \mathbf{b}_m \\
 \mathbf{a}^\top_{2}\mathbf{b}_1 & \mathbf{a}^\top_{2} \mathbf{b}_2 & \cdots & \mathbf{a}^\top_{2} \mathbf{b}_m \\
 \vdots & \vdots & \ddots &\vdots\\
\mathbf{a}^\top_{n} \mathbf{b}_1 & \mathbf{a}^\top_{n}\mathbf{b}_2& \cdots& \mathbf{a}^\top_{n} \mathbf{b}_m
\end{bmatrix}.
$$

O produto entre vetores ou matrizes obedece basicamente as mesmas regras e podem ser realizados utilizando a função `dot`. 
Importante, não confundir o produto entre matrizes com *Hadamard product*.



In [None]:
# Produto entre matrizes
A = A = np.arange(6).reshape(3,2)
B = np.ones(shape=(3, 2))
C = np.dot(A.T, B)

print("A:\n", A.T)
print("B:\n", B)
print("C:\n", C)

## Norma (módulo)

Um dos operadores mais mais úteis na álgebra linear é a norma ou módulo, que representa o comprimento de um vetor. A norma não se refere-se à dimensionalidade, mas à magnitude dos componentes.

Você deve notar que a norma pode ser vista como a medição de uma distância.
Lembre-se que na distância euclidiana, do teorema de Pitágoras estudada no ensino médio, propriedades da norma como a obtenção de valores não negativos e a desigualdade de triângulos já foram apresentados.
Segue algumas propriedades:

multiplicação por uma constante,
$$f(\alpha \mathbf{x}) = |\alpha| f(\mathbf{x}).$$

inegualdade triangular,
$$f(\mathbf{x} + \mathbf{y}) \leq f(\mathbf{x}) + f(\mathbf{y}).$$

a norma éé um valor não negativo:
$$f(\mathbf{x}) \geq 0.$$

Continuando, temos a distância Euclidiana dada pela seguinte norma $\ell_2$.
Suponha que os elementos de um vetor $n$-dimensional $\mathbf{x}$ são $x_1, \ldots, x_n$. A norma $\ell_2$ de $\mathbf{x}$ é a raiz quadrada da soma dos quadrados dos elementos de um vetor:

$$\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2},$$

onde o *subscript* $2$ é normalmente omitido em normas do tipo $\ell_2$ norms, por exemplo, $\|\mathbf{x}\|$ is equivalent to $\|\mathbf{x}\|_2$. Codificando isso, pode-se calcular a norma $\ell_2$ de um vetor utilizando `linalg.norm`.

In [None]:
#calculando a norma
u = np.array([3, -4])
print(np.linalg.norm(u))

5.0


Veremos que é bem comum em *deep learning*, trabalhar com normas do tipo  $\ell_2$, menos influenciável por outliers. Em alguns casos é necessário a utilização da norma $\ell_1$, expressa pela soma dos valores absolutos dos elementos do vetor:

$$\|\mathbf{x}\|_1 = \sum_{i=1}^n \left|x_i \right|.$$


In [None]:
#Norma l1
np.abs(u).sum()

7