<a href="https://colab.research.google.com/github/xaximpvp2/master/blob/main/codigo_aula6_topico_adicional.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python, NumPy e Vetorização


## Objetivo
Com este código, você irá:
- Aprender ou revisar características de Python, NumPy e vetorização

In [None]:
import numpy as np    # é comum utilizarmos 'np' para abreviar 'numpy'
import time           # Usaremos para computar tempo gasto com execução de linhas de código


# Python e NumPy
Python é a linguagem de programação que usaremos nesta disciplina. Ela possui um conjunto de tipos de dados numéricos e operações aritméticas. NumPy é uma biblioteca que estende as capacidades básicas do Python para adicionar um conjunto de dados mais rico, incluindo mais tipos numéricos, vetores, matrizes, etc. NumPy e Python trabalham juntos de forma bastante harmoniosa. Os operadores aritméticos do Python funcionam com os tipos de dados do NumPy e muitas funções do NumPy aceitam os tipos de dados do Python.


# Vetores



## NumPy Arrays

A estrutura básica da biblioteca NumPy é uma array indexável com n dimensões, composta por elementos de um mesmo tipo (`dtype`). Nas NumPy arrays, o termo *dimensão* não se refere ao número de elementos presentes na array, mas sim ao número de índices que ela possui. Uma array de uma dimensão (1-D array) possui um único índice, mas pode possuir múltiplos elementos. Na nossa disciplina, usaremos bastante 1-D arrays com *n* elementos para representar vetores.

Observação Importante:
 - Uma 1-D array possui shape (n,). Ou seja, possui n elementos indexados de [0] até [n-1]


## Criação de Vetores usando 1-D arrays


A criação de rotinas usando NumPy geralmente terá um primeiro parâmetro que será a 'forma' (shape) do objeto. Isso pode ser um valor único quando deseja-se criar uma 1-D array ou uma tupla (n,m,...) que especifica a forma (shape) desejada. Seguem abaixo alguns exemplos de criação de vetores como 1-D arrays:

In [None]:
a = np.zeros(4);                print(f"np.zeros(4) :   a = {a}, shape = {a.shape}, tipos dos dados = {a.dtype}")
a = np.zeros((4,));             print(f"np.zeros(4,) :  a = {a}, shape = {a.shape}, tipos dos dados = {a.dtype}")
a = np.random.random_sample(4); print(f"np.random.random_sample(4): a = {a}, shape = {a.shape}, tipos dos dados = {a.dtype}")

np.zeros(4) :   a = [0. 0. 0. 0.], shape = (4,), tipos dos dados = float64
np.zeros(4,) :  a = [0. 0. 0. 0.], shape = (4,), tipos dos dados = float64
np.random.random_sample(4): a = [0.00421394 0.81488602 0.99791055 0.39977443], shape = (4,), tipos dos dados = float64


In [None]:
# Algumas rotinas NumPy não aceitam shape como argumentos de entrada:
a = np.arange(4.);              print(f"np.arange(4.):     a = {a}, shape = {a.shape}, tipos dos dados = {a.dtype}")
a = np.random.rand(4);          print(f"np.random.rand(4): a = {a}, shape = {a.shape}, tipos dos dados = {a.dtype}")

np.arange(4.):     a = [0. 1. 2. 3.], shape = (4,), data type = float64
np.random.rand(4): a = [0.02125394 0.38989233 0.56012015 0.64196711], shape = (4,), data type = float64


Também é possível especificar valores manualmente:

In [None]:
a = np.array([5,4,3,2]);  print(f"np.array([5,4,3,2]):  a = {a},     shape = {a.shape}, tipos dos dados = {a.dtype}")
a = np.array([5.,4,3,2]); print(f"np.array([5.,4,3,2]): a = {a}, shape = {a.shape}, tipos dos dados = {a.dtype}")

np.array([5,4,3,2]):  a = [5 4 3 2],     shape = (4,), data type = int32
np.array([5.,4,3,2]): a = [5. 4. 3. 2.], shape = (4,), data type = float64


Note que todos os comandos usados acima criaram um vetor com uma dimensão  `a` contendo 4 elementos. `a.shape` retorna a quantidade de elementos por dimensão. Ou seja, o resultado a.shape = `(4,)` indica uma 1-D array com 4 elementos.  


## Operações em vetores


### Acessando um elemento de uma array 1-D usando sua posição (Indexação)


In [None]:
a = np.arange(10)
print(a)

# Acessando o elemento na terceira posição
print(f"a[2].shape: {a[2].shape} a[2]  = {a[2]}, Acessar um elemento retorna um escalar")

# Acessando o último elemento: índices negativos contam a partir do fim
print(f"a[-1] = {a[-1]}")

# Índices precisam estar dentro do alcance do vetor. Caso contrário, será produzido um erro:
try:
    c = a[10]
except Exception as e:
    print("A mensagem de erro produzida é:")
    print(e)

[0 1 2 3 4 5 6 7 8 9]
a[2].shape: () a[2]  = 2, Acessar um elemento retorna um escalar
a[-1] = 9
A mensagem de erro produzida é:
index 10 is out of bounds for axis 0 with size 10



### Subconjuntos de elementos de uma array 1-D (Particionamento)
O Particionamento cria uma array de índices usando três valores: (`início:fim:passo`). Veja os exemplos abaixo:

In [None]:

a = np.arange(10)
print(f"a        = {a}")

c = a[2:7:1];     print("a[2:7:1] = ", c)

c = a[2:7:2];     print("a[2:7:2] = ", c)

c = a[3:];        print("a[3:]    = ", c)

c = a[:3];        print("a[:3]    = ", c)

c = a[:];         print("a[:]     = ", c)

a        = [0 1 2 3 4 5 6 7 8 9]
a[2:7:1] =  [2 3 4 5 6]
a[2:7:2] =  [2 4 6]
a[3:]    =  [3 4 5 6 7 8 9]
a[:3]    =  [0 1 2]
a[:]     =  [0 1 2 3 4 5 6 7 8 9]



### Operações com um único vetor
Existe uma quantidade grande de operações que podem ser realizadas usando um único vetor

In [None]:
a = np.array([1,2,3,4])
print(f"a             : {a}")

# Elementos negativos de a
b = -a
print(f"b = -a        : {b}")

# retorna um escalar com a soma de todos os elementos de a
b = np.sum(a)
print(f"b = np.sum(a) : {b}")

b = np.mean(a)
print(f"b = np.mean(a): {b}")

b = a**2
print(f"b = a**2      : {b}")

a             : [1 2 3 4]
b = -a        : [-1 -2 -3 -4]
b = np.sum(a) : 10
b = np.mean(a): 2.5
b = a**2      : [ 1  4  9 16]



### Operações elemento a elemento

In [None]:
a = np.array([ 1, 2, 3, 4])
b = np.array([-1,-2, 3, 4])
print(f"Resultado: {a + b}")

Resultado: [0 0 6 8]



### Mutiplicação de vetor por escalar

In [None]:
a = np.array([1, 2, 3, 4])

b = 5 * a
print(f"b = 5 * a : {b}")

b = 5 * a : [ 5 10 15 20]



### Produto escalar


**Usando um loop for**, vamos primeiramente implementar nossa própria versão do produto escalar. Nossa função irá retornar o produto escalar entre os vetores $a$ e $b$:
$$ x = \sum_{i=0}^{n-1} a_i b_i $$

In [None]:
def meu_produto_escalar(a, b):
    """
   Calcula o produto escalar entre dois vetores

    Args:
      a (ndarray (n,)):  vetor de entrada
      b (ndarray (n,)):  vetor de entrada com a mesma dimensão que a

    Returns:
      x (escalar):
    """
    x=0
    for i in range(a.shape[0]):
        x = x + a[i] * b[i]
    return x

In [None]:
# testando a função implementada:
a = np.array([1, 2, 3, 4])
b = np.array([-1, 4, 3, 2])
print(f"meu_produto_escalar(a, b) = {meu_produto_escalar(a, b)}")

meu_produto_escalar(a, b) = 24


Vamos agora testar as mesmas operações usando `np.dot`.  

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([-1, 4, 3, 2])
c = np.dot(a, b)
print(f"NumPy 1-D np.dot(a, b) = {c}, np.dot(a, b).shape = {c.shape} ")
c = np.dot(b, a)
print(f"NumPy 1-D np.dot(b, a) = {c}, np.dot(a, b).shape = {c.shape} ")


NumPy 1-D np.dot(a, b) = 24, np.dot(a, b).shape = () 
NumPy 1-D np.dot(b, a) = 24, np.dot(a, b).shape = () 



### A necessidade de cálculos rápidos: Vetores versus loop for
Nós utilizamos a biblioteca NumPy pois ela acelera os nossos cálculos. Vamos demonstrar isso agora.

In [None]:
np.random.seed(1)
a = np.random.rand(10000000)  # arrays bastante grandes
b = np.random.rand(10000000)

tic = time.time()  # captura tempo de início
c = np.dot(a, b)
toc = time.time()  # captura tempo de fim

print(f"np.dot(a, b) =  {c:.4f}")
print(f"duração usando a versão Vetorizada: {1000*(toc-tic):.4f} ms ")

tic = time.time()  # capture start time
c = meu_produto_escalar(a,b)
toc = time.time()  # capture end time

print(f"meu_produto_escalar(a, b) =  {c:.4f}")
print(f"duração usando a versão com loop for: {1000*(toc-tic):.4f} ms ")

del(a);del(b)  #remove as arrays da memória

np.dot(a, b) =  2501072.5817
duração usando a versão Vetorizada: 8.9753 ms 
meu_produto_escalar(a, b) =  2501072.5817
duração usando a versão com loop for: 4551.3909 ms 


Como pode ser percebido, a vetorização provê um processamento mais rápido das operações. Isso porquê NumPy faz um uso mais eficiente de paralelismo de hardware. Isso é fundamental no Aprendizado de Máquina, onde conjuntos de dados são geralmente grandes.


# Matrizes


## Resumo

Matrizes são arrays de duas dimensões, ou seja, 2-D arrays. Os elementos de uma matriz são todos do mesmo tipo.

## NumPy arrays

Matrizes têm dois índices dimensionais [m,n].

Em alguns casos, usaremos matrizes 2-D para armazenar nossos dados de treinamento. Os dados de treinamento são formados por $m$ amostras de treinamento, cada uma com $n$ características, criando uma array (m,n).

## Criação de Matrizes


In [None]:
a = np.zeros((1, 5))
print(f"shape = {a.shape}, a = {a}")

a = np.zeros((2, 1))
print(f"shape = {a.shape}, a = {a}")

a = np.random.random_sample((1, 1))
print(f"shape = {a.shape}, a = {a}")

shape = (1, 5), a = [[0. 0. 0. 0. 0.]]
shape = (2, 1), a = [[0.]
 [0.]]
shape = (1, 1), a = [[0.44236513]]


Também é possível preencher os valores manualmente

In [None]:
a = np.array([[5], [4], [3]]);   print(f" shape = {a.shape}, np.array: a = {a}")
a = np.array([[5],
              [4],
              [3]]);
print(f" shape = {a.shape}, np.array: a = {a}")

 shape = (3, 1), np.array: a = [[5]
 [4]
 [3]]
 shape = (3, 1), np.array: a = [[5]
 [4]
 [3]]


## Operações usando Matrizes

### Indexação


Matrizes possuem um segundo índice dimensional. Os dois índices descrevem [linhas, colunas]. O acesso a elementos de uma matriz pode retornar um elemento ou uma linha/coluna, conforme exemplos abaixo.

In [None]:
a = np.arange(6).reshape(3, 2)   # usar reshape é uma forma conveniente para criar matrizes.
print(f"\na.shape: {a.shape}, \na= {a}")

a = np.arange(6).reshape(-1, 2)   # O '-1' significa que o valor nessa dimensão será deduzido automaticamente.
print(f"\na.shape: {a.shape}, \na= {a}")

a = np.arange(6).reshape(3, -1)   # O '-1' significa que o valor nessa dimensão será deduzido automaticamente.
print(f"\na.shape: {a.shape}, \na= {a}")

# acessando um elemento da matriz
print(f"\na[2,0].shape:   {a[2, 0].shape}, a[2,0] = {a[2, 0]},     type(a[2,0]) = {type(a[2, 0])} Acessar um elemento retorna um escalar!\n")

# acessando uma linha da matriz
print(f"a[2].shape:   {a[2].shape}, a[2]   = {a[2]}, type(a[2])   = {type(a[2])}")


a.shape: (3, 2), 
a= [[0 1]
 [2 3]
 [4 5]]

a.shape: (3, 2), 
a= [[0 1]
 [2 3]
 [4 5]]

a.shape: (3, 2), 
a= [[0 1]
 [2 3]
 [4 5]]

a[2,0].shape:   (), a[2,0] = 4,     type(a[2,0]) = <class 'numpy.int32'> Acessar um elemento retorna um escalar!

a[2].shape:   (2,), a[2]   = [4 5], type(a[2])   = <class 'numpy.ndarray'>


### Subconjuntos de elementos de uma array 2-D (Particionamento)

O Particionamento cria uma array de índices usando três valores: (`início:fim:passo`). Veja os exemplos abaixo:

In [None]:
a = np.arange(20).reshape(-1, 10)
print(f"a = \n{a}")

# Acessando 5 elementos consecutivos (início:fim:passo)
print("a[0, 2:7:1] = ", a[0, 2:7:1], ",  a[0, 2:7:1].shape =", a[0, 2:7:1].shape, "uma array 1-D")

# Acessando 5 elementos consecutivos (início:fim:passo) em todas as linhas
print("a[:, 2:7:1] = \n", a[:, 2:7:1], ",  a[:, 2:7:1].shape =", a[:, 2:7:1].shape, "uma array 2-D")

# Acessando todos os elementos
print("a[:,:] = \n", a[:,:], ",  a[:,:].shape =", a[:,:].shape)

# Acessando todos os elementos da segunda linha
print("a[1,:] = ", a[1,:], ",  a[1,:].shape =", a[1,:].shape, "uma array 1-D")
# O mesmo que
print("a[1]   = ", a[1],   ",  a[1].shape   =", a[1].shape, "uma array 1-D")


a = 
[[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]]
a[0, 2:7:1] =  [2 3 4 5 6] ,  a[0, 2:7:1].shape = (5,) a 1-D array
a[:, 2:7:1] = 
 [[ 2  3  4  5  6]
 [12 13 14 15 16]] ,  a[:, 2:7:1].shape = (2, 5) a 2-D array
a[:,:] = 
 [[ 0  1  2  3  4  5  6  7  8  9]
 [10 11 12 13 14 15 16 17 18 19]] ,  a[:,:].shape = (2, 10)
a[1,:] =  [10 11 12 13 14 15 16 17 18 19] ,  a[1,:].shape = (10,) a 1-D array
a[1]   =  [10 11 12 13 14 15 16 17 18 19] ,  a[1].shape   = (10,) a 1-D array


## Parabéns
Com este código você aprendeu ou revisou características de Python e NumPy

### Algumas referências úteis adicionais:
- Documentação da biblioteca NumPy: [NumPy.org](https://NumPy.org/doc/stable/)
- Material avançado sobre broadcasting: [NumPy Broadcasting](https://NumPy.org/doc/stable/user/basics.broadcasting.html)
