# Curso de Python para Machine Learning

---
## Aula 3 - Introdução a Numpy

### Numpy Arrays

Arrays em python da biblioteca numpy é uma forma de se trabalhar com matrizes matemáticas e conseguir manipular os dados, fazendo varias das operações matemáticas envolvendo matrizes de forma mais simples e fácil.

Para declarar um Array, basta usar o método `array`

In [31]:
try:
    import numpy as np
except Exception as erro:
    print(f"Não foi possível importar o módulo Numpy\nErro: {erro}")

In [32]:
matriz3x3 = np.array(
    [[1,2,3],
     [3,2,1],
     [1,1,1]]
)

In [33]:
print(matriz3x3)

[[1 2 3]
 [3 2 1]
 [1 1 1]]


Podemos realizar operações de soma e multiplicação de arrays por um número de forma direta  
O resultado é o mesmo esperado da operação matemática de matrizes

In [34]:
print(matriz3x3+2)
print(matriz3x3*3)
print(matriz3x3-5)

[[3 4 5]
 [5 4 3]
 [3 3 3]]
[[3 6 9]
 [9 6 3]
 [3 3 3]]
[[-4 -3 -2]
 [-2 -3 -4]
 [-4 -4 -4]]


Para comparar com `list` em python, o resutlado é diferente, não representa a operação matemática esperada:

In [35]:
lista3x3 = [
    [1,2,3],
    [2,2,2],
    [1,1,1]
]
try:
    print(lista3x3*2)
    print(lista3x3+2)
except Exception as erro:
    print(f'Erro: {erro}')

[[1, 2, 3], [2, 2, 2], [1, 1, 1], [1, 2, 3], [2, 2, 2], [1, 1, 1]]
Erro: can only concatenate list (not "int") to list


Outras operações também podem ser realizadas de forma simples com arrays - Soma e Diferença entre matrizes

In [36]:
matriz_A = np.array([
    [1,1],
    [2,2]
])
matriz_B = np.array([
    [3,3],
    [0,1]
])
print(f"A soma da matriz A com a matriz B é: \n{matriz_A + matriz_B}")
print(f"A diferença entre a matriz A e B é: \n{matriz_A - matriz_B}")

A soma da matriz A com a matriz B é: 
[[4 4]
 [2 3]]
A diferença entre a matriz A e B é: 
[[-2 -2]
 [ 2  1]]


*Dimensão de um Array*

Para verificar o tamanho de um array, usamos a atributo `shape`  
A dimensão é verifica pelo atributo `ndim`

In [77]:
print(f"A matriz \n{matriz3x3}, tem tamanho: {matriz3x3.shape} e dimensão: {matriz3x3.ndim}\n")

linha = np.array([1,2,3])
print(f"A matriz \n{linha}, tem tamanho: {linha.shape} e dimensão: {linha.ndim}\n")

linha2 = np.array([[1],[2],[3]])
print(f"A matriz \n{linha2}, tem tamanho: {linha2.shape} e dimensão: {linha2.ndim}\n")

matriz_C = np.array([
    [1,1],
    [2,3],
    [3,3]])
print(f"A matriz \n{matriz_C}, tem tamanho: {matriz_C.shape} e dimensão: {matriz_C.ndim}\n")

matriz_D = np.array([
    [[1,5,1],[1,0,1]],
    [[6,6,6,],[3,1,3]],
    [[8,0,0],[3,0,0]]])
print(f"A matriz \n{matriz_D}, tem tamanho: {matriz_D.shape} e dimensão: {matriz_D.ndim}\n")

A matriz 
[[1 2 3]
 [3 2 1]
 [1 1 1]], tem tamanho: (3, 3) e dimensão: 2

A matriz 
[1 2 3], tem tamanho: (3,) e dimensão: 1

A matriz 
[[1]
 [2]
 [3]], tem tamanho: (3, 1) e dimensão: 2

A matriz 
[[1 1]
 [2 3]
 [3 3]], tem tamanho: (3, 2) e dimensão: 2

A matriz 
[[[1 5 1]
  [1 0 1]]

 [[6 6 6]
  [3 1 3]]

 [[8 0 0]
  [3 0 0]]], tem tamanho: (3, 2, 3) e dimensão: 3



**Multiplicação entre Matrizes - Arrays**

Para uma *Matriz A* ser multiplicada por uma *Matriz B*, é necessário que as matrizes sejam compatíveis  

Essa compatibilidade é verificada pelo tamanho - shape -  das duas matrizes.
 
A *Matriz A* de shape *m x n*, a _Matriz B_ deverá ter um shape de *n x p*, ou seja, o número de **Colunas** de **A** deve ser igual ao número de **Linhas** de **B**

O resultado será uma matriz de tamanho *m x p*

In [78]:
A = np.array([
    [1,1],
    [2,2],
    [3,3]
])
B = np.array([
    [1,1,0],
    [0,2,2]
])

In [80]:
print(np.dot(A,B))

[[1 3 2]
 [2 6 4]
 [3 9 6]]


Importante frisar que, geralmente, **A dot B** ≠ **B dot A**

OBS.: O operador <span style="font-size: 18pt; vertical-align: -8px;">*</span> realiza uma operação entre arrays específica do numpy - `broadcasting` -  
Não confudir com a multiplicação de matrizes do método `numpy.dot`

In [82]:
print(np.dot(B,A))

[[ 3  3]
 [10 10]]


Existem métodos no numpy para criamos um array com condições específicas, como um array somente com elementos de valor 0 ou de valor 1 ou com um valor específico informado:

In [91]:
print(np.zeros((4,5)))
print(np.ones([3,2]))
print(np.full([6,6],-15))


[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[-15 -15 -15 -15 -15 -15]
 [-15 -15 -15 -15 -15 -15]
 [-15 -15 -15 -15 -15 -15]
 [-15 -15 -15 -15 -15 -15]
 [-15 -15 -15 -15 -15 -15]
 [-15 -15 -15 -15 -15 -15]]


**Arrays de Sequência de Números**

Array com uma sequência de números inteiros:

In [94]:
print(np.arange(8))

[0 1 2 3 4 5 6 7]


Array com uma sequência de números, com a definição de intervalo entre os números:

In [98]:
print(np.arange(0,2,0.4))

[0.  0.4 0.8 1.2 1.6]


Array com uma sequência de números, com a definição do valor inicial, valor final e na quantidade de números contidos na matriz:


In [113]:
print(np.linspace(0,2,6))

[0.  0.4 0.8 1.2 1.6 2. ]


**Acessar elementos ou partes de um Array**

O uso de índices para acessar elementos acontece de forma semelhante a indexação de listas, porém pode ser usado um índice para cada dimensão, depende de qual valor ou valore se quer como retorno

In [123]:
matriz_E = np.array([
    [0,1,2],
    [10,11,12],
    [20,21,22],
])
print(matriz_E[0])
print(matriz_E[1,1])
print(matriz_E[1,:2])
print(matriz_E[:2,1:])

[0 1 2]
11
[10 11]
[[ 1  2]
 [11 12]]


### Funções do Numpy


A partir de uma matriz de shape (2,12), que representa as venda de um produto no nao de 2020 na primeira linha e no ano de 2021 na segunda linha, podemos calcular a média de vendas por ano e também por mês:

In [131]:
vendas2020_2021 = np.array([
    [10,20,30,10,20,30,10,20,30,20,20,20],
    [40,50,60,40,50,60,40,50,60,50,50,50],
])
media2020_2021 = vendas2020_2021.mean(axis=1)
print(media2020_2021)

media_por_mes = vendas2020_2021.mean(axis=0)
print(media_por_mes)

[20. 50.]
[25. 35. 45. 25. 35. 45. 25. 35. 45. 35. 35. 35.]


Podemos também usar o método `sum` para obter a soma dos valores de linha ou colunas, usando também o parametro `axis`

In [140]:
somar_vendas = vendas2020_2021.sum(1)
print(somar_vendas)
print(somar_vendas.max())

# Valor máximo de venda por mês em 2020 e 2021
print(vendas2020_2021.max(axis=1))
# Posição do maior valor de vendas
print(vendas2020_2021.argmax(axis=1))

[240 600]
600
[30 60]
[2 2]
