# Introdução ao NumPy
- NumPy é uma biblioteca para manipulação de dados em Python. É basicamente a base da análise de dados em Python. Vários outros pacotes fundamentais, tem a NumPy como a base da sua construção.


**Cŕedito:** As images originais são do post [A Visual Intro to NumPy and Data Representation](https://jalammar.github.io/visual-numpy/), de Jay Alammar.

**Documentação:** https://numpy.org/

## Importando a biblioteca
- Existe um padrão adotado para o *alias* `np`

In [50]:
import numpy as np

## Criando arrays de 1 dimensão (vetores)
Um array pode ser um vetor, uma matriz ou um tensor. Analogicamente:

![](figuras/tensors.jpg)



- Para criar um array, utilizamos o método `np.array()`
    - Podemos passar uma lista para esse método para criarmos o array

In [51]:
arr1 = np.array([1,2,3])
print(type(arr1))
print(arr1)

<class 'numpy.ndarray'>
[1 2 3]


- O tipo de um array no Numpy é o `ndarray`, que o *core* dessa biblioteca
- Visualmente, o que está acontecendo é o seguinte:

![](figuras/arr1.png)

- Existem varias maneiras de inicializar um array dentro do NumPy
- As vezes queremos iniciar com zeros, uns, ou  de maneira aleatória:

![](figuras/inits.png)


In [55]:
arr_uns = np.ones(3)
arr_zeros = np.zeros(3)
arr_alet = np.random.random(3)
print(arr_alet)
print(arr_uns)
print(arr_zeros)

[0.36535376 0.98746274 0.53840381]
[1. 1. 1.]
[0. 0. 0.]


### Importante:
- Assim como listas, a atribuição de um `np.array()` é feito por referência
- Precisamos usar o método `copy()` se quisermos fazer isso

In [56]:
a = np.array([1, 2, 3])
b = a
b[0] = 10
a

array([10,  2,  3])

In [57]:
a = np.array([1, 2, 3])
b = a.copy()
b[0] = 10
a

array([1, 2, 3])

## `np.array` x `list`

- Você pode está se perguntando: qual vantagem de utilizar o NumPy sendo que eu posso utilizar uma lista para armazenar esse array?
- Bom, são inúmeras:
    - Podemos realizar operações aritiméticas com os arrays
    - Broadcasting
    - Operações otimizadas
    - Diversos outros métodos que já estão implementados



**Usando como exemplo uma operação aritmética:**

In [59]:
data = np.array([1,2])
uns = np.ones(2)
soma = data + uns
soma

array([2., 3.])

- Visualmente:

![](figuras/operacao.png)

- **Pergunta**: O que aconteceria se somassemos duas listas?

In [60]:
x = [1,2]
y = [1,1]
print(x + y)

[1, 2, 1, 1]


- Lembra do conceito de sobrecarga da aula anterior? 
    - Então, os operadores são sobrecarregados para dentro da NumPy.

![](figuras/sobrecarga.png)

## Broadcasting

- Um conceito fundamental na NumPy é o broadcasting. Lembra da matemática quando existe uma multiplicação de vetor por escalar? Por exemplo:

![](figuras/broad.png)

- Isso é fácilmente feito com a NumPy:

In [61]:
data = np.array([1,2]) 
res = data * 1.6
res

array([1.6, 3.2])

- Pode ser utilizada com outras operações:

In [62]:
print (res - 2)
print (res + 10)

[-0.4  1.2]
[11.6 13.2]


- E até mesmo com dois arrays

In [63]:
data1 = np.array([1, 2, 3])
data2 = np.array([4, 5, 6])
data1 * data2

array([ 4, 10, 18])

- **Atenção**
    - Perceba que o operador de multiplicação `*` não sobrecarrega uma multiplicação de matriz
    - Ele multiplica os elementos da mesma (*elementwise*)
    - A multiplicação veremos em breve

- Broadcasting também funciona para operadores matémáticos:

In [65]:
np.sqrt(data1)

array([1.        , 1.41421356, 1.73205081])

In [67]:
np.power(data1, 3)

array([ 1,  8, 27])

## Indexação
- Mesma ideia da de uma lista
    - Indices começando de zero
    - Também é possível utilizar a operação de **slicing**:

![](figuras/index.png)


In [69]:
data = np.array([1,2,3])
print(data[0:2])
print(data[1:])
print(data[-1])
print(data[-2])

[1 2]
[2 3]
3
2


## Agregação
- Assim com uma lista, a biblioteca também implementa método matemáticos de agregação como `max()`, `min()` e `sum()`
- Porém, vai além, e possui outros como média (`mean()`), desvio padrão (`std()`), mediana (`median()`), etc

![](figuras/agreg.png)

In [70]:
print("Max:", data.max())
print("Min:", data.min())
print("Soma:", data.sum())
print("Mediana:", np.median(data))
print("Média:", data.mean())
print("Desvio:", data.std())

Max: 3
Min: 1
Soma: 6
Mediana: 2.0
Média: 2.0
Desvio: 0.816496580927726


In [71]:
d1 = [1, 2, 3]
np.median(d1)

2.0

## Criando arrays de 2 dimensões (matrizes)

- De maneira análoga ao array de 1 dimensão, podemos criar com 2:

![](figuras/mat.png)

In [72]:
mat = np.array([[1,2],[3,4]])
mat

array([[1, 2],
       [3, 4]])

- Os métodos de inicialização para arrays de uma dimensão, também são válidos para duas ou mais:

![](figuras/init_mat.png)

In [77]:
np.ones((3, 2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

## Operações aritméticas com broadcasting
- Seguem o mesmo princípio:

![](figuras/broad_mat.png)

In [78]:
data = np.array([[1,2],[3,4]])
uns = np.ones([2,2])

print(data + uns)

[[2. 3.]
 [4. 5.]]


![](figuras/broad_mat_2.png)

In [80]:
data = np.array([[1,2],[3,4],[5,6]])
uns = np.ones(1)

print(data + uns, '\n')
print(data + 1.0)

[[2. 3.]
 [4. 5.]
 [6. 7.]] 

[[2. 3.]
 [4. 5.]
 [6. 7.]]


## Multiplicação de matriz

- Podemos multiplicar matrizes utilizando a NumPy. Em inglês é conhecido com `dot product`
- Essa operação é otimizada dentro da biblioteca
    - É extremamente utilizada em Machine Learning

![](figuras/mat_mul.png)

In [81]:
data = np.array([[1,2,3]])
pt = np.array([[1,2],[100,1000],[10000, 100000]])

data.dot(pt)

array([[ 30201, 302002]])

![](figuras/mat_mul_2.png)

In [82]:
np.dot(data, pt)

array([[ 30201, 302002]])

In [83]:
np.dot(pt, data)

ValueError: shapes (3,2) and (1,3) not aligned: 2 (dim 1) != 1 (dim 0)

### `shape()`
- A ordem de um array é chamado de `shape`. Para acessá-la, podemos utilizar o atributo `shape`

In [84]:
print(data.shape)
print(pt.shape)

(1, 3)
(3, 2)


Vamos dar uma olhada no shape de um vetor: 

In [87]:
v = np.array([1,2,3])
print(v.shape)

(1, 3)


- **Importante**:
    - Observe que o shape não é `(1,3)`! 
    - Isso já foi fonte de muito erro no NumPy
    - Atualmente, a biblioteca já consgue lidar  com isso

In [86]:
data = np.array([1,2,3])
pt = np.array([[1,2],[100,1000],[10000, 100000]])
print(data.dot(pt))

[ 30201 302002]


## Indexação

- Sem supresas, as indexação segue os mesmos princípios, porém você pode fazer slicing em mais de uma dimensão (no caso 2):

![](figuras/index_mat.png)

In [90]:
pt[0, :]

array([1, 2])

## Operações de agregação

- Também podemos utilizá-las para duas dimensões:

![](figuras/agreg_mat.png)

In [91]:
data = np.array([[1,2],[5,3],[4,6]])
print(data.max())

6


- Porém, agora podemos escolher um eixo para realizar a agreação:

![](figuras/agreg_axis.png)


- **axis = 0**: Agrega ao longo do eixo Y
- **axis = 1**: Agrega ao longo do eixo X

In [92]:
data.max(axis=0)

array([5, 6])

In [93]:
data.max(axis=1)

array([2, 5, 6])

In [94]:
data.sum(axis=0)

array([10, 11])

In [95]:
data.sum(axis=1)

array([ 3,  8, 10])

## Transpondo um `ndarray`
- Uma operação muito comum quando estamos lidado com matrizes é a necessidade de rotacionar os dados
- Podemos fazer isso com numpy usando o método `T()`

![](figuras/transposing_np.png)

In [96]:
data = np.array([
    [1, 2],
    [3, 4],
    [5, 6]
])
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [97]:
data.T

array([[1, 3, 5],
       [2, 4, 6]])

- Essa operação é bem interessante para permitir multiplicação de matrizes

In [100]:
data.dot(data.T)

array([[ 5, 11, 17],
       [11, 25, 39],
       [17, 39, 61]])

## *Reshaping* um array
- Uma operação mais avançada e também muito útil é fazer um *reshaping* no array para uma outra dimensão de interesse
- Isso é muito utilizado em machine learning quando precisamos de uma dimensão de interesse
- Podemos fazer isso com numpy usando o método `reshape()`

![](figuras/reshaping_np.png)

In [101]:
data = np.array([1, 2, 3, 4, 5, 6])
data

array([1, 2, 3, 4, 5, 6])

In [102]:
data.reshape(2, 3)

array([[1, 2, 3],
       [4, 5, 6]])

In [103]:
data.reshape(3, 2)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [104]:
data.reshape(3, -1)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [105]:
data.reshape(5, -1)

ValueError: cannot reshape array of size 6 into shape (5,newaxis)

### Criando arrays de mais de 2 dimensões (tensores)
Tudo que foi mencionado até o momento, pode ser realizado utilizado arrays de mais de duas dimensões:

![](figuras/tensors_np.png)


In [107]:
data = np.ones((4,3,2))
print(data)
print(data.shape)

[[[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]]
(4, 3, 2)


In [110]:
soma = data.sum(axis=2)
print(soma)
print(soma.shape)

[[2. 2. 2.]
 [2. 2. 2.]
 [2. 2. 2.]
 [2. 2. 2.]]
(4, 3)


# Por que é tão útil?
Muita coisa é represantado é forma de arrays

## Áudios

![](figuras/audio.png)

## Imagens

![](figuras/img.png)

## Dados em geral


![](figuras/pd.png)
