# Introdução ao NumPy

**Tutorial:** https://numpy.org/devdocs/user/quickstart.html

Esta é uma rápida introdução ao NumPy que demonstra como matrizes n-dimensionais são representadas e podem ser manipulatadas.

O principal objeto da biblioteca NumPy é definir uma matriz multidimensional: uma tabela de elementos (usualmente números), todos do mesmo tipo, indexados por uma tupla de inteiros não negativos.

A classe de matrizes do NumPy é chamada `ndarray`. Também é chamada pelo apelido `array`. Note que `numpy.array` não é o mesmo que a classe `array.array` da biblioteca padrão do Python, a qual manipula apenas vetores unidimensionais e oferecem menos funcionalidades.

Os principais atributos de um objeto `ndarray` são:

- `ndarray.ndim`: número de dimensões da matriz.

- `ndarray.shape`: as dimensões da matriz. Uma tupla de inteiros indicando o tamanho em cada dimensão. Para uma matriz com linhas e colunas, o resultado será `(n, m)`. O tamanho da tupla é o mesmo que o número de eixos `ndim`.

- `ndarray.size`: o número total de elementos na matriz. É igual ao produtos dos elementos do shape.

- `ndarray.dtype`: um objeto que descreve o tipo dos elementos da matriz. Pode ser criado usando os tipos padrão do Python. Além destes, NumPy define outros tipos como `numpy.int32`, `numpy.int16`, e `numpy.float64`.

- `ndarray.itemsize`: o tamanho em bytes de cada elemento da matriz. Por exemplo, uma matriz de elementos do tipo `float64` tem `itemsize = 8`, enquanto uma do tipo `complex32` tem `itemsize = 4`. Equivalente à `ndarray.dtype.itemsize`.

- `ndarray.data`: uma área temporária contendo os elementos da matriz. Não se usa, pois os elementos podem ser acessados por indexação.

In [None]:
import numpy as np

a = np.arange(15).reshape(3, 5)    # Cria uma matriz 3 por 5.

In [None]:
a.shape    # Exibe a dimenção da matriz.

In [None]:
a.ndim     # Exibe o número de dimensões da matriz.

In [None]:
a.dtype.name    # Exibe o tipo dos elementos da matriz.

In [None]:
a.itemsize    # Exibe o tamanho em bytes de cada elemento da matriz.

In [None]:
a.size        # Exibe o número total de elementos na matriz.

In [None]:
type(a)    # Exibe o tipo da matriz.

In [None]:
b = np.ndarray([6, 7, 8])    # Cria um vetor.
type(b)                      # Exibe o tipo do vetor.

## Criação da matriz

Existem diversas formas de se criar matrizes:

In [None]:
# De uma lista ou tupla. O tipo é deduzido dos elementos.
import numpy as np
a = np.array([2, 3, 4])
a.dtype

In [None]:
b = np.array([1.2, 3.5, 5.1])
b.dtype

Um erro frequente consiste em chamar array com múltiplos argumentos, ao invés de uma sequência.

In [None]:
#a = np.array(1, 2, 3, 4)     # TypeError
a = np.array([1, 2, 3, 4])   # CORRETO!

`np.array` transforma sequência de sequências em matrizes bidimensionais, sequências de sequências de sequências em matrizes tridimensionais, etc.

In [None]:
b = np.array([(1.5, 2, 3), (4, 5, 6)])
b

O tipo da matriz pode ser especificado explicitamente na criação:

In [None]:
c = np.array([[1, 2], [3, 4]], dtype= complex)
c

Frequentemente, os elementos de uma matriz são originalmente desconhecidos, mas seu tamanho é conhecido. Entretanto, NumPy oferece várias funções para criar matrizes com valores coringa. Isto minimiza a necessidade de expandir matrizes, uma operação intensiva computacionalmente.

A função `zeros()` cria uma matriz de `0`s, a função `ones()` cria uma matriz de `1`s, e a função `empty()` cria uma matriz cujo conteúdo inicial é o conteúdo presente na memória. Por padrão o `dtype` da matriz criada é `float64`, mas pode ser especificado pelo argumento `dtype`.

In [None]:
np.zeros((3, 4))    # Cria uma matriz 3 por 4 com todos os elementos iguais a 0.

In [None]:
np.ones((2, 3, 4), dtype= np.int16)    # Cria uma matriz 2 por 3 por 4 com todos os elementos iguais a 1.

In [None]:
np.empty((2, 3))    # Cria uma matriz 2 por 3 sem inicializar os elementos.

Para criar sequências de números o NumPy fornece a função `arange()` que é análoga à função `range()` do Python mas que retorna uma matriz.

In [None]:
np.arange(10, 30, 5)    # Cria um vetor com elementos de 10 a 30 com passo 5.

In [None]:
np.arange(0, 2, .3)    # Cria um vetor com elementos de 0 a 2 com passo 0.3.

Ao usar `arange()` com números não inteiros pode não ser possível predizer a quantidade de elementos obtidos devido à precisão do ponto flutuante. Melhor usar `linspace()` passsando o número de elementos:

In [None]:
from numpy import pi
x = np.linspace(0, 2 * pi, 100)  # Cria um vetor com 100 elementos entre 0 e 2pi.
f = np.sin(x)                    # Aplica a função seno a cada elemento do vetor.

O NumPy exibe a matriz de forma similar à listas aninhadas com o seguinte layout:

- O último eixo é exibido da esquerda para a direita;

- O penúltimo eixo é exibido de cima para baixo;

- Os demais eixos são exibidos de cima para baixo separados por uma linha em branco;

Vetores (unidimensional) são exibidos como vetorlinhas, matrizes bidimensionais como matrizes e matrizes tridimensionais como lista de matrizes.

In [None]:
a = np.arange(6)    # Cria um vetor com 6 elementos de 0 a 5.
print(a)

In [None]:
b = np.arange(12).reshape(4, 3)    # Cria uma matriz 4 por 3.
print(b)

In [None]:
c = np.arange(24).reshape(2, 3, 4)  # Cria uma matriz 2 por 3 por 4.
print(c)

Se a matriz é muito grande o NumPy automaticamente omite a parte central da matriz:

In [None]:
print(np.arange(10000))

In [None]:
print(np.arange(10000).reshape(100, 100))

Para disabilitar, mude a opção usando:

```python
np.set_printoptions(threshold= sys.maxsize)
```

## Operações básicas

Operadores aritméticos são aplicados em cada elemento. Uma nova matriz com o resultado é criada.

In [None]:
a = np.array([20, 30, 40, 50])    # Cria um vetor com os vetores passados.
b = np.arange(4)                  # Cria um vetor com os valores 0, 1, 2, 3.

print(b)                # Exibe o vetor b.
print(a - b)            # Exibe a diferença entre os vetors a e b.
print(b**2)             # Exibe o vetor com os quadrados dos elementos de b.
print(10 * np.sin(a))   # Calcula 10 vezes seno dos elementos do vetor a.
print(a < 35)           # Retorna um vetor booleano com True para cada elemento menor que 35.

O operador produto `*` opera elemento-a-elemento. O produto matricial é feito com `@` (Python >=3.5) ou com `dot()`:

In [None]:
A = np.array([[1, 1], [0, 1]])
B = np.array([[2, 0], [3, 4]])

print(A * B, "\n")       # Produto elemento a elemento
print(A @ B, "\n")       # Produto matricial
print(A.dot(B), "\n")    # Produto matricial

Algumas operações como `+=` e `*=` modifica uma matriz existente ao invés de criar uma nova.

In [None]:
rg = np.random.default_rng(1)    # cria um gerador de números aleatórios
a  = np.ones((2, 3), dtype= int)
b  = rg.random((2, 3))
a *= 3
print(a, "\n")

b += a
print(b, "\n")
#a += b                           # ERRO: b não é convertido automaticamente

O resultado de operações com matrizes de diferentes tipo é aquele de maior precisão (upcasting).

In [None]:
a = np.ones(3, dtype= np.int32)
b = np.linspace(0, pi, 3)
print(b.dtype.name)    # 'float64'
c = a + b
print(c.dtype.name)    # 'float64'
d = np.exp(c * 1j)
print(d.dtype.name)    # 'complex128'

Muitas operações unárias são implementadas como métodos da classe `ndarray`.

In [None]:
a = rg.random((2, 3))   # Gera uma matriz 2 por 3 com valores aleatórios.
print(a)
print("\n")
print(a.sum())    # Exibe a soma dos elementos.
print(a.min())    # Exibe o menor elemento.
print(a.max())    # Exibe o maior elemento.
print(a.mean())   # Exibe a média dos elementos.
print(a.std())    # Exibe o desvio padrão dos elementos.

Por padrão, estas operações tratam a matriz como uma lista de números. No entanto, é possível especificar o eixos para aplicar a operação:

In [None]:
b = np.arange(12).reshape(3, 4)
b.sum(axis= 0)    # soma de cada coluna

In [None]:
b.min(axis= 1)    # mínimo de cada linha

In [None]:
b.cumsum(axis= 1)    # soma cumulativa em cada linha

## Funções universais

Funções matemáticas como `sin()`, `cos()` e `exp()`, chamadas de *funções universais* (`ufunc`), operam emento-a-elemento.

In [None]:
B = np.arange(3)               # Cria um vetor com 3 elementos.
print(np.exp(B))               # Exibe o exponencial de cada elemento de B.
print(np.sqrt(B))              # Exibe a raiz quadrada de cada elemento de B.
C = np.array([2., -1., 4.])    # Cria um vetor com 3 elementos.
print(np.add(B, C))            # Exibe a soma entre os vetores B e C.

## Indexação, fatiamento e iteração

Vetores unidimensionais podem ser indexados, fatiados e iterados como se fosse uma lista.

In [None]:
a = np.arange(10)**3  # Gera um vetor dos cubos de 0 a 9.
print(a)              # Exibe o vetor 'a'.
print(a[2])           # Exibe o terceiro elemento do vetor 'a'.
print(a[2:5])         # Exibe os elementos nas posições 2, 3, 4.
a[:6:2] = 1000        # Substitui os elementos nas posições 0, 2, 4 e 6 por 1000.
print(a)              # Exibe o vetor 'a'.
print(a[::-1])        # Exibe o vetor 'a' invertido.

# Exibe as raízes cúbicas dos elementos de 'a'.
print("\n")
for i in a:
  print(i**(1 / 3.))

Matrizes multidimensionais tem `1` índice por eixo:

In [None]:
def f(x, y):
  return 10 * x + y

# Cria uma matriz de acordo com a função.
b = np.fromfunction(f, (5, 4), dtype= int)

print(b)            # Exibe a matriz b.
print(b[2, 3])      # Exibe o elemento na posição 2, 3.
print(b[0:5, 1])    # Toda linha e segunda coluna.
print(b[:, 1])      # Equivalente ao anterior.
print(b[1:3, :])    # Todas as colunas na 2a e 3a linhas.

Se forem passados menos índices que o número de eixos, todos os demais estarão completos:

In [None]:
b[-1]     # A última linha. Equivale a b[-1, :]

As reticências (`...`) representam a indexação completa no restante da tupla. Exemplo, se `x` tem 5 dimensões, então

```python
x[1, 2, ...]       # é equivalente a x[1, 2, :, :, :]
x[..., 3]          # é equivalente a x[:, :, :, :, 3]
x[4, ..., 5, :]    # é equivalente a x[4, :, :, 5, :]
```

In [None]:
c = np.array([[[  0,   1,   2],
               [ 10,  12,  13]],
              [[100, 101, 102],
               [110, 112, 113]]])

print(c.shape)      # (2, 2, 3)
print(c[1, ...])    # o mesmo que c[1, :, :] ou c[1]
print(c[..., 2])    # o mesmo que c[:, :, 2]

Iteração em matrizes é feita com relação ao eixo:
```python
for row in b:
  print(row)
```

Use `flat` para iterar por toda a matriz:
```python
for element in b.flat:
  print(element)
```



## Redimensionamento

Uma matriz tem um `shape` dado pelo número de elementos em cada eixo:

In [None]:
a = np.floor(10 * rg.random((3, 4)))
print(a)
print(a.shape)    # (3, 4)

O `shape` de uma matriz pode ser alterada por vários comandos, alguns não alteram a matriz original:

In [None]:
print(a.ravel())          # retorna a matriz 'flatten'
print(a.reshape(6, 2))    # retorna a matriz com um formato modificado
print(a.T)                # retorna a transposta
print(a.T.shape)          # shape da transposta
print(a.shape)            # shape da matriz

A função `reshape()` retorna a matriz redimensionada e `ndarray.resize` altera a dimensão da matriz:

In [None]:
print(a)
a.resize((2, 6))
print(a)

Se uma dimensão for `-1` no redimensionamento, esta será calculada:

In [None]:
print(a.reshape(3, -1))

## Empilhamento

Várias matrizes podem ser empilhadas em diferentes eixos:

In [None]:
a = np.floor(10 * rg.random((2, 2)))
b = np.floor(10 * rg.random((2, 2)))

print(a)                   # Exibe a matriz 'a'.
print(b)                   # Exibe a matriz 'b'.
print(np.vstack((a, b)))   # Empilha 'a' e 'b' na vertical.
print(np.hstack((a, b)))   # Empilha 'a' e 'b' na horizontal.

`column_stack()` empilha vetores como colunas de uma matriz. Equivale a `hstack()` para matrizes 2D:

In [None]:
from numpy import newaxis

print(np.column_stack((a, b)))    # com matrizes 2D
a = np.array([4., 2.])
b = np.array([3., 8.])

print(np.column_stack((a, b)))    # retorna uma matriz 2D
print(np.hstack((a, b)))          # resultado diferente
print(a[:, newaxis])              # ver 'a' como vetor coluna 2D
print(np.column_stack((a[:, newaxis], b[:, newaxis])))
print(np.hstack((a[:, newaxis], b[:, newaxis])))

`row_stack()` é um apelido para `vstack()`:

In [None]:
print(np.column_stack is np.hstack)    # False
print(np.row_stack is np.vstack)       # True

Para matrizes, `hstack()` empilha no segundo eixo, `vstack()` empilha no primeiro eixo e `concatenate()` permite a escolha do eixo.

Em casos complexos, `r_()` e `c_()` são úteis para empilhar números em um eixo:

In [None]:
print(np.r_[1:4, 0, 4])

Se usados com vetores, `r_()` e `c_()` são similares à `vstack()` e `hstack()`, mas permitem escolher o eixo com o qual concatenar o vetor.

## Desmembramento

`hsplit()` permite desmembrar no eixo horizontal:

In [None]:
a = np.floor(10 * rg.random((2, 12)))
print(a)

# Desmembra 'a' em 3 partes
print(np.hsplit(a, 3))

# Desmembra 'a' após 3a e 4a colunas.
print(np.hsplit(a, (3, 4)))

`vsplit()` desmembra na vertical e `array_split()` permite escolher o eixo.

## Cópias e visualizações

Algumas operações copiam a matriz outras não. Atribuições não fazem cópias de objetos ou dados.

In [None]:
a = np.array([[ 0, 1, 2, 3],
              [ 4, 5, 6, 7],
              [ 8, 9,10,11]])
b = a
print(b == a)
print(b is a)    # 'a' e 'b' são dois nomes para o mesmo objeto.

O Python passa objetos mutáveis por referência, assim, chamada de função não faz cópia.

In [None]:
def f(x):
  return id(x)

print(id(a))    # ID é o identificador único do objeto
print(f(a))     # mesmo ID

Diferentes matrizes podem compartilhar o mesmo dado. O método `view` cria uma visualização da matriz.

In [None]:
c = a.view()
print(c is a)
print(c.base is a)        # 'c' é uma visualização de 'a'
print(c.flags.owndata)    # False
c = c.reshape((2, 6))     # Não muda a dimensão de 'a'
print(a.shape)
c[0, 4] = 1234            # Muda os dados em 'a'
print(a)

Fatiar uma matriz retorna uma visualização:

In [None]:
s = a[:, 1:3]
s[:] = 10       # s[:] é uma visualização de 's'.
                # Note a diferença entre s = 10 e s[:] = 10

print(a)

O método `copy()` faz uma cópia completa da matriz e seus dados.

In [None]:
d = a.copy()          # uma nova matriz é criada
print(d is a)         # False
print(d.base is a)    # 'd' não compartilha nada com 'a'
d[0, 0] = 9999
print(a)

Algumas vezes uma cópia pode ser usada após fatiamento se a matriz original não estiver mais disponível.

In [None]:
a = np.arange(int(1e8))
b = a[:100].copy()

del a    # A memória de 'a' pode ser liberada.
         # Se fosse usado b = a[:100], 'a' seria referenciada
         # por 'b' e persistiria na memória mesmo após o comando 'del a'.
b