# NumPy

NumPy é um pacote fundamental para computação científica em Python, sendo usado como base para praticamente todos os outros. Suas capacidades incluem uma poderosa classe *array*, que pode representar vetores e matrizes, sofisticadas funções para manipulação de *arrays*, ferramentas para integração de códigos em C/C++ e Fortran, além de funções de álgebra linear e de geração de números aleatórios. Os *arrays* de NumPy também podem ser usados para armazenar dados de tipos genéricos, permitindo fácil integração com diferentes tipos de bases e bancos de dados. A documentação completa para todas as versões de NumPy pode ser encontrada em [numpy.org/doc](https://numpy.org/doc).

## A classe *array*

A classe *array* é o principal componente de NumPy e representa uma lista homogênea multidimensional, na forma de uma tabela de elementos (normalmente números), todos do mesmo tipo, indexada por tuplas de inteiros positivos. Um dimensão de um *array* é chamada de eixo (*axis*). Abaixo, temos dois exemplos de *arrays* (note sua criação por meio de listas):

In [1]:
import numpy as np

a = np.array([1, 2, 1])  # Uma dimensão, 3 elementos, tipo inteiro
b = np.array([
    [1., 0., 1.], 
    [0., 1., 2.]
])  # Duas dimensões, a primeira com tamanho 2 e a segunda com tamanho 3, tipo ponto flutuante

print(len(a), a.dtype)
print(b.shape, len(b), b.dtype)
print(b)

3 int64
(2, 3) 2 float64
[[1. 0. 1.]
 [0. 1. 2.]]


A biblioteca padrão de Python também tem uma classe *array.array*, mas ela serve apenas pra casos unidimensionais e oferece menos funcionalidades. Os atributos mais importantes do *array* de numpy incluem:

   * array.ndim: o número de eixos do *array*
   * array.shape: as dimensões do *array* na forma de uma tupla indicando o tamanho de cada dimensão; matriz $n \times m$ possui shape $(n, m)$
   * array.size: o número total de elementos no *array*
   * array.dtype: o tipo dos elementos do *array*

### Criando *arrays*

A criação de um *array* pode ser feita usando listas ou tuplas, com o tipo dos dados sendo deduzido através dos tpos dos elementos da sequência. Uma lista de listas resultará em um *array* bidimensional, uma lista de listas de listas dará um *array* tridimensional e assim por diante. É possível especificar o tipo do *array* na hora da criação:

In [2]:
b = np.array(
    [
        [1., 0., 1.], 
        [0., 1., 2.]
    ],
    dtype=complex
)
print(b)

[[1.+0.j 0.+0.j 1.+0.j]
 [0.+0.j 1.+0.j 2.+0.j]]


Frequentemente é necessario criar *arrays* com um tamanho definido e valores iniciais que serão posteriormente modificados. Para isso, NumPy fornece diversas funções, incluindo a função *zeros*, que cria um *array* preenchido com zeros; *ones*, que cria um *array* preenchido com uns; *empty*, que cria um *array* cujo conteúdo inicial é aleatório e depende do estado da memória; e *eye*, que cria uma matriz identidade.

In [3]:
print(np.zeros((3, 4)))  # Note que as dimensões são passadas como uma tupla
print()
print(np.ones((3, 4)))
print()
print(np.empty((3, 4)))  # Saída pode variar
print()
print(np.eye(3, dtype=np.int32))  # Basta passar uma dimensão, pois a matriz será quadrada

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

[[1 0 0]
 [0 1 0]
 [0 0 1]]


Para criar sequências de números, pode-se usar a função *arange*, que é análoga à função *range*, mas retorna *arrays* e aceita criar intervalos de pontos flutuantes.

In [4]:
print(np.arange(5, 20, 5))
print()
print(np.arange(0, 2, 0.4))

[ 5 10 15]

[0.  0.4 0.8 1.2 1.6]


Devido a possíveis problemas de arredondamento, não é sempre possível saber quantos elementos serão gerados pela função *arange* ao receber pontos flutuantes como parâmetros. Nesses casos, é melhor usar a função *linspace*, que recebe como argumentos o início, o fim (inclusivo) e o número de valores desejados no intervalo.

In [5]:
print(np.linspace(0, 1, 9))  # 9 números começando em 0 e terminando em 1

[0.    0.125 0.25  0.375 0.5   0.625 0.75  0.875 1.   ]


A função *linspace* é útil para avaliar funções em muitos pontos.

In [6]:
import matplotlib.pyplot as plt

x = np.linspace(0, 2 * np.pi, 100)
f = np.sin(x)

plt.plot(x, f)
plt.show()

<Figure size 640x480 with 1 Axes>

### Operações básicas

Operações aritméticas com *arrays* sempre são aplicadas elemento-a-elemento, criando um novo *array* como resultado:

In [7]:
a = np.array([10, 20, 30, 40])
print(a)
b = np.arange(4)
print(b)
print()

c = a - b
print(c)
print()

print(b ** 2)
print()

print(a < 25)
print()

print(a * b)

[10 20 30 40]
[0 1 2 3]

[10 19 28 37]

[0 1 4 9]

[ True  True False False]

[  0  20  60 120]


O operador '\*' multiplica os *arrays* através dos elementos. Para realizar a multiplicação de matrizes, pode-se usar o operador '@', a função *dot* do NumPy, ou o método *dot* do *array*:

In [8]:
A = np.array(
    [
        [1, 1],
        [0, 1]
    ]
)

B = np.array(
    [
        [2, 0],
        [0, 2]
    ]
)

print(A @ B)
print(np.dot(A, B))
print(A.dot(B))

[[2 2]
 [0 2]]
[[2 2]
 [0 2]]
[[2 2]
 [0 2]]


Algumas operações, como as de atribuição aritmética "+=" e "\*=", modificam o *array* diretamente, ao invés de criar outro com o resultado.

In [9]:
A = np.array(
    [
        [1, 1],
        [0, 1]
    ]
)

A += 1

print(A)

[[2 2]
 [1 2]]


Operações com *arrays* de tipos diferentes resultam em um *array* do tipo mais geral ou preciso (*upcasting*). Exemplo:

In [10]:
a = np.ones(3, dtype=int)
b = np.ones(3, dtype=float)

print((a + b).dtype)

float64


Muitas operações são computadas como métodos da classe *array*, por exemplo a soma de todos os elementos, a média ou o desvio-padrão:

In [11]:
a = np.random.random((5, 3))
print(a)
print(
    'Soma: {}, Média: {}, Desvio-padrão: {}'.format(
        a.sum(), a.mean(), a.std()
    )
)

[[0.23212101 0.91462662 0.91540541]
 [0.57452843 0.95238774 0.42597797]
 [0.1072103  0.53177664 0.36938877]
 [0.18792794 0.46956383 0.92813154]
 [0.88990463 0.62508447 0.03784651]]
Soma: 8.161881792579557, Média: 0.5441254528386371, Desvio-padrão: 0.30961707078112033


Por padrão, essas operações são computadas sobre todos os elementos do *array*, independente das suas dimensões. No entanto, é possível especificar a dimensão desejada, usando o parâmetro *axis*, como mostra o código abaixo:

In [12]:
print(a.sum(axis=0)) # soma de cada coluna
print(a.mean(axis=1))  # média de cada linha  
print(a.cumsum(axis=0))  # soma acumulada de cada coluna

[1.99169231 3.49343929 2.67675019]
[0.68738435 0.65096471 0.33612524 0.5285411  0.51761187]
[[0.23212101 0.91462662 0.91540541]
 [0.80664944 1.86701436 1.34138337]
 [0.91385974 2.398791   1.71077215]
 [1.10178768 2.86835482 2.63890369]
 [1.99169231 3.49343929 2.67675019]]


### Indexando e iterando sobre elementos

*Arrays* unidimensionais podem ser indexados, fatiados e iterados exatamente como listas e outras coleções.

In [13]:
a = np.arange(8) ** 2
print(a)
print()

print(a[2])
print()

print(a[2:5])
print()

a[:4:2] = -1000
print(a)
print()

print(a[ : :-1])
print()

for i in a:
    print(i * 2)

[ 0  1  4  9 16 25 36 49]

4

[ 4  9 16]

[-1000     1 -1000     9    16    25    36    49]

[   49    36    25    16     9 -1000     1 -1000]

-2000
2
-2000
18
32
50
72
98


*Arrays* multidimensionais podem receber um índice ou fatia por eixo, informados em uma tupla. Por exemplo:

In [50]:
b = np.random.random((5, 4))
print(b)
print()

print(b[2, 3])  # Elemento na terceira linha e quarta coluna
print()

print(b[:, 1])  # A segunda coluna inteira
print()

print(b[:4, 1])  # Do primeiro ao quarto elemento da segunda coluna      
print()

print(b[1:3, :])  # Todas as colunas da segunda à terceira linha              

[[0.07422871 0.98991576 0.75504541 0.04575127]
 [0.37423932 0.20386125 0.78009502 0.89139556]
 [0.43186859 0.65060262 0.55278012 0.61055091]
 [0.85672426 0.85429927 0.11882156 0.0044845 ]
 [0.38750379 0.85236982 0.13323144 0.76114493]]

0.610550913146224

[0.98991576 0.20386125 0.65060262 0.85429927 0.85236982]

[0.98991576 0.20386125 0.65060262 0.85429927]

[[0.37423932 0.20386125 0.78009502 0.89139556]
 [0.43186859 0.65060262 0.55278012 0.61055091]]


Quando os índices forem fornecidos em uma tupla menor do que o número de eixos, os índices que não forem fornecidos são considerados fatias completas, i.e. ":". Os índices faltantes também podem ser representados por reticências. Exemplo:

In [51]:
print(b[-1])
print(b[-1, :])
print(b[-1, ...])

[0.38750379 0.85236982 0.13323144 0.76114493]
[0.38750379 0.85236982 0.13323144 0.76114493]
[0.38750379 0.85236982 0.13323144 0.76114493]


NumPy oferece mais formas de indexar os seus *arrays*, usando listas ou *arrays* de inteiros ou booleanos. Quando o *array* *b* é multidimensional, a indexação usando uma única lista de índices se refere à primeira dimensão de *b*.

In [52]:
print(b)
print()

print(b[[1, 4]])  # Segunda e quinta linhas da matriz b, equivale a b[[1, 4], :]
print()

print(b[:, [1, 2]])  # Segunda e terceira colunas da matriz b
print()

print(b[[1, 4], [1, 2]])  # Indexação pareada, equivale a [b[1,1], b[4, 2]]
print()

i = [
    [1, 1],
    [4, 4]
]
j = [
    [1, 2],
    [1, 2]
]

print(b[i, j])  # Indexação pareada, segunda e terceira colunas da segunda e quinta linhas
print()

print(b[
    [[1], [4]],  # Equivale a b[i, j], note que o array
    [1, 2]       # de índices do primeiro eixo é bidimensional
])
print()

b[i, j] = 0  # As posições indexadas podem receber valores
print(b)

[[0.07422871 0.98991576 0.75504541 0.04575127]
 [0.37423932 0.20386125 0.78009502 0.89139556]
 [0.43186859 0.65060262 0.55278012 0.61055091]
 [0.85672426 0.85429927 0.11882156 0.0044845 ]
 [0.38750379 0.85236982 0.13323144 0.76114493]]

[[0.37423932 0.20386125 0.78009502 0.89139556]
 [0.38750379 0.85236982 0.13323144 0.76114493]]

[[0.98991576 0.75504541]
 [0.20386125 0.78009502]
 [0.65060262 0.55278012]
 [0.85429927 0.11882156]
 [0.85236982 0.13323144]]

[0.20386125 0.13323144]

[[0.20386125 0.78009502]
 [0.85236982 0.13323144]]

[[0.20386125 0.78009502]
 [0.85236982 0.13323144]]

[[0.07422871 0.98991576 0.75504541 0.04575127]
 [0.37423932 0.         0.         0.89139556]
 [0.43186859 0.65060262 0.55278012 0.61055091]
 [0.85672426 0.85429927 0.11882156 0.0044845 ]
 [0.38750379 0.         0.         0.76114493]]


Para indexar *arrays* usando *arrays* ou listas de booleanos, pode-se usar um *array* com exatamente a mesma quantidade de elementos que o *array* indexado. Isso pode ser muito útil para fazer atribuições. Exemplo:

In [55]:
a = b < 0.5

print(a)
print()

print(b[a])  # array unidimensional com os elementos selecionados
print()

b[a] = 0
print(b)

[[ True False False  True]
 [ True  True  True False]
 [ True False False False]
 [False False  True  True]
 [ True  True  True False]]

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

[[0.         0.98991576 0.75504541 0.        ]
 [0.         0.         0.         0.89139556]
 [0.         0.65060262 0.55278012 0.61055091]
 [0.85672426 0.85429927 0.         0.        ]
 [0.         0.         0.         0.76114493]]


Também é possível indexar cada dimensão usando *arrays* unidimensionais de booleanos com o mesmo tamanho da dimensão indexada:

In [67]:
b1 = np.array([True, False, True, False, False])
b2 = np.array([True, True, False, False])

print(b[b1])  # Equivale a b[b1, :]
print()

print(b[:, b2])
print()

print(b[b1,b2])
print()

[[0.         0.98991576 0.75504541 0.        ]
 [0.         0.65060262 0.55278012 0.61055091]]

[[0.         0.98991576]
 [0.         0.        ]
 [0.         0.65060262]
 [0.85672426 0.85429927]
 [0.         0.        ]]

[0.         0.65060262]



Iterações sobre *arrays* multidimensionais são feitas ao longo do primeiro eixo:

In [16]:
for row in b:
    print(row)

[0.70968361 0.47216499 0.62903357 0.23256923]
[0.15019964 0.99036884 0.32071652 0.39608505]
[0.0282208  0.86358171 0.84650532 0.49235815]
[0.40869514 0.32478269 0.97010913 0.90962194]
[0.93522107 0.31236502 0.47480294 0.93315187]


### Redimensionando *arrays*

Como vimos acima, o tamanho das dimensões do *array* pode ser obtido por meio do atributo *shape*:

In [71]:
a = np.arange(12)
print(a)
print(a.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
(12,)


No entanto, a forma do *array* não é fixa e pode ser modificada de diversas formas, retornando um novo *array* com os mesmos elementos do *array* original, mas reposicionados para se adequar à nova forma.

In [75]:
c = a.reshape(4, 3)
print(c)
print()

print(c.ravel())  # retorna o array "achatado" 
print()

print(c.T)  # retorna o array transposto
print()

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]

[ 0  1  2  3  4  5  6  7  8  9 10 11]

[[ 0  3  6  9]
 [ 1  4  7 10]
 [ 2  5  8 11]]



A função *reshape* retorna um novo *array*. Para modificar o próprio *array*, pode-se usar a função *resize*:

In [77]:
a.resize(4, 3)
print(a)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


Se alguma dimensão receber o valor *-1* para uma operação de redimensionamento, o seu novo tamanho será automaticamente calculado. Por exemplo, se quisermos que *a* tenha *2* linhas e o número necessário de colunas, podemos fazer:

In [78]:
a.reshape(2, -1)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

Se tentarmos tranpor um *array* unidimensional usando o atributo *T*, ele continuará sendo unidimensional. Portanto, para realizar a transposição, podemos usar o método *reshape*, com *-1* no número de linhas, gerando um vetor coluna com o número necessário de linhas:

In [81]:
a = np.arange(12)
print(a)
print(a.T)
print(a.reshape(-1, 1))

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]]


Outra forma de transpor um *array* unidimensional para obter um vetor coluna é usando o atalho de NumPy para criar novos eixos:

In [83]:
a[:, np.newaxis]

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11]])

### Concatenando *arrays*

As funções *vstack* e *hstack* permitem concatenar dois ou mais *arrays* verticalmente e horizontalmente, respectivamente:

In [87]:
a = np.arange(6).reshape(3, 2)
b = np.random.random((3, 2))

print(np.vstack((a, b)))
print()

print(np.hstack((a, b)))

[[0.         1.        ]
 [2.         3.        ]
 [4.         5.        ]
 [0.10739744 0.52628882]
 [0.69224407 0.01864132]
 [0.08691252 0.48103772]]
[[0.         1.         0.10739744 0.52628882]
 [2.         3.         0.69224407 0.01864132]
 [4.         5.         0.08691252 0.48103772]]


A função *column_stack* concatena dois ou mais *arrays* unidimensionais na forma de colunas em um array 2D resultante:

In [89]:
a = np.arange(3)
b = np.random.random(3)

print(np.column_stack((a, b)))
print()

print(np.hstack((a, b)))  # resultado diferente

[[0.         0.54017077]
 [1.         0.79932955]
 [2.         0.19442395]]

[0.         1.         2.         0.54017077 0.79932955 0.19442395]


Essas funções de concatenação são todas casos especiais de uso mais comum da função *concatenate*, que permite definir o eixo sobre o qual ocorrerá a concatenação.