# NumPy

NumPy é um pacote fundamental para computação científica em Python, sendo usado como base para praticamente todos os outros. Suas capacidades incluem uma poderosa classe *array*, que pode representar vetores e matrizes, sofisticadas funções para manipulação de *arrays*, ferramentas para integração de códigos em C/C++ e Fortran, além de funções de álgebra linear e de geração de números aleatórios. Os *arrays* de NumPy também podem ser usados para armazenar dados de tipos genéricos, permitindo fácil integração com diferentes tipos de bases e bancos de dados. A documentação completa para todas as versões de NumPy pode ser encontrada em [numpy.org/doc](https://numpy.org/doc).

## A classe *array*

A classe *array* é o principal componente de NumPy e representa uma lista homogênea multidimensional, na forma de uma tabela de elementos (normalmente números), todos do mesmo tipo, indexada por tuplas de inteiros positivos. Um dimensão de um *array* é chamada de eixo (*axis*). Abaixo, temos dois exemplos de *arrays* (note sua criação por meio de listas):

In [3]:
import numpy as np

a = np.array([1, 2, 1])  # Uma dimensão, 3 elementos, tipo inteiro
b = np.array([
    [1., 0., 1.], 
    [0., 1., 2.]
])  # Duas dimensões, a primeira com tamanho 2 e a segunda com tamanho 3, tipo ponto flutuante

print(len(a), a.dtype)
print(b.shape, len(b), b.dtype)
print(b)

3 int64
(2, 3) 2 float64
[[1. 0. 1.]
 [0. 1. 2.]]


A biblioteca padrão de Python também tem uma classe *array.array*, mas ela serve apenas pra casos unidimensionais e oferece menos funcionalidades. Os atributos mais importantes do *array* de numpy incluem:

   * array.ndim: o número de eixos do *array*
   * array.shape: as dimensões do *array* na forma de uma tupla indicando o tamanho de cada dimensão; matriz $n \times m$ possui shape $(n, m)$
   * array.size: o número total de elementos no *array*
   * array.dtype: o tipo dos elementos do *array*

### Criando *arrays*

A criação de um *array* pode ser feita usando listas ou tuplas, com o tipo dos dados sendo deduzido através dos tpos dos elementos da sequência. Uma lista de listas resultará em um *array* bidimensional, uma lista de listas de listas dará um *array* tridimensional e assim por diante. É possível especificar o tipo do *array* na hora da criação:

In [4]:
b = np.array(
    [
        [1., 0., 1.], 
        [0., 1., 2.]
    ],
    dtype=complex
)
print(b)

[[1.+0.j 0.+0.j 1.+0.j]
 [0.+0.j 1.+0.j 2.+0.j]]


Frequentemente é necessario criar *arrays* com um tamanho definido e valores iniciais que serão posteriormente modificados. Para isso, NumPy fornece diversas funções, incluindo a função *zeros*, que cria um *array* preenchido com zeros; *ones*, que cria um *array* preenchido com uns; *empty*, que cria um *array* cujo conteúdo inicial é aleatório e depende do estado da memória; e *eye*, que cria uma matriz identidade.

In [5]:
print(np.zeros((3, 4)))  # Note que as dimensões são passadas como uma tupla
print()
print(np.ones((3, 4)))
print()
print(np.empty((3, 4)))  # Saída pode variar
print()
print(np.eye(3, dtype=np.int32))  # Basta passar uma dimensão, pois a matriz será quadrada

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]

[[1 0 0]
 [0 1 0]
 [0 0 1]]


Para criar sequências de números, pode-se usar a função *arange*, que é análoga à função *range*, mas retorna *arrays* e aceita criar intervalos de pontos flutuantes.

In [6]:
print(np.arange(5, 20, 5))
print()
print(np.arange(0, 2, 0.4))

[ 5 10 15]

[0.  0.4 0.8 1.2 1.6]


Devido a possíveis problemas de arredondamento, não é sempre possível saber quantos elementos serão gerados pela função *arange* ao receber pontos flutuantes como parâmetros. Nesses casos, é melhor usar a função *linspace*, que recebe como argumentos o início, o fim (inclusivo) e o número de valores desejados no intervalo.

In [7]:
print(np.linspace(0, 1, 9))  # 9 números começando em 0 e terminando em 1

[0.    0.125 0.25  0.375 0.5   0.625 0.75  0.875 1.   ]


A função *linspace* é útil para avaliar funções em muitos pontos.

In [8]:
import matplotlib.pyplot as plt

x = np.linspace(0, 2 * np.pi, 100)
f = np.sin(x)

plt.plot(x, f)
plt.show()

<Figure size 640x480 with 1 Axes>

### Operações básicas

Operações aritméticas com *arrays* sempre são aplicadas elemento-a-elemento, criando um novo *array* como resultado:

In [9]:
a = np.array([10, 20, 30, 40])
print(a)
b = np.arange(4)
print(b)
print()

c = a - b
print(c)
print()

print(b ** 2)
print()

print(a < 25)
print()

print(a * b)

[10 20 30 40]
[0 1 2 3]

[10 19 28 37]

[0 1 4 9]

[ True  True False False]

[  0  20  60 120]


O operador '\*' multiplica os *arrays* através dos elementos. Para realizar a multiplicação de matrizes, pode-se usar o operador '@', a função *dot* do NumPy, ou o método *dot* do *array*:

In [10]:
A = np.array(
    [
        [1, 1],
        [0, 1]
    ]
)

B = np.array(
    [
        [2, 0],
        [0, 2]
    ]
)

print(A @ B)
print(np.dot(A, B))
print(A.dot(B))

[[2 2]
 [0 2]]
[[2 2]
 [0 2]]
[[2 2]
 [0 2]]


Algumas operações, como as de atribuição aritmética "+=" e "\*=", modificam o *array* diretamente, ao invés de criar outro com o resultado.

In [11]:
A = np.array(
    [
        [1, 1],
        [0, 1]
    ]
)

A += 1

print(A)

[[2 2]
 [1 2]]


Operações com *arrays* de tipos diferentes resultam em um *array* do tipo mais geral ou preciso (*upcasting*). Exemplo:

In [12]:
a = np.ones(3, dtype=int)
b = np.ones(3, dtype=float)

print((a + b).dtype)

float64


Muitas operações são computadas como métodos da classe *array*, por exemplo a soma de todos os elementos, a média ou o desvio-padrão:

In [13]:
a = np.random.random((5, 3))
print(a)
print(
    'Soma: {}, Média: {}, Desvio-padrão: {}'.format(
        a.sum(), a.mean(), a.std()
    )
)

[[0.98568836 0.80077108 0.1462651 ]
 [0.06303428 0.99853742 0.53075369]
 [0.255289   0.16000957 0.91127901]
 [0.84189027 0.06056232 0.62080762]
 [0.9433355  0.26335913 0.56801377]]
Soma: 8.149596125661022, Média: 0.5433064083774014, Desvio-padrão: 0.3454624877515235


Por padrão, essas operações são computadas sobre todos os elementos do *array*, independente das suas dimensões. No entanto, é possível especificar a dimensão desejada, usando o parâmetro *axis*, como mostra o código abaixo:

In [14]:
print(a.sum(axis=0)) # soma de cada coluna
print(a.mean(axis=1))  # média de cada linha  
print(a.cumsum(axis=0))  # soma acumulada de cada coluna

[3.08923741 2.28323953 2.77711919]
[0.64424151 0.53077513 0.44219253 0.50775341 0.59156947]
[[0.98568836 0.80077108 0.1462651 ]
 [1.04872264 1.7993085  0.67701879]
 [1.30401164 1.95931807 1.58829779]
 [2.14590191 2.01988039 2.20910542]
 [3.08923741 2.28323953 2.77711919]]


### Indexando e iterando sobre elementos

*Arrays* unidimensionais podem ser indexados, fatiados e iterados exatamente como listas e outras coleções.

In [16]:
a = np.arange(8) ** 2
print(a)
print()

print(a[2])
print()

print(a[2:5])
print()

a[:4:2] = -1000
print(a)
print()

print(a[ : :-1])
print()

for i in a:
    print(i * 2)

[ 0  1  4  9 16 25 36 49]

4

[ 4  9 16]

[-1000     1 -1000     9    16    25    36    49]

[   49    36    25    16     9 -1000     1 -1000]

-2000
2
-2000
18
32
50
72
98


*Arrays* multidimensionais podem receber um índice ou fatia por eixo, informados em uma tupla. Por exemplo:

In [18]:
b = np.random.random((5, 4))
print(b)
print()

print(b[2, 3])  # Elemento na terceira linha e quarta coluna
print()

print(b[:, 1])  # A segunda coluna inteira
print()

print(b[:4, 1])  # Do primeiro ao quarto elemento da segunda coluna      
print()

print(b[1:3, :])  # Todas as colunas da segunda à terceira linha              

[[0.41423251 0.3556371  0.42781765 0.7554641 ]
 [0.5707557  0.77237167 0.86258203 0.51908006]
 [0.71319899 0.20102344 0.99802802 0.6255533 ]
 [0.37952529 0.97534884 0.15708233 0.85141563]
 [0.97825692 0.04680751 0.89085038 0.57704229]]

0.6255533043403108

[0.3556371  0.77237167 0.20102344 0.97534884 0.04680751]

[0.3556371  0.77237167 0.20102344 0.97534884]

[[0.5707557  0.77237167 0.86258203 0.51908006]
 [0.71319899 0.20102344 0.99802802 0.6255533 ]]


Quando os índices forem fornecidos em uma tupla menor do que o número de eixos, os índices que não forem fornecidos são considerados fatias completas, i.e. ":". Os índices faltantes também podem ser representados por reticências. Exemplo:

In [21]:
print(b[-1])
print(b[-1, :])
print(b[-1, ...])

[0.97825692 0.04680751 0.89085038 0.57704229]
[0.97825692 0.04680751 0.89085038 0.57704229]
[0.97825692 0.04680751 0.89085038 0.57704229]


Iterações sobre *arrays* multidimensionais são feitas ao longo do primeiro eixo:

In [28]:
for row in b:
    print(row)

[0.41423251 0.3556371  0.42781765 0.7554641 ]
[0.5707557  0.77237167 0.86258203 0.51908006]
[0.71319899 0.20102344 0.99802802 0.6255533 ]
[0.37952529 0.97534884 0.15708233 0.85141563]
[0.97825692 0.04680751 0.89085038 0.57704229]
