# Introdução ao NumPy
NumPy é um package fundamental para a computação científica utilizando Python. Contém, entre outras coisas:
* um poderoso objeto de matriz N-dimensional
* funções sobre objectos do tipo matriz
* ferramentas para integrar C / C ++ e código Fortran
* álgebra linear, transformadas de Fourier e números aleatórios

NumPy também pode ser usado para armazenar dados multidimensionais de forma eficiente, o que permite uma integração simples e rápida com uma grande variedade de bases de dados.

### Arrays em Python
A forma usual de utilizar arrays em Python é através do usos de "[","]" em que os elementos aparecem separados por ",".

In [1]:
alturas = [1.73, 1.89, 2.03, 1.61, 1.57, 1.90, 1.73, 1.65, 1.59, 1.65, 1.71, 1.68]
alturas

[1.73, 1.89, 2.03, 1.61, 1.57, 1.9, 1.73, 1.65, 1.59, 1.65, 1.71, 1.68]

In [2]:
type(alturas)

list

In [3]:
pesos = [89, 79, 110, 60, 51, 88, 68, 67, 56, 65, 85, 67]
pesos

[89, 79, 110, 60, 51, 88, 68, 67, 56, 65, 85, 67]

### Importação do package numpy 
Para ser mais simples a designação do package na chamada de funções, iremos importá-lo atribuindo-lhe a designação np.

In [4]:
import numpy as np

### Class ndarray

A classe do package NumPy que implementa o objecto de matriz multidomensional é designada por **ndarray**, também conhecida pelo alias **array**.

Os principais atributos deste objecto são:
* **ndarray.ndim**: indica o número de  dimensões da matrix. 
* **ndarray.shape**: indica a dimensão do objecto. Retorna um tuplo em que cada elemento contém o tamanho de cada dimensão.
* **ndarray.size**: número de elementos do objecto
* **ndarray.dtype**: o tipo de dados. Além dos tipos standard do Python, o package disponibiliza tipos de dados próprios (numpy.int32, numpy.int16, numpy.float64, ...).
* **ndarray.itemsize**: tamanho em bytes de cada elemento do array.
* **ndarray.data**: contém os elementos do array. Normalmente, o acesso aos valores do array é feito por indexação.  

In [5]:
alturas_np = np.array(alturas)
alturas_np

array([1.73, 1.89, 2.03, 1.61, 1.57, 1.9 , 1.73, 1.65, 1.59, 1.65, 1.71,
       1.68])

Verifica o tipo de dados do objeto alturas_np.

In [6]:
type(alturas_np)

numpy.ndarray

Imprime os valores presentes em cada um dos atributos do objeto alturas_np.

In [7]:
print("ndim: ", alturas_np.ndim)
print("shape: ", alturas_np.shape)
print("size: ", alturas_np.size)
print("dtype: ", alturas_np.dtype)
print("itemsize: ", alturas_np.itemsize)

ndim:  1
shape:  (12,)
size:  12
dtype:  float64
itemsize:  8


### Criação de arrays
O array pode ser criado com base numa lista de valores, sendo o tipo de dados inferido com base nos valores que são passados.


In [8]:
print (np.array([1,2,3]).dtype)
print (np.array([1.1,2,3]).dtype)
print (np.array([1,2,3],complex))

int64
float64
[1.+0.j 2.+0.j 3.+0.j]


Existem funções disponíveis no package que permitem a criação de matrizes com valores especiais:
* **zeros**: todos os valores da matriz terão o valor 0.
* **ones**: todos os valores da matriz terão o valor 1.
* **empty**: valores iniciais aleatórios.
Por omissão as matrizes são criadas com o tipo de dados *float64*

In [9]:
print (np.zeros((3,4)))
print("-----------")
print (np.ones((3,4), int))


[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
-----------
[[1 1 1 1]
 [1 1 1 1]
 [1 1 1 1]]


Para criar sequências de números, o package fornece a função *arange*, semelhante à função *range* do Python mas em que o resultado é um array em vez de uma lista. Os parâmetros passados à função são: valor inicial, valor final e valor de incremento. Quando, em vez do valor incremental, queremos apenas indicar o número de valores entre o inicio e o fim, é mais aconselhado usar a função *linspace*. 
As sequências podem ser convertidas em arrays através da função *reshape*.

In [10]:
np.arange( 10, 30, 5 )

array([10, 15, 20, 25])

In [11]:
np.linspace(0,10,21)

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. ])

In [12]:
np.arange(24).reshape(2,3,4)

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

É ainda possível construir um array com base numa função através do uso da função *fromfunction*. No exemplo seguinte é construida uma matrix de dimensão 3x3 onde a diagnonal terá o valor booleano TRUE (uma vez que que são as únicas posições da matriz onde os índices de linha e coluna são iguais)

In [13]:
np.fromfunction(lambda i, j: i == j, (3, 3))

array([[ True, False, False],
       [False,  True, False],
       [False, False,  True]])

In [14]:
np.fromfunction(lambda i, j: i * j, (3, 3))

array([[0., 0., 0.],
       [0., 1., 2.],
       [0., 2., 4.]])

### Seleção e manipulação de valores
O acesso aos valores da matriz é efectuado através do indice de cada uma das dimensões. 
Por exemplo, numa matriz 3x4, para aceder ao 2º elemento da terceira linha faz-se mat[2,1] (os índices começam em 0).

Para selecionar intervalos podemos usar ":".

In [15]:
mat = np.random.random((3,4))
print(mat)
print("value:", mat[2,1]) 

[[0.88393399 0.06457687 0.64266283 0.54815621]
 [0.14767282 0.31325974 0.78489356 0.40069043]
 [0.19725471 0.76265175 0.19267586 0.05811325]]
value: 0.7626517471152987


In [16]:
mat[0:2,1:3]   #colunas 2,3 das linhas 1,2

array([[0.06457687, 0.64266283],
       [0.31325974, 0.78489356]])

In [17]:
v = np.arange(10) 
print(v)
v[:3] = -1
v

[0 1 2 3 4 5 6 7 8 9]


array([-1, -1, -1,  3,  4,  5,  6,  7,  8,  9])

Na seleção de elementos de um array, as reticências (**...**) são usadas para evitar a especificação de todos os elementos do tuplo de indexação. Por exemplo, se tivermos um array de dimensão 5, na seleção de elementos deveriamos indicar 5 indices para selecionar em cada dimensão. Com o uso de ... isso pode ser abreviado, conforme os exemplos seguintes demonstram.
```python
x[1,2,...] é equivalente a x[1,2,:,:,:]
x[...,3]  é equivalente a x[:,:,:,:,3] 
x[4,...,5,:]  é equivalente a x[4,:,:,5,:].
```


Outra forma de selecionar valores é através de expressões que retornem valores booleanos. No exemplo seguinte selecionamos todos os valores que sejam maiores que 0.5. O resultado será um array com todos os valores da matriz que respeitem a condição.

In [18]:
print(mat>0.5)
mat[mat>0.5]

[[ True False  True  True]
 [False False  True False]
 [False  True False False]]


array([0.88393399, 0.64266283, 0.54815621, 0.78489356, 0.76265175])

### Operações aritméticas sobre matrizes/vectores

Os operadores aritméticos são aplicados a cada um dos elementos da matriz, posição a posição. Se os arrays aos quais se aplicam operadores aritméticos tiverem dimensões distintas, o mais pequeno é usado múltiplas vezes. Se se tratar de um escalar ele é usado em todas as posições. 

O operador \* representa a multiplicação elemento a elemento de arrays. Para efectuar o produto de duas matrizes usa-se a função *dot*.

In [19]:
mat = np.arange(1,7).reshape(2,3)
vet = np.array([2,4,6])
val = 3

print("mat =", mat)
print("vet = ", vet)

mat = [[1 2 3]
 [4 5 6]]
vet =  [2 4 6]


In [20]:
print (mat-mat)
print ("------")
print (mat-vet)
print ("------")
print (mat*val)

[[0 0 0]
 [0 0 0]]
------
[[-1 -2 -3]
 [ 2  1  0]]
------
[[ 3  6  9]
 [12 15 18]]


In [21]:
mat2 = np.arange(2,8).reshape(3,2)
print(mat2)
print ("------")
print (mat*mat2.transpose())  #Nota: tem que se colocar a transposta para que as matrizes fiquem da mesma dimensão (multiplicação é feita elemento a elemento)
print ("------")
print (np.dot(mat,mat2))

[[2 3]
 [4 5]
 [6 7]]
------
[[ 2  8 18]
 [12 25 42]]
------
[[28 34]
 [64 79]]


### Funções 

O package NumPy contém um conjunto de funções matemáticas, como  **sin**, **cos**, **sqrt**, **exp**,..., que operam sobre cada um dos elementos do array, produzindo como resultado um array de iguais dimensões.

In [22]:
mat = np.linspace( 0, 20, 10 ).reshape(2,5)
print(mat)
np.exp(mat)

[[ 0.          2.22222222  4.44444444  6.66666667  8.88888889]
 [11.11111111 13.33333333 15.55555556 17.77777778 20.        ]]


array([[1.00000000e+00, 9.22781435e+00, 8.51525577e+01, 7.85771994e+02,
        7.25095809e+03],
       [6.69104951e+04, 6.17437627e+05, 5.69759980e+06, 5.25763932e+07,
        4.85165195e+08]])

Funções que podem ser aplicadas sobre uma matriz multidimensional, como por exemplo **sum**, **min**, **max**,**mean** **cumsum**,...,  estão implementadas ao nível da class *ndarray*.
Por omissão, estas funções são aplicadas como se a matriz fosse um vetor, ou seja à totalidade dos elementos independentemente da sua posição. 
Porém, é possível aplicar a uma determinada dimensão através da especificação do parâmetro *axis*.

In [23]:
print (mat.max())
print (mat.min())
print (mat.max(axis=0))  # calcula o máximo de cada uma das colunas
print (mat.max(axis=1))  # calcula o máximo de cada uma das linhas

20.0
0.0
[11.11111111 13.33333333 15.55555556 17.77777778 20.        ]
[ 8.88888889 20.        ]


Outras funções úteis:
* **ravel**: converte uma matriz multidimensional num array 1D.
* **floor**: converte cada um dos elementos x da matriz para o maior número inteiro i, onde i<= x.

In [24]:
a = np.array([[1.2,-0.3],[1.9,-2.4]])
print (np.ravel(a))
print ("-------")
print (np.floor(a))

[ 1.2 -0.3  1.9 -2.4]
-------
[[ 1. -1.]
 [ 1. -3.]]


### Stacking e Splicing 
O package NumPy fornece funções que tornam o processo de juntar matrizes, ou dividir uma matriz em matrizes mais pequenas, simples.
Para o efeito existem as funções:
* **vstack**: junta os arrays horizontalmente, isto é o número de colunas é aumentado (**column_stack** tem o mesmo comportamento, usado para arrays com 1 dimensão).
* **hstack**: junta os arrays verticalmente, isto é o número de linhas é aumentado.
* **concatenate**: adiciona os arrays segundo a dimensão (axis) dada pelo utilizador.
* **vsplit**: parte um array em sub-arrays de tamanho igual, mantendo o número de colunas. 
* **hsplit**: parte um array em sub-arrays de tamanho igual, mantendo o número de linhas. 
* **array_split**: divide o array segundo a dimensão (axis) dada pelo utilizador.

**Nota**: Se os arrays resultantes não tiverem o mesmo tamanho, a divisão terá de ser realizada por indicação do índice onde o "corte" deve ocorrer. Nas funções **hstack** e **vstack** as dimensões dos arrays devem ser iguais.

In [25]:
a = np.arange(6).reshape(2, 3)

b = np.arange(6,12).reshape(2, 3)
print (a)
print (b)


[[0 1 2]
 [3 4 5]]
[[ 6  7  8]
 [ 9 10 11]]


In [26]:
np.hstack((a,b))

array([[ 0,  1,  2,  6,  7,  8],
       [ 3,  4,  5,  9, 10, 11]])

In [27]:
np.vstack((a,b))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [28]:
np.vsplit(a,2)

[array([[0, 1, 2]]), array([[3, 4, 5]])]

In [29]:
np.hsplit(a, 2)   # não funciona porque os sub-arrays resultantes serão de tamanho diferente

ValueError: array split does not result in an equal division

### Cópia e Vista
Quando se manipulam arrays nem sempre o objeto é copiado para um novo objeto. Frequentemente podemos ter mais do que uma variável a apontar para o mesmo objeto.

In [30]:
a = np.arange(12).reshape(2,6)
a

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

In [31]:
b = a
b.shape=3,4
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

O método **view** cria um novo objeto to tipo array mas que olha para a mesma informação.

In [32]:
print (a is b)
c = a.view()
print (c is a)

True
False


In [33]:
c.shape = 2,6  
print(c)
print (a.shape)
print(a)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
(3, 4)
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [34]:
c[0,4] = 1234
c

array([[   0,    1,    2,    3, 1234,    5],
       [   6,    7,    8,    9,   10,   11]])

In [35]:
a

array([[   0,    1,    2,    3],
       [1234,    5,    6,    7],
       [   8,    9,   10,   11]])

Para criar uma copia de um objecto array, existe o método **copy** que permite manipular e alterar de forma independente os dois arrays (original e cópia)

In [36]:
d = a.copy()
d[0,0]=1000
d

array([[1000,    1,    2,    3],
       [1234,    5,    6,    7],
       [   8,    9,   10,   11]])

In [37]:
a

array([[   0,    1,    2,    3],
       [1234,    5,    6,    7],
       [   8,    9,   10,   11]])

### Algebra Linear - conceitos básicos
O package Numpy disponibiliza as principais funções de algebra linear disponíveis, nomeadamente:
* **transpose**: calcula a transporta de uma matriz;
* **linalg.det**: calcula o determinante de uma matriz;
* **linalg.inv**: calcula a inversa de uma matriz;
* **eye**/**identity**: retorna a matriz identidade;
* **linalg.solve**: resolve sistemas de equações lineares.

Como exemplo do uso de uma função do módulo *linalg*, resolve o sistema de equações lineares
```python
3 * x0 + x1 = 9 
x0 + 2 * x1 = 8
```

In [38]:
a = np.array([[3,1], [1,2]])
b = np.array([9,8])
x = np.linalg.solve(a, b)
x

array([2., 3.])

In [39]:
np.linalg.det(a)

5.000000000000001

In [40]:
np.linalg.inv(a)

array([[ 0.4, -0.2],
       [-0.2,  0.6]])

In [41]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [42]:
print(a)
np.eye(2).dot(a)

[[3 1]
 [1 2]]


array([[3., 1.],
       [1., 2.]])