# Biblioteca NumPy

Este tutorial é sobre a utilização da biblioteca NumPy, uma biblioteca utilizada para trabalhar com **matrizes**, criada para ser utilizada em computação científica.

O primeiro passo para trabalhar com uma biblioteca no Python é importá-la com a utilização do comando import.

In [2]:
import numpy as np

In [4]:
a = np.array([1, 2, 3])   # Cria uma atriz com três elementos
print(type(a))            # Imprime "<class 'numpy.ndarray'>"
print(a.shape)            # Imprime o formato da matriz "(3,)"
print(a[0], a[1], a[2])   # Imprime "1 2 3"
a[0] = 5                  # Altera o valor de um elemento da matriz
print(a)                  # Imprime "[5, 2, 3]"

b = np.array([[1,2,3],[4,5,6]])    # Cria uma matriz bidimensional
print(b.shape)                     # Imprime o formato da matriz "(2, 3)"
print(b[0, 0], b[0, 1], b[1, 0])   # Imprime "1 2 4"

<class 'numpy.ndarray'>
(3,)
1 2 3
[5 2 3]
(2, 3)
1 2 4


## Tipos de dados

No numpy todos os elementos de uma matriz são de um determinado tipo de dados.

In [22]:
import numpy as np

x = np.array([1, 2])   
print(x.dtype)         
x = np.array([1.0, 2.0])   
print(x.dtype)             
x = np.array([1, 2], dtype=np.int64)   
print(x.dtype)                         

int32
float64
int64


## Criação de matrizes
A bilioteca NumPy fornece muitas formas diferentes para criar matrizes.

In [9]:
import numpy as np

a = np.zeros((2,2))   # Matriz 2x2 de zeros
print("Matriz a: ")
print(a)
b = np.ones((1,2))    # Matriz 1x2 de uns
print("Matriz b: ")
print(b)              
c = np.full((2,2), 7)  # Cria uma matriz cujos valores são a contante 7
print("Matriz c: ")
print(c)               
d = np.eye(2)         # Cria uma matriz identidade 2x2
print("Matriz d: ")
print(d)              
e = np.random.random((2,2))  # Cria uma matriz 2x2 com valores aleatórios
print("Matriz e: ")
print(e)                     

Matriz a: 
[[0. 0.]
 [0. 0.]]
Matriz b: 
[[1. 1.]]
Matriz c: 
[[7 7]
 [7 7]]
Matriz d: 
[[1. 0.]
 [0. 1.]]
Matriz e: 
[[0.57849269 0.17514776]
 [0.56880274 0.71210545]]


## Slicing de matrizes

Também permite o slicing, visto no tutorial "Introdução ao Python"

In [10]:
import numpy as np
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
b = a[:2, 1:3]
print(a)
print(b)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[2 3]
 [6 7]]


In [13]:
import numpy as np
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

l1_d1 = a[1, :]    # Retira a segunda linha para uma matriz unidimensional
l1_d2 = a[1:2, :]  # Retira a segunda linha para uma matriz bidimensional
print(l1_d1, l1_d1.shape)  # Imprime os valores da segunda linha e respetivo formato
print(l1_d2, l1_d2.shape)  # Imprime os valores da segunda linha e respetivo formato

c1_d1 = a[:, 1]
c1_d2 = a[:, 1:2]
print(c1_d1, c1_d1.shape)
print(c1_d2, c1_d2.shape)  

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


## Indexação de matrizes

A biblioteca NumPy permite selecionar elementos de uma matriz tendo por base outras matrizes e expressões booleanas.

In [17]:
#Indexação de matrizes utilizando outras matrizes
import numpy as np
a = np.array([[1,2], [3, 4], [5, 6]])
#Indexação utilizando uma matriz de posições a mostrar
print(a[[0, 1, 2], [0, 1, 0]])
#O exemplo acima pode ser conseguido através de 
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))
#Ao utilizar uma matriz de elementos inteiros para indexação podemos reutilizar elementos
print(a[[0, 0], [1, 1]])
#O exemplo acima com outra notação
print(np.array([a[0, 1], a[0, 1]]))


[1 4 5]
[1 4 5]
[2 2]
[2 2]


In [18]:
#Alterar os elementos de posições da matriz
import numpy as np
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)
b = np.array([0, 2, 0, 1])
# Selecionar um elemento de cada linha utilizando os indices em b
print(a[np.arange(4), b])
# Alterar um elemento de cada linha utilizando os indicies em b
a[np.arange(4), b] += 10
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[ 1  6  7 11]
[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


In [20]:
#Indexação de matrizes utilizando expressões booleanas
#Utilizado para selecionar os lementos de uma matriz que 
#satisfaçam uma determinada condição
import numpy as np
a = np.array([[1,2], [3, 4], [5, 6]])
bool_idx = (a > 2)
print(bool_idx)
print(a[bool_idx])
print(a[a > 2])

[[False False]
 [ True  True]
 [ True  True]]
[3 4 5 6]
[3 4 5 6]


## Aritmética de matrizes

De seguida aprentam-se algumas operações aritméticas para  a manipulação dos elementos de uma matriz.

In [19]:
#Operacoes ao nível dos elementos das matrizes
import numpy as np

a = np.array([[1,2],[3,4]], dtype=np.float64)
b = np.array([[5,6],[7,8]], dtype=np.float64)

print("Soma dos elementos de x com y")
print(a + b)
print(np.add(a, b))
print("Diferenca dos elementos de x com y")
print(a - b)
print(np.subtract(a, b))
print("Multiplicacao dos elementos de x com y")
print(a * b)
print(np.multiply(a, b))
print("Divisao dos elementos de x por y")
print(a / b)
print(np.divide(a, b))
print("Raiz quadrada dos elementos de x")
print(np.sqrt(a))


Soma dos elementos de x com y
[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]
Diferenca dos elementos de x com y
[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]
Multiplicacao dos elementos de x com y
[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]
Divisao dos elementos de x por y
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
Raiz quadrada dos elementos de x
[[1.         1.41421356]
 [1.73205081 2.        ]]


In [24]:
#Operacoes ao nível das matrizes

import numpy as np

x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

print("Produto das matrizes v com w")
print(v.dot(w))
print(np.dot(v, w))

print("Produto das matrizes x com v")
print(x.dot(v))
print(np.dot(x, v))

print("Produto das matrizes x com y")
print(x.dot(y))
print(np.dot(x, y))


Produto das matrizes v com w
219
219
Produto das matrizes x com v
[29 67]
[29 67]
Produto das matrizes x com y
[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


## Soma de elementos da matriz

In [1]:
import numpy as np

a = np.array([[1,2],[3,4]])
print('Matriz a:')
print(a)
print("Soma todos os elementos de x")
print(np.sum(a))
print("Soma todos os elementos das colunas de x")
print(np.sum(a, axis=0))  
print("Soma todos os elementos das linhas de x")
print(np.sum(a, axis=1))

Soma todos os elementos de x
10
Soma todos os elementos das colunas de x
[4 6]
Soma todos os elementos das linhas de x
[3 7]


## Ordenação de elementos da matriz

In [23]:
a = np.array([[4, 3, 5], [1, 2, 1]])
print("Matriz a:")
print(a)
print("Ordenar os elementos das linhas:")
b = np.sort(a, axis=1)
print(b)

Matriz a:
[[4 3 5]
 [1 2 1]]
Ordenar os elementos das linhas:
[[3 4 5]
 [1 1 2]]


## Broadcasting

Mecanismo que permite ao NumPy trabalhar com matrizes de diferentes dimensões.

No exemplo seguinte mostra-se como adicionar os valores de uma nova coluna a uma matriz, da forma tradicional e utilizando o mecanismo de broadcasting.

In [22]:
import numpy as np

# Adicionar o vetor v`a cada linha da matriz x guardando na matriz y 
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])

print("Metodo 1:")
b = np.empty_like(a)
# Adicionar cada vetor v à matriz y
for i in range(4):
    b[i, :] = a[i, :] + v
print(b)

print("Metodo 2:")
b = a + v 
print(b)


Metodo 1:
[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]
Metodo 2:
[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


## Alterar o formato das matrizes

A bilbioteca NumPy permite alterar o formato das matrizes.

Para isso possui os seguintes métodos:
* transpose, que apresenta a matriz transposta
* ravel, que transforma uma matriz numa lista de elementos
* reshape, que dá a forma da matriz desejada a uma lista de elementos
* newaxis, que permite adicionar uma nova dimensão à matriz
* resize, que permite adicionar elementos à matriz

Exemplos:

In [25]:
import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6]])
print('Matriz a:')
print(a)
print(a.shape)
print('Matriz a transposta:')
print(np.transpose(a))
print('Elementos da matriz transformados numa lista:')
print(a.ravel())
print('Matriz b:')
b = a.reshape((3, 2))
print(b)
print(b.shape)
print(b.ravel())
print('Redimensionar uma matriz:') 
c = np.array([[1, 2, 3], [4, 5, 6]])
c.resize((5,2))
print(c)
#Não se pode redimensionar uma matriz que tenha já sido refernciada anteriormente
print('Adicionar uma dimensão a uma matriz:')
d = np.arange(4)
print(d)
d[:,np.newaxis]
print(d)


Matriz a:
[[1 2 3]
 [4 5 6]]
(2, 3)
Matriz a transposta:
[[1 4]
 [2 5]
 [3 6]]
Elementos da matriz transformados numa lista:
[1 2 3 4 5 6]
Matriz b:
[[1 2]
 [3 4]
 [5 6]]
(3, 2)
[1 2 3 4 5 6]
Redimensionar uma matriz:
[[1 2]
 [3 4]
 [5 6]
 [0 0]
 [0 0]]
Adicionar uma dimensão a uma matriz:
[0 1 2 3]
[0 1 2 3]


## Leitura e escrita de ficheiros

A leitura e escrita de ficheiros na biblioteca NumPy faz-se recorrendo aos métodos:
* loadtxt(fname[, dtype, comments, delimiter, ...])
* savetxt(fname, X[, fmt, delimiter, newline, ...])
* genfromtxt(fname[, dtype, comments, ...])
* fromregex(file, regexp, dtype)
* fromstring(string[, dtype, count, sep])
* ndarray.tofile(fid[, sep, format])
* ndarray.tolist()

De seguida apresentam-se dois exemplos:
* o primeiro le um ficheiro csv para um array, divide os elementos por 2 e grava num novo ficheiro.
* o segundo le um ficheiro csv para um array, mas com a especificação do tipo de dados (inteiros)


In [1]:
import numpy as np
#Exemplo 1
print('Exemplo 1:')
a = np.genfromtxt('pytrigo-numpy-csv1.csv', delimiter=',')
print('Matriz a:')
print(a)
b = a*2
print('Matriz a/2:')
print(b)
np.savetxt('pytrigo-numpy-csv2.csv', b, delimiter=',')
print('Exemplo 2:')
a = np.genfromtxt('pytrigo-numpy-csv1.csv', delimiter=',',dtype=int)
print('Matriz a (inteiros):')
print(a)
# Existem mais opcoes para a leitura / escrita de dados
# A funcao genfromtxt tambem permite indicar o tratamento a dar aos missing values

Exemplo 1:
Matriz a:
[[ 1.  2.  3.  4.  5.]
 [ 6.  7.  8.  9. 10.]
 [11. 12. 13. 14. 15.]
 [16. 17. 18. 19. 20.]]
Matriz a/2:
[[ 2.  4.  6.  8. 10.]
 [12. 14. 16. 18. 20.]
 [22. 24. 26. 28. 30.]
 [32. 34. 36. 38. 40.]]
Exemplo 2:
Matriz a (inteiros):
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]]


### Velocidade de execução: Python vs NumPy

De seguida apresenta-se o tempo de execução de um código para fazer o cálculo da distância entre todas as linhas da matriz, retirado de 
http://nbviewer.jupyter.org/github/ogrisel/notebooks/blob/master/Numba%20Parakeet%20Cython.ipynb.

No seguinte link - http://arogozhnikov.github.io/2015/01/06/benchmarks-of-speed-numpy-vs-all.html - poderá obter mais informação sobre outras bibliotecas, criadas com o bjetivo de serem mais eficientes que a biblioteca NumPy, como a Numba ou a Cython.  

In [50]:
import numpy as np
from timeit import timeit

X = np.random.random((1000 ,3))
#X_wide = np.random.random((1000, 100))

#Python
def pairwise_python(X):
    M = X.shape[0]
    N = X.shape[1]
    D = np.empty((M, M), dtype=np.float)
    for i in range(M):
        for j in range(M):
            d = 0.0
            for k in range(N):
                tmp = X[i, k] - X[j, k]
                d += tmp * tmp
            D[i, j] = np.sqrt(d)
    return D
%timeit pairwise_python(X)

#NumPy
def pairwise_numpy(X):
    return np.sqrt(((X[:, None, :] - X) ** 2).sum(-1))
%timeit pairwise_numpy(X)

print('A segunda implementação recorrendo à biblioteca NumPy é 500x mais rápida!')

3.31 s ± 64.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
57 ms ± 1.28 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
A segunda implementação recorrendo à biblioteca NumPy é 500x mais rápida!


### Exercícios sobre numpy
1. Crie um vetor com 10 elementos todos a 0
2. Crie uma matriz de zeros com a dimensão de 2X5
3. Crie um vetor de 10 elementos com valores entre 10 e 49
4. Crie uma matriz 2X5 com valores entre 10 e 19
5. Crie uma matriz identidade com a dimensão 5x5
6. Gere uma matriz 5x5 com valores aleatorios
7. Normalize os valores de uma matriz 5x5
8. Crie um vetor com 10 elementos aleatórios e ordene-o.
9. Descubra a posicao num vetor do elemento com o valor mais próximo de um valor gerado aleatoriamente. 

In [51]:
import numpy as np
#Solucao 1
print("Solucao 1:")
v = np.zeros(10)
print(v)
#Solucao 2
print("Solucao 2:")
m = np.zeros(shape=(2,5))
print(m)
#Solucao 3
print("Solucao 3:")
v = np.arange(10,50)
print(v)
#Solucao 4
print("Solucao 4:")
m = np.arange(10,20).reshape(2,5)
print(m)
#Solucao 5
print("Solucao 5:")
m = np.eye(5)
print(m)
#Solucao 6
print("Solucao 6:")
m = np.random.random((5,5))
print(m)
#Solucao 7
print("Solucao 7:")
m = np.random.random((5,5))
mmax, mmin = m.max(), m.min()
m = (m - mmin)/(mmax - mmin)
print(m)
#Solucao 8
print('Solucao 8:')
m = np.random.random(10)
m.sort()
print(m)
#Solucao 9
print('Solucao 9:')
m = np.arange(100)
valor = np.random.uniform(0,100)
indice = (np.abs(m-valor)).argmin()
print(m)
print(valor)
print('Posicao: ', indice,' Valor: ', m[indice])

Solucao 1:
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
Solucao 2:
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]
Solucao 3:
[10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49]
Solucao 4:
[[10 11 12 13 14]
 [15 16 17 18 19]]
Solucao 5:
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]
Solucao 6:
[[0.57753741 0.70173018 0.49110646 0.70828796 0.41696769]
 [0.79180209 0.22218492 0.05493148 0.58821771 0.48874327]
 [0.3810542  0.86757173 0.86517114 0.46342595 0.08469246]
 [0.24639119 0.95787779 0.42031302 0.55379964 0.51500967]
 [0.66128331 0.71256974 0.49066012 0.10790001 0.42646875]]
Solucao 7:
[[0.08468925 0.65726423 0.31952716 0.05184643 0.23976443]
 [0.23513671 1.         0.         0.92682388 0.40858854]
 [0.68576145 0.78434402 0.95991702 0.67189783 0.97566371]
 [0.46148296 0.54181284 0.77840707 0.21433191 0.27234732]
 [0.09031278 0.04374324 0.53719471 0.45996535 0.22280654]]
Solucao 8:
[0.0161356

Mais exercícios disponíveis em: http://www.labri.fr/perso/nrougier/teaching/numpy.100/