<h2>Aula 004 - Numpy I</h2>

Numpy é uma biblioteca de alto poder computacional em python, que utiliza, na verdade, um motor em linguagem C. No numpy, trabalhar com matrizes é muito mais simples, além de ser computacionalmente favorecido.

A estrutura de dados aceita é apenas numérica, suportando apenas valores de mesmo tipo, sejam eles <i>int</i> ou <i>float</i>.

Alguns dos métodos para gerar um Array do numpy são:

Nota: ' representa um item opcional, ou seja, um item *args

- arange: gera uma distribuição de números inteiros em um dado intervalo
    - Possui 3 argumentos: número inicial, número final', espaçamento'
- linspace: gera uma distribuição de números float ou inteiros, em um dado intervalo, podendo-se especificar a quantidade de termos
    - Possui 3 argumentos: número inicial, número final, quantidade de termos

- zeros: gera um Array com zeros em todos os termos

- ones: gera um Array com 'uns' em todos os termos

- convertendo uma lista em array (conversão explícita)
    - ex: array1dim = np.array(\[1,2,3,4,5\])

In [3]:
# Demonstando a diferença de notação de um array para uma lista
import numpy as np
lista = [1,2,3,4,5]
arr1dim = np.array(lista)

print('Isso é uma Lista:',lista)
print('Isso é um array:',arr1dim)

Isso é uma Lista: [1, 2, 3, 4, 5]
Isso é um array: [1 2 3 4 5]


Percebe-se que, num array, não há a separação de termos usando vírgulas, o que denota o vetor espacial, propriamente dito. Faremos abaixo mais alguns experimentos:

In [4]:
arr1dim_zeros = np.zeros(5)
print('Array com todos os termos iguais a zero:',arr1dim_zeros)

arr1dim_um = np.ones(5)
print('Array com todos os termos iguais a um:',arr1dim_um)

arr1dim_numeros_inteiros = np.arange(1,5,2)
print('Array com números inteiros igualmente espaçados:',arr1dim_numeros_inteiros)

arr1dim_numeros_igualmente_espacados = np.linspace(1,2,5)
print('Array com números float, igualmente espaçados:',arr1dim_numeros_igualmente_espacados)

Array com todos os termos iguais a zero: [0. 0. 0. 0. 0.]
Array com todos os termos iguais a um: [1. 1. 1. 1. 1.]
Array com números inteiros igualmente espaçados: [1 3]
Array com números float, igualmente espaçados: [1.   1.25 1.5  1.75 2.  ]


Cada dimensão de um Array é chamada de eixo (axis), sendo que, geralmente, utiliza-se apenas duas dimensões:

- Vetores (1D)
- Matrizes (2D)

O acesso aos itens de um array é idêntico ao de listas, diferindo-se apenas quando se acessa as n-Dimensões do Array, que pode-se acessar usando-se apenas a notação \[dim1,dim2,dim3,...\]

Criar uma matriz é igualmente simples, podendo-se utilizar uma notação de lista de listas para representar os itens, como segue o exemplo a seguir

In [5]:
arr2dim = np.array([[11,2,3],[4,8,9],[5,78,21]])

print('Matriz de dimensões 3x3:\n',arr2dim)

Matriz de dimensões 3x3:
 [[11  2  3]
 [ 4  8  9]
 [ 5 78 21]]


Uma outra facilidade matemática é possuir um método *identity(n)*, que constrói uma matriz identidade de ordem 'n'. Lembrando que a matriz identidade é aquela onde todos os itens da diagonal principal (i==j) valem 1 e os demais valem 0.

In [6]:
arr2dim_identidade = np.identity(5)

print('Matriz identidade de ordem 5:',arr2dim_identidade)

Matriz identidade de ordem 5: [[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


Arrays do Numpy são objetos chamados ndarrays, que possuem diversos atributos:

- ndarray.dim: número de eixos (dimensões) de um Array
- ndarray.shape: formato do array, representado por uma tuple de inteiros, que indicam quantos elementos há no array em cada dimensão
- ndarray.size: número total de elementos do array
- ndarray.type: tipo dos elementos no array
- ndarray.itemsize: o tamanho, em bytes, de cada elemento do array
- ndarray.data: o buffer de memória contendo os elementos do array

Acessando elementos de um array

Primeiro método: Buscar uma linha inteira

- array\[i\]

In [7]:
print(arr2dim_identidade[0])

[1. 0. 0. 0. 0.]


Segundo método: Buscar o elemento completamente endereçado

- array\[i,j\]

No exemplo abaixo, buscamos o último elemento do array

In [8]:
print(arr2dim_identidade[-1,-1])

1.0


Há uma excelente funcionalidade de python chamada 'enumerate', que retorna um valor extra, expressando o enumeramento da iteração em questão. Segue um exemplo abaixo:

In [9]:
for i,r in enumerate(arr2dim_identidade):
    print('linha',i,'=',r)

linha 0 = [1. 0. 0. 0. 0.]
linha 1 = [0. 1. 0. 0. 0.]
linha 2 = [0. 0. 1. 0. 0.]
linha 3 = [0. 0. 0. 1. 0.]
linha 4 = [0. 0. 0. 0. 1.]


Podemos também efetuar o *enumerate* item a item:

In [10]:
for i,r in enumerate(arr2dim_identidade):
    for j,s in enumerate(r):
        print('item[{0},{1}]'.format(i,j),'=',s)
    print('\n')

item[0,0] = 1.0
item[0,1] = 0.0
item[0,2] = 0.0
item[0,3] = 0.0
item[0,4] = 0.0


item[1,0] = 0.0
item[1,1] = 1.0
item[1,2] = 0.0
item[1,3] = 0.0
item[1,4] = 0.0


item[2,0] = 0.0
item[2,1] = 0.0
item[2,2] = 1.0
item[2,3] = 0.0
item[2,4] = 0.0


item[3,0] = 0.0
item[3,1] = 0.0
item[3,2] = 0.0
item[3,3] = 1.0
item[3,4] = 0.0


item[4,0] = 0.0
item[4,1] = 0.0
item[4,2] = 0.0
item[4,3] = 0.0
item[4,4] = 1.0




Também pode-se acessar os elementos do array da forma tradicional, adotando a propriedade ndarray.shape:

In [11]:
for i in range(arr2dim_identidade.shape[0]):
    for j in range(arr2dim_identidade.shape[1]):
        print('item[{0},{1}]:'.format(i,j),arr2dim_identidade[i,j])
    
    print('\n')

item[0,0]: 1.0
item[0,1]: 0.0
item[0,2]: 0.0
item[0,3]: 0.0
item[0,4]: 0.0


item[1,0]: 0.0
item[1,1]: 1.0
item[1,2]: 0.0
item[1,3]: 0.0
item[1,4]: 0.0


item[2,0]: 0.0
item[2,1]: 0.0
item[2,2]: 1.0
item[2,3]: 0.0
item[2,4]: 0.0


item[3,0]: 0.0
item[3,1]: 0.0
item[3,2]: 0.0
item[3,3]: 1.0
item[3,4]: 0.0


item[4,0]: 0.0
item[4,1]: 0.0
item[4,2]: 0.0
item[4,3]: 0.0
item[4,4]: 1.0




Há um método (INACREDITÁVEL) que se chama **flat**, que dimensionaliza um array de n-dimensões em 1D:

In [12]:
for i in arr2dim_identidade.flat:
    print(i)

1.0
0.0
0.0
0.0
0.0
0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0


Dentro do numpy, pode-se também usar o *slicing*, de forma muito otimizada, é claro

In [13]:
arr2dim_mix = np.array([np.arange(0,3),np.arange(3,6), np.arange(6,9)])
print(arr2dim_mix)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


- Percorrer todos os elementos da coluna '0'

In [14]:
print(arr2dim_mix[:,0])

[0 3 6]


- Percorrer todos os elementos da linha '1'

In [15]:
print(arr2dim_mix[1,:])

[3 4 5]


- Percorrer os elementos A12, A13, A22 e A23

In [16]:
print(arr2dim_mix[1:3,1:3])

[[4 5]
 [7 8]]


- Percorrer os elementos A13 e A33, usando lista como argumento

In [17]:
print(arr2dim_mix[[0,2],2])

[2 8]


- Percorrer os elementos A11, A22 e A33
    - Aqui, vale ressaltar algo muito importante... Quando se utiliza duas listas como argumento de           acesso, temos que haverá a busca relativa à combinação dos elementos da lista 

In [18]:
print(arr2dim_mix[[0,1,2],[0,1,2]])

[0 4 8]


Outro exemplo, para ficar um pouco mais claro:

- Percorrer os elementos A11, A13 e A31

In [19]:
for i,r in enumerate(arr2dim_mix):
    print('Linha',i+1,'=',r)

print('A11, A13 e A31:',arr2dim_mix[[0,0,2],[0,2,0]])

Linha 1 = [0 1 2]
Linha 2 = [3 4 5]
Linha 3 = [6 7 8]
A11, A13 e A31: [0 2 6]


Quando se utiliza o slicing (:) na posição da coluna, o array possuirá, inevitavelmente, duas dimensões.

<h3>Algumas manipulações úteis com arrays</h>

- reshape: transforma um vetor em um array

In [20]:
x = np.arange(1,10)
a = x.reshape(3,3)

print('x:',x)
print('a:',a)

x: [1 2 3 4 5 6 7 8 9]
a: [[1 2 3]
 [4 5 6]
 [7 8 9]]


- ravel: gera um vetor view, ou seja, um vetor que replica o valor do array original, a partir de um array de n-dimensões.

Isso quer dizer que, em situações onde o array pode mudar, a nossa view também mudará, ou seja, demonstra uma visão em 1D do array original

In [21]:
b = a.ravel()

print(b)

[1 2 3 4 5 6 7 8 9]


In [22]:
a[0,0] = 5

print('a:',a)
print('b',b)

a: [[5 2 3]
 [4 5 6]
 [7 8 9]]
b [5 2 3 4 5 6 7 8 9]


- flatten: transforma um array de n-dimensões em um vetor comum, não atribuindo um endereçamento de memória ao array anterior

In [23]:
a[0,0] = 5
print('a:',a)
c = a.flatten()
print('c:',c,'\n')
a[0,0] = 1
print('a:',a)
print('c:',c)

a: [[5 2 3]
 [4 5 6]
 [7 8 9]]
c: [5 2 3 4 5 6 7 8 9] 

a: [[1 2 3]
 [4 5 6]
 [7 8 9]]
c: [5 2 3 4 5 6 7 8 9]


<h3>Transposta de uma Matriz</h3>

Novamente, Python me deixou de queixo caído...

Basta fazer B = A.T para se obter a transposta de A

In [24]:
A = np.arange(1,10).reshape(3,3)

B = A.T

print('Matriz A\n',A,'\n')
print('Matriz B\n',B)

Matriz A
 [[1 2 3]
 [4 5 6]
 [7 8 9]] 

Matriz B
 [[1 4 7]
 [2 5 8]
 [3 6 9]]


<h2>Máscaras Booleanas</h2>

Certo, eu já me apaixonei por Python tantas vezes que nem consigo explicar, mas, o golpe de misericórdia são as máscaras booleanas. 

O que é uma máscara booleana?

Trata-se de uma matriz onde se armazena os resultados de uma operação matemática, representados por valores booleanos

In [25]:
# gerando uma matriz 3x6, cujos itens são a disposição de valores de 0 a 17
Z = np.arange(18).reshape(3,6)

mascara_booleana = (Z>10)

print('Matriz Z\n',Z,'\n')
print('Máscara Booleana dos elementos de Z > 5\n',mascara_booleana)

Matriz Z
 [[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]] 

Máscara Booleana dos elementos de Z > 5
 [[False False False False False False]
 [False False False False False  True]
 [ True  True  True  True  True  True]]


Recuperando os elementos que atendem os critérios da máscara:

In [26]:
print('Elementos de Z > 5:',Z[mascara_booleana])

Elementos de Z > 5: [11 12 13 14 15 16 17]


Pode-se também executar operações dentro dos itens que atendem os critérios da máscara booleana:

In [27]:
Z[mascara_booleana] = 0
print('Modificação de valores nos itens que atendem Z > 5\n',Z)

Modificação de valores nos itens que atendem Z > 5
 [[ 0  1  2  3  4  5]
 [ 6  7  8  9 10  0]
 [ 0  0  0  0  0  0]]


Também podemos utilizar expressões diretas, sem a necessidade de usar a máscara booleana explícita.

Isso se dá por alguns comandos:

- where: define uma condição simples de máscara

- logical_and: define uma operação 'and' com dois argumentos

- logical_or: define uma operação 'or' com dois argumentos

In [61]:
A = np.random.randint(1,11,20).reshape(4,5)

Ac = np.copy(A)

A[np.where(A>5)] = -1

Ac[np.logical_and(A>1,A<5)] = -5

print('A:',A)
print('Ac:',Ac)

A: [[-1 -1 -1  3  3]
 [ 3  4  5  3  2]
 [-1 -1  5 -1 -1]
 [ 1 -1 -1  2 -1]]
Ac: [[ 6  6  9 -5 -5]
 [-5 -5  5 -5 -5]
 [ 8 10  5  6  9]
 [ 1  8  6 -5  7]]


Um fator preponderante do grande desempenho computacional do Numpy se dá ao fato de utilizar visualizações em formato de *views*, que favorecem computacionalmente o sistema.

Esse item é resultado do uso de endereçamento por memória das variáveis, ao invés de criar cópias, ou seja, alocar um vetor.

Quando trabalhamos com *slicing*, temos um endereçamento de memória, ou seja, alterações no array original irão refletir automaticamente no objeto fruto do slicing

In [29]:
arrX = np.random.randint(0,10,15).reshape(3,5)

arrY = arrX[1:,1:4]

print('arrX\n',arrX)
print('arrY\n',arrY)

arrX
 [[8 5 5 3 4]
 [9 7 3 2 8]
 [4 8 4 7 2]]
arrY
 [[7 3 2]
 [8 4 7]]


In [30]:
arrX[1,2] = -5

print('arrX\n',arrX)
print('arrY\n',arrY)

arrX
 [[ 8  5  5  3  4]
 [ 9  7 -5  2  8]
 [ 4  8  4  7  2]]
arrY
 [[ 7 -5  2]
 [ 8  4  7]]


Para efetuar uma cópia, ao invés de uma view, deve-se usar o método 'copy'

In [31]:
arrX = np.random.randint(0,10,15).reshape(3,5)
arrY = arrX[1:,1:4]

arrX[1,2] = -5

arrY_copia = np.copy(arrY)

arrX[1,2] = -10

print('arrX\n',arrX)
print('arrY\n',arrY)
print('arrY_copia\n',arrY_copia)

arrX
 [[  5   4   7   5   7]
 [  4   8 -10   5   2]
 [  1   8   9   7   3]]
arrY
 [[  8 -10   5]
 [  8   9   7]]
arrY_copia
 [[ 8 -5  5]
 [ 8  9  7]]


<h3>IO com o Numpy</h3>

Nota: ' significa um item opcional

- np.savetxt(nome_arquivo,dados_a_salvar,fmt=formato_dados')
- np.loadtxt(nome_arquivo,dtype=tipo_dados')

In [32]:
arrTesteSalvar = np.random.randint(1,11,15).reshape(3,5)

# Aqui, forçamos o arquivo a ser salvo em formato int
np.savetxt('arquivo_teste.txt',arrTesteSalvar,fmt="%d")

print(arrTesteSalvar)

[[ 8  8 10  1  4]
 [ 2  9  9  4  9]
 [ 2  4  5  4  1]]


Agora que salvamos o arquivo, vamos abrí-lo

In [33]:
arrTesteAbrir = np.loadtxt('arquivo_teste.txt')
arrTesteAbrirFormatado = np.loadtxt('arquivo_teste.txt',dtype=int)

print('Arquivo aberto sem especificar o tipo de dados\n',arrTesteAbrir,'\n')
print('Arquivo aberto especificando o tipo de dados\n',arrTesteAbrirFormatado)

Arquivo aberto sem especificar o tipo de dados
 [[ 8.  8. 10.  1.  4.]
 [ 2.  9.  9.  4.  9.]
 [ 2.  4.  5.  4.  1.]] 

Arquivo aberto especificando o tipo de dados
 [[ 8  8 10  1  4]
 [ 2  9  9  4  9]
 [ 2  4  5  4  1]]
