# Aula 11 (21/11/2019)

## Arrays com Numpy (continuação)

In [2]:
import numpy as np

Algumas operações, como as de atribuição aritmética "+=" e "\*=", modificam o *array* diretamente, ao invés de criar outro com o resultado.

In [3]:
A = np.array(
    [
        [1, 1],
        [0, 1]
    ]
)

A += 1

print(A)

[[2 2]
 [1 2]]


Operações com *arrays* de tipos diferentes resultam em um *array* do tipo mais geral ou representativo (upcasting). Exemplo:

In [4]:
# Matriz de inteiros:
a = np.ones(3, dtype = int)

# Matriz de números reais:
b = np.ones(3, dtype = float)

# Qual é o tipo da soma delas?
print((a + b).dtype)

float64


Muitas operações são computadas como métodos da classe *array*, por exemplo a soma de todos os elementos, a média ou o desvio-padrão:

In [5]:
a = np.random.random((5, 3))
print(a)
print(
    'Soma: {}, Média: {}, Desvio-padrão: {}'.format(
        a.sum(), a.mean(), a.std()
    )
)

[[0.38761039 0.6797707  0.85575878]
 [0.59597788 0.06777927 0.69090331]
 [0.23905936 0.15007502 0.21904378]
 [0.63642479 0.87636146 0.87951957]
 [0.0827863  0.92791051 0.92691885]]
Soma: 8.215899963071335, Média: 0.5477266642047557, Desvio-padrão: 0.3144327561824539


Por padrão, essas operações são computadas sobre todos os elementos do *array*, independente das suas dimensões. No entanto, é possível especificar a dimensão desejada, usando o parâmetro *axis* (eixo), como mostra o código abaixo:

In [6]:
print(a.sum(axis = 0)) # soma de cada coluna
print(a.mean(axis = 1))  # média de cada linha  
print(a.cumsum(axis = 0))  # soma acumulada de cada coluna

[1.94185872 2.70189696 3.57214429]
[0.64104662 0.45155349 0.20272605 0.79743527 0.64587189]
[[0.38761039 0.6797707  0.85575878]
 [0.98358827 0.74754997 1.54666209]
 [1.22264762 0.89762499 1.76570587]
 [1.85907241 1.77398645 2.64522544]
 [1.94185872 2.70189696 3.57214429]]


**Broadcasting**

Mesmo se tenta trabalhar com *arrays* de dimensões incompatíveis, o Python pode realizar operação, "propagando" a dimensão da maior para a menor

In [8]:
# Matriz 2x2:
A = np.array([
    [2,1],
    [3,1]
])

# Matriz 2x1
B = np.array([
    [1],
    [3]
])

# Encontramos erro ao multiplicá-las termo a termo?
A * B

array([[2, 1],
       [9, 3]])

**Não**, pois Pyhton "propaga" a dimensionalidade 2x2 de A para B. Para a execução, é o mesmo que fazer:

In [9]:
A = np.array([
    [2,1],
    [3,1]
])

B = np.array([
    [1, 1],
    [3, 3]
])

A * B

array([[2, 1],
       [9, 3]])

**Indexando e iterando sobre elementos**

*Arrays* unidimensionais podem ser indexados, fatiados e iterados exatamente como listas e outras coleções.

In [10]:
# Array com os números
a = np.arange(8) ** 2
print(a)
print()

# Acessando o terceiro elemento de a
print(a[2])
print()

# Elementos nas posições 2 a 4 (terceiro ao quinto)
print(a[2:5])
print()

# Para as posições 0 a 3, com passo 2, (ou seja, 0 e 2) inserir o valor -1000
a[:4:2] = -1000
print(a)
print()

# Exibir a na ordem inversa:
print(a[ : :-1])
print()

# Percorrer os elementos de a:
for i in a:
    print(i * 2)

[ 0  1  4  9 16 25 36 49]

4

[ 4  9 16]

[-1000     1 -1000     9    16    25    36    49]

[   49    36    25    16     9 -1000     1 -1000]

-2000
2
-2000
18
32
50
72
98


*Arrays* multidimensionais podem receber um índice ou fatia por eixo, informados em uma tupla. Por exemplo:

In [11]:
b = np.random.random((5, 4))
print(b)
print()

print(b[2, 3])  # Elemento na terceira linha e quarta coluna
print()

print(b[:, 1])  # A segunda coluna inteira
print()

print(b[:4, 1])  # Do primeiro ao quarto elemento da segunda coluna      
print()

print(b[1:3, :])  # Todas as colunas da segunda à terceira linha

[[0.70082254 0.01077524 0.27638707 0.64422442]
 [0.28145342 0.88370315 0.76200314 0.64197561]
 [0.94728702 0.98024712 0.80244112 0.47702276]
 [0.37572344 0.86336526 0.5270555  0.95968587]
 [0.33921073 0.31877366 0.71823689 0.0433498 ]]

0.47702276395809706

[0.01077524 0.88370315 0.98024712 0.86336526 0.31877366]

[0.01077524 0.88370315 0.98024712 0.86336526]

[[0.28145342 0.88370315 0.76200314 0.64197561]
 [0.94728702 0.98024712 0.80244112 0.47702276]]


Quando os índices forem fornecidos em uma tupla menor do que o número de eixos, os índices que não forem fornecidos são considerados fatias completas, i.e. ":". Os índices faltantes também podem ser representados por reticências. Exemplo:

In [12]:
# Todos os elementos da última linha:

print(b[-1])
print(b[-1, :])
print(b[-1, ...])

[0.33921073 0.31877366 0.71823689 0.0433498 ]
[0.33921073 0.31877366 0.71823689 0.0433498 ]
[0.33921073 0.31877366 0.71823689 0.0433498 ]


NumPy oferece mais formas de indexar os seus *arrays*, usando listas ou *arrays* de inteiros ou booleanos. Quando o *array* b é multidimensional, a indexação usando uma única lista de índices se refere à primeira dimensão de b.

In [13]:
print(b)
print()

print(b[[1, 4]])  # Segunda e quinta linhas da matriz b, equivale a b[[1, 4], :]
print()

print(b[:, [1, 2]])  # Segunda e terceira colunas da matriz b
print()

print(b[[1, 4], [1, 2]])  # Indexação pareada, equivale a [b[1,1], b[4, 2]]
print()

i = [
    [1, 1],
    [4, 4]
]
j = [
    [1, 2],
    [1, 2]
]

print(b[i, j])  # Indexação pareada, segunda e terceira colunas da segunda e quinta linhas
print()


print(b[
    [[1], [4]],  # Equivale a b[i, j], note que o array
    [1, 2]       # de índices do primeiro eixo é bidimensional
])
print()

b[i, j] = 0  # As posições indexadas podem receber valores
print(b)

[[0.70082254 0.01077524 0.27638707 0.64422442]
 [0.28145342 0.88370315 0.76200314 0.64197561]
 [0.94728702 0.98024712 0.80244112 0.47702276]
 [0.37572344 0.86336526 0.5270555  0.95968587]
 [0.33921073 0.31877366 0.71823689 0.0433498 ]]

[[0.28145342 0.88370315 0.76200314 0.64197561]
 [0.33921073 0.31877366 0.71823689 0.0433498 ]]

[[0.01077524 0.27638707]
 [0.88370315 0.76200314]
 [0.98024712 0.80244112]
 [0.86336526 0.5270555 ]
 [0.31877366 0.71823689]]

[0.88370315 0.71823689]

[[0.88370315 0.76200314]
 [0.31877366 0.71823689]]

[[0.88370315 0.76200314]
 [0.31877366 0.71823689]]

[[0.70082254 0.01077524 0.27638707 0.64422442]
 [0.28145342 0.         0.         0.64197561]
 [0.94728702 0.98024712 0.80244112 0.47702276]
 [0.37572344 0.86336526 0.5270555  0.95968587]
 [0.33921073 0.         0.         0.0433498 ]]


Para indexar *arrays* usando *arrays* ou listas de booleanos, pode-se usar um *array* com exatamente a mesma quantidade de elementos que o *array* indexado. Isso pode ser muito útil para fazer atribuições. Exemplo:

In [14]:
# 'a' recebe valores lógicos correspondentes a quais elementos de
# 'b' são menores que 0.5 e quais não são:
a = b < 0.5

# Visualmente:
print(a)
print()

# Filtrando 'b' usando 'a':
print(b[a])
print()

# Atribuição a valores de 'b' usando o filtro 'a':
b[a] = 0
print(b)

[[False  True  True False]
 [ True  True  True False]
 [False False False  True]
 [ True False False False]
 [ True  True  True  True]]

[0.01077524 0.27638707 0.28145342 0.         0.         0.47702276
 0.37572344 0.33921073 0.         0.         0.0433498 ]

[[0.70082254 0.         0.         0.64422442]
 [0.         0.         0.         0.64197561]
 [0.94728702 0.98024712 0.80244112 0.        ]
 [0.         0.86336526 0.5270555  0.95968587]
 [0.         0.         0.         0.        ]]


Também é possível indexar cada dimensão usando *arrays* unidimensionais de booleanos com o mesmo tamanho da dimensão indexada:

In [15]:
b1 = np.array([True, False, True, False, False])
b2 = np.array([True, True, False, False])

print(b[b1])  # Equivale a b[b1, :]
print()

print(b[:, b2])
print()

print(b[b1,b2])
print()

[[0.70082254 0.         0.         0.64422442]
 [0.94728702 0.98024712 0.80244112 0.        ]]

[[0.70082254 0.        ]
 [0.         0.        ]
 [0.94728702 0.98024712]
 [0.         0.86336526]
 [0.         0.        ]]

[0.70082254 0.98024712]



Iterações sobre *arrays* multidimensionais são feitas ao longo do primeiro eixo:

In [16]:
# Exibe todos os valores de cada linha de 'b':
for row in b:
    print(row)

[0.70082254 0.         0.         0.64422442]
[0.         0.         0.         0.64197561]
[0.94728702 0.98024712 0.80244112 0.        ]
[0.         0.86336526 0.5270555  0.95968587]
[0. 0. 0. 0.]


**Redimensionando arrays**    
Como vimos acima, o tamanho das dimensões do *array* pode ser obtido por meio do atributo *shape*:

In [17]:
a = np.arange(12)
print(a)
print(a.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
(12,)


No entanto, a forma do *array* não é fixa e pode ser modificada de diversas formas, retornando um novo *array* com os mesmos elementos do *array* original, mas reposicionados para se adequar à nova forma.

In [19]:
c = a.reshape(4, 3)
print(c)
print()

print(c.ravel())  # retorna o array "achatado" 
print()

print(c.T)  # retorna o array transposto
print()

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]

[ 0  1  2  3  4  5  6  7  8  9 10 11]

[[ 0  3  6  9]
 [ 1  4  7 10]
 [ 2  5  8 11]]



A função *reshape* retorna um novo *array*. Para modificar o próprio *array*, pode-se usar a função *resize*:

In [20]:
a.resize(4, 3)
print(a)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


Se alguma dimensão receber o valor -1 para uma operação de redimensionamento, o seu novo tamanho será automaticamente calculado. Por exemplo, se quisermos que a tenha 2 linhas e o número necessário de colunas, podemos fazer:

In [21]:
a.reshape(2, -1)

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11]])

Se tentarmos tranpor um *array* unidimensional usando o atributo T, ele continuará sendo unidimensional. Portanto, para realizar a transposição, podemos usar o método *reshape*, com -1 no número de linhas, gerando um vetor coluna com o número necessário de linhas:

In [22]:
a = np.arange(12)
print(a)
print(a.T) # Transposição usando '.T' não altera arrays unidimensionais
print(a.reshape(-1, 1))

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]]


Outra forma de transpor um *array* unidimensional para obter um vetor coluna é usando o atalho de NumPy para criar novos eixos:

In [28]:
a_nd = a[:, np.newaxis]

print(np.shape(a_nd))

a_nd

(12, 1)


array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11]])

**Concatenando arrays**    
As funções *vstack* e *hstack* permitem concatenar dois ou mais *arrays* verticalmente e horizontalmente, respectivamente:

In [29]:
a = np.arange(6).reshape(3, 2)
b = np.random.random((3, 2))

print(np.vstack((a, b)))
print()

print(np.hstack((a, b)))

[[0.         1.        ]
 [2.         3.        ]
 [4.         5.        ]
 [0.84208504 0.08245068]
 [0.09935054 0.77916869]
 [0.12365846 0.85485678]]

[[0.         1.         0.84208504 0.08245068]
 [2.         3.         0.09935054 0.77916869]
 [4.         5.         0.12365846 0.85485678]]


A função *column_stack* concatena dois ou mais *arrays* unidimensionais na forma de colunas em um *array* 2D resultante:

In [30]:
a = np.arange(3)
b = np.random.random(3)

print(np.column_stack((a, b)))
print()

print(np.hstack((a, b)))  # resultado diferente

[[0.         0.58621736]
 [1.         0.86345182]
 [2.         0.47866208]]

[0.         1.         2.         0.58621736 0.86345182 0.47866208]


Essas funções de concatenação são todas casos especiais de uso mais comum da função *concatenate*, que permite definir o eixo sobre o qual ocorrerá a concatenação.