# Numpy: Operações Básicas

A biblioteca numpy fornece uma classe para arrays n-dimensionais de dados. Este notebook é baseado no tutorial do numpy da página do scipy.

```{information}
Note que a forma tradicional de importar o numpy é renomeá-lo como `np`. Isso economiza digitação e torna o seu código um pouco mais compacto.
```

In [1]:
import numpy as np

O Numpy fornece uma classe de array multidimensional, assim como um _grande_ número de funções que operam sobre arrays.

Os arrays do Numpy permitem que você escreva código rápido (otimizado) que funciona com arrays de dados. Para fazer isso, há algumas restrições nos arrays:

* todos os elementos são do mesmo tipo de dado (por exemplo, float)
* o tamanho do array é fixo na memória e especificado quando você cria o array (por exemplo, você não pode aumentar o tamanho do array como faz com listas)

A parte interessante é que as operações aritméticas funcionam sobre arrays inteiros — isso significa que você pode evitar escrever loops em Python (que tendem a ser mais lentos). Em vez disso, o "looping" é feito no código compilado subjacente.

A crítica comum contra o Python é que ele é lento (porque é uma linguagem interpretada, não compilada como o C). Bem, isso não é verdade; o Numpy atinge uma velocidade equivalente à do C.

Sempre lembre-se:

`Tempo até o papel` = `tempo necessário para escrever o código` + `tempo de execução do código`.

Não adianta perder dias depurando o código para ganhar 1ms de tempo de execução.


## Criação de Arrays

Existem várias maneiras de criar arrays. Vamos ver algumas.

A primeira que vamos ver é a criação de uma array através de listas, com o tipo dos dados sendo deduzido através dos tipos dos elementos da sequência. 

In [None]:
b = np.array( [1, 2.1, 3, 4] )
print(b)
print(b.dtype)
print(type(b))

Uma lista contendo listas resultará em um *array* de duas dimensões, enquanto uma lista de listas de listas resultará em um *array* tridimensional, e assim por diante. Também é possível definir o tipo de dado do *array* no momento de sua criação:

In [32]:
b = np.array(
    [
        [1., 0., 1.], 
        [0., 1., 2.]
    ],
)
print(b)

[[1. 0. 1.]
 [0. 1. 2.]]


Podemos usar o parâmetro `dtype` para especificar o tipo de dados desejado para os elementos de um array. Quando você cria um array, o dtype define o tipo de dados, como inteiros (`int`), números de ponto flutuante (`float`), entre outros.

In [33]:
b = np.array(
    [
        [1., 0., 1.], 
        [0., 1., 2.]
    ],
    dtype=complex
)
print(b)

[[1.+0.j 0.+0.j 1.+0.j]
 [0.+0.j 1.+0.j 2.+0.j]]


É comum precisar criar arrays com um tamanho específico e valores iniciais, os quais poderão ser alterados posteriormente. Para facilitar esse processo, o NumPy oferece várias funções, como a função:

- `zeros`, que gera um array preenchido com zeros; 
- `ones`, que cria um array com valores iguais a um; 
- `empty`, que cria um array com valores aleatórios, dependendo do estado da memória;
- `eye`, que gera uma matriz identidade.

In [None]:
a = np.zeros((10,8),dtype=int)
a

array([[0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0]])

Note que as dimensões são passadas como uma tupla

In [None]:
b = np.ones((3, 4))
print(b)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [None]:
c = np.empty((3, 4))
print(c)  # Saída pode variar

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


Diferente das listas em Python, todos os elementos de um array do numpy são do mesmo tipo de dado.

In [None]:
d = np.eye(10, dtype=np.float64) # Basta passar uma dimensão, pois a matriz será quadrada
d

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

Podemos criamos um array usando `arange` é usada para criar sequências de números, tal função é análoga à função *range*, mas retorna *arrays* e aceita criar intervalos de pontos flutuantes. 

In [3]:
a = np.arange(15)

In [4]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

Também podemos criar array de dimensões maiores

In [34]:
print(np.arange(5, 20, 5))
print()
print(np.arange(0, 2, 0.4))

[ 5 10 15]

[0.  0.4 0.8 1.2 1.6]


Devido a questões relacionadas ao arredondamento, pode não ser preciso determinar a quantidade exata de elementos gerados pela função `arange` quando pontos flutuantes são usados como parâmetros. 

Nesses casos, é recomendado utilizar a função `linspace` que  cria um array com números espaçados igualmente. 

Vamos analisar cada parte da coleção `range`:

- **`linspace(start, stop, num, endpoint)`**: A função `linspace()` gera uma sequência de números. Ela aceita três argumentos:
  - **`start`**: O valor inicial da sequência (inclusivo).
  - **`stop`**: O valor final da sequência (dependendo do parâmetro `endpoint`, pode ser ou não incluído).
  - **`num`**: O número de pontos a serem gerados. O padrão é 50.
  - **`endpoint`**: Se **`True`** (padrão), o valor final (`stop`) será incluído na sequência. Se **`False`**, o valor final será excluído.

O argumento opcional `endpoint` especifica se o valor superior do intervalo estará ou não no array.


In [None]:
d = np.linspace(0, 1, 10, endpoint=True)
print(d)

[0.         0.11111111 0.22222222 0.33333333 0.44444444 0.55555556
 0.66666667 0.77777778 0.88888889 1.        ]


In [24]:
print(np.linspace(0, 1, 9))  # 9 números começando em 0 e terminando em 1

[0.    0.125 0.25  0.375 0.5   0.625 0.75  0.875 1.   ]


```{admonition} Exercício Rapído

Análogo ao `linspace()`, existe a função `logspace()` que cria um array com elementos igualmente espaçados em escala logarítmica. Use `help(np.logspace)` para ver os argumentos e criar um array com 10 elementos de $10^{-6}$ até $10^3$. Em seguida, faça o mesmo com `geomspace` e descubra a diferença.


```

A função `linspace` é útil para avaliar funções em muitos pontos.

In [31]:
x = np.linspace(0, 2 * np.pi, 5, endpoint=True)
f = np.sin(x)

print(x)
print(f)

[0.         1.57079633 3.14159265 4.71238898 6.28318531]
[ 0.0000000e+00  1.0000000e+00  1.2246468e-16 -1.0000000e+00
 -2.4492936e-16]


## Propriedades de Arrays

Um array do numpy possui muitas operações associados a ele, descrevendo sua forma, tipo de dado, etc.

| Função               | Descrição                                                                 |
|----------------------|---------------------------------------------------------------------------|
| **a.ndim**           | Retorna o número de dimensões (ou eixos) de um array.                     |
| **a.shape**          | Retorna uma tupla que representa as dimensões do array.                   |
| **a.size**           | Retorna o número total de elementos presentes no array.                   |
| **a.dtype**          | Retorna o tipo de dados dos elementos do array.                           |
| **a.itemsize**       | Retorna o tamanho (em bytes) de cada elemento do array.                   |
| **type(a)**          | Retorna o tipo do objeto, mostrando se é um `ndarray` ou outro tipo.      |

In [None]:
print(a.ndim)
print(a.shape)
print(a.size)
print(a.dtype)
print(a.itemsize)
print(type(a))

2
(3, 5)
15
int64
8
<class 'numpy.ndarray'>


In [None]:
# Como sempre, se tiver dúvidas:
#help(a)

## Operações com Arrays

A maioria das operações (`+`, `-`, `*`, `/`) funcionará em um array inteiro de uma vez, elemento por elemento.

Note que o operador de multiplicação não é uma multiplicação de matrizes (existe um novo operador no Python 3.5+, `@`, para multiplicação de matrizes).

No caso das listas, tinhamos:

In [18]:
l=[1,2,3]

In [19]:
l*2

[1, 2, 3, 1, 2, 3]

Agora considerando o array dessa lista:

In [20]:
np.array(l)*2

array([2, 4, 6])

Vamos criar um array simples para começar as explicações das operações.

In [35]:
a = np.array([10,20,30,40])
print(a)

[10 20 30 40]


A multiplicação por um escalar multiplica cada elemento.

In [36]:
2*a

array([20, 40, 60, 80])

Adicionar dois arrays soma elemento por elemento.

In [37]:
a + a

array([20, 40, 60, 80])

Multiplicar dois arrays multiplica elemento por elemento.

In [38]:
a**2

array([ 100,  400,  900, 1600])

Verificar quais elementos satisfazem uma determinada condição

In [39]:
a < 25

array([ True,  True, False, False])

```{admonition} Exercício Rapído

O que você acha que `1./a` vai fazer? Tente e veja.

```

Podemos pensar no nosso array 2D como uma matriz e assim realizar algumas operações básicas de álgebra linear

Começando pela transposição de matrizes 

In [43]:
a = np.array(
    [
        [1, 1],
        [0, 1]
    ]
)

print(a)

[[1 1]
 [0 1]]


In [42]:
b = a.transpose() ## Também a.T
b

array([[1, 0],
       [1, 1]])

O operador '\*' multiplica os *arrays* através dos elementos. O operador `@` é um operador de multiplicação de matrizes / produto escalar.

In [44]:
a @ b

array([[2, 1],
       [1, 1]])

Também podemos obter facilmente os extremos, ou seja, os maiores e menores valores dentro de uma array

In [50]:
a = np.array(
    [
        [10, 12],
        [0, 41]
    ]
)

print(a.min(), a.max())

0 41


Algumas operações, como as de atribuição aritmética "+=" e "\*=", modificam o *array* diretamente, ao invés de criar outro com o resultado.

In [52]:
a = np.array(
    [
        [1, 1],
        [0, 1]
    ]
)

a += 1

print(a)

[[2 2]
 [1 2]]


Operações com *arrays* de tipos diferentes resultam em um *array* do tipo mais geral ou preciso (*upcasting*). Exemplo:

In [None]:
a = np.ones(3, dtype=int)
b = np.ones(3, dtype=float)

print((a + b).dtype)

float64


Muitas operações são computadas como métodos da classe *array*, por exemplo a soma de todos os elementos, a média ou o desvio-padrão:

In [None]:
a = np.random.random((5, 3))
print(a)
print(
    'Soma: {}, Média: {}, Desvio-padrão: {}'.format(
        a.sum(), a.mean(), a.std()
    )
)

[[0.56158829 0.91454421 0.23877309]
 [0.19370395 0.70284271 0.51461163]
 [0.37636627 0.45531543 0.04124243]
 [0.34445926 0.61154048 0.34299231]
 [0.04922684 0.11645763 0.25313178]]
Soma: 5.716796321294855, Média: 0.38111975475299037, Desvio-padrão: 0.24046330289202403


Por padrão, essas operações são computadas sobre todos os elementos do *array*, independente das suas dimensões. No entanto, é possível especificar a dimensão desejada, usando o parâmetro *axis*. O parâmetro **`axis`** determina ao longo de qual dimensão a soma será realizada:

- **`axis=0`**: Soma ao longo das colunas (soma vertical).
- **`axis=1`**: Soma ao longo das linhas (soma horizontal).

In [55]:
a = np.array(
    [
        [1, 1],
        [0, 1]
    ]
)

# Soma ao longo do eixo 0 (colunas)
print(a.sum(axis=0))
# Soma ao longo do eixo 1 (linhas)
print(a.sum(axis=1))


print(a.mean(axis=1))  # média de cada linha  
print(a.cumsum(axis=0))  # soma acumulada de cada coluna

[1 2]
[2 1]
[1.  0.5]
[[1 1]
 [1 2]]


## Funções Universais

As funções universais funcionam elemento por elemento. Vamos criar um novo array escalado por `pi / 12`.

In [34]:
b = a*np.pi/12.0
print(b)

[[0.         0.26179939 0.52359878 0.78539816]
 [1.04719755 1.30899694 1.57079633 1.83259571]
 [2.0943951  2.35619449 2.61799388 2.87979327]]


In [35]:
c = np.cos(b)
print(c)

[[ 1.00000000e+00  9.65925826e-01  8.66025404e-01  7.07106781e-01]
 [ 5.00000000e-01  2.58819045e-01  6.12323400e-17 -2.58819045e-01]
 [-5.00000000e-01 -7.07106781e-01 -8.66025404e-01 -9.65925826e-01]]


In [36]:
d = b + c 

In [37]:
print(d)

[[1.         1.22772521 1.38962418 1.49250494]
 [1.54719755 1.56781598 1.57079633 1.57377667]
 [1.5943951  1.64908771 1.75196847 1.91386744]]


```{admonition} Exercício Rapído

Frequentemente, queremos escrever nossa própria função que opere em um array e retorne um novo array. Podemos fazer isso da mesma forma que fizemos com funções anteriormente — a chave é usar os métodos do módulo `np` para realizar as operações, pois eles trabalham com, e retornam, arrays.

Escreva uma função simples que retorne $\sin(2\pi x)$ para um array de entrada `x`. Em seguida, teste-a passando um array `x` que você cria usando `linspace()`.

```

## Indexamento e Fatiamento

O fatiamento funciona de forma muito semelhante ao que vimos com strings. Lembre-se de que o Python usa indexação baseada em 0.

![slicing.png](attachment:slicing.png)

Vamos criar este array a partir da imagem:

In [56]:
a = 2*np.arange(9)
a

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16])

Agora, observe o acesso a um único elemento vs. um intervalo (usando fatiamento).

In [57]:
a[2] #Acessando um único elemento

4

In [58]:
a[2:4] #Acessando um intervalo

array([4, 6])

Além disso, o símbolo`:` pode ser usado para especificar todos os elementos naquela dimensão.

In [59]:
a[:]

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16])

## Arrays Multidimensionais

Arrays multidimensionais são armazenados em um espaço contíguo na memória — isso significa que as colunas / linhas precisam ser desenroladas (achatadas) para que possam ser pensadas como um único array unidimensional. Diferentes linguagens de programação fazem isso por meio de convenções diferentes:

![](https://upload.wikimedia.org/wikipedia/commons/thumb/4/4d/Row_and_column_major_order.svg/340px-Row_and_column_major_order.svg.png)

Ordem de armazenamento:

* Python/C usam armazenamento *linha-major*: as linhas são armazenadas uma após a outra
* Fortran/matlab usam armazenamento *coluna-major*: as colunas são armazenadas uma após a outra

A ordem de armazenamento é importante quando

* Passando arrays entre linguagens
* Fazendo loops sobre arrays — você quer acessar elementos que estão próximos uns dos outros na memória
  * por exemplo, em Fortran:

    ```
    double precision :: A(M,N)
    do j = 1, N
       do i = 1, M
          A(i,j) = …
       enddo
    enddo
    ```

  * em C

    ```
    double A[M][N];
    for (i = 0; i < M; i++) {
       for (j = 0; j < N; j++) {
          A[i][j] = …
       }
    }  
    ```

Em python, usando numpy, tentaremos evitar loops explícitos sobre os elementos sempre que possível.

### Redimensionando *arrays*

O tamanho das dimensões do `array` pode ser obtido por meio do atributo `shape`:

In [None]:
a = np.arange(15)
print(a)
print(a.shape)

A forma do `array` não é fixa e pode ser alterada de várias maneiras, resultando em um novo `array` com os mesmos elementos do original, porém reorganizados para se ajustarem à nova estrutura.

In [67]:
a = np.arange(15)
c = a.reshape(3, 5)
print(a)
print(c)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


Poderiamos também fazer a operação diretamente

In [87]:
a = np.arange(15).reshape(3,5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

Observe que a saída de `a` mostra o armazenamento no formato linha-major. As linhas estão agrupadas dentro dos `[...]` internos.

Quando uma dimensão recebe o valor `-1` em uma operação de redimensionamento, seu tamanho é calculado automaticamente. Por exemplo, se quisermos que `a` tenha `5` linhas e o número adequado de colunas, podemos fazer:


In [90]:
a.reshape(5, -1)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

Podemos facilmente transpor os arrays

In [92]:
print(a)

a.T

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

Ao tentar transpor um `array` unidimensional usando o atributo `T`, ele continuará unidimensional. Para realizar a transposição, podemos utilizar o método `reshape` com `-1` no número de linhas, o que criará um vetor coluna com a quantidade necessária de linhas:


In [93]:
a = np.arange(12)
print(a)
print(a.T)
print(a.reshape(-1, 1))

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]]


### Indexando e iterando sobre elementos

Arrays multidimensionais podem ser acessados, fatiados e percorridos de maneira semelhante às listas e outras estruturas de dados.

Assim se quisermos acessar um elemento especifico, basta informarmos a tupla em questão.

In [72]:
a = np.arange(15).reshape(3,5)

a[2,3] # Elemento na terceira linha e quarta coluna

13

Observe que como o python tem sua indexação começando no zero, então sempre deveremos para pegarmos um elemento de uma linha **(i,j)** (de acordo com a nomenclatura de matrizes) devemos escrever `a[i-1,j-1]`

Ao fazer fatiamentos, você acessa um intervalo de elementos. O início e o fim do fatiamento podem ser vistos como as bordas esquerda e direita dos slots no array.

In [73]:
a[0:2,0:2] # Da primeira até a terceira linha pegando os elementos da primeira até a terceira coluna

array([[0, 1],
       [5, 6]])

Podemos também acessar uma coluna específica

In [74]:
a[:,1] # A segunda coluna inteira

array([ 1,  6, 11])

Podemos além disso fazer

In [75]:
print(a[:4, 1])  # Do primeiro ao quarto elemento da segunda coluna      
print()

print(a[1:3, :])  # Todas as colunas da segunda à terceira linha 

[ 1  6 11]

[[ 5  6  7  8  9]
 [10 11 12 13 14]]


Se os índices forem passados em uma tupla com menos elementos do que a quantidade de eixos, os índices não especificados são interpretados como fatias completas (ou seja, ':'). Também é possível usar reticências para representar os índices ausentes. Exemplo:

In [76]:
print(a[-1])
print(a[-1, :])
print(a[-1, ...])

[10 11 12 13 14]
[10 11 12 13 14]
[10 11 12 13 14]


Às vezes, queremos uma visão unidimensional do array — aqui vemos o layout de memória (linha-major) de forma mais explícita.

In [77]:
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [78]:
a.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

Também podemos iterar sobre *arrays* multidimensionais — tais operações são feitas ao longo do primeiro eixo (linhas).

In [50]:
a = np.arange(15).reshape(3,5)

for row in a:
    print(row)

[0 1 2 3 4]
[5 6 7 8 9]
[10 11 12 13 14]


In [51]:
for row in a:
    for el in row:
        print(el)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14


ou elemento por elemento

In [52]:
for e in a.flat:
    print(e)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14


De maneira geral, queremos evitar fazer loops sobre os elementos de um array em python — isso é lento. Em vez disso, queremos escrever e usar funções que operem sobre o array inteiro de uma vez.

```{admonition} Exercício Rapído

Considere o array definido como:

```python

 q = np.array([[1, 2, 3, 2, 1],
               [2, 4, 4, 4, 2],
               [3, 4, 4, 4, 3],
               [2, 4, 4, 4, 2],
               [1, 2, 3, 2, 1]])
 

  * Usando notação de fatiamento, crie um array que contenha apenas os `4`'s em `q` (isso será chamado de view, como veremos em breve)
  * Zere todos os elementos da sua view
  * Como `q` muda?



# Operações Avançadas no Numpy

Vale lembrar que sempre que iniciamos um novo arquivo jupyter e o kernel estiver zerado (nada tiver sido compilado) necessitamos compilar os módulos que necessitamos importar:

In [2]:
import numpy as np

## Concatenando arrays

As funções ``vstack`` e ``hstack`` permitem concatenar dois ou mais ``arrays`` verticalmente e horizontalmente, respectivamente:

In [None]:
a = np.arange(6).reshape(3, 2)
b = np.random.random((3, 2))

print(np.vstack((a, b)))
print()

print(np.hstack((a, b)))

[[0.         1.        ]
 [2.         3.        ]
 [4.         5.        ]
 [0.50141141 0.87359307]
 [0.48425233 0.60395912]
 [0.69012221 0.34917156]]

[[0.         1.         0.50141141 0.87359307]
 [2.         3.         0.48425233 0.60395912]
 [4.         5.         0.69012221 0.34917156]]


A função ``column_stack`` concatena dois ou mais ``arrays`` **unidimensionais** na forma de colunas em um array 2D resultante:

In [None]:
a = np.arange(3)
b = np.random.random(3)

print(np.column_stack((a, b)))
print()

print(np.hstack((a, b)))  # resultado diferente

[[0.         0.98972958]
 [1.         0.33092818]
 [2.         0.63970443]]

[0.         1.         2.         0.98972958 0.33092818 0.63970443]


Essas funções de concatenação são todas casos especiais de uso mais comum da função *concatenate*, que permite definir o eixo sobre o qual ocorrerá a concatenação.

## Copiando Arrays

```{note}
Simplesmente usar "=" não faz uma cópia, mas, assim como com listas, você terá vários nomes apontando para o mesmo objeto ndarray.
```

Portanto, precisamos entender se dois arrays, `A` e `B`, apontam para:
* o mesmo array, incluindo forma e espaço de dados/memória
* o mesmo espaço de dados/memória, mas talvez formas diferentes (uma _view_)
* uma cópia separada dos dados (ou seja, armazenada completamente separada na memória)

Todos esses casos são possíveis:
* `B = A`

  isso é _atribuição_. Nenhuma cópia é feita. `A` e `B` apontam para os mesmos dados na memória e compartilham a mesma forma, etc. Eles são apenas dois rótulos diferentes para o mesmo objeto na memória.

* `B = A[:]`

  isso é uma _view_ ou _cópia rasa_. As informações de forma de A e B são armazenadas independentemente, mas ambos apontam para o mesmo local de memória para os dados.

* `B = A.copy()`

  isso é uma _cópia profunda_. Um objeto completamente separado será criado na memória, com um local completamente separado na memória.

Vamos ver exemplos:


In [53]:
a = np.arange(10)
print(a)

[0 1 2 3 4 5 6 7 8 9]


Aqui está a atribuição — podemos simplesmente usar o operador `is` para testar a igualdade.

In [54]:
b = a
b is a

True

Como `b` e `a` são o mesmo, alterações na forma de um são refletidas no outro — nenhuma cópia é feita.

In [55]:
b.shape = (2, 5)
print(b)
a.shape

[[0 1 2 3 4]
 [5 6 7 8 9]]


(2, 5)

In [56]:
b is a

True

In [57]:
print(a)

[[0 1 2 3 4]
 [5 6 7 8 9]]


Uma cópia rasa cria uma nova *view* do array — os _dados_ são os mesmos, mas as _propriedades_ do array podem ser diferentes.

In [58]:
a = np.arange(12)
c = a[:]
a.shape = (3,4)

print(a)
print(c)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 0  1  2  3  4  5  6  7  8  9 10 11]


Como os dados subjacentes estão na mesma memória, alterar um elemento de um é refletido no outro.

In [59]:
c[1] = -1
print(a)

[[ 0 -1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


Até mesmo fatiamentos em um array são apenas views, ainda apontando para a mesma memória.

In [60]:
d = c[3:8]
print(d)

[3 4 5 6 7]


In [61]:
d[:] = 0 

In [62]:
print(a)
print(c)
print(d)

[[ 0 -1  2  0]
 [ 0  0  0  0]
 [ 8  9 10 11]]
[ 0 -1  2  0  0  0  0  0  8  9 10 11]
[0 0 0 0 0]


Existem várias maneiras de verificar se dois arrays são iguais, são views, possuem seus próprios dados, etc.

In [63]:
print(c is a)
print(c.base is a)
#print(c.flags.owndata)
#print(a.flags.owndata)

False
True


Para fazer uma cópia dos dados do array com a qual você possa trabalhar independentemente do original, você precisa de uma _cópia profunda_.

In [64]:
d = a.copy()
d[:,:] = 0.0

print(a)
print(d)

[[ 0 -1  2  0]
 [ 0  0  0  0]
 [ 8  9 10 11]]
[[0 0 0 0]
 [0 0 0 0]
 [0 0 0 0]]


## Indexação booleana (também conhecida como mascaramento)

Existem várias maneiras interessantes de indexar arrays para acessar apenas os elementos que atendem a uma determinada condição.

In [4]:
a = np.arange(12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Aqui, definimos todos os elementos do array que são > 4 para zero.

In [5]:
a > 4

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [6]:
a[a > 4]

array([ 5,  6,  7,  8,  9, 10, 11])

In [7]:
a[a > 4] = 0
a

array([[0, 1, 2, 3],
       [4, 0, 0, 0],
       [0, 0, 0, 0]])

E agora, todos os zeros para -1.

In [8]:
a[a == 0] = -1
a

array([[-1,  1,  2,  3],
       [ 4, -1, -1, -1],
       [-1, -1, -1, -1]])

In [9]:
a == -1

array([[ True, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

Vamos considerar outro exemplo, envolvendo dois arrays distintos

In [None]:
a = np.arange(12)
b = np.arange(12)*123

In [None]:
b

array([   0,  123,  246,  369,  492,  615,  738,  861,  984, 1107, 1230,
       1353])

In [None]:
a>6

array([False, False, False, False, False, False, False,  True,  True,
        True,  True,  True])

In [None]:
b[a>6]

array([ 861,  984, 1107, 1230, 1353])

Se tivermos 2 testes, precisamos usar `logical_and()` ou `logical_or()`.

In [75]:
a = np.arange(12).reshape(3,4)
a[np.logical_and(a > 3, a <= 9)] = 0.0
a

array([[ 0,  1,  2,  3],
       [ 0,  0,  0,  0],
       [ 0,  0, 10, 11]])

## Evitando loops

De maneira geral, você quer evitar loops sobre os elementos de um array.

Aqui, vamos criar coordenadas 1D de x e y e depois tentar preencher um array maior.

In [11]:
M = 3200
N = 6400
xmin = ymin = 0.0
xmax = ymax = 1.0

x = np.linspace(xmin, xmax, M, endpoint=False)
y = np.linspace(ymin, ymax, N, endpoint=False)

print(x.shape)
print(y.shape)

(3200,)
(6400,)


Vamos medir o tempo do nosso código.

In [12]:
import time

In [13]:
t0 = time.time()

g = np.zeros((M, N))

# Índices, que ideia terrível
for i in range(M):
    for j in range(N):
        g[i,j] = np.sin(2.0*np.pi*x[i]*y[j])
        
t1 = time.time()
print("tempo decorrido: {} s".format(t1-t0))

tempo decorrido: 16.666316509246826 s


Agora, vamos fazer isso usando toda a sintaxe de arrays. Primeiro, vamos estender nossos arrays de coordenadas 1D para 2D. O Numpy tem uma função para isso (`meshgrid()`).

Vamos ver como o `meshgrid()` funciona primeiro.


In [16]:
x2d, y2d = np.meshgrid([0,1,2,3], [10,20,30], indexing="ij")
x2d

array([[0, 0, 0],
       [1, 1, 1],
       [2, 2, 2],
       [3, 3, 3]])

In [17]:
y2d

array([[10, 20, 30],
       [10, 20, 30],
       [10, 20, 30],
       [10, 20, 30]])

Vemos que isso cria 2 arrays bidimensionais, um com os valores de x variando ao longo das linhas e outro com os valores de y variando ao longo das colunas. Isso significa que podemos indexar todos os pontos (`x[i]`, `y[j]`) através do par `x2d`, `y2d`.

Agora, vamos fazer o mesmo exemplo usando este método.

In [14]:
t0 = time.time()
x2d, y2d = np.meshgrid(x, y, indexing="ij")
g2 = np.sin(2.0*np.pi*x2d*y2d)
t1 = time.time()
print("tempo decorrido: {} s".format(t1-t0))

tempo decorrido: 0.21164917945861816 s


No meu laptop, isso é cerca de:Uma verificação final para garantir que eles forneçam a mesma resposta.


In [18]:
print(np.max(np.abs(g2-g)))

0.0


### Exemplo: Diferenciação Numérica

Agora, queremos construir uma derivada,
$$
\frac{d f}{dx}
$$


In [19]:
x = np.linspace(0, 2*np.pi, 25)
f = np.sin(x)

Queremos fazer isso sem loops — usaremos views em arrays deslocados entre si. Lembre-se de cálculo que uma derivada é aproximadamente:
$$
\frac{df}{dx} = \frac{f(x+h) - f(x)}{h}
$$
Aqui, tomaremos $h$ como um único elemento adjacente.

In [84]:
f

array([ 0.00000000e+00,  2.58819045e-01,  5.00000000e-01,  7.07106781e-01,
        8.66025404e-01,  9.65925826e-01,  1.00000000e+00,  9.65925826e-01,
        8.66025404e-01,  7.07106781e-01,  5.00000000e-01,  2.58819045e-01,
        1.22464680e-16, -2.58819045e-01, -5.00000000e-01, -7.07106781e-01,
       -8.66025404e-01, -9.65925826e-01, -1.00000000e+00, -9.65925826e-01,
       -8.66025404e-01, -7.07106781e-01, -5.00000000e-01, -2.58819045e-01,
       -2.44929360e-16])

In [85]:
f[1:]

array([ 2.58819045e-01,  5.00000000e-01,  7.07106781e-01,  8.66025404e-01,
        9.65925826e-01,  1.00000000e+00,  9.65925826e-01,  8.66025404e-01,
        7.07106781e-01,  5.00000000e-01,  2.58819045e-01,  1.22464680e-16,
       -2.58819045e-01, -5.00000000e-01, -7.07106781e-01, -8.66025404e-01,
       -9.65925826e-01, -1.00000000e+00, -9.65925826e-01, -8.66025404e-01,
       -7.07106781e-01, -5.00000000e-01, -2.58819045e-01, -2.44929360e-16])

In [86]:
f[:-1]

array([ 0.00000000e+00,  2.58819045e-01,  5.00000000e-01,  7.07106781e-01,
        8.66025404e-01,  9.65925826e-01,  1.00000000e+00,  9.65925826e-01,
        8.66025404e-01,  7.07106781e-01,  5.00000000e-01,  2.58819045e-01,
        1.22464680e-16, -2.58819045e-01, -5.00000000e-01, -7.07106781e-01,
       -8.66025404e-01, -9.65925826e-01, -1.00000000e+00, -9.65925826e-01,
       -8.66025404e-01, -7.07106781e-01, -5.00000000e-01, -2.58819045e-01])

In [21]:
print(len(f[:-1]))
len(f[1:])

24


24

In [90]:
dx = x[1] - x[0]
dfdx = (f[1:] - f[:-1])/dx

In [103]:
dfdx

array([ 0.98861593,  0.92124339,  0.79108963,  0.60702442,  0.38159151,
        0.13015376, -0.13015376, -0.38159151, -0.60702442, -0.79108963,
       -0.92124339, -0.98861593, -0.98861593, -0.92124339, -0.79108963,
       -0.60702442, -0.38159151, -0.13015376,  0.13015376,  0.38159151,
        0.60702442,  0.79108963,  0.92124339,  0.98861593])

## Ordenando arrays

O NumPy fornece diversas funções para ordenar `arrays`. A função principal é o `sort`, que retorna uma cópia do `array` ordenado, com base no array fornecido como argumento:

In [101]:
a = np.array([8, 12, 1, 0, -2, -6, 2, 7, 13])
print(np.sort(a))

[-6 -2  0  1  2  7  8 12 13]


Se `a` for um `array` multidimensional, é possível utilizar o parâmetro `axis` para especificar o eixo ao longo do qual a ordenação será realizada.

In [102]:
b = np.array([[8, 12, 1], [0, -2, -6], [2, 7, 13]])
print(np.sort(b, axis=None))  # se axis for None, o array é aplainado antes de ordenar
print(np.sort(b, axis=0))  # axis=0 irá ordenar através das linhas
print(np.sort(b, axis=1))  # axis=1 irá ordenar através das colunas

[-6 -2  0  1  2  7  8 12 13]
[[ 0 -2 -6]
 [ 2  7  1]
 [ 8 12 13]]
[[ 1  8 12]
 [-6 -2  0]
 [ 2  7 13]]


Também é possível escolher o algoritmo de ordenação usando o parâmetro `kind` (cujo valor padrão é 'quicksort'):

In [103]:
print(np.sort(a, kind='mergesort'))

[-6 -2  0  1  2  7  8 12 13]


Uma outra função relevante é `argsort`, que, em vez de devolver o `array` ordenado, retorna os índices que, quando aplicados ao `array`, o ordenariam corretamente. A função `argsort` recebe os mesmos parâmetros que a função `sort`.

In [106]:
print(a)
print(np.argsort(a))
print(a[np.argsort(a)])
print()

b = np.array([
    [8, 12, 1], 
    [0, -2, -6], 
    [2, 7, 13]
])

print(np.argsort(b, axis=0))
print()
print(np.argsort(b, axis=1))

[ 8 12  1  0 -2 -6  2  7 13]
[5 4 3 2 6 7 0 1 8]
[-6 -2  0  1  2  7  8 12 13]

[[1 1 1]
 [2 2 0]
 [0 0 2]]

[[2 0 1]
 [2 1 0]
 [0 1 2]]


## Localizando valores

As funções `amax` e `amin` são responsáveis por retornar, respectivamente, o maior e o menor valor do `array`. É possível, naturalmente, especificar o eixo desejado utilizando o parâmetro `axis`.

In [107]:
b = np.array([
    [8, 12, 1], 
    [0, -2, -6], 
    [2, 7, 13]
])

print(np.amax(b))
print(np.amin(b))
print()

print(np.amax(b, axis=0))  # maior elemento de cada coluna
print(np.amin(b, axis=1))  # menor elemento de cada linha

13
-6

[ 8 12 13]
[ 1 -6  2]


De forma semelhante à função `argsort`, as funções `argmax` e `argmin` retornam os índices, respectivamente, do maior e do menor elemento do `array`, com a possibilidade de definir o eixo desejado.

In [108]:
print(np.argmax(b))  # considera o array aplainado (b.ravel())
print(np.argmin(b))
print()

print(np.argmax(b, axis=0))  # índice do maior elemento de cada coluna
print(np.argmin(b, axis=1))  # índice do menor elemento de cada linha

8
5

[0 0 2]
[2 2 0]


Uma função adicional relevante para localizar valores em um `array` é a função `where`, que retorna uma tupla com os índices onde uma condição é verdadeira.

In [110]:
print(b)
print(b < 7)
print(np.where(b < 7))

[[ 8 12  1]
 [ 0 -2 -6]
 [ 2  7 13]]
[[False False  True]
 [ True  True  True]
 [ True False False]]
(array([0, 1, 1, 1, 2], dtype=int64), array([2, 0, 1, 2, 0], dtype=int64))


## Geração de números aleatórios

O NumPy oferece várias funções para gerar números aleatórios através do pacote `random`. Por exemplo, para gerar números uniformemente distribuídos no intervalo \[0.0, 1.0), pode-se utilizar a função `random`:

In [None]:
print(np.random.random())  # apenas um número
print(np.random.random(3))  # vetor com 3 números aleatórios
print(np.random.random((3, 2)))  # matriz aleatória 3x2

0.22308618591500362
[0.17372546 0.93596624 0.96880746]
[[0.10932841 0.94618762]
 [0.24079747 0.44990437]
 [0.23531846 0.78875791]]


Para gerar números inteiros uniformemente distribuídos no intervalo \[a, b), pode-se utilizar a função `randint`:

In [None]:
print(np.random.randint(2, 5))  # inteiro em [2, 5)
print(np.random.randint(5))  # inteiro em [0, 5)
print(np.random.randint(2, 5, (3, 2)))  # matriz aleatória 3x2 em [2, 5)

3
4
[[2 4]
 [3 3]
 [3 4]]


Para extrair uma amostra aleatória de um `array`, pode-se utilizar a função `choice`:

In [111]:
a = np.arange(8)
print(a)
print()
print(np.random.choice(a))  # um elemento aleatório de a
print()
print(np.random.choice(a, 3))  # três elementos aleatórios de a
print()
print(np.random.choice(a, (3, 2)))  # seis elementos aleatórios de a na forma 3x2
print()
print(np.random.choice(a, 3, replace=False))  # três elementos aleatórios de a sem reposição
print()
print(
    np.random.choice(
        a, 
        3, 
        replace=False,
        p=a/np.sum(a)
    )
)  # três elementos aleatórios de a sem reposição e com diferentes probabilidades
print()
print(np.random.choice(5))  # um elemento aleatório no range(5)

[0 1 2 3 4 5 6 7]

1

[4 0 3]

[[6 0]
 [3 3]
 [4 7]]

[7 0 2]

[5 6 4]

4


Para reorganizar aleatoriamente os elementos de um `array`, pode-se usar a função `shuffle`, que altera o próprio `array`, ou seja, não retorna um novo `array` como resultado. Exemplo:

In [113]:
a = np.arange(15)

np.random.shuffle(a)
print(a)

[ 4  6  7 13 11  8  5 12  0 10 14  9  1  2  3]


Os `arrays` multidimensionais são reorganizados aleatoriamente apenas no primeiro eixo:

In [115]:
a = np.arange(12).reshape(3, 4)
print(a)
np.random.shuffle(a)
print(a)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 4  5  6  7]
 [ 8  9 10 11]
 [ 0  1  2  3]]


Apenas por curiosidade, para reorganizar aleatoriamente as colunas de um `array` 2D, pode-se utilizar a função de programação funcional `apply_along_axis`, que aplica uma função ao longo de um eixo do `array`.

In [116]:
np.apply_along_axis(np.random.shuffle, 0, a)
print(a)
print()
np.apply_along_axis(np.random.shuffle, 1, a)
print(a)

[[ 0  1 10  3]
 [ 4  5  2  7]
 [ 8  9  6 11]]

[[ 3  0 10  1]
 [ 2  4  5  7]
 [11  9  8  6]]


De maneira similar à função `shuffle`, a função `permutation` também reorganiza aleatoriamente os elementos de um `array`, mas retorna um novo `array` como resultado. Quando o `array` é multidimensional, ela também afeta apenas o primeiro eixo. Uma diferença em relação à função `shuffle` é que `permutation` pode receber um número inteiro `x` como parâmetro, ao invés de um `array`. Nesse caso, ela retorna uma permutação do **range**(*x*).

In [117]:
a = np.arange(12)
print(a)
print(np.random.permutation(a))
print(a)
print()
print(np.random.permutation(10))

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 8  5  7 10  0  4 11  9  2  1  3  6]
[ 0  1  2  3  4  5  6  7  8  9 10 11]

[6 4 5 2 0 9 3 7 8 1]


Em simulações, é essencial garantir que os resultados possam ser reproduzidos. Para isso, é necessário que os valores aleatórios gerados durante a execução do script sejam consistentes a cada execução. Isso pode ser alcançado definindo a "semente" do gerador de números pseudoaleatórios do NumPy, por meio da função `random.seed`. Por exemplo, o número gerado pelo código abaixo será sempre o mesmo.


In [120]:
np.random.seed(37)
print(np.random.random())

0.9444966028573069


## Álgebra Linear

A maioria das funções de álgebra linear do NumPy estão acessíveis por meio do módulo `np.linalg`. Entre as funções importantes, destaca-se a de calcular a inversa de uma matriz:

In [None]:
a = np.array([[1.0, 2.0], [3.0, 4.0]])
print(np.linalg.inv(a))

[[-2.   1. ]
 [ 1.5 -0.5]]


Podemos calcular o determinante e o traço de uma matriz:

In [None]:
print(np.linalg.det(a))
print(np.trace(a))  # o traço está disponível no próprio np

-2.0000000000000004
5.0


Obter a diagonal de uma matriz como um vetor:

In [None]:
np.diag(a)

array([1., 4.])

Obter uma matriz diagonal a partir de um vetor:

In [None]:
np.diag(np.diag(a))

array([[1., 0.],
       [0., 4.]])

Resolve um sistema de equações lineares:

In [None]:
y = np.array([[5.0], [7.0]])
np.linalg.solve(a, y)

array([[-3.],
       [ 4.]])

Encontrar os autovalores e os autovetores de uma matriz:

In [None]:
np.linalg.eig(a)  # retorna uma tupla (autovalores, autovetores)

(array([-0.37228132,  5.37228132]), array([[-0.82456484, -0.41597356],
        [ 0.56576746, -0.90937671]]))

# Exercícios: Numpy

Some  of these come from / are inspired from https://github.com/rougier/numpy-100 and http://www.scipy-lectures.org/intro/numpy/exercises.html

In [None]:
import numpy as np

1. Crie os seguintes arrays:

    - Crie um array com 5 zeros.
    - Crie um array com 10 uns.
    - Crie um array com 5 valores 3.141.
    - Crie um array com os inteiros de 1 a 20.
    - Crie uma matriz 5 x 5 de uns com o tipo de dado `int`.

In [None]:
pass

2. Use o numpy para:

    - Criar uma matriz 3D de 3 x 3 x 3 cheia de números aleatórios retirados de uma distribuição normal padrão (dica: np.random.randn()).
    - Redimensionar a matriz acima para o formato (27,).

In [None]:
pass

3. Crie um array com 20 números espaçados linearmente entre 1 e 10.

In [None]:
pass

4. Considere a seguinte array:

    ``a = np.arange(1, 26).reshape(5, 5)``

    Utilize indexação para obter os seguintes resultados:

    - ``20``
    - ```
        array([[ 9, 10],
        [14, 15],
        [19, 20],
        [24, 25]])
    ```
    - ``array([ 6,  7,  8,  9, 10])``
    - ```
        array([[11, 12, 13, 14, 15],
        [16, 17, 18, 19, 20]])
    ```     
    - ```
        array([[ 8,  9],
        [13, 14]])
    ```     

In [None]:
pass

5. Considere a seguinte array:

    ``a = np.arange(1, 17).reshape(4, 4)``

    a) Calcule a soma de todos os numeros de `a`

    b) Calcule a soma de cada linha de ``a``

    c) Extraia todos os valores de `a` que são maiores que a média de `a` (dica: use uma máscara booleana).

In [None]:
pass

6. O Numpy possui uma função padrão para calcular o desvio padrão, `np.std()`. Porém, vamos escrever nossa própria função que opera sobre um array 1D (vetor). O desvio padrão é uma medida da "largura" da distribuição dos números dentro do vetor.

    Dado um array $a$ e sua média $\bar{a}$, o desvio padrão é calculado pela fórmula:

    $$
    \sigma = \left [ \frac{1}{N} \sum_{i=1}^N (a_i - \bar{a})^2 \right ]^{1/2}
    $$

    Agora, vamos criar uma função para calcular o desvio padrão de um array de entrada, `a`:

    1. Primeiro, calcule a média dos elementos de `a` para obter $\bar{a}$.
    2. Em seguida, calcule a soma dos quadrados de $(a - \bar{a})$.
    3. Depois, divida essa soma pelo número de elementos no array.
    4. Por fim, tire a raiz quadrada (você pode usar `np.sqrt()` para isso).

    Teste sua função utilizando um array aleatório e compare o resultado com o da função `np.std()` do Numpy. Não se esqueça de verificar também o tempo de execução.



In [None]:
pass

7. Crie uma matriz 10 x 10 inicializada com números aleatórios entre 0 e 10. Em seguida, calcule a média da matriz (existe uma função do numpy para isso, `np.mean()`).


In [None]:
pass

8. Crie uma função que gere uma aposta válida para a Mega Sena. A função deve produzir uma lista com 6 números aleatórios, variando entre 1 e 60, sem números repetidos.

In [None]:
pass

9. Você tem uma lista em que cada elemento representa o valor gasto em reais em uma compra feita com seu cartão:

    ```
    L = [13.5, 8.0, 5.99, 27.30, 199.99, 57.21]
    ```

    Faça um programa cujo objetivo é calcular a porcentagem de cada valor em relação ao total gasto, dividindo cada gasto pelo total da lista para obter a porcentagem correspondente a cada compra.

In [None]:
pass

10. Crie um array com ângulos em graus: 0, 15, 30, … até 90 (ou seja, de 15 em 15 graus até 90).

    Em seguida, crie 3 novos arrays contendo, respectivamente, o seno, cosseno e tangente dos elementos do primeiro array.

    Por fim, calcule o arco seno, arco cosseno e arco tangente dos arrays acima e compare os resultados com os ângulos originais.


11. Desenvolva uma função que receba uma matriz quadrada de dimensão n x n e retorne a matriz triangular superior. Nesse tipo de matriz, todos os elementos abaixo da diagonal principal devem ser substituídos por zeros, mantendo os valores na diagonal e acima dela.

In [None]:
pass

12. Dado o array:

    ```
    x = np.array([1, -1, 2, 5, 8, 4, 10, 12, 3])
    ```

    Calcule a diferença entre cada elemento e seu vizinho.

In [None]:
pass

13. Dada uma matriz de ordem n x n, crie funções para:

    a) Calcular a soma dos elementos presentes na diagonal principal da matriz.

    b) Calcular a soma dos elementos presentes na diagonal secundária.

    c) Calcular a soma dos elementos em cada linha da matriz.

    d) Calcular a soma dos elementos em cada coluna da matriz.

In [None]:
pass

14. Dada uma matriz quadrada n x n, faça uma função que diga se ela é simétrica ou não. Teste para `np.random.randint(1, 99, (5, 5))`

In [None]:
pass

15. Desenvolva um programa para calcular a multiplicação de duas matrizes $C = AB$, onde $A$, $B$ e $C$ são matrizes de ordem $n \times n$. Em seguida, compare o resultado obtido pela sua implementação com o resultado da função `dot` do pacote Numpy.

In [None]:
pass