# Introdução aos arrays NumPy

## $ \S 1 $ Motivação

Suponha que desejamos representar vetores como $ \mathbf{u}
= (1, 2, 3) $ ou $ \mathbf{v} = (-1, 0, 1) $ em Python. É natural pensar
que listas ou tuplas podem ser uma boa escolha para esta tarefa.

In [None]:
u = [1, 2, 3]   # Criar uma lista cujos elementos são 1, 2, 3
v = [-1, 0, 1]

No entanto, em algum momento provavelmente vamos querer não apenas armazenar, mas manipular
esses vetores. Por exemplo, como podemos adicionar $ \mathbf u $ e $ \mathbf v $ ou
pegar um múltiplo de $ \mathbf v $? É razoável tentar o seguinte código:

In [None]:
s = u + v
multiple = 3 * v

print(s)
print(multiple)

Esses resultados inesperados podem ser explicados lembrando que tanto para listas quanto para
tuplas (ou strings), o operador `+` denota _concatenação_, não adição; e
consequentemente, `*` denota _repetição_, não multiplicação. Esse comportamento não é
tão estranho se levarmos em conta que listas e tuplas são tipos sequenciais
_genéricos_, capazes de conter objetos de tipos arbitrários, para os quais
adição e multiplicação podem não fazer sentido.

__Exercício:__ O que acontece se você representar $ \mathbf u $ e $ \mathbf v $ como
tuplas e tentar calcular a diferença $ \mathbf u - \mathbf v $? E se elas
forem representadas como listas?

Vetores e matrizes são objetos fundamentais em engenharia, ciência
e aprendizado de máquina. Portanto, existe uma clara necessidade de uma biblioteca que
estenda o Python fornecendo maneiras eficientes de operar com esses objetos.

## $ \S 2 $ Arrays

<img src="NumPy.png" width="105" height="38" alt="NumPy">, que significa _Numerical Python_, é um pacote fundamental
para computação científica em Python. É quase universalmente importado com o
alias `np`, da seguinte forma:

In [None]:
import numpy as np

Também poderíamos importar todos os objetos/funções do NumPy com:

In [None]:
from numpy import *

Assim, evitaríamos ter que digitar o prefixo `np.` toda vez. No entanto,
isso não é recomendado, pois pode levar a conflitos com nomes no Python puro
(por exemplo, `max` e `min`) ou aqueles usados por outros módulos (como
`exp` e `sqrt` do módulo Math).

O recurso central do NumPy é uma nova estrutura de dados chamada **ndarray** (uma
abreviação de array $n$-dimensional), ou simplesmente **array**. Um array é
essencialmente uma tabela multidimensional. Por exemplo, um array $1$-dimensional é
outra versão de uma lista; é apenas uma linha de dados. Um array $2$-dimensional pode ser
visto como uma planilha ou matriz. E arrays $3$-dimensionais são pilhas de
tabelas, por exemplo, tendo a forma de um cubo.

Um ndarray é uma grade de valores _do mesmo tipo de dados_; em outras palavras, arrays
devem ser **homogêneos**. Na maioria das aplicações, esse tipo de dados é numérico (ou seja,
os elementos do array são todos inteiros ou todos números de ponto flutuante). No entanto,
também é possível criar um array cujos elementos são booleanos ou strings,
por exemplo.

Um array $1$-dimensional numérico é semelhante a um vetor no sentido da
Álgebra Linear, como na discussão no $ \S 1 $. Arrays podem ser instanciados
com a função `array`:

In [None]:
u = np.array([1, 2, 3])     # Chamando `array` na lista [1, 2, 3]
print(u)
print(f"O tipo de um array como u é: {type(u)}")

Observe a ausência de vírgulas separando as entradas do array quando ele é exibido
(em contraste com as listas).

__Exercício:__ Imprima a lista `primes = [2, 3, 5, 7]` e seu tipo. Em seguida, gere
um array `primes_arr` a partir desta lista e imprima-o, junto com seu tipo.

__Exercício:__ Defina o vetor
$ \mathbf a = \frac{1}{2} \big(1, 1, 1, 1 \big) \in \mathbb R^4 $ como um array NumPy.
Qual é o comprimento (norma) de $ \mathbf a $?

__Exercício:__ Imprima e determine os tipos dos seguintes arrays.

In [None]:
b = np.array([True, False, True, False])
s = np.array(list("test"))

📝 Recapitulando, `ndarray` é o nome oficial do tipo de dados fornecido pelo NumPy, e `array` é tanto
o nome informal deste tipo de dados quanto o nome da função que podemos usar
para criar ndarrays.

O argumento da função `array` pode ser uma lista, uma tupla, um range, outro
array ou qualquer objeto semelhante a um array.

In [None]:
v = np.array((-1, 0, 1))    # O argumento de `array` também pode ser uma tupla
print(v)

__Exercício:__ É possível converter uma string como "hello" diretamente para um array de caracteres com `array`? Tente isso abaixo.

Observe que o tipo de um array como um todo é sempre o mesmo (`numpy.ndarray`)
e não deve ser confundido com seu __tipo de dados__, que é o tipo dos
_elementos_ que ele contém. Podemos determinar o tipo de dados de um array $ \mathbf a $ através de `a.dtype`:

In [None]:
v.dtype

Como podemos ver, o array $ \mathbf v = (-1, 0, 1) $ definido acima contém inteiros de $ 64 $ bits.

__Exercício:__ Determine o tipo de dados dos arrays $ \mathbf b $ e
$ \mathbf c $ definidos abaixo.

In [None]:
b = np.array([True, False, True, False])
c = np.array((1, 2, 3.))

Também podemos converter uma lista, tupla ou range _existente_ em um
array:

In [None]:
odds = range(1, 11, 2)  # Criar um range contendo números ímpares de 1 a 9
print(np.array(odds))   # Criar um array a partir de `odds` e imprimi-lo

## $ \S 3 $ Arrays multidimensionais

O número de dimensões de um array também é chamado de seu
**posto** (inglês: _rank_). Um array $ 2 $-dimensional, ou array de posto $ 2 $ pode ser visto
como uma tabela ou matriz. 

In [None]:
A = np.array([[1, 1, 1, 1],   # primeira linha da matriz A
              [2, 2, 2, 2],   # segunda linha
              [3, 3, 3, 3]])  # terceira linha
print(A)
print(type(A))  # Imprimir o tipo do objeto A

Observe o uso de colchetes _duplos_ aqui: o primeiro colchete de abertura `[` serve
para delimitar o próprio array, enquanto o segundo está sendo usado para delimitar os elementos
da primeira linha. As linhas são separadas por vírgulas, assim como os elementos dentro de cada linha.

📝 No código do exemplo anterior, cada linha da matriz aparece
separadamente em uma linha para melhorar a legibilidade, mas os caracteres de nova linha não
delimitam as linhas (as vírgulas e colchetes fazem isso).
Portanto, o seguinte produz o mesmo resultado:

In [None]:
A = np.array([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]])
print(A)

__Exercício:__ Crie e exiba a matriz
$$
    T = \begin{bmatrix}
    \phantom{-}0 & \phantom{-}1 & \phantom{-}0 \\
    -1 & \phantom{-}0 & \phantom{-}1 \\
    \phantom{-}0 & -1 & \phantom{-}0
    \end{bmatrix}
$$

__Exercício:__ Crie um array $ 3\times 3 $ para representar um tabuleiro de jogo da velha.
Use a string `' '` (um espaço em branco) para uma célula vazia, e as strings
`'X'` e `'O'` para as peças colocadas por cada um dos dois jogadores.
Configure o tabuleiro para o seguinte estado de jogo:

<img src="tic_tac_toe.png" width="200">

In [None]:
game_board = np.array(...)

print(game_board)

⚡ Arrays não precisam ser retangulares; eles também podem ser
_irregulares_ (significando que as linhas podem ter comprimentos diferentes), como no exemplo
abaixo. No entanto, arrays irregulares perdem muitos dos benefícios de desempenho do NumPy, que
dependem de formas consistentes para eficiência.

In [None]:
jagged = np.array([
    [1, 2, 3],
    [4, 5],
    [6, 7, 8, 9]
], dtype=object)
print(jagged)

Observe que este array está armazenando listas Python, em vez de um
bloco contíguo de memória com inteiros.

A __forma__ de um array é uma _tupla_ de inteiros indicando o tamanho de cada uma de
suas dimensões. O array $ A $ abaixo tem forma $ (3, 4) $ pois tem três
linhas e quatro colunas.

In [None]:
A = np.array([[42, 17, 99, 3], [-2, -3, -5, -7], [0, 0, 0, 0]])
print(A)
print(A.shape)  # Imprimir a forma de A

__Exercício:__ Qual é a forma de um array unidimensional, por exemplo o
array $ \mathbf b $ abaixo? Você pode explicar o resultado de `b.shape` (por que há
uma vírgula quando você o imprime)?

In [None]:
b = np.array([True, False, False, True, False])

__Exercício:__ Como você criaria a matriz
$$
\mathbf B = \begin{equation*}
\left[ \begin{array}{cc}
b_{11} & b_{12} \\
b_{21} & b_{22} \\
b_{31} & b_{32} \\
b_{41} & b_{42}
\end{array} \right]
\end{equation*}
$$
onde $ b_{ij} = i \cdot j $?

⚡ __Exercício:__ Lembre-se da matriz $ \mathbf{B} = \big(b_{ij}\big) = (i \cdot j) $ do
exercício anterior. Use uma compreensão de lista dupla para gerar os $ b_{ij} $
como uma lista de listas e depois converta isso para um array. _Dica:_ Você precisará de uma
compreensão dupla, da forma `[[... for j in ...] for i in ...]`. 

Um array $ 3D $ está para uma matriz assim como um bloco sólido está para um retângulo. Em outras palavras,
um array de posto $ 3 $ é aquele que tem três eixos em vez de apenas dois.

<img src="array_3D.png" alt="drawing" width="400"/>

__Exercício:__ Qual é o posto e a forma do array ilustrado acima?

Aqui está um exemplo concreto de um array $ 3D $ de forma $ 2 \times 2 \times 2 $.
Pense nele como um array com $ 2 $ "hiper-linhas",
cada uma sendo uma matriz $ 2 \times 2 $.

In [None]:
A = np.array([[[1, 2],   # A primeira "hiper-linha" é uma matriz 2x2
               [3, 4]], 

              [[5, 6],   # A segunda "hiper-linha" também é uma matriz 2x2
               [7, 8]]])
print(A)

__Exercício:__ O que acontece se você excluir a linha em branco dentro da definição de $ A $ acima?
O que acontece se você inserir uma linha em branco adicional?

Observe que um array $ 3D $ não precisa ser um cubo (ou seja, ter as três dimensões
do mesmo comprimento) como no exemplo anterior.

__Exercício:__ Construa um array de posto três com forma $ (2, 3, 4) $. 
_Dica:_ Pense nisso como um par de matrizes $ 3 \times 4 $.

Não há limite para o número de dimensões que um array pode ter, embora
para a maioria das aplicações, arrays de posto maior que $ 4 $ raramente são usados.

## $ \S 4 $ Outras maneiras de criar arrays

### $ 4.1 $ Preenchendo arrays automaticamente

Existem outras formas de criar arrays que geralmente são mais convenientes do que usar a função `array`. Por exemplo,
para instanciar um array de uma forma desejada preenchido com $ 0\text{s} $, podemos usar a função `zeros`:

In [None]:
Z = np.zeros((2, 5))  # O argumento de `zeros` é a forma que você deseja
print(Z)

📝 Observe os parênteses duplos necessários nesta chamada. O par mais externo
delimita os argumentos da função `array` e o par mais interno
especifica a forma, que é sempre uma tupla. No entanto, há uma exceção para 
arrays $ 1D $. Se quisermos um vetor com, digamos, $ 10 $ coordenadas iguais a
$ 0 $, então podemos usar `np.zeros((10,))` ou `np.zeros(10)`.

In [None]:
origin = np.zeros(3)
print(origin)

Observe que, por padrão, o array resultante tem tipo de dados de ponto flutuante.

__Exercício:__ Crie e imprima um array $ 3D $ de forma $ (3, 4, 5) $ preenchido com zeros.

Arrays também podem ser automaticamente preenchidos com $ 1\text{s} $ por meio da função `ones`: 

In [None]:
U = np.ones((2, 3))
print(U)

Generalizando `zeros` e `ones`, a função `full` cria um array de uma
forma especificada, preenchido inteiramente com um valor prescrito:

In [None]:
# Criar um array 3x5 onde cada elemento é igual a 3.14:
P = np.full((3, 5), 3.14)
print(P)

__Exercício:__ Crie um array $ 1D $ com $ 50 $ coordenadas, todas iguais a $ 1 $, de duas maneiras diferentes.

Finalmente, podemos criar um novo array _da mesma forma e tipo de dados_ que um
array $ A $ dado, mas preenchido com zeros, uns ou algum outro valor especificado com as
funções `zeros_like`, `ones_like` e `full_like`, respectivamente:

In [None]:
A = np.array([[1, 2, 3],
              [4, 5, 6]])

Z = np.zeros_like(A)
print(Z, '\n')

T = np.full_like(A, 3)
print(T)

### $ 4.2 $ Gerando sequências com `arange` e `linspace`

A função `arange` é muito parecida com a função integrada `range` do Python, mas retorna um array:

In [None]:
digits = np.arange(10)
print(type(digits), digits)


A sintaxe completa é `arange(<início>, <fim>, <passo>)`. Observe que o valor inicial
está incluído, mas o valor final não está (exatamente como no `range` normal).

In [None]:
y = np.arange(4, 10, 2)
print(y)

Uma vantagem do `arange` sobre o `range` é que _ele aceita argumentos do tipo float_. Por exemplo:

In [None]:
x = np.arange(0.1, 1, 0.1)
print(x)

No entanto, esse recurso deve ser usado com cautela, pois às vezes erros de arredondamento
podem levar a resultados inesperados, como no seguinte exemplo:

In [None]:
print(np.arange(1, 1.3, 0.1))
print("Observe que o valor 1.3 foi incluído!")

__Exercício:__ Para cada item, crie um array $ 1D $ contendo os elementos descritos:

(a) A sequência de números pares entre $ 2 $ e $ 19 $.

(b) Todos os inteiros de $ 10 $ até $ 1 $.

(c) Todos os inteiros de $ 5 $ a $ 15 $ (inclusive), mas representados como
números de ponto flutuante.


(d) Todos os números de $ -3.14 $ a $ 2.86 = -3.14 + 6 $, com um passo de $ 2 $.

Alternativamente, com `linspace` podemos construir um array contendo valores igualmente espaçados
dentro de um intervalo especificado. A sintaxe é semelhante à do `arange`,
exceto que _o valor final no segundo argumento está incluído_ no resultado, e
_o terceiro argumento fornece o número de valores a serem gerados_, em vez do
tamanho do passo:

In [None]:
z = np.linspace(0, 10, 11)
print(z, '\n')

w = np.linspace(0, 10, 10)
print(w)

__Exercício:__ Dividindo o intervalo $ [0, 1] $ em três partes iguais, obtemos três subintervalos de comprimento $ \frac{1}{3} $. Quantos pontos de subdivisão são necessários? Use `linspace` para obtê-los.

__Exercício:__ Quantos intervalos limitados são determinados por $ n + 1 $ pontos igualmente espaçados em uma linha?

Recapitulando, a sintaxe é `linspace(<início>, <fim (inclusive)>, <# 
elementos>)`. Podemos excluir o valor final em `linspace` para fazê-lo se comportar
de forma mais semelhante ao `arange` usando `endpoint=False`:

In [None]:
print(np.linspace(0, 10, 10, endpoint=False))

__Exercício:__ O que acontece com o resultado de `linspace` se o valor inicial for maior que o valor final? E se eles forem iguais? E se o terceiro argumento for zero ou negativo? 

## $ \S 5 $ Acessando e modificando elementos individuais de arrays

Lembre-se que listas em Python são __mutáveis__, o que significa que podemos modificar
elementos individuais de uma lista:

In [None]:
primes = [199, 1_999, 19_999]
primes[2] = 19

Em contraste, uma tupla é __imutável__. Ainda podemos acessar seus
elementos através de `[]`, mas não podemos modificá-los:

In [None]:
fruits = ('🍎', '🍊', '🍍')
print(fruits[0])

In [None]:
fruits[0] = '🍉'

Arrays NumPy também são mutáveis, como listas. Considere o seguinte vetor $ \mathbf{a} $:

In [None]:
a = np.array([1, 2, 3])
print(a)

Para acessar ou modificar o elemento $ 0 $-ésimo de $ \mathbf a $ (lembre-se que sempre
contamos a partir de $ 0 $ em Python), usamos a mesma sintaxe que usaríamos se fosse uma
lista:

In [None]:
print(a[0])  # Acessar o elemento 0-ésimo de `a`
a[0] = -1    # Modificar este elemento
print(a)     # Imprimir o resultado

Se estamos lidando com um array $ 2D $, usamos `[i, j]` para acessar sua entrada $ (i, j) $-ésima, ou seja, o elemento na linha $ i $ e coluna $ j $:

In [None]:
A = np.ones((2, 2))
print("Antes das modificações:")
print(A, '\n')

A[0, 1] = 0
A[1, 0] = 0 
print("Depois das modificações:")
print(A)

Em geral, ao lidar com um array $ n $-dimensional, use `[k_1, k_2, ..., k_n]` para acessar seu elemento com índices $ k_1, k_2, \cdots, k_n $, respectivamente.

__Exercício:__ Construa um "array identidade $ 3D $" $ M $ de forma $ (5, 5, 5) $
primeiro preenchendo-o com zeros, depois definindo todos os elementos com índices
da forma $ (i, i, i) $ iguais a $ 1 $ das seguintes duas maneiras: 

(a) Usando um loop `for`.

(b) Com a chamada única `fill_diagonal(M, 1)`.

In [None]:
# Preencher M com zeros:
# M = ...

# Definir elementos diagonais iguais a 1:
# ...

# Imprimir o resultado:
# print(M)


## $ \S 6 $ Outros recursos do NumPy

Como veremos mais tarde, arrays são muito mais eficientes e convenientes para computação
numérica do que os tipos de dados integrados do Python, como listas, tanto em memória quanto
em custos computacionais. O NumPy é usado em análise de dados, aprendizado de máquina,
engenharia e qualquer outro campo que requer computação numérica intensiva.
Também serve como base para bibliotecas de nível superior
como SciPy, pandas e scikit-learn. Outros recursos
fornecidos pelo NumPy incluem (mas não se limitam a):
* Operações estatísticas básicas;
* Geração de números aleatórios a partir de várias distribuições de probabilidade;
* Transformadas de Fourier e processamento de sinais;
* Integração com vários tipos de bancos de dados e formatos de arquivos para importação/exportação de dados.

Encontraremos e usaremos alguns desses em outros notebooks.