In [1]:
import numpy as np

# Atributos e métodos de arrays

Neste notebook, estudaremos os _atributos_ (propriedades) e
_métodos_ (transformações) fundamentais dos arrays NumPy. Isso nos permitirá 
analisar, manipular e reestruturar nossos dados de várias maneiras.

## $ \S 1 $ Atributos de arrays

### $ 1.1 $ Forma e número de dimensões

O __número de dimensões__, também conhecido como __rank__, de um array é armazenado
em seu atributo `ndim`. Por exemplo, a seguinte matriz tem rank $ 2 $, porque
ela tem dois __eixos__, um correspondendo às suas linhas e o outro às suas colunas:

<img src="array.svg" width="500" alt="Exemplo de um array A">

In [11]:
A = np.array([[1, 2,  3,  4],
              [1, 4,  9, 16],
              [1, 8, 27, 64]])
print(A, '\n')

print(f"Number of dimensions (rank) of A: {A.ndim}")  # Número de dimensões (rank) de A: 2

[[ 1  2  3  4]
 [ 1  4  9 16]
 [ 1  8 27 64]] 

Number of dimensions (rank) of A: 2


⚠️ Observe que as noções de _rank_ (posto de uma matriz) e _número de dimensões_ (de um
espaço vetorial) estudadas em Álgebra Linear são diferentes daquelas no NumPy. Por
exemplo, o `ndim` do vetor $ \mathbf{v} = (1, 2, 3) $ é $ 1 $ já que
ele tem um único eixo, apesar de ter três coordenadas.

Talvez a propriedade mais importante de um array seja sua **forma** (shape), que é a
contagem de elementos ao longo de cada um de seus eixos. Referindo-se ao exemplo anterior, a
forma de nossa matriz $ A $ é $ (3, 4) $, pois ela tem três
linhas e quatro colunas:

In [5]:
print(A.shape)

(3, 4)


📝 O número de dimensões de um array é um inteiro positivo, enquanto sua forma é sempre uma tupla, mesmo quando o array é unidimensional:

In [None]:
primes = np.array([19, 199, 1999])
print(primes.shape)

print("Note that the shape is not '3', but rather the tuple '(3, )'")
# Observe que a forma não é '3', mas sim a tupla '(3, )'
print(type(primes.shape))

(3,)
Note that the shape is not '3', but rather the tuple '(3, )'
<class 'tuple'>


O __tamanho__ (size) de um array é simplesmente o número total de elementos nele:

In [None]:
print(primes.size)

3


__Exercício:__ 

(a) Qual é o tamanho da matriz $ A $ de forma $ (3, 4) $ que consideramos
acima?

(b) Quais são o rank (ou seja, número de dimensões), forma e tamanho de um array $ 1D $ vazio? E um array $ 2D $ vazio?

__Exercício:__ Se um array tem forma $ (2, 3, 4) $, qual é seu tamanho? Mais genericamente, qual é o tamanho de um array de forma $ (n_1, n_2, \cdots, n_d) $? _Dica:_ Temos $ n_1 $ opções para o primeiro índice, para cada uma dessas temos $ n_2 $ opções para o segundo índice, para cada uma dessas temos $ n_3 $ opções para o terceiro índice, etc., portanto, no total temos $ \underline{\hspace{1cm}} $ elementos.

__Exercício:__ Uma _matriz quadrada_ tem o mesmo número de linhas e colunas.

(a) Escreva uma função `is_square(A)` que recebe um array $ 2D $ como seu
argumento e retorna `True` ou `False` dependendo se a matriz dada é
quadrada ou não. _Dica:_ Use a forma para decidir isso.

(b) Qual seria uma definição razoável de um array $ 3D $ "cúbico" e como poderíamos
verificar isso?

(c) Como você generalizaria para arrays multidimensionais? _Dica:_ Para verificar se
um array de forma $ (n_1, n_2, \cdots, n_d) $ é "hipercúbico" (todos os seus eixos têm
o mesmo comprimento), podemos verificar se
$$
\texttt{A.shape} = (n_1, n_2, \cdots, n_d) == (n_2, n_3, , \cdots, n_d, n_1) = \texttt{A.shape[1:] + (A.shape[0], )}
$$

### $ 1.2 $ Atributos e terminologia relacionada

Uma instância, ou __objeto__, de uma classe específica, como o array $ A $ do tipo
`ndarray`, é equipada com um conjunto de **atributos** predefinidos. Atributos são 
_propriedades inerentes a cada instância da classe_.
O **estado** de um objeto é _o conjunto de valores atuais de todos os
seus atributos._

📝 Para acessar um atributo `a` de um objeto `x`, a sintaxe é sempre `x.a`.

Por exemplo, suponha que queremos projetar uma classe Python `Car` para representar carros.
Uma instância dessa classe corresponderia então a um carro específico
no mundo real. Alguns atributos plausíveis dessa classe poderiam ser:
* `cor`, do tipo `str`.
* `ano`, do tipo `int`, que armazena o ano em que o carro foi fabricado.
* `eletrico`, do tipo `bool`.
* `quilometros_por_litro`, do tipo `float`, que representa a eficiência de combustível do carro.

E assim por diante para qualquer outra propriedade relevante dos carros que possamos querer incluir
em nosso modelo. Para acessar, digamos, a cor de uma instância `meu_carro` da classe
`Car`, digitaríamos `meu_carro.cor`.

Observe que os valores desses atributos para diferentes instâncias de carros variarão,
em geral. No entanto, a partir deste exemplo, podemos facilmente imaginar uma situação em que
dois carros têm exatamente o mesmo estado, conforme definido por seu conjunto de valores de atributos,
e ainda assim são objetos distintos, ou seja, têm diferentes
_identidades_, significando que residem em locais de memória diferentes e são
portanto independentes.

### $ 1.3 $ Os principais atributos de arrays

Embora os arrays venham com vários atributos, a maioria deles se relaciona com a
representação interna do array ou utilitários de baixo nível, como o número de bytes
consumidos pelos elementos do array. Os cinco mais frequentemente usados e
conceitualmente importantes são:

| Atributo    | Descrição                                       | Tipo      |
|-------------|-------------------------------------------------|-----------|
| `ndim`      | Número de dimensões (rank) do array        | `int`   |
| `shape`     | Número de elementos ao longo de cada eixo    | `tuple`     |
| `size`      | Número total de elementos no array          | `int`   |
| `dtype`     | Tipo de dados dos _elementos_ do array       | `dtype`  |
| `T`         | Transposta do array                        | `ndarray`    |


__Exercício:__ Para os seguintes arrays $ B $ e $ \mathbf v $:

(a) Verifique seus atributos. O tipo de dados de $ \mathbf v $ é o que você esperava?

(b) Verifique se o tipo de cada atributo corresponde ao descrito na última
coluna da tabela usando a função interna do Python `type`.

In [None]:
B = np.array([[True, False, True],
              [False, True, False]])

In [None]:
v = np.array([1, 2, 3.])

### $ 1.4 $ O tipo de dados de um array

Os arrays NumPy são projetados para armazenar elementos de um único tipo de dados, e _esses
tipos de dados são específicos para o NumPy_. Muitos deles são baseados nos tipos nativos do C;
isso garante alto desempenho e uma menor utilização de memória. Como exemplo, o
tipo de dados da matriz $ A $ acima é `int64`, que representa inteiros usando $
64 $ bits. Em contraste, o tipo integrado do Python `int` pode conter inteiros
arbitrariamente grandes.

Também é possível trabalhar
com arrays de objetos Python arbitrários usando o tipo de dados `object`. Como
nesse caso o que é armazenado no array é apenas uma referência para cada objeto (não
o próprio objeto), as entradas nem precisam ter o mesmo tipo Python:

In [4]:
import numpy as np
complex_array = np.array(["pandas",  [1, 2, 3], 1 + 1j], dtype=object)

for item in complex_array:
    print(f"Item: {item}\t of type: {type(item)}")  # Item: {item}\t do tipo: {type(item)}

Item: pandas	 of type: <class 'str'>
Item: [1, 2, 3]	 of type: <class 'list'>
Item: (1+1j)	 of type: <class 'complex'>


Para criar um array NumPy com um tipo de dados especificado, podemos usar o parâmetro `dtype`
em qualquer função de criação de array. Por exemplo:

In [10]:
v = np.array([1, 2, 3, 4], dtype="float32")
print(f"Datatype of v: {v.dtype}")  # Tipo de dados de v: {v.dtype}
print(v)

Datatype of v: float32
[1. 2. 3. 4.]


Observe que nessa forma o tipo de dados é passado como um argumento string.

__Exercício:__

(a) Crie um array $ 2D $ $ B $ de forma $ (2, 3) $ cujos elementos são todos
    `True`. _Dica:_ Invoque a função `ones`
    com a forma apropriada e `dtype="bool"` como um dos argumentos.

(b) Instancie $ \mathbf b = (2, 3, 4, 5) $ do tipo `uint32` (inteiro sem sinal de $ 32
$-bits) usando `linspace`.

(c) Construa um array $ 2D $ $ C $ de forma $ (4, 2) $ no qual todas as entradas são
iguais a $ 1 + i $, de tipo `complex`. _Dica:_ Use `full` e lembre-se que
a unidade imaginária em Python é denotada com `j`.

### $ 1.5 $ A transposta

Para arrays $ 2D $, a __transposta__ é obtida trocando linhas e colunas.
A transposta de uma matriz é muito importante em Álgebra Linear e suas
aplicações em estatística e aprendizado de máquina. O atributo `T` nos arrays NumPy
fornece uma __visão__ do array transposto, o que significa que `A.T` compartilha
o mesmo buffer de dados subjacente que o array original `A`. Em particular, qualquer
modificação em um deles afeta o outro.

⚡ Dizer que um objeto é uma visão de outro não significa que eles têm a
mesma identidade como objetos. Mesmo que os _valores_ nos arrays sejam os mesmos,
os metadados como a forma ou o tipo de dados podem ser diferentes. Podemos verificar
se dois objetos têm a mesma identidade (localização de memória) com a função
Python `id`, e se eles compartilham os mesmos dados com `np.may_share_memory`:

In [28]:
A = np.array([[1, 2],
              [3, 4]])
B = A.T

print(id(A) == id(B))
print(np.may_share_memory(A, B))

False
True


__Exercício:__ 

(a) Qual é a transposta de um array $ 1D $?

(b) O que é a transposta de um array $ 3D $, ou seja, como ela é obtida do array original?
    Faça uma conjectura e depois teste-a em um array de forma $ (2, 3, 4) $.

(c) Mais genericamente, qual você acha que seria a definição mais razoável da transposta de um array $ n $-dimensional?
    _Dica:_ Crie um array de forma $ (2, 3, 4, 5) $ e inspecione a forma de sua transposta.

### $ 1.6 $ Comparando dois arrays por igualdade

<div style="
    background-color: #fff3cd; 
    border: 1px solid #ffeeba; 
    border-left: 5px solid #ffc107; 
    border-radius: 4px; 
    color: #856404; 
    margin: 10px 0px; 
    padding: 15px;">
    <span style="font-size: 24px; margin-right: 10px; vertical-align: middle;">⚠️</span>
    Contrariamente ao que se poderia esperar, quando aplicado a dois arrays da mesma
    forma, o operador <code>==</code> realiza uma comparação elemento por elemento e
    retorna um <i>array booleano</i> com a mesma forma que os operandos. Em contraste,
    <code>np.array_equal(A, B)</code> retorna
    um <i>único valor booleano</i> dependendo se os arrays têm a mesma forma
    e todos os elementos correspondentes são iguais.
</div>

In [2]:
a = np.array([1, 2, 3])
b = np.arange(1, 4)

print(a == b)  # Comparação elemento por elemento, o resultado é um array
print(np.array_equal(a, b))  # Igualdade geral do array, o resultado é True ou False

[ True  True  True]
True


__Exercício:__ Escreva uma função Python que imprime uma mensagem indicando se
uma dada matriz $ A $ é _simétrica_ (ou seja, se $ A^T = A $),
_anti-simétrica_ ($ A^T = -A $) ou nenhuma das duas.
Sua função funciona corretamente quando $ A $ não é quadrada?

In [None]:
def is_symmetric(A):
    # complete...

__Exercício:__ Uma matriz quadrada $ A $ é chamada de _ortogonal_ se satisfaz
$$
A^TA = I_n = AA^T\,,
$$
onde $ A^T $ é a transposta de $ A $ e $ I_n $ é a matriz identidade $ n \times n $.
(Na verdade, qualquer uma dessas equações por si só já é suficiente para ortogonalidade.)
Escreva um procedimento `is_orthogonal(A)` que utilize esse critério para decidir
se $ A $ é ortogonal. Ao comparar com a identidade, você pode querer
usar `np.round(B, 10)` para arredondar todas as entradas de $ B $ para dez dígitos decimais para
evitar falsos negativos.

## $ \S 2 $ Métodos de redução e acumulação

### $ 2.1 $ Métodos e terminologia relacionada

Enquanto os atributos descrevem as propriedades de um objeto, os **métodos** definem o que
um objeto pode fazer: são funções que estão vinculadas ao objeto e que podem
acessar ou modificar seu estado. Os métodos encapsulam comportamentos adequados
para a classe de objetos a que pertencem, assim como os atributos encapsulam o estado.

📝 Para invocar um método `m` em um objeto `x`, a sintaxe é `x.m(<argumentos>)`.

Continuando o exemplo da seção $ \S 1.2 $, poderíamos pensar em implementar
os seguintes métodos para nossa classe `Car` usada para representar carros:
* `ligar_carro()`, que não retorna nada, mas muda o estado do carro.
* `precisa_de_manutencao()`, que retorna um `boolean`, mas não altera o estado do carro.
* `reabastecer(litros)`, que reabastece o carro com uma determinada quantidade de combustível e retorna o novo nível de combustível como `float`.

Por exemplo, para reabastecer uma instância `meu_carro` da classe `Car`, poderíamos emitir
a instrução `meu_carro.reabastecer(20)`.

Da mesma forma, no contexto dos arrays NumPy, métodos como `sum()` realizam cálculos nos
dados do array e retornam resultados, enquanto métodos como `sort()` modificam o array no
local, sem retornar nada. (Discutiremos ambos os métodos, juntamente com vários outros, abaixo.)

In [3]:
v = np.array([2, 3, 1])
print(f"v = {v}")

v.sort()  # v após ordenação: [1 2 3]
print(f"v after sorting: {v}")
print(f"Sum of the values in v: {v.sum()}")  # Soma dos valores em v: 6

v = [2 3 1]
v after sorting: [1 2 3]
Sum of the values in v: 6


### $ 2.2 $ Principais métodos de redução e acumulação

Os arrays NumPy têm vários __métodos de redução__ que transformam os dados
em formas mais simples. Por exemplo, os métodos `min` e `max` produzem os elementos
mínimo e máximo de um array. Da mesma forma, `argmin` e `argmax` retornam o
_índice_ dos elementos mínimo e máximo. Aqui está uma ilustração no
caso de um array $ 1D $ `a`:

<img src="max_min.svg" width="1400" height="300" alt="Métodos Max e Min">

📝 Quando o valor mínimo ocorre várias vezes, `argmin` retorna o índice da
primeira ocorrência. Quando chamado em um array multidimensional, ele retorna
o índice do elemento mínimo da versão _achatada_ ($ 1D $) do array:

In [4]:
arr = np.array([[3, 2, 4], 
                [1, 4, 1]])
print(arr)

idx = arr.argmin()
print(f"Argmin: {idx}")

[[3 2 4]
 [1 4 1]]
Argmin: 3


O resultado neste caso é $ 3 $ porque esse é o primeiro índice de um elemento
com o valor mínimo $ 1 $ no array achatado $ (3, 2, 4, 1, 4, 1) $.
Claro, comentários semelhantes se aplicam ao `argmax`.

__Exercício:__ Calcule `min`, `max`, `argmin` e `argmax` do seguinte array $ 2D $.
Explique os resultados dos dois últimos métodos.

In [15]:
A = np.array([[2, 0, 3],
              [3, 1, 0],
              [1, 2, 0]])
print(A, '\n')

[[2 0 3]
 [3 1 0]
 [1 2 0]] 



Os métodos `sum` e `prod` são outros métodos de redução que calculam a soma e o produto de
todos os elementos em um array. Em contraste, `cumsum` e `cumprod` são
métodos de _acumulação_. Em vez de retornar um único número, eles produzem um
array da mesma forma que o original, obtido calculando a soma e o produto _cumulativos_
das entradas no array:

<img src="sum_prod.svg" width="1400" height="300" alt="Métodos de soma e produto">

__Exercício:__ Verifique os resultados no exemplo anterior usando NumPy e diretamente a partir
das definições dos métodos.

__Exercício:__ Crie uma função que calcule juros compostos usando
`cumprod`. Dado um valor principal e um array de taxas de juros mensais
(como valores decimais), retorne o saldo da conta após cada mês.
Teste-a nos valores abaixo. _Dica:_ Os fatores de crescimento são dados por
$ 1 + \text{taxas mensais} $. Os saldos serão o produto do
valor principal e o produto cumulativo dos fatores de crescimento.

In [6]:
principal = 1000
monthly_rates = np.array([0.01, 0.012, 0.008, 0.011, 0.009, 0.013])
# balances = ???

Os métodos de redução `mean`, `var` e `std` fornecem operações
estatísticas básicas que são essenciais para análise de dados, ou seja,
eles calculam a média (aritmética), variância e desvio padrão
do conjunto de elementos no array, respectivamente. Por exemplo:

<img src="mean_var.svg" width="1400" height="300" alt="Métodos de redução estatística">

Lembre-se que a __variância__ de uma coleção de números $ x_i $ é o valor
esperado do quadrado do desvio da média; ela mede o quão espalhados estão os
valores. O __desvio padrão__ é simplesmente a raiz quadrada da
variância. Em símbolos, se 
$$
\mu = \frac{1}{n} \sum_{i=1}^{n} x_i
$$
denota a média, então
$$
\sigma^2 = \text{Var} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 \qquad
\text{e} \qquad 
\sigma = \text{Std} = \sqrt{\text{Var}} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}
$$
Como acima, o desvio padrão é frequentemente denotado por $ \sigma $. Mesmo que a
variância tenha melhores propriedades matemáticas e geralmente seja mais conveniente
para trabalhar do que o desvio padrão, este último tem a vantagem de ser
dado na mesma unidade de medida que as quantidades originais. Por exemplo,
se os $ x_i $ representam a eficiência de combustível em milhas por galão de uma coleção
de carros, então $ \sigma $ também estará em MPG.

__Exercício:__

(a) Verifique usando as definições que os valores na ilustração anterior
estão corretos.

(b) Calcule a mediana deste array com a _função_ (não método)
`np.median`. Lembre-se que a __mediana__ de uma coleção de números é seu valor
do meio quando está organizada em ordem ascendente; se houver um
número par de valores, a mediana é a média dos dois valores do meio.

__Exercício:__ Quais são a média, mediana, variância e desvio padrão de um
array cujos elementos têm todos o mesmo valor $ c $?

__Exercício:__ O seguinte array registra temperaturas diárias (em Celsius) para
$ 30 $ dias consecutivos.

(a) Calcule a média, mediana e desvio padrão $ \sigma $, e interprete este último valor.

(b) Encontre todos os dias em que a temperatura estava mais de $ 2\,\sigma $ abaixo ou acima da média. _Dica:_
Use `np.where` para encontrar os índices dos dias para os quais
$ \vert \text{temperatura} - \text{média} \vert > 1.5\, \sigma $. A função de valor absoluto
no NumPy é `np.abs`.

In [7]:
temperatures = np.array([
    25.3, 26.1, 25.8, 26.5, 27.2, 28.1, 29.3, 28.7, 27.5, 26.8,
    25.9, 24.7, 23.5, 22.8, 21.5, 22.3, 23.1, 24.2, 25.4, 26.7,
    32.1, 33.5, 33.8, 32.9, 30.2, 28.5, 27.3, 26.8, 25.9, 25.2
])

__Exercício:__ O _produto de Wallis_ é o seguinte produto infinito
$$
2\,\prod_{k=1}^{\infty} \frac{4k^2}{4k^2 - 1} = 2 \cdot
\frac{4}{3} \cdot \frac{16}{15} \cdot \frac{36}{35} \cdot \frac{64}{63}
\cdot \frac{100}{99} \cdots
$$

(a) Crie um procedimento `wallis_product(n)` que calcula os produtos parciais
$ (p_1, p_2, \cdots, p_n) $ como um array $ 1D $, onde
$$
p_n = 2\,\prod_{k=1}^{n} \frac{4k^2}{4k^2 - 1}\,.
$$
_Dica:_ Primeiro crie um vetor cuja $ k $-ésima coordenada é o termo $ \frac{4k^2}{4k^2 - 1} $,
depois tome seu `cumprod` e multiplique o resultado por $ 2 $.

(b) Você consegue reconhecer o valor (limite) do produto infinito? Faça uma conjectura, então
teste-a calculando `wallis(n)` para um valor grande como $ n = 100\,000 $ e
imprimindo uma fatia com passo $ \frac{n}{100} $ (use `//` para divisão inteira).

### $ 2.3 $ Aplicando métodos de redução e acumulação ao longo de um eixo

📝 Nenhum dos métodos de redução e acumulação realiza transformações no local.
Em vez disso, eles retornam novos arrays (ou números) com os resultados
calculados enquanto deixam o array original inalterado.

Como um argumento opcional para qualquer desses métodos, podemos designar um eixo
__ao longo do qual__ a operação deve ocorrer.

<img src="array_sum.svg" width="800" alt="Somando as entradas de um array ao longo de um eixo">

Se pensarmos em $ A $ como a matriz $ A = (a_{ij}) $, onde $ i $ é o índice
para o eixo $ 0 $ (ou seja, o índice das linhas), então tomar a soma _ao longo_ deste eixo
significa que, para cada $ j $, o NumPy calcula
$$
\sum_{i} a_{ij}
$$
resultando no vetor com quatro coordenadas na parte inferior da figura
já que $ A $ tem quatro colunas. Para dizer de outra forma, _o eixo especificado como o
argumento para o método é aquele sobre o qual se opera_, e, portanto, ele colapsa.

__Exercício:__ Calcule os produtos das linhas e das colunas no array
$ C $ dado abaixo ao longo de ambos os eixos. Explique os resultados.

In [33]:
C = np.array([[2, 1, 3],
              [3, 2, 1]])
print(C)

[[2 1 3]
 [3 2 1]]


__Exercício:__ Entender como o parâmetro de eixo funciona é crucial;
este exercício ajudará você a dominar isso.
Dada a matriz $ A $ na célula de código abaixo:

(a) Encontre o valor máximo em cada linha (ou seja, ao longo das colunas).

(b) Calcule a média de cada coluna (ou seja, ao longo das linhas).

(c) Determine o índice do elemento máximo em cada linha (ou seja, ao longo das colunas).

(d) Calcule o desvio padrão dos valores em cada linha.

(e) Encontre as somas cumulativas para cada linha usando o método `cumsum`.

In [9]:
A = np.array([[1, 2, 3, 4],
              [3, 3, 3, 3]])
print(A)

[[1 2 3 4]
 [3 3 3 3]]


📝 É possível aplicar os métodos ao longo de múltiplos eixos passando uma tupla de
eixos para o parâmetro `axis`. Isso realiza a operação através das dimensões especificadas
simultaneamente.

__Exercício:__ Aplique `sum` ao longo dos eixos $ 1 $ e $ 2 $ do seguinte array $ 3D $
e explique o resultado. _Dica:_ Passe o argumento `axis=(1, 2)`.

In [10]:
M = np.arange(-12, 12).reshape(2, 3, 4)
print(M)

[[[-12 -11 -10  -9]
  [ -8  -7  -6  -5]
  [ -4  -3  -2  -1]]

 [[  0   1   2   3]
  [  4   5   6   7]
  [  8   9  10  11]]]


### $ 2.4 $ Outros métodos de redução e acumulação

Os arrays têm vários outros métodos além dos discutidos acima. Para obter uma listagem
de todos os atributos e métodos associados a um objeto `a` (não necessariamente um
array), você pode executar o comando Python `dir(a)`. Além disso, em notebooks Jupyter,
digitar `?` antes ou depois de um nome de objeto ou função (por exemplo, `A?` ou
`?np.array`) exibe documentação detalhada sobre ele:

In [11]:
A.sum?

[0;31mDocstring:[0m
a.sum(axis=None, dtype=None, out=None, keepdims=False, initial=0, where=True)

Return the sum of the array elements over the given axis.

Refer to `numpy.sum` for full documentation.

See Also
--------
numpy.sum : equivalent function
[0;31mType:[0m      builtin_function_or_method

Aqui mencionaremos apenas dois métodos adicionais e muito úteis: `any` e `all`, que são
métodos de redução booleanos:

* `any` retorna `True` se e somente se pelo menos um elemento no array for verdadeiro (ou não-zero).
   É equivalente a uma operação OR entre os elementos.
* `all` retorna `True` se e somente se todos os elementos no array forem verdadeiros (ou não-zero). É
   equivalente a uma operação AND entre os elementos.

Ambos aceitam um argumento de eixo para aplicar a operação ao longo de dimensões específicas,
e ambos lidam com arrays não-booleanos tratando quaisquer valores não-zero como verdadeiros.

__Exercício:__ Na teoria dos grafos e análise de redes, uma matriz de _conectividade_ ou
_adjacência_ é uma matriz quadrada usada para codificar um grafo finito. A entrada $
(i, j) $ indica se os nós $ i $ e $ j $ estão
conectados ou não. Implemente uma função que determine se todos os nós em uma
rede (representada por tal matriz) estão conectados a pelo menos outro nó.
_Dica:_ Uma linha com todos zeros representa um nó sem conexões com qualquer outro
nó. Precisamos verificar se existem tais nós. Use ambos `all` e `any` para
fazer isso.

In [None]:
# Exemplo de matriz de conectividade para uma rede com 5 nós:
example_matrix = np.array([
    [0, 1, 0, 0, 1],  # Nó 0 conecta-se aos nós 1 e 4
    [1, 0, 1, 0, 0],  # Nó 1 conecta-se aos nós 0 e 2
    [0, 1, 0, 0, 0],  # Nó 2 conecta-se apenas ao nó 1
    [0, 0, 0, 0, 0],  # Nó 3 não tem conexões (isolado)
    [1, 0, 0, 0, 0]   # Nó 4 conecta-se apenas ao nó 0
])

def all_node_connected(A):
    # complete ...

## $ \S 3 $ Transformações de arrays

### $ 3.1 $ Copiando arrays

Para criar uma cópia independente e profunda de um array NumPy, podemos usar o método `copy`.
Isso gera um novo objeto array com os mesmos dados que o array original,
mas armazenado em um local de memória separado. Também existe uma _função_ `np.copy`
que alcança o mesmo resultado, mas é ligeiramente menos versátil.

__Exercício:__ Dado o vetor $ \mathbf{x} = (0, 1, 2, \cdots, 9) $,
copie $ \mathbf{x} $ e atribua o resultado a $ \mathbf{y} $. 
Modifique um elemento de $ \mathbf{y} $ e verifique se $ \mathbf{x} $ é afetado.

In [None]:
x = np.arange(10)

### $ 3.2 $ Alterando o tipo de dados

Lembre-se que o atributo `dtype` de um array armazena seu tipo de dados. Podemos criar
um novo array com um tipo de dados diferente a partir de um array dado usando o método
`astype`, desde que a conversão de tipo de dados faça sentido:

In [18]:
# Vamos começar criando um array de strings:
A = np.array([["1", "-2"],
              ["3", "-4"]])
print(A, '\n')

# Converter o tipo de dados para números de ponto flutuante de precisão dupla (64 bits):
A_double = A.astype("float64")
print(A_double, '\n', A_double.dtype)

[['1' '-2']
 ['3' '-4']] 

[[ 1. -2.]
 [ 3. -4.]] 
 float64


📝 Observe que o tipo de dados é passado como uma string, como "float128", "uint32" ou
"bool". Na verdade, esses são apenas aliases convenientes para os nomes de tipo
verdadeiros (NumPy), como `np.float64` e `np.bool_`, que também podem ser passados diretamente.
Veja a [documentação](https://numpy.org/devdocs/user/basics.types.html)
para uma lista completa de tipos de dados.


__Exercício:__ O que acontece se você tentar converter um array numérico para um cujo
tipo de dados é `bool`? E o inverso, ou seja, de `bool` para, digamos, `int32`?

In [15]:
numbers = np.array([-2, -1, 0, 1, 2])

bool_vals = np.array([True, False, True, True])

📝 Embora tenhamos falado sobre a "conversão" de um tipo para outro,
`astype` na verdade não modifica o array original; em vez disso, ele sempre cria uma
_nova cópia_ do array original com o tipo de dados prescrito. Isso ocorre
mesmo quando o tipo de dados alvo é o mesmo que o original.

__Exercício:__ Comprove que os dois arrays $ \mathbf{u} $ e $ \mathbf{v} $ abaixo
são independentes modificando um deles e verificando que o outro
não é afetado.

In [16]:
u = np.array([1, 2, 3])
print(f"Original u: {u} of type {u.dtype}")

v = u.astype("int64")
print(f"Original v: {v} of type {v.dtype} \n")

# Modifique v e verifique se u é afetado:

Original u: [1 2 3] of type int64
Original v: [1 2 3] of type int64 



### $ 3.3 $ Convertendo um array para uma lista

O método `tolist` é usado para converter arrays em listas Python. Dado um
array $ n $-dimensional, ele retorna uma lista aninhada com $ n $ níveis de aninhamento:

In [19]:
arr1d = np.array([1, 2, 3, 4])
list1d = arr1d.tolist()
print(list1d)

arr2d = np.array([[1, 2], [3, 4]])
list2d = arr2d.tolist()
print(list2d)

print(type(list2d))

[1, 2, 3, 4]
[[1, 2], [3, 4]]
<class 'list'>


Como perdemos os benefícios de desempenho do NumPy quando convertemos um array para uma lista,
isso só deve ser feito quando precisamos especificamente interfacear com código que
não suporta NumPy.

### $ 3.4 $ Remodelando arrays

Remodelar arrays é uma operação comum e fundamental no NumPy. Existe tanto
uma função quanto um método chamado `reshape` que podem realizar isso:

In [39]:
a = np.array([1, 2, 3, 4, 5, 6])
print(a, end='\n\n')

A = np.reshape(a, (3, 2))  # Aqui usamos a _função_ `reshape`

B = a.reshape((2, 3))   # Aqui usamos o _método_ `reshape`

print(A, end="\n\n")
print(B, end="\n\n")

[1 2 3 4 5 6]

[[1 2]
 [3 4]
 [5 6]]

[[1 2 3]
 [4 5 6]]



Note que quando remodelamos um array, a ordem (row-major) dos elementos é preservada.
Mais importante, a nova forma deve ser compatível com o tamanho do array original,
no sentido de que o tamanho (número total de elementos) deve permanecer o mesmo. Por
exemplo, o seguinte resulta em um erro:

In [None]:
C = np.reshape(a, (2, 2))

Ao remodelar, também podemos especificar $ -1 $ em uma dimensão para instruir
o NumPy a inferir o número de elementos ao longo dessa dimensão a partir do tamanho do
array e das dimensões restantes. Isso é especialmente útil quando um
array é passado para nós pelo usuário como um argumento em uma chamada de função, mas não
sabemos antecipadamente quantas entradas ele tem:

In [None]:
a = np.array([[1, 2],
              [3, 4]])
a = a.reshape((-1, 1))  # remodelar em um vetor coluna (uma matriz m x 1)
print(A)

[[1]
 [2]
 [3]
 [4]]


Neste exemplo, queríamos remodelar nosso array para que o resultado tivesse
uma coluna, mas não queríamos calcular quantas linhas deveria ter para que
isso acontecesse.

__Exercício:__ Remodele o seguinte array $ 1D $ $ \mathbf x $ em uma matriz
$ X $ com três linhas; observe que não é necessário calcular quantas colunas
deve haver.

In [None]:
x = np.arange(1, 13)
# X = ...

print(x)
print(X)

[ 1  2  3  4  5  6  7  8  9 10 11 12]


📝 Não há diferença essencial entre as versões de função e método
de `reshape`. Em ambos os casos, o NumPy retorna um _novo_ array, enquanto o original
permanece inalterado. No entanto, essas operações fornecem uma visão dos
dados do array original sempre que possível, o que significa que elas não copiam os
_dados_ do array a menos que necessário. Assim, modificações nos dados do array remodelado
podem afetar o array original e vice-versa.

__Exercício:__ Use a matriz do exercício anterior para ilustrar isso: modifique
uma entrada de $ X $ e verifique se $ \mathbf{x} $ é afetado.

__Exercício:__ Dado um array $ 1D $ de $ 100 $ elementos, remodele-o em uma matriz $ 10
\times 10 $. Em seguida, normalize a matriz para que todos os valores sejam escalados para
ficar entre $ 0 $ e $ 1 $ (inclusive). _Dica:_ Determine o máximo $ M $ e
mínimo $ m $ de todas as entradas, escreva uma função linear $ f $ que leva $ [m, M]
$ em $ [0, 1] $ e depois aplique-a ao array inteiro.

In [None]:
# Gerar array aleatório de 100 elementos
data = rng.integers(0, 1000, size=100)
print(data)

[400 787 316 239 791 876  79  58 671 336 573 150 860 450 894 796 705 230
 767  52 570 404 996 198 946  90 623 580 898 298 902 671 890 199 758 942
  48 365 636 105 510 629 763 927 409 440 474 954 195 499  49 425 945 620
 349 995 603 948  16 460 834 757 407 497 420 529 230 785  77 414 281 734
 749 711 924 932 184 114 132 729 970 927 668 967 871  14 119 863  82 981
 827 957 360 148 516 972 367 889 383 822]


### $ 3.5 $ Redimensionando um array

Diferentemente de `reshape`, que requer que o número total de elementos permaneça o mesmo,
`resize` pode modificar não apenas a forma de um array, mas também seu tamanho.
Existem duas versões:
* O _método_ `resize` modifica o array no local. Se o
  novo tamanho for maior que o antigo, então o método preenche as entradas ausentes
  com zeros. Como exemplo da sintaxe, `a.resize((2, 4))` remodelará/redimensionará o
  array `a` em uma matriz de forma $ (2, 4) $.
* A _função_ `np.resize` retorna um novo array independente. Se o novo tamanho for maior que
  o do original, ele percorre os elementos do array original até que as
  entradas restantes sejam preenchidas. Como exemplo da sintaxe, `np.resize(a, (1, 2, 3))` irá
  remodelar/redimensionar o array `a` em um array de forma $ (1, 2, 3) $.
* Em ambos os casos, se o novo tamanho for menor que o original, 
  os elementos excedentes são descartados.
* Também para ambos, a função e o método, ao remodelar para um array unidimensional,
  podemos passar o número de elementos em vez da forma completa, por exemplo,
  `np.resize(x, 3)` (ou `x.resize(3)`) em vez de `np.resize(x, (3, ))`.

__Exercício:__ Compare o comportamento da função `resize` e do método `resize`
redimensionando o array $ \mathbf{v} $ para arrays das seguintes formas.
Tenha cuidado com seu código, já que o método resize modifica no local, o que
afetará as operações subsequentes envolvendo $ \mathbf{v} $; pode ser
uma boa ideia chamar a função antes do método.

(a) Um vetor com $ 10 $ coordenadas. _Dica:_ Você pode usar a sintaxe mais simples
`v.resize(10)` em vez de `v.resize((10, ))`, e similarmente para a versão da função.

(b) Uma matriz de forma $ (3, 3) $.

(c) Um vetor com apenas duas coordenadas.


In [24]:
v = np.array([1, 2, 3, 4])
print(f"Original vector: {v}")

Original vector: [1 2 3 4]


### $ 3.6 $ Achatando um array com `flatten` e `ravel`

O método `flatten` pega um array multidimensional e retorna um novo array
_independente_ unidimensional contendo todos os elementos do array original.

A ordem em que os elementos são colocados no array achatado é baseada
na ordenação row-major de seus índices no array original. Por exemplo,
se estamos lidando com um array $ 3D $, então a entrada na posição $ (0, 0, 2) $
vem antes da entrada em $ (0, 1, 0) $, que será colocada antes da entrada
em $ (1, 0, 0) $.

O NumPy fornece outro método chamado `ravel` que é semelhante a `flatten`, mas
com uma diferença importante: enquanto `flatten` sempre retorna uma cópia profunda dos
dados, `ravel` retorna uma visão quando possível, o que o torna mais
eficiente em termos de memória.

__Exercício:__ Aplique `ravel` e `flatten` à matriz $ A $ abaixo para obter
dois vetores. Verifique se alterações nas entradas de $ A $ afetam esses vetores
e vice-versa.

In [None]:
A = np.array([[1, 2],
              [3, 4]])
print(A)

[[1 2]
 [3 4]]


### $ 3.7 $ Combinando arrays com `hstack` e `vstack`

O NumPy fornece várias funções para empilhar arrays juntos. As mais comumente
usadas são `hstack` (empilhamento horizontal) e `vstack` (empilhamento vertical).

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Empilhamento horizontal (lado a lado):
h_stacked = np.hstack((a, b))
print(f"Horizontal stack of a and b: {h_stacked}")

# Empilhamento vertical (um acima do outro):
v_stacked = np.vstack((a, b))
print(f"Vertical stack of a and b:\n{v_stacked}")

Horizontal stack of a and b: [1 2 3 4 5 6]
Vertical stack of a and b:
[[1 2 3]
 [4 5 6]]


Observe os parênteses duplos na sintaxe das chamadas. Ambas as funções
recebem uma tupla de arrays a serem empilhados, e as formas desses arrays devem ser
exatamente as mesmas, exceto pelos comprimentos do eixo de concatenação, que não precisam
coincidir.

__Exercício:__ Empilhe as duas matrizes $ A $ e $ B $ abaixo horizontal e verticalmente.
Você consegue empilhar $ A $ e $ \mathbf{c} $ horizontal e verticalmente também?
E quanto a $ A $ e $ \mathbf{d} $?

In [40]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
c = np.array([5, 6])
d = np.array([[1],
              [2]])

### $ 3.8 $ Ordenando e encontrando elementos únicos

Existem várias opções para ordenar arrays, cada uma adequada para diferentes
situações.

* A função `np.sort` retorna uma cópia independente ordenada do array sem
  modificar o array original:

In [4]:
a = np.array([3, 1, 2])
b = np.sort(a)

print(a)  # a permanece inalterado
print(b)

[3 1 2]
[1 2 3]


* O método `sort` ordena o array no local (e retorna `None` como resultado da chamada):

In [7]:
a = np.array([3, 1, 2])
a.sort()

print(a)  # a agora está ordenado

[1 2 3]


* A função `argsort` retorna os índices que ordenariam o array:

In [9]:
a = np.array([3, 1, 2])
indices = np.argsort(a)  

print(indices)

[1 2 0]


Para entender o resultado anterior, observe que $ 1 $ é o índice do menor
elemento no array, $ 2 $ é o índice da mediana e $ 0 $ o índice do
maior elemento. Todas essas funções suportam parâmetros para especificar
um eixo e o algoritmo de ordenação; veja a [documentação](https://numpy.org/doc/stable/reference/routines.sort.html)
para mais detalhes.

__Exercício:__ 

(a) Ordene a seguinte matriz sem passar nenhum argumento. Explique o resultado.

(b) Ordene usando o argumento `axis=0` e explique o resultado.

(c) Realize um `argsort` e explique o resultado.

In [13]:
M = np.array([[5, 2, 7], 
              [1, 8, 3], 
              [9, 4, 2]])

A função `np.unique` retorna os elementos únicos de um array em ordem
crescente. Ela também pode nos dizer quantas vezes cada elemento único aparece no array quando o
parâmetro `return_counts` é definido como `True`.

In [None]:
data = np.array([3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5])
print(f"Original array: {data}")

# Obter elementos únicos:
unique_elements = np.unique(data)
print(f"\nUnique elements: {unique_elements}")

# Obter elementos únicos e suas contagens:
unique_elements, counts = np.unique(data, return_counts=True)
print(f"\nUnique elements: {unique_elements}")
print(f"Counts: {str(counts):>24}")

Original array: [3 1 4 1 5 9 2 6 5 3 5]

Unique elements: [1 2 3 4 5 6 9]

Unique elements: [1 2 3 4 5 6 9]
Counts:          [2 1 2 1 3 1 1]


__Exercício:__ Use `argmax` para encontrar o elemento mais comum no array `data` do exemplo anterior.

### $ 3.9 $ Invertendo arrays

A função `np.flip` inverte a ordem dos elementos em um array ao longo de um eixo especificado. Ela sempre
retorna um novo array independente, não uma visão do original.

In [None]:
a = np.array([1, 2, 3, 4, 5])
print(f"Original array: {a}")
print(f"Flipped array: {np.flip(a)}")

__Exercício:__ Dado o array $ 2D $ $ A $ abaixo:

(a) Inverta $ A $ ao longo de seu eixo $ 0 $ usando `flip` com o argumento `axis=0`.

(b) Inverta a ordem das colunas de $ A $ usando `flip`.

(c) Inverta ambos os eixos de $ A $ usando `flip` sem fornecer um argumento `axis`.

(d) Você consegue obter os mesmos resultados usando fatias do tipo `::-1`? Qual é a diferença?
_Dica:_ O que acontece se você modificar o array invertido, o original é afetado?

In [15]:
# Criar um array 2D
A = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

print(f"\nOriginal 2D array:\n{A}")


Original 2D array:
[[1 2 3]
 [4 5 6]
 [7 8 9]]


__Exercício:__ O array $ 2D $ de forma $ 28 \times 28 $ na célula de código abaixo
representa uma imagem em escala de cinza. Escreva uma função para rotacionar esta imagem $ 90 $ graus
no sentido horário.

_Dica_: Isso pode ser realizado primeiro transpondo o array e depois
invertendo-o verticalmente (ou seja, invertendo a ordem das entradas ao longo de cada
coluna) com uma fatia apropriada ou usando `flip`. Isso é ilustrado no
exemplo $ 3 \times 3 $ abaixo, mas a mesma ideia funciona para qualquer forma $ 2D $.
$$
\begin{bmatrix}
a & b & c \\
d & e & f \\
g & h & i \\
\end{bmatrix}
\overset{\text{transpose}}{\longrightarrow}
\begin{bmatrix}
a & d & g \\
b & e & h \\
c & f & i \\
\end{bmatrix}
\overset{\text{flip ver.}}{\longrightarrow}
\begin{bmatrix}
g & d & a \\
h & e & b \\
i & f & c \\
\end{bmatrix}
$$

In [None]:
image = np.array(rng.integers(0, 256, size=(28, 28)))
print(image[:5, :5])

def rotate_90_clockwise(img):
    """ Rotacionar um array 2D 90 graus no sentido horário.  """

[[209 215 215 107 109]
 [139 143 115 203  34]
 [180 127  65  62 170]
 [  5 237  66 204  48]
 [206 217  69 153  58]]


### $ 3.10 $ O método `squeeze`

O método `squeeze` remove eixos de comprimento $ 1 $ da forma de um array.
Por exemplo, um array de forma $ (1, 3, 1) $ torna-se $ (3,) $ após compressão. 

In [16]:
# Criar array com forma (1, 3, 1, 2):
A = np.array([[[[1, 2]], [[3, 4]], [[5, 6]]]])
print(A.shape)

# Remover eixos de dimensão única:
B = A.squeeze()
print(B.shape)

(1, 3, 1, 2)
(3, 2)


Algumas características principais do `squeeze`:
* Ele retorna uma visão do array de entrada, não uma cópia.
* Sem argumentos, remove todos os eixos de dimensão única.
* Com o parâmetro axis, pode remover apenas eixos específicos de dimensão única.
* Gera um `ValueError` se você tentar comprimir um eixo de tamanho $ > 1 $.

__Exercício:__ Comprima o eixo $ 2 $ do array $ A $ no exemplo anterior para obter
um array $ C $. Em seguida, modifique um elemento de $ C $ e verifique se $ A $ é afetado.