In [1]:
import numpy as np

# Atributos e métodos de arrays

Neste notebook, estudaremos os _atributos_ e _métodos_ fundamentais dos
arrays NumPy. Compreender as propriedades (_atributos_) dos arrays nos permitirá
manipular dados com mais precisão, enquanto dominar as operações e
transformações (_métodos_) que podemos aplicar aos arrays nos permitirá
analisar e reestruturar nossos dados com elegância.

## $ \S 1 $ Atributos de arrays

### $ 1.1 $ Forma e número de dimensões

O __número de dimensões__, também conhecido como __rank__, de um array é armazenado
em seu atributo `ndim`. Por exemplo, a seguinte matriz tem rank $ 2 $, porque
possui dois __eixos__, um correspondente às suas linhas e outro às suas colunas:

<img src="array.svg" width="500" alt="Exemplo de um array A">

In [11]:
A = np.array([[1, 2,  3,  4],
              [1, 4,  9, 16],
              [1, 8, 27, 64]])
print(A, '\n')

print(f"Number of dimensions (rank) of A: {A.ndim}")

[[ 1  2  3  4]
 [ 1  4  9 16]
 [ 1  8 27 64]] 

Number of dimensions (rank) of A: 2


Talvez a propriedade mais importante de um array seja sua **forma** (shape), que é a
contagem de elementos ao longo de cada um de seus eixos. Referindo-se ao exemplo anterior, a
forma da nossa matriz $ A $ é $ (3, 4) $, ou $ 3 \times 4 $, já que possui três
linhas e quatro colunas:

In [5]:
print(A.shape)

(3, 4)


📝 O número de dimensões de um array é um inteiro positivo, enquanto sua forma é sempre uma tupla, mesmo quando o array é unidimensional:

In [3]:
a = np.array([11, 13, 17])
print(a.shape)

print("Note that the shape is not '3', but rather the tuple '(3, )'")
print(type(a.shape))

(3,)
Note that the shape is not '3', but rather the tuple '(3, )'
<class 'tuple'>


O __tamanho__ (size) de um array é simplesmente o número total de elementos nele:

In [4]:
print(a.size)

3


__Exercício:__ 

(a) Qual é o tamanho da matriz $ A $ de forma $ (3, 4) $ que consideramos
acima?

(b) Quais são o rank, a forma e o tamanho de um array $ 1D $ vazio? E de um
array $ 2D $ vazio?

__Exercício:__ Se um array tem forma $ (2, 3, 4) $, qual é seu tamanho? De forma mais geral, qual é o tamanho de um array de forma $ (n_1, n_2, \cdots, n_d) $?

__Exercício:__ Uma _matriz quadrada_ tem o mesmo número de linhas e colunas.

(a) Escreva uma função `is_square(A)` que aceite um array $ 2D $ como seu
argumento e retorne `True` ou `False` dependendo se a matriz dada é
quadrada ou não. _Dica:_ Use a forma para decidir isso.

(b) Como você generalizaria para arrays multidimensionais? Por exemplo, qual
seria uma definição razoável de um array cúbico $ 3D $ e como poderíamos verificar isso?

### $ 1.2 $ Atributos e terminologia relacionada

Uma instância, ou __objeto__, de uma classe específica, como o array $ A $ do tipo
`ndarray`, é equipada com um conjunto de **atributos** predefinidos. Atributos são 
_propriedades inerentes a cada instância da classe_.
O **estado** de um objeto é _o conjunto de valores atuais de todos
os seus atributos._

📝 Para acessar um atributo `a` de um objeto `x`, a sintaxe é sempre `x.a`.

Por exemplo, suponha que queremos projetar uma classe Python para representar carros.
Uma instância dessa classe corresponderia então a um carro específico
no mundo real. Alguns atributos plausíveis dessa classe poderiam ser:
* Sua cor (digamos, `color`, do tipo `str`).
* O ano em que foi fabricado (digamos, `year`, do tipo `int`).
* Se é elétrico ou não (digamos, `electric`, do tipo `boolean`).
* A eficiência de combustível do carro (digamos, `kilometers_per_liter`, do tipo `float`).

E assim por diante para qualquer outra propriedade relevante dos carros que possamos querer incluir
em nosso modelo. Observe que os valores desses atributos para diferentes instâncias de carro
irão variar, em geral. No entanto, a partir deste exemplo, podemos facilmente imaginar
uma situação em que dois carros têm exatamente o mesmo estado, definido por seu
conjunto de valores de atributos, e ainda assim são objetos distintos, ou seja, têm diferentes
_identidades_.

### $ 1.3 $ Os principais atributos de arrays

Embora os arrays venham com vários atributos, a maioria deles está relacionada à representação
interna do array ou a utilidades de baixo nível. Os cinco mais frequentemente usados e
conceitualmente importantes são:

| Atributo    | Descrição                                      | Tipo      |
|-------------|------------------------------------------------|-----------|
| `ndim`      | Número de dimensões (rank) do array        | `int`   |
| `shape`     | Número de elementos em cada eixo            | `tuple`     |
| `size`      | Número total de elementos no array         | `int`   |
| `dtype`     | Tipo de dados dos _elementos_ do array       | `dtype`  |
| `T`         | Transposta do array                       | `ndarray`    |


__Exercício:__ Para os seguintes arrays $ A $, $ B $ e $ \mathbf v $:

(a) Verifique seus atributos. O tipo de dados de $ \mathbf v $ é o que você esperava?

(b) Verifique se o tipo de cada atributo corresponde ao descrito na última
coluna da tabela usando a função embutida `type` do Python.

In [6]:
A = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

In [None]:
B = np.array([[True, False, True],
              [False, True, False]])

In [None]:
v = np.array([1, 2, 3.])

### $ 1.4 $ O tipo de dados de um array

Os arrays NumPy são projetados para armazenar elementos de um único tipo de dados, e _esses
tipos de dados são específicos do NumPy_. Muitos deles são baseados nos tipos nativos do C.
Isso garante alto desempenho e uma pegada de memória mais leve. Como exemplo, o
tipo de dados da matriz $ A $ acima é `int64`, que representa inteiros usando $
64 $ bits. Em contraste, o tipo embutido do Python `int` pode conter inteiros
arbitrariamente grandes.

Também é possível trabalhar
com arrays de objetos Python arbitrários usando o tipo de dados `object`. Como
neste caso o que é armazenado no array é apenas uma referência a cada objeto (não
o próprio objeto), as entradas nem precisam ter o mesmo tipo Python:

In [13]:
complex_array = np.array(["pandas",  [1, 2, 3], {"name": "Alice"}], dtype=object)

for i, item in enumerate(complex_array):
    print(f"Item {i}: {item} (type: {type(item)})")

Para criar um array NumPy com um tipo de dados especificado, podemos usar o parâmetro `dtype`
em qualquer função de criação de array. Por exemplo:

In [5]:
v = np.array([1, 2, 3, 4], dtype="float32")
print(f"Datatype of v: {v.dtype}")
print(v, '\n')

U = np.ones((2, 3), dtype="bool")
print(f"Datatype of U: {U.dtype}")
print(U)

Datatype of v: float32
[1. 2. 3. 4.] 

Datatype of U: bool
[[ True  True  True]
 [ True  True  True]]


__Exercício:__

(a) Crie um array $ 1D $ $ \mathbf{a} $ de tamanho $ 10 $ preenchido com zeros e tendo tipo de dados
    `int32`. _Dica:_ Use a função `zeros`.

(b) Instancie $ \mathbf b = (2, 3, 4, 5) $ do tipo `uint32` (inteiro não assinado de $ 32
$-bits) usando `linspace`.

(c) Construa um array $ 2D $ $ C $ de forma $ (4, 2) $ no qual todas as entradas são
iguais a $ 1 + i $, do tipo `complex`. _Dica:_ Use `full` e lembre-se que
a unidade imaginária em Python é denotada por `j`.

### $ 1.5 $ A transposta

O atributo `T` em arrays NumPy fornece uma _visão_ (não uma cópia independente) do
array transposto. Para arrays $ 2D $, a __transposta__ é obtida pela 
troca de linhas e colunas.  

__Exercício:__ 

(a) O que é a transposta de um array $ 1D $? E quanto a arrays $ 3D $? Teste suas conjecturas em alguns exemplos.

(b) De forma mais geral, qual seria a definição mais razoável da transposta de um array $ n $-dimensional?

Para arrays de dimensões superiores, `T` inverte a ordem de todos os eixos, enquanto
a transposta de um array $ 1D $ é o próprio array. A transposta aparece
frequentemente em Álgebra Linear e suas aplicações em estatística e aprendizado
de máquina.

<div style="
    background-color: #fff3cd; 
    border: 1px solid #ffeeba; 
    border-left: 5px solid #ffc107; 
    border-radius: 4px; 
    color: #856404; 
    margin: 10px 0px; 
    padding: 15px;">
    <span style="font-size: 24px; margin-right: 10px; vertical-align: middle;">⚠️</span>
    Quando aplicado a dois arrays da mesma forma, o operador <code>==</code> realiza uma
    comparação elemento a elemento e retorna um array booleano da mesma forma. 
    Para verificar se dois arrays <i>A</i> e <i>B</i> têm a mesma
    forma e elementos, use <code>np.array_equal(A, B)</code> em vez disso.
</div>

In [7]:
a = np.array([1, 2, 3])
b = np.array([1, 2, 3])

print(a == b)  # Comparação elemento a elemento
print(np.array_equal(a, b))  # Igualdade geral do array

[ True  True  True]
True


__Exercício:__ Escreva uma função Python para determinar se uma dada matriz $ A $ é
_simétrica_ (ou seja, se $ A^T = A $), _antissimétrica_ ($ A^T = -A $) ou nenhuma das duas.
Sua função funciona corretamente quando $ A $ não é quadrada?

In [None]:
def matrix_symmetry(A):
    # complete

## $ \S 2 $ Métodos de redução e acumulação

### $ 2.1 $ Métodos e terminologia relacionada

Enquanto os atributos descrevem as propriedades de um objeto, os **métodos** definem o que
um objeto pode fazer: são funções vinculadas ao objeto e que podem
acessar ou modificar seu estado. Métodos encapsulam comportamentos apropriados para
a classe de objetos a que pertencem, assim como os atributos encapsulam o estado.

📝 Para invocar um método `m` em um objeto `x`, a sintaxe é `x.m(<argumentos>)`.

Continuando o exemplo da seção $ \S 1.2 $, poderíamos pensar em implementar
os seguintes métodos para nossa classe que representa carros:
* Ligar o motor (digamos, `start_engine()`, que não retorna nada, mas muda o estado do carro).
* Verificar se é necessária manutenção (digamos, `needs_maintenance()`, que retorna um `boolean`).
* Reabastecer o carro com certa quantidade de combustível (digamos, `refuel(amount)`, que retorna o novo nível de combustível como um `float`).

No contexto de arrays NumPy, métodos como `sum()` realizam cálculos nos
dados do array e retornam resultados, enquanto métodos como `sort()` modificam o array no
local, sem retornar nada.

In [19]:
v = np.array([2, 3, 1])
print(f"v = {v}")
print(f"Sum of the values in v: {v.sum()}")

v.sort()  # Ordena C no local ao longo de seu último eixo
print(f"v after sorting: {v}")

v = [2 3 1]
Sum of the values in v: 6
v after sorting: [1 2 3]


### $ 2.2 $ Principais métodos de redução e acumulação

Os arrays NumPy têm vários métodos de _redução_ que transformam dados
em formas mais simples. Por exemplo, os métodos `min` e `max` produzem os elementos
mínimo e máximo de um array. Da mesma forma, `argmin` e `argmax` retornam o
_índice_ dos elementos mínimo e máximo. Aqui está uma ilustração no
caso de um array $ 1D $ `a`:

<img src="max_min.svg" width="1400" height="300" alt="Métodos Max e min">

📝 Quando o valor mínimo ocorre várias vezes, `argmin` retorna o índice da
primeira ocorrência. Quando chamado em um array multidimensional, ele retorna
o índice do elemento mínimo da versão _achatada_ ($ 1D $) do array:

In [14]:
arr = np.array([[3, 2, 4], 
                [1, 4, 1]])
print(arr)

idx = arr.argmin()
print(f"Argmin: {idx}")
print(type(idx))

[[3 2 4]
 [1 4 1]]
Argmin: 3
<class 'numpy.int64'>


O resultado neste caso é $ 3 $ porque esse é o primeiro índice de um elemento
tendo o valor mínimo $ 1 $ no array achatado $ (3, 2, 4, 1, 4, 1) $.
Claro, comentários semelhantes se aplicam a `argmax`.

__Exercício:__ Calcule `min`, `max`, `argmin` e `argmax` do seguinte array $ 2D $.
Explique os resultados dos dois últimos métodos.

In [15]:
A = np.array([[2, 0, 3],
              [3, 1, 0],
              [1, 2, 0]])
print(A, '\n')

[[2 0 3]
 [3 1 0]
 [1 2 0]] 



Os métodos `sum` e `prod` são outros métodos de redução que calculam a soma e o produto de
todos os elementos em um array, respectivamente. Os métodos `cumsum` e `cumprod` são
métodos de _acumulação_. Em vez de retornar um único número, eles produzem um
array da mesma forma que o original, obtido calculando a soma e o produto _cumulativos_
das entradas no array, respectivamente:

<img src="sum_prod.svg" width="1400" height="300" alt="Métodos de soma e produto">

__Exercício:__ Verifique os resultados no exemplo anterior usando NumPy e diretamente a partir
das definições dos métodos.

__Exercício:__ Crie uma função que calcule juros compostos usando
`cumprod`. Dado um valor principal e um array de taxas de juros mensais
(como valores decimais), retorne o saldo da conta após cada mês.
Teste-o nos valores abaixo. _Dica:_ Os fatores de crescimento são dados por
$ 1 + \text{taxas mensais} $. Os saldos serão o produto do
valor principal pelo produto cumulativo dos fatores de crescimento.

In [None]:
principal = 1000
monthly_rates = np.array([0.01, 0.012, 0.008, 0.011, 0.009, 0.013])
# balances = ???

📝 Nenhum dos métodos de redução e acumulação realiza transformações
no local. Em vez disso, eles retornam novos arrays (ou números) com os resultados
calculados, deixando o array original inalterado.

Os métodos de redução `mean`, `median`, `var` e `std` fornecem operações
estatísticas básicas essenciais para análise de dados, ou seja,
eles calculam a média (aritmética), mediana, variância e desvio padrão
do conjunto de elementos no array, respectivamente. Por exemplo:

<img src="mean_median.svg" width="1400" height="300" alt="Métodos de redução estatística">

Lembre-se que a __variância__ de uma coleção de números $ x_i $ é a média
do quadrado dos desvios da média; ela mede o quão dispersos estão os valores.
O __desvio padrão__ é simplesmente a raiz quadrada da variância.
Em símbolos, se 
$$
\mu = \frac{1}{n} \sum_{i=1}^{n} x_i
$$
denota a média, então
$$
\sigma^2 = \text{Var} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 \qquad
\text{e} \qquad 
\sigma = \text{Std} = \sqrt{\text{Var}} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}
$$
Como acima, o desvio padrão é frequentemente denotado por $ \sigma $.

__Exercício:__ Verifique usando as definições que os valores na ilustração
anterior estão corretos.

__Exercício:__ Quais são a média, mediana, variância e desvio padrão de um
array cujos elementos têm todos o mesmo valor?

__Exercício:__ Dado o array $ 1D $ abaixo, calcule a mediana e o desvio
padrão de todos os números que são maiores que $ 50 $. _Dica:_ Use uma
máscara booleana para filtrar os valores $ > 50 $.

In [3]:
rng = np.random.default_rng(0)
v = rng.integers(1, 101, size=100)
# Primeiros 20 elementos:
print(v[:20], "...")

# Sua solução aqui:
# print(f"\nMean of values greater than 50: {...:.2f}")

[86 64 52 27 31  5  8  2 18 82 65 92 51 61 98 73 64 55 56 94] ...


### $ 2.3 $ Aplicando métodos de redução e acumulação ao longo de um eixo

Como argumento opcional para qualquer desses métodos, podemos designar um eixo
_ao longo do qual_ a soma deve ocorrer. Como sempre em Python, a indexação é
baseada em zero, o que significa que para a matriz $ C $ abaixo, as linhas estão ao longo do eixo $ 0
$ e as colunas ao longo do eixo $ 1 $.

In [None]:
C = np.array([[2, 1, 3],
              [3, 2, 1]])
print(C.sum(axis=0))  # Soma ao longo do eixo 0 (soma por coluna)

Se pensarmos em $ C $ como a matriz $ C = (c_{ij}) $, onde $ i $ é o índice
para o eixo $ 0 $ (ou seja, o índice das linhas), então tomar a soma _ao longo_ deste eixo
significa que, para cada $ j $, o NumPy calcula
$$ \sum_{i} c_{ij}
$$
resultando no vetor anterior, já que $ C $ tem três colunas. Para colocar de
outra forma, _o eixo especificado como argumento para `sum` é aquele que é
colapsado_, neste caso pela soma.

__Exercício:__ Entender como o parâmetro de eixo funciona é crucial;
este exercício ajudará você a dominar isso.
Dada a matriz $ A $ na célula de código abaixo:

(a) Encontre o valor máximo em cada linha (ou seja, ao longo das colunas).

(b) Calcule a média (média aritmética) de cada coluna (ou seja, ao longo das linhas).

(c) Determine o índice do elemento máximo em cada linha (ou seja, ao longo das colunas).

(d) Calcule o desvio padrão dos valores em cada linha.

(e) Encontre as somas cumulativas para cada linha usando o método `cumsum`. 

In [12]:
A = np.array([[1, 2, 3, 4],
              [3, 3, 3, 3]])
print(A)

[[1 2 3 4]
 [3 3 3 3]]


📝 É possível aplicar os métodos ao longo de múltiplos eixos passando uma tupla de
eixos para o parâmetro `axis`. Isso realiza a operação através das dimensões especificadas
simultaneamente.

__Exercício:__ Aplique `sum` ao longo dos eixos $ 1 $ e $ 2 $ do seguinte array $ 3D $
e explique o resultado.

In [10]:
M = np.arange(-12, 12).reshape(2, 3, 4)
print(M)

[[[-12 -11 -10  -9]
  [ -8  -7  -6  -5]
  [ -4  -3  -2  -1]]

 [[  0   1   2   3]
  [  4   5   6   7]
  [  8   9  10  11]]]


### $ 2.4 $ Outros métodos de redução e acumulação

Os arrays têm vários outros métodos além dos discutidos acima. Para obter uma listagem
de todos os atributos e métodos associados a um objeto `a` (não necessariamente um
array), você pode executar o comando Python `dir(a)`. Além disso, em notebooks Jupyter,
digitar `?` antes ou depois do nome de um objeto ou função (por exemplo, `A?` ou
`?np.array`) exibe documentação detalhada sobre ele:

In [32]:
A.sum?

Aqui mencionaremos apenas dois métodos adicionais muito úteis: `any` e `all`, que são
métodos de redução booleana:

* `any` retorna `True` se e somente se pelo menos um elemento no array for verdadeiro (ou não-zero).
   É equivalente a uma operação OR entre os elementos.
* `all` retorna `True` se e somente se todos os elementos no array forem verdadeiros (ou não-zero). É
   equivalente a uma operação AND entre os elementos.

Ambos aceitam um argumento de eixo para aplicar a operação ao longo de dimensões específicas,
e ambos lidam com arrays não-booleanos tratando valores não-zero como
True.

__Exercício:__ Você tem leituras de sensores de vários dispositivos coletados
ao longo do dia (fornecidos abaixo). Crie uma função que verifique se algum
sensor relatou um valor crítico (acima de $ 95 $) e se todos os sensores permaneceram
operacionais (acima de $ 0 $).

In [7]:
# Cada linha dos dados representa um intervalo de tempo e cada coluna um sensor diferente:
sensor_data = np.array([
    [45, 62, 78, 81, 56],  # Hora 0
    [47, 65, 76, 82, 58],  # Hora 1
    [52, 68, 81, 85, 61],  # Hora 2
    [56, 72, 85, 88, 65],  # Hora 3
    [62, 78, 92, 93, 71],  # Hora 4
    [68, 83, 96, 91, 75],  # Hora 5 - Valor crítico
    [65, 81, 93, 87, 72],  # Hora 6
    [60, 76, 88, 84, 69],  # Hora 7
    [54, 71, 82, 80, 63],  # Hora 8
    [51, 67, 78, 78, 59],  # Hora 9
    [48, 65, 75, 75, 57],  # Hora 10
    [46, 63, 73, 74, 54],  # Hora 11
    [42, 59, 69, 70, 51],  # Hora 12
    [39, 55, 65, 68, 48],  # Hora 13
    [36, 53, 61, 65, 45],  # Hora 14
    [32, 48, 58, 61, 41],  # Hora 15
    [29, 43, 54, 58, 37],  # Hora 16
    [25, 38, 49, 53, 33],  # Hora 17
    [22, 35, 44, 49, 29],  # Hora 18
    [18, 30, 40, 46, 25],  # Hora 19
    [15, 28, 37, 42, 21],  # Hora 20
    [13, 0, 35, 39, 18],   # Hora 21 - Falha do sensor (valor 0)
    [11, 0, 32, 36, 15],   # Hora 22 - Falha do sensor (valor 0)
    [10, 22, 30, 35, 13],  # Hora 23
])

def validate_sensor_data(data, critical_threshold=95, operational_threshold=0):
    critical_readings = sensor_data > critical_threshold
    operational_sensors = sensor_data > operational_threshold
    # complete ...

__Exercício:__ Dado um array $ 2D $ `data` de forma $ 100 \times 5 $ representando um
conjunto de dados onde cada linha é uma entrada e cada coluna corresponde a uma variável diferente:

(a) Calcule a média e o desvio padrão de cada variável.

(b) Usando `argmin`, identifique a variável com a menor variância, sugerindo que ela tem a
menor dispersão.

In [None]:
data = rng.normal(size=(100, 5))

print(data[:5])  # Exibir as primeiras cinco linhas da tabela

# (a) Média e desvio padrão de cada variável (coluna):

# (b) Encontre a variável com a menor variância:

[[ 1.29289305  0.45367126 -1.69015994 -0.72819503  1.2323034 ]
 [ 0.29833525 -0.00985894  0.44120059  0.72104895 -0.70846524]
 [-0.29040008  0.14291365 -0.54395772 -0.13345156  1.29787176]
 [-0.96781986  1.92666271  1.87934438 -1.71343944 -0.14102267]
 [ 0.34269157 -0.76087109 -0.7410805  -0.2374157   0.73917809]]


## $ \S 3 $ Remodelagem e transformação de arrays

### $ 3.1 $ Alterando o tipo de dados

Lembre-se que o atributo `dtype` de um array armazena seu tipo de dados. Podemos criar
um novo array com um tipo de dados diferente a partir de um dado array usando o método
`astype`, desde que a conversão de tipo de dados faça sentido:

In [None]:
# Vamos começar criando um array de strings:
A = np.array([["1", "-2"],
              ["3", "-4"]])
print(A, '\n')

# Converter o tipo de dados para números de ponto flutuante de precisão dupla (64 bits):
A_double = A.astype("float64")
print(A_double.dtype, '\n', A_double)

[['1' '-2']
 ['3' '-4']] 

float64 
 [[ 1. -2.]
 [ 3. -4.]]


📝 Observe que o tipo de dados é passado como uma string. Na verdade, esses são apenas
aliases convenientes para os verdadeiros nomes de tipos (do NumPy), como `np.float64` e
`np.bool_`, que também podem ser passados diretamente.


__Exercício:__ O que acontece se você tentar converter um array numérico para um cujo
tipo de dados é `bool`? E quanto ao contrário, ou seja, de `bool` para, digamos, `int32`?

In [14]:
numbers = np.array([-2, -1, 0, 1, 2])

bool_vals = np.array([True, False, True, True])

📝 Embora tenhamos falado sobre a "conversão" de um tipo para outro,
`astype` não modifica realmente o array original; em vez disso, sempre cria uma
_nova cópia_ do array original com o tipo de dados prescrito. Isso ocorre
mesmo quando o tipo de dados alvo é o mesmo que o original.

__Exercício:__ Prove que os dois arrays $ \mathbf{u} $ e $ \mathbf{v} $ abaixo
são independentes modificando um deles e verificando que o outro
não é afetado.

In [15]:
u = np.array([1, 2, 3])
print(f"Original u: {u} of type {u.dtype}")

v = u.astype("int64")
print(f"Original v: {v} of type {v.dtype} \n")

# Modifique v e verifique se u é afetado:

Original u: [1 2 3] of type int64
Original v: [1 2 3] of type int64 



### $ 3.2 $ Modificando a forma dos arrays

Remodelar arrays é uma operação comum e fundamental no NumPy. Existe tanto
uma função quanto um método chamado `reshape` que podem realizar isso:

In [62]:
a = np.array([1, 2, 3, 4, 5, 6])
print(a, end='\n\n')

A = np.reshape(a, (3, 2))  # Aqui usamos a _função_ `reshape`

B = a.reshape((2, 3))   # Aqui usamos o _método_ `reshape`

print(A, end="\n\n")  # Aqui a foi remodelado em uma matriz 3 por 2
print(B, end="\n\n")  # Aqui a foi remodelado em uma matriz 2 por 3

Note que quando remodelamos um array, a nova forma deve ser compatível com o
tamanho do array original, no sentido de que o tamanho (número total de
elementos) deve permanecer o mesmo. Por exemplo, o seguinte resulta em um erro:

In [None]:
C = np.reshape(a, (2, 2))

Ao remodelar, também podemos especificar $ -1 $ em uma dimensão para instruir
o NumPy a inferir o número de elementos ao longo dessa dimensão a partir do tamanho do
array e das dimensões restantes. Isso é especialmente útil quando um
array é passado para nós pelo usuário como argumento em uma chamada de função, mas nós
não sabemos com antecedência quantas entradas ele tem:

In [None]:
a = np.array([[1, 2],
              [3, 4]])
A = a.reshape((-1, 1))  # Remodelar em um vetor coluna
print(A)

Neste exemplo, queríamos remodelar nosso array para que o resultado tivesse
uma coluna, mas não queríamos calcular quantas linhas ele deveria ter para
que isso acontecesse. Aqui está outro exemplo, no qual remodelamos um array $ 1D $ em uma
matriz e depois em um vetor linha:

In [8]:
x = np.arange(1, 13)
X = x.reshape((3, -1))
x_row = X.reshape((1, -1))

print(x, end='\n\n')
print(X, end='\n\n')
print(x_row, end='\n\n')

[ 1  2  3  4  5  6  7  8  9 10 11 12]

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

[[ 1  2  3  4  5  6  7  8  9 10 11 12]]



📝 Não há diferença essencial entre as versões de função e método
de `reshape`. Em ambos os casos, o NumPy retorna um _novo_ array, enquanto o array original
permanece inalterado. No entanto, essas operações fornecem uma visão dos
_dados_ do array original sempre que possível, o que significa que elas não copiam os
_dados_ do array a menos que seja necessário. Assim, modificações nos dados do array remodelado
podem afetar o array original e vice-versa. Vamos usar o exemplo
anterior para ilustrar isso:

In [None]:
X[0, 0] = -23  # Modifica o elemento superior esquerdo de X
print(x)  # O elemento 0 de x também foi afetado!

Para criar uma cópia independente e profunda de um array NumPy, podemos usar o método `copy`.
Este método gera um novo objeto array com os mesmos dados que o array original,
mas armazenado em um local de memória separado.

In [None]:
y = np.arange(3)  # y é o array 1D com entradas 0, 1, 2
Y = y.copy().reshape((1, -1))  # Remodelar y em um vetor linha 2D independente
y[0] = 10  # Modificar o elemento 0 de y

print(y)
print(Y)  # O elemento 0 de Y não é afetado, já que Y é uma cópia independente

__Exercício:__ Dado um array $ 1D $ de $ 100 $ elementos, remoldele-o em uma matriz $ 10
\times 10 $. Em seguida, normalize a matriz para que todos os valores sejam escalados para
estar entre $ 0 $ e $ 1 $ (inclusive). _Dica:_ Determine o máximo $ M $ e
mínimo $ m $ de todas as entradas, escreva uma função linear $ f $ que leve $ [m, M] $ para $ [0, 1] $
e então aplique-a ao array inteiro.

In [None]:
# Gerar array aleatório de 100 elementos
data = rng.integers(0, 1000, size=100)
print(data)

[400 787 316 239 791 876  79  58 671 336 573 150 860 450 894 796 705 230
 767  52 570 404 996 198 946  90 623 580 898 298 902 671 890 199 758 942
  48 365 636 105 510 629 763 927 409 440 474 954 195 499  49 425 945 620
 349 995 603 948  16 460 834 757 407 497 420 529 230 785  77 414 281 734
 749 711 924 932 184 114 132 729 970 927 668 967 871  14 119 863  82 981
 827 957 360 148 516 972 367 889 383 822]


### $ 3.3 $ Os métodos `ravel` e `flatten`

O método `flatten` pega um array multidimensional e retorna um novo
array _unidimensional_ independente contendo todos os elementos do array original. 

In [16]:
A = np.array([[1, 2],
              [3, 4]])
a = A.flatten()  # Cria um novo array 1D com uma cópia dos dados
print(a)

# Vamos verificar que é uma cópia:
a[0] = 99
print(f"\nAfter modifying a[0]:\n{A}")
print(f"a = {a}")

[1 2 3 4]

After modifying a[0]:
[[1 2]
 [3 4]]
a = [99  2  3  4]


A ordem em que os elementos são colocados no array achatado é baseada na
ordenação lexicográfica de seus índices no array original. Por exemplo,
se estamos lidando com um array $ 3D $, então a entrada na posição $ (0, 0, 2) $
vem antes da entrada em $ (0, 1, 0) $, que será colocada antes da entrada
em $ (1, 0, 0) $.

In [11]:
A = np.arange(6).reshape((2, 3))
print(A)

a = A.flatten()
a[0] = 10

print(a)
print(A)

[[0 1 2]
 [3 4 5]]
[10  1  2  3  4  5]
[[0 1 2]
 [3 4 5]]


O NumPy fornece outro método chamado `ravel` que é semelhante a `flatten`, mas
com uma diferença importante: enquanto `flatten` sempre retorna uma cópia profunda dos
dados, `ravel` retorna uma visão quando possível, o que o torna mais
eficiente em termos de memória.

__Exercício:__ Aplique `ravel` e `flatten` à matriz $ A $ abaixo para obter
dois vetores $ \mathbf{r} $ e $ \mathbf{f} $. Verifique se as alterações em
$ A $ afetam algum dos vetores.

In [14]:
A = np.array([[1, 2],
              [3, 4]])
print(A)

[[1 2]
 [3 4]]


### $ 3.4 $ Usando o método e função `resize`

Diferentemente de `reshape`, que requer que o número total de elementos permaneça o mesmo,
`resize` pode alterar o tamanho total de um array. O método `resize` modifica o
array no local, enquanto a função `np.resize` retorna um novo array. Se o
novo tamanho for maior que o antigo, então o _método_ preenche as entradas ausentes
com zeros, enquanto a _função_ percorre os elementos do array original:

In [18]:
# Usando método resize (modifica no local), preenche com 0 se necessário:
a = np.array([1, 2, 3, 4])
print(f"Original a: {a}")

a.resize(6)  # Redimensiona no local para comprimento 6
print(f"After a.resize(6): {a}")

Original a: [1 2 3 4]
After a.resize(6): [1 2 3 4 0 0]


In [22]:
# Usando função resize (retorna novo array)
b = np.array([1, 2, 3, 4])
C = np.resize(b, (2, 3))

print(f"\nOriginal b: {b}")
print(f"After np.resize(b, (2, 3)):\n{C}")


Original b: [1 2 3 4]
After np.resize(b, (2, 3)):
[[1 2 3]
 [4 1 2]]


### $ 3.5 $ Combinando arrays com `hstack` e `vstack`

O NumPy fornece várias funções para empilhar arrays juntos. As mais comumente usadas são `hstack` (empilhamento horizontal) e `vstack` (empilhamento vertical).

In [24]:
# Criando arrays de exemplo
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Empilhamento horizontal (lado a lado):
h_stacked = np.hstack((a, b))
print(f"Horizontal stack of a and b: {h_stacked}")

# Empilhamento vertical (um acima do outro):
v_stacked = np.vstack((a, b))
print(f"Vertical stack of a and b:\n{v_stacked}")

Horizontal stack of a and b: [1 2 3 4 5 6]
Vertical stack of a and b:
[[1 2 3]
 [4 5 6]]


__Exercício:__ Empilhe as duas matrizes $ A $ e $ B $ abaixo, horizontal e verticalmente.

In [25]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

### $ 3.6 $ Encontrando elementos únicos com `np.unique`

A função `np.unique` retorna os elementos únicos ordenados de um array. Ela também pode retornar contagens de cada valor único quando o parâmetro `return_counts` é definido como `True`.

In [34]:
data = np.array([3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5])
print(f"Original array: {data}")

# Obter elementos únicos:
unique_elements = np.unique(data)
print(f"\nUnique elements: {unique_elements}")

# Obter elementos únicos e suas contagens:
unique_elements, counts = np.unique(data, return_counts=True)
print(f"\nUnique elements: {unique_elements}")
print(f"Counts: {str(counts):>24}")

Original array: [3 1 4 1 5 9 2 6 5 3 5]

Unique elements: [1 2 3 4 5 6 9]

Unique elements: [1 2 3 4 5 6 9]
Counts:          [2 1 2 1 3 1 1]


__Exercício:__ Use `argmax` para encontrar o elemento mais comum no array `data` do exemplo anterior.

In [11]:
A = np.arange(6).reshape((2, 3))
print(A)

a = A.flatten()
a[0] = 10

print(a)
print(A)

[[0 1 2]
 [3 4 5]]
[10  1  2  3  4  5]
[[0 1 2]
 [3 4 5]]


O NumPy fornece outro método chamado `ravel` que é semelhante a `flatten`, mas
com uma diferença importante: enquanto `flatten` sempre retorna uma cópia profunda dos
dados, `ravel` retorna uma visão quando possível, o que o torna mais
eficiente em termos de memória.

__Exercício:__ Aplique `ravel` e `flatten` à matriz $ A $ abaixo para obter
dois vetores $ \mathbf{r} $ e $ \mathbf{f} $. Verifique se as alterações em
$ A $ afetam algum dos vetores.

In [14]:
A = np.array([[1, 2],
              [3, 4]])
print(A)

[[1 2]
 [3 4]]


### $ 3.4 $ Usando o método e função `resize`

Diferentemente de `reshape`, que requer que o número total de elementos permaneça o mesmo,
`resize` pode alterar o tamanho total de um array. O método `resize` modifica o
array no local, enquanto a função `np.resize` retorna um novo array. Se o
novo tamanho for maior que o antigo, então o _método_ preenche as entradas ausentes
com zeros, enquanto a _função_ percorre os elementos do array original:

In [18]:
# Usando método resize (modifica no local), preenche com 0 se necessário:
a = np.array([1, 2, 3, 4])
print(f"Original a: {a}")

a.resize(6)  # Redimensiona no local para comprimento 6
print(f"After a.resize(6): {a}")

Original a: [1 2 3 4]
After a.resize(6): [1 2 3 4 0 0]


In [22]:
# Usando função resize (retorna novo array)
b = np.array([1, 2, 3, 4])
C = np.resize(b, (2, 3))

print(f"\nOriginal b: {b}")
print(f"After np.resize(b, (2, 3)):\n{C}")


Original b: [1 2 3 4]
After np.resize(b, (2, 3)):
[[1 2 3]
 [4 1 2]]


### $ 3.5 $ Combinando arrays com `hstack` e `vstack`

O NumPy fornece várias funções para empilhar arrays juntos. As mais comumente usadas são `hstack` (empilhamento horizontal) e `vstack` (empilhamento vertical).

In [24]:
# Criando arrays de exemplo
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Empilhamento horizontal (lado a lado):
h_stacked = np.hstack((a, b))
print(f"Horizontal stack of a and b: {h_stacked}")

# Empilhamento vertical (um acima do outro):
v_stacked = np.vstack((a, b))
print(f"Vertical stack of a and b:\n{v_stacked}")

Horizontal stack of a and b: [1 2 3 4 5 6]
Vertical stack of a and b:
[[1 2 3]
 [4 5 6]]


__Exercício:__ Empilhe as duas matrizes $ A $ e $ B $ abaixo, horizontal e verticalmente.

In [25]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

### $ 3.6 $ Encontrando elementos únicos com `np.unique`

A função `np.unique` retorna os elementos únicos ordenados de um array. Ela também pode retornar contagens de cada valor único quando o parâmetro `return_counts` é definido como `True`.

In [34]:
data = np.array([3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5])
print(f"Original array: {data}")

# Obter elementos únicos:
unique_elements = np.unique(data)
print(f"\nUnique elements: {unique_elements}")

# Obter elementos únicos e suas contagens:
unique_elements, counts = np.unique(data, return_counts=True)
print(f"\nUnique elements: {unique_elements}")
print(f"Counts: {str(counts):>24}")

Original array: [3 1 4 1 5 9 2 6 5 3 5]

Unique elements: [1 2 3 4 5 6 9]

Unique elements: [1 2 3 4 5 6 9]
Counts:          [2 1 2 1 3 1 1]


__Exercício:__ Use `argmax` para encontrar o elemento mais comum no array `data` do exemplo anterior.

### $ 3.7 $ Invertendo arrays com `np.flip`

A função `np.flip` inverte a ordem dos elementos em um array ao longo de um eixo especificado. Ela sempre
retorna um novo array independente, não uma visão do original.

In [None]:
# Criar um array 1D:
a = np.array([1, 2, 3, 4, 5])
print(f"Original array: {a}")
print(f"Flipped array: {np.flip(a)}")

__Exercício:__ Dado o array $ 2D $ $ A $ abaixo:

(a) Inverta $ A $ ao longo de seu eixo $ 0 $ usando `flip` com o argumento `axis=0`.

(b) Inverta as colunas de $ A $.

(c) Inverta ambos os eixos de $ A $ usando `flip` sem fornecer um argumento `axis`.

(d) Você pode conseguir os mesmos resultados usando fatias do tipo `::-1`? Qual é a diferença?
_Dica:_ O que acontece se você modificar o array invertido, o original é afetado?

In [40]:
# Criar um array 2D
A = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

print(f"\nOriginal 2D array:\n{A}")

# (a) Inverter ao longo do eixo 0 (linhas):

# (b) Inverter ao longo do eixo 1 (colunas):

# (c) Inverter ao longo de ambos os eixos:


Original 2D array:
[[1 2 3]
 [4 5 6]
 [7 8 9]]


__Exercício:__ O array $ 2D $ de forma $ 28 \times 28 $ na célula de código abaixo
representa uma imagem em escala de cinza. Escreva uma função para rotacionar esta imagem $ 90 $ graus
no sentido horário.

_Dica_: Isso pode ser realizado primeiro transpondo o array e depois
invertendo-o verticalmente (ou seja, revertendo a ordem das entradas ao longo de cada
coluna) com uma fatia apropriada ou usando `flip`. Isso é ilustrado no
exemplo $ 3 \times 3 $ abaixo, mas a mesma ideia funciona em qualquer dimensão.
$$
\begin{bmatrix}
a & b & c \\
d & e & f \\
g & h & i \\
\end{bmatrix}
\overset{\text{transpor}}{\longrightarrow}
\begin{bmatrix}
a & d & g \\
b & e & h \\
c & f & i \\
\end{bmatrix}
\overset{\text{inverter vert.}}{\longrightarrow}
\begin{bmatrix}
g & d & a \\
h & e & b \\
i & f & c \\
\end{bmatrix}
$$

In [13]:
image = np.array(rng.integers(0, 256, size=(28, 28)))
print(image[:5, :5])

def rotate_90_clockwise(img):
    """ Rotaciona um array 2D 90 graus no sentido horário.  """

[[209 215 215 107 109]
 [139 143 115 203  34]
 [180 127  65  62 170]
 [  5 237  66 204  48]
 [206 217  69 153  58]]


### $ 3.8 $ O método `squeeze`

O método `squeeze` remove entradas unidimensionais (eixos com comprimento $ 1 $)
da forma de um array. Por exemplo, um array de forma $ (1, 3, 1) $ se torna
$ (3,) $ após a compressão. 

In [None]:
# Criar array com forma (1, 3, 1, 2):
A = np.array([[[[1, 2]], [[3, 4]], [[5, 6]]]])
print(A.shape)  # (1, 3, 1, 2)

# Remover eixos unidimensionais:
B = A.squeeze()
print(B.shape)  # (3, 2)

Algumas características principais do `squeeze`:
* Ele retorna uma visão do array de entrada, não uma cópia.
* Sem argumentos, ele remove todos os eixos unidimensionais.
* Com o parâmetro axis, ele pode remover apenas eixos unidimensionais específicos.
* Gera um `ValueError` se você tentar comprimir um eixo de tamanho $ > 1 $.

__Exercício:__ Comprima o eixo $ 2 $ do array $ A $ no exemplo anterior para obter
um array $ C $. Em seguida, modifique um elemento de $ C $ e verifique se $ A $ é afetado.