# **Técnicas de Programação 1 - NumPy**

---

**1. Introdução**<br>
- 1a. Motivação<br>
- 1b. Instalação e importação<br>

**2. Ndarrays**<br>
- 2a. Definição<br>
- 2b. Cuidados especiais ao copiar e modificar ndarrays<br>
- 2c. Propriedades básicas de ndarrays<br>
- 2d. Empilhando ndarrays<br>
- 2e. Tipos de dados e tamanho em memória<br>
- 2f. Convertendo dypes de ndarrays<br>
- 2g. Indexing & slicing<br>
- 2h. Máscara booleana e seleção avançada<br>
- 2i. Aritmética báscia de ndarrays<br>
- 2j. Any, all e múltiplas condições
- 2k. Métodos built-in de criação de arrays
- 2l. Exercícios I

**3. Principais funções matemáticas do NumPy**<br>
- 3a. Revisão de aritmética básica de ndarrays<br>
- 3b. Broadcasting<br>
- 3c. Funções matemáticas do NumPy <br>

**4. Álgebra linear com NumPy**<br>
- 4a. Álgebra Linear<br>
- 4b. Estatísica<br>

---

## **1. Introdução**

O **NumPy** é uma biblioteca fundamental para computação numérica em Python, oferecendo estruturas de dados eficientes, como arrays multidimensionais, e operações matemáticas otimizadas, sendo essencial para análise e manipulação eficaz de dados numéricos.

#### **1a. Motivação**

Uma introdução motivacional a alguns fatos fundamentais:

* Muitos trabalhos empresariais envolvem cálculos matemáticos avançados e dependem de bibliotecas especializadas.
* O NumPy realiza cálculos com Arrays Multidimensionais (em matemática, chamamos de vetores, matrizes ou tensores). Esses objetos fundamentais da biblioteca são basicamente "listas de listas de listas de ...", e atualmente são essenciais para estatística, aprendizado de máquina, processamento de imagem, texto, áudio, otimização e simulação de sistemas reais.
* Estratégias de otimização de armazenamento e processameto, como o uso de linguagens de mais baixo nível (C e Fortran), a tipagem estática e o armazenamento contíguo em memória, dentre outras, tornam as operações do NumPy muito mais eficientes do que operações baseadas em listas nativas no Python.
* Quando organizamos um código para aproveitar as operações do NumPy, é comum dizermos que nós estamos "vetorizando" o nosso código. Isso significa que evitamos loops explícitos no código Python, e no lugar deles aproveitamos ao máximo as operações de arrays do NumPy.
* Bibliotecas populares, como SciPy, pandas, scikit-learn e statsmodels, dependem das funcionalidades do NumPy para computação científica e ciência de dados.



> A vetorização no NumPy é a prática de aplicar operações diretamente a arrays multidimensionais, evitando a necessidade de loops explícitos em Python. Essa abordagem aproveita a eficiência das operações vetorizadas implementadas em C, resultando em códigos mais concisos e eficientes. Em vez de iterar manualmente sobre cada elemento, as operações são executadas de forma simultânea em todo o array, proporcionando ganhos significativos de desempenho.



Vamos ver um pequeno exemplo?

In [None]:
import numpy as np
import time
import matplotlib.pyplot as plt

# Tamanhos dos conjuntos de dados
tamanhos = [10**i for i in range(2, 9)]  # De 100 a 1 bilhão de elementos

tempos_nao_vetorizados = []
tempos_vetorizados = []

for tamanho in tamanhos:
    # Criar conjunto de dados
    dados = np.random.rand(tamanho)

    # Operação Não Vetorizada: Usando loop
    start_time = time.time()
    resultado_nao_vetorizado = []
    for elemento in dados:
        resultado_nao_vetorizado.append(elemento ** 2)
    tempo_nao_vetorizado = time.time() - start_time
    tempos_nao_vetorizados.append(tempo_nao_vetorizado)

    # Operação Vetorizada: Usando NumPy
    start_time = time.time()
    resultado_vetorizado = dados ** 2
    tempo_vetorizado = time.time() - start_time
    tempos_vetorizados.append(tempo_vetorizado)

# Plotar os tempos em um único gráfico de linha
plt.figure(figsize=(10, 5))

# Tempos Não Vetorizados
plt.plot(tamanhos, tempos_nao_vetorizados, marker='o', linestyle='-', color='blue', label='Não Vetorizado')

# Tempos Vetorizados
plt.plot(tamanhos, tempos_vetorizados, marker='o', linestyle='-', color='green', label='Vetorizado')

plt.xscale('log')  # Escala logarítmica para melhor visualização
plt.title('Comparação de Tempo entre Operações Vetorizadas e Não Vetorizadas')
plt.xlabel('Tamanho do Conjunto de Dados')
plt.ylabel('Tempo (s)')
plt.legend()

plt.show()

In [None]:
# Vamos comparar mais de perto os tempos do código não-vetorizado vs vetorizado?
print([f'{_:.03f}s' for _ in tempos_nao_vetorizados])
print([f'{_:.03f}s' for _ in tempos_vetorizados])
print(f'A execução mais custosa é {tempos_nao_vetorizados[-1]/tempos_vetorizados[-1]:.2f} vezes mais demorada na versão não vetorizada.')

Você notou que a complexidade da operação do exemplo acima é linear?<br>
E se estivéssesos trabalhando com um problema de complexidade quadrática?

In [None]:
import numpy as np
import time
import matplotlib.pyplot as plt

# Tamanhos dos conjuntos de dados
tamanhos = [10**i for i in range(2, 5)]  # De 100 a 100 mil elementos

tempos_nao_vetorizados = []
tempos_vetorizados = []

for tamanho in tamanhos:
    # Criar conjunto de dados
    dados = np.random.rand(tamanho)

    # Operação Não Vetorizada: Usando loops aninhados
    start_time = time.time()
    resultado_nao_vetorizado = []
    for i in range(len(dados)):
        for j in range(len(dados)):
            resultado_nao_vetorizado.append(dados[i] * dados[j])
    soma_produto_pares_nao_vetorizada = sum(resultado_nao_vetorizado)
    tempo_nao_vetorizado = time.time() - start_time
    tempos_nao_vetorizados.append(tempo_nao_vetorizado)

    # Operação Vetorizada: Usando NumPy
    start_time = time.time()
    soma_produto_pares_vetorizada = np.sum(np.outer(dados, dados))
    tempo_vetorizado = time.time() - start_time
    tempos_vetorizados.append(tempo_vetorizado)

# Plotar os tempos em um único gráfico de linha
plt.figure(figsize=(10, 5))

# Tempos Não Vetorizados
plt.plot(tamanhos, tempos_nao_vetorizados, marker='o', linestyle='-', color='blue', label='Não Vetorizado')

# Tempos Vetorizados
plt.plot(tamanhos, tempos_vetorizados, marker='o', linestyle='-', color='green', label='Vetorizado')

# plt.xscale('log')  # Escala logarítmica para melhor visualização
plt.title('Comparação de Tempo entre Operações Vetorizadas e Não Vetorizadas (Complexidade Quadrática)')
plt.xlabel('Tamanho do Conjunto de Dados')
plt.ylabel('Tempo (s)')
plt.legend()

plt.show()

In [None]:
# Vamos comparar mais de perto os tempos do código não-vetorizado vs vetorizado?
print([f'{_:.03f}s' for _ in tempos_nao_vetorizados])
print([f'{_:.03f}s' for _ in tempos_vetorizados])
print(f'A execução mais custosa é {tempos_nao_vetorizados[-1]/tempos_vetorizados[-1]:.2f} vezes mais demorada na versão não vetorizada.')

É impressionante como a eficiência computacional pode virar um problema rapidamente, se estivermos lidando com operações de complexidade mais elevada!

> "*Se você está escrevendo um loop, você está fazendo errado.*"<br>
Kreischer, V. A., 2020: reclamando da qualidade duvidosa do meu código.

O excesso de loops é um hábito comum em programadores habituados com linguagens de progarmação de mais baixo nível.

Vale mencionar: um bom guia para quem deseja se aprofundar no "jeito Python" de fazer as coisas, é o livro [The Pythonic Way](https://www.amazon.com.br/Pythonic-Way-Architects-Conventions-Development/dp/9391030122).

Mas, ainda que de maneira não tão formal e aprofundada, nesta seção discutiremos (e experimentaremos) bastante as potencialidades do NumPy e do "jeito Python" de resolver problemas intrinsicamente iterativos.

E será na seção seguinte, sobre Pandas, que vamos perceber o quanto os conceitos que serão apresentados aqui permeiam muito mais do dia-a-dia de um profissional de dados do que muitas vezes imaginamos.

#### **1b. Instalação e importação**

Assim, para que possamos dar nosso primeiros pasos com o NumPy, vamos falar rapidamente sobre instalação e importação.

É extremamente provável que sua instalação Python já inclua por padrão a instalação do pacote NumPy.

Caso não, você pode:
- Simplesmente instalar o pacote Anaconda com a configuração padrão (https://www.anaconda.com/distribution/), que já inclúi por padrão a biblioteca NumPy e diversas bibliotecas científicas e ligadas a Machine Learning e Data Science.
- Utilizar o gerenciador de pacotes de sua preferência para instalar a bibliteca via linha de comando. Abra um terminal e digite `conda install numpy` ou `pip install numpy`, por exemplo.

Por fim, para checar a sua intalação e também para fazer uso do pacote, basta importar o NumPy como outra biblioteca qualquer, fazendo

In [None]:
import numpy as np

Notas:
- Note que no Google Colab o NumPy já está instalado por padrão.
- É uma prática comum apelidar o pacote de *np*

## **2. Ndarrays**

#### **2a. Definição**

Na introdução, comentamos que a estrutura de dados básica do NumPy é um "array multidimensional". Esse objeto do NumPy se chama ndarray. Um mnemônico para ajudar a lembrar é lembrar pensar em "N Dimensões ARRAY", ou "NDARRAY". Basta lembrar que o "nd" significa "n-dimensional", pois também podemos ter tabelas multidimensionais.

Essa estrutura é semelhante aos arrays de outras linguagens de programação. Pode ser uma lista de valores, uma tabela, ou uma tabela de tabelas.

O mais comum é usarmos ndarrays como listas ou tabelas de valores.

No caso de uma lista, nós temos um ndarray de uma dimensão. Matematicamente, esse objeto é equivalente a um **vetor**.

O método mais comum para criar um ndarray é através da função `np.array`.<br>Assim, para criar nosso primeiro "vetor" com NumPy, podemos fazer:

In [None]:
vetor = np.array([1, 2, 3])
print(vetor)

Se olharmos o tipo da variável vetor, veremos que ela é do tipo NumPy.ndarray.

In [None]:
print(type(vetor))

Neste ponto, a diferença mais marcante dos ndarrays para as listas do python nativo, é a **tipagem estática**, sobre a qual tambpem falamos na introdução. No contexto de ndarrays, todos os elementos de um array precisam ter o mesmo tipo de dados.

In [None]:
vetor = np.array(['Palavra', 3.14, False])

In [None]:
print(type(vetor[0]))
print(type(vetor[1]))
print(type(vetor[2]))
print(type(vetor[3]))

Ou seja, o NumPy fará uma coerção automática para garantir que todos os elementos tenham o mesmo tipo. Neste caso, todos os elementos serão convertidos para strings, resultando em um ndarray do tipo string. Você pode ver o tipo geral dos dados que fazem parte de um array da segunte forma:

In [None]:
vetor.dtype

Você que já teve experiência com Pandas:<br>
Já se atrapalhou com coerções de tipo automáticas acontecendo nas colunas de um dataframe?

Continuando:<br>
Além de um vetor, podemos criar também uma tabela com duas dimensões. Nesse caso, temos uma **matriz**.

In [None]:
matriz = np.array([[1, 2], [3, 4]])
print(matriz)

É possível, também, aumentar o número de dimensões.<br>
Nesse caso, se temos 3 dimensões, por exemplo, podemos considerar que temos uma lista de tabelas. Se temos 4 dimensões, então podemos dzer que temos uma tabela cujos elementos são outras tabelas. Assim, quanto mais dimensões, nós vamos empilhando em uma lista objetos com menos dimensões. Se forem 5 dimensões, temos uma lista de ndarrays de 4 dimensões (ou uma lista de tabelas de tabelas). E assim por diante.

Matematicamente, sempre que estamos diante de um objeto de 3 ou mais dimensões, nós chamamos este objeto de **tensor**.

In [None]:
tensor = np.array([[[1, 2], [3, 4]], [[1, 0],[0, 1]]])
print(tensor)

Note que a variável tensor nada mais é que duas tabelas.

Uma representação visual de ndarrays podem ajudar a entender melhor o que está acontecendo.

<img src=https://s3-sa-east-1.amazonaws.com/lcpi/b50bd331-732b-48a4-9d46-01f20c15ab29.png width=500>

Ainda, é comum falarmos de cada dimensão de um ndarray como um "eixo".<br>Assim, se um ndarray tem 3 dimensões, nós podemos falar da "1ª dimensão do array" (o eixo 0 do array), da "2ª dimensão do array" (o eixo 1 do array) e da "3ª dimensão do array" (eixo 2 do array).<br>Trazendo alguma abstração para a nossa forma de ver a estrutura, um ndarray com formato (3, 3, 2) poderia ser entendido como uma lista ao longo do seu primeiro eixo (eixo 0), por exemplo. Essa lista seria composta por 3 matrizes de tamanho 3 x 2. De forma totalmente equivalente, a gente poderia pensar que ele é uma lista com 2 matrizes 3 x 3 ao longo do seu terceiro eixo (eixo 2).

<img src=https://s3-sa-east-1.amazonaws.com/lcpi/1e527c6a-ea64-46e3-bd31-ffba06749000.png width=600>

O ndarray é a estrutura de dados básica do NumPy, e é a estrutura que usaremos sempre. Todo o poder do NumPy vem da implementação desta estrutura de dados e das operações a ela relacionadas, que são bem mais eficientes do que as operações nativas que poderiam incindir sobre listas comuns do Python.

Esses objetos também são muito comuns em matemática, pois representam basicamente vetores e matrizes. Assim, é bem direto "vetorizar" nosso código escrevendo-o de forma bem parecida com o que faríamos em notação matemática.

Obs: Falamos antes também de tensores. Não é importante entender o que eles são para poder usar o NumPy. Apenas cálculos muito específicos se utilizam da matemática de tensores. Para a maioria dos casos, basta ter a visão que demos anteriormente, sobre como eles são basicamente "matrizes com 3 ou mais dimensões". Isso significa que eles podem ser uma lista de tabelas, uma tabela de tabelas, uma lista de tabelas de tabelas, uma tabela de tabelas de tabelas, e assim por diante.

#### **2b. Cuidados especiais ao copiar e modificar ndarrays**

Antes de começar a ver as propriedades básicas de um ndarray, é importante ter uma questão muito importante em mente. Assim como os arrays nativos do Python, devido à forma como o NumPy trabalha com ndarrays na memória do computador, eles se comportam da forma mostrada abaixo.

In [None]:
a = np.array([1, 2, 3])
b = a
b

In [None]:
b[0] = 100
b

In [None]:
a

#### **2c. Propriedades básicas de ndarrays**

##### Dimensão e formato

Como vimos antes, é possível criar um ndarray com diferentes dimensões e formatos.<br>Cada ndarray tem os atributos **ndim** e **shape**, que guardam estas informações. Logo, para sabermos como é o nosso ndarray, basta acessarmos estes atributos.

In [None]:
print(vetor.ndim)
print(vetor.shape)

In [None]:
print(matriz.ndim)
print(matriz.shape)

In [None]:
print(tensor.ndim)
print(tensor.shape)

Isso é extremamente importante para nos ajudar quando temos um ndarray muito grande e precisamos ter uma ideia de seu tamanho e dimensionalidade. Além disso, esses atributos também nos ajudam quando queremos criar funções genéricas que atuem em ndarrays.

A partir do formato do array, nós poderíamos obter também o número de elementos do array. Porém, objetos ndarray já têm o atributo `size`, para facilitar nosso trabalho.


In [None]:
print(vetor.size)

In [None]:
print(matriz.size)

In [None]:
print(tensor.size)

#### **2d. Empilhando ndarrays**

Outra forma de obter arrays com dimensões ou formatos diferentes é juntar e empilhar arrays. Podemos tanto empilhar um array em cima do outro (um "empilhamento vertical") usando a função `np.vstack`, quanto tentar colocar um ao lado do outro (um "empilhamento horizontal") usando a função `np.hstack`.

In [None]:
v1 = np.array([1,2,3,4])
v2 = np.array([5,6,7,8])
np.vstack([v1, v2])

In [None]:
np.vstack([v1, v2, v2, v2])

In [None]:
h1 = np.array([
  [1, 1, 1, 1],
  [1, 1, 1, 1]
])

h2 = np.array([
  [0,0],
  [0,0]
])

np.hstack((h1, h2))

#### **2e. Tipos de dados e tamanho em memória**

Conforme mencionamos rapidamente na introdução da aula, um array do NumPy tem a propriedade `dtype`, que nos dá o tipo dos elementos que o compõem.
> Note que usei "o tipo", no singular.Vale relembrar, conforme dito na introdução:<br>Todos os elementos de um ndarray tem o mesmo tipo de dados. Você pode até tentar guardar dados de tipos diferentes, mas o NumPy forçará uma coerção de tipos para garantir esta propriedade.



In [None]:
vetor = np.array([1, 2, 3, 4, 5, 6, 7])
vetor.dtype

Quando nós construímos o ndarray, se não passarmos explicitamente qual é o `dtype`, ele infere a partir dos valores que passamos.

In [None]:
vetor = np.array([1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0])
vetor.dtype

Para passar esse parâmetro explicitamente, basta utilizar um segundo argumento na função `np.array`. Para esses arrays, nós dizemos que a consistência dos dados é **forte**. Isso significa que, se criarmos um vetor de números inteiros, por exemplo, então todos os elementos que colocarmos no nosso vetor serão necessariamente transformados em inteiros, conforme o exemplo a seguir:

In [None]:
vetor = np.array([1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0], dtype=np.int32)
vetor.dtype

Por outro lado, se tentarmos criar um vetor passando um tipo explicitamente, e em seguida tentando inserir no vetor um item que não possa ser convertido para o tipo explicitado, teremos uma mensagem de erro.

In [None]:
vetor = np.array([1.0, 2.0, 3.0, "Teste"], dtype=np.int32)
vetor.dtype

No entanto, precisamos ficar atentos: a conversão de tipos pode acontecer de forma indesejada mesmo em nos quais não explicitamos o dtype desejado na criação do ndarray:

In [None]:
a = np.array([1, 2, 3])
a[0] = 10
a

In [None]:
a[0] = 1.23
a

Vale comentar: o valor padrão de *dtype* depende do Python instalado. Se o Python instalado for de 64 bits, o padrão será tipos `int` ou `float` de 64 bits de memória (`int64` ou `float64`). Caso seu Python seja 32 bits, o padrão será `int32` e `float32`.

Essa diferença afeta a precisão dos cálculos. Quanto mais espaço em memória utilizado (maior o número de bits), maior a precisão.

Como o NumPy é feito para cálculos numéricos, há uma grande preocupação quanto a esta precisão. E é por isso que os tipos de dados numéricos básicos do NumPy são análogos aos tipos de dados nativos do Python, mas em geral com um número à direita. Esse número representa o seu nível de precisão computacional.

Alguns exemplos de tipos de dados do NumPy (e provavelmente os mais comuns) são:

* `np.int32`
* `np.int64`
* `np.float32`
* `np.float64`

Como exemplo, podemos criar uma outra array, `a16`, com o tipo inteiro de 16 bits.

In [None]:
a16 = np.array([1, 2, 3], dtype=np.int16)
a16

Note que por ser um tipo diferente do padrão, ele ressalta ao mostrar o array na tela.

Para descobrir o espaço que cada elemento ocupa individualmente na memória podemos acessar o atributo `itemsize`.

In [None]:
a16.itemsize


O retorno foi igual a 2.<br>
Mas não havíamos dito que se tratava de um tipo inteiro de "16 bits"?

O NumPy nos mostra o espaço em memória em bytes, e não em bits. Cada byte equivale a 8 bits. Logo, 16 bits são o mesmo que 2 bytes.

$$\frac{16}{8} = 2$$

Da mesma forma, se fizermos um array padrão em um Python de 64 bits, temos um `itemsize` de 8.

In [None]:
a = np.array([1, 2, 3])
a.dtype

In [None]:
a.itemsize


Isso acontece porque o padrão de 64 bits equivale a 8 bytes.
$$\frac{64}{8} = 8$$

A quantidade de elementos multiplicado pelo tamanho de cada elemento em memória nos dará o tamanho total de bytes que o array inteiro ocupa na memória do computador.

In [None]:
# quantidade de elementos total
a.size

In [None]:
# tamanho em memória do vetor "a"
a.size * a.itemsize

Não precisamos, porém, ficar calculando esse valor se quisermos saber essa informação. Podemos simplesmente acessar o atributo `nbytes`, que representa o tamanho total em bytes ocupado pelo array.

In [None]:
a.nbytes

> Nota: Geralmente não é necessário reduzir o número de bits a não ser que você tenha certeza que um tamanho reduzido vai atender sua necessidade e você quer ser **extremamente** eficiente.

#### **2f.Convertendo dypes de ndarrays**

Podemos converter os tipos de dados do array do NumPy depois da sua criação de forma manual, usando a função `astype`.

In [None]:
a = np.array([1., 2., 3.])
a.dtype


In [None]:
b = a.astype('int32').copy()
b

In [None]:
b.dtype

In [None]:
a = np.array([1.5, 2.5, 3.5])
a
a.dtype

In [None]:
a.astype('int32')

In [None]:
a = np.array(["A", "B", "C"])
a
a.dtype

In [None]:
a.astype('int32')

#### **2g.Indexing & slicing**

Vamos montar duas matrizes, uma usando Python nativo e outra usando NumPy, para podermos comparar como nós acessamos os elementos de cada uma.

In [None]:
np_mat = np.array([
  [1, 2,  3,  4,  5,  6,  7],
  [8, 9, 10, 11, 12, 13, 14]
])

print(np_mat)

In [None]:
py_mat = [
  [1, 2,  3,  4,  5,  6,  7],
  [8, 9, 10, 11, 12, 13, 14]
]

print(py_mat)

Podemos acessar um elemento específico de forma similar a uma lista nativa do Python, utilizando a sintaxe de colchetes. Porém, no NumPy, quando temos 2 ou mais dimensões, nós podemos passar a posição que queremos buscar atráves de números separados por vírgulas.

Se quisermos, então, pegar o número 13 nos arrays acima, que está na posição \[1,5\] (linha 1, coluna 5, lembrando que o Python começa os índices sempre pelo 0), no Python teríamos que usar a sintaxe abaixo.

In [None]:
py_mat[1][5]

Já para um ndarray com duas dimensões (2D), podemos usar tanto a sintaxe nativa quanto a sintaxe mais simples, com uma vírgula separando os eixos.

In [None]:
np_mat[1][5]

In [None]:
np_mat[1, 5]

E assim, todas as demais funcionalidades de sintaxe do Python nativo também são herdadas pelos objetos NumPy. Usar números negativos, por exemplo, funciona como uma indexação de trás para frente.

In [None]:
np_mat[1, -2]

Para pegar uma linha inteira, podemos utilizar a sintaxe de `:` na coluna. Essa sintaxe pode ser lida como "todos os elementos deste eixo". Podemos ler então a sintaxe abaixo como "linha zero, todas as colunas".

In [None]:
np_mat[0, :]

Embora também poderíamos fazer de forma mais fácil essa indexação, assim como faríamos com uma lista nativa do Python.

In [None]:
np_mat[0]

Analogamente, poderíamos fazer o oposto para selecionarmos todas as linhas para uma coluna específica.

In [None]:
np_mat[:, 2]

E neste caso, não teríamos um análogo no objeto lista nativo do Python.

É importante saber que o operador `:` é também conhecido como slicing (ou "fatiamento", em português) e que ele pode ser usado para o acesso de  intervalos de índices. Para isso, ele precisa de três parâmetros:
- start, o índice inicial do intervalo
- end, o índice final do intervalo
- step, quantos índices nós pulamos em cada passo dado para ir do *start* até o *end*.

Isso é feito no formato `[start:end:step]`. Neste caso, `step` é o tamanho do passo que vamos dar. Basicamente, ele diz quantos elementos devemos pular de cada vez. Como exemplo, podemos querer
- acessar do elemento de índice 1 ao elemento de índice 6,
- pulando de 2 em 2,
- na linha 0.

In [None]:
np_mat[0, 1:6:2]

Novamente, ele também funciona com índice negativo.

In [None]:
np_mat[0, 1:-1:2]

Essas indexações também podem ser usadas para a alteração de elementos dos ndarrays. Basta usar o operador `=` para atribuir um novo valor ao elemento daquela posição.

In [None]:
np_mat[1,5] = 20
print(np_mat)

Isso vale até para colunas ou linhas inteiras.

In [None]:
np_mat[:, 2] = 99
print(np_mat)

Isso acontece por uma característica fundamental do array do NumPy:

> Ao alterar o pedaço recortado da matriz (o "slice" da matriz), você altera a matriz original.

Juntando com o problema que vimos antes, de cópia de array, quando queremos copiar um slice de um array, temos que explicitamente usar o método `copy`.

In [None]:
a = np.array([1, 2, 3])
b = a[1:].copy()
b

In [None]:
c = a[1:]
c

In [None]:
c[0] = 5
c

In [None]:
a

In [None]:
b

#### **2h. Máscara booleana e seleção avançada**

Uma outra forma de seleção é por meio de uma lista de posições.

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
a[[1, 2, -1]]

No caso de arrays multidimensionais, vamos ter que passar uma lista para cada dimensão. O NumPy nos retornará os elementos formados pelos pares dessas listas.

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9]).reshape(3,3)
a


In [None]:
a[[0, 0, 2],[1, 2, 2]]

Uma outra forma muito comum de selecionar elementos de um ndarray é usando o que chamamos de "máscara booleana". Ela nada mais é do que um array (aqui podemos usar uma lista do Python nativo também) de elementos booleanos ("True" ou "False").

Assim, quando passamos essa máscara para um array do NumPy, ele nos retorna apenas as posições onde temos o valor "True".

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9]).reshape(3,3)
a

In [None]:
a[[True, True, False]]

In [None]:
a.flatten()[np.array([True, True, False, False, False, False, False, True, False])]

Note, no exemplo acima, que temos 3 posições onde nossa máscara possui valor "True". A posição 0, a posição 1, e a posição 7, que correspondem aos valores 1, 2, e 8, respectivamente.

Nós podemos gerar essa máscara a partir de comparações elemento a elemento de um ndarray. De fato, ao aplicar qualquer operador booleano, como

- `>`,
- `<`,
- `<=`,
- `>=`,
- `==`,

para comparar um ndarray com algum valor, o NumPy retorna um ndarray de valores booleanos. Esse novo ndarray vai ter o valor `True` nas posições onde a comparação do elemento original e esse valor separado for verdadeira. Teremos o valor `False` caso contrário.

Vamos ver um exemplo.

In [None]:
mat = np.array([1, 10, 20, 30]).reshape(2, 2)
mat

In [None]:
mat > 10 # retorna um ndarray com valor True onde o elemento original é maior que 10

Podemos juntar os dois exemplos anteriores, de uso da máscara booleana como indexação e da criação de uma máscara, em uma única linha.

In [None]:
mat[mat > 10]

#### **2i. Aritmética básica de ndarrays**

Sem adentrar ainda em aspectos aritméticos mais avançados dos ndarrays, vamos usar como exemplo dois ndarrays para falarmos das operações aritméticas mais básicas de ndarrays.

In [None]:
array1 = np.array([1, 2, 3])
array2 = np.array([4, 5, 6])

Adição e Subtração de ndarrays

In [None]:
# Adição e Subtração
soma = array1 + array2
subtracao = array1 - array2

print("Array 1:", array1)
print("Array 2:", array2)
print("Soma:", soma)
print("Subtração:", subtracao)

Multiplicação, Divisão e Potenciação de ndarrays

In [None]:
# Multiplicação, Divisão e Potenciação
multiplicacao = array1 * array2
divisao = array1 / array2
potenciacao = array1 ** 2

print("Multiplicação:", multiplicacao)
print("Divisão:", divisao)
print("Potenciação:", potenciacao)

Divisão Residual de ndarrays

In [None]:
print(array1)
print(array2)

In [None]:
# Divisão Residual
divisao_residual = array2 % array1

print("Divisão Residual:", divisao_residual)

Interações com Escalares<br>
As interações com escalares permitem operações eficientes em todos os elementos do ndarray. Vamos explorar exemplos de cada operação:

In [None]:
# Interação com Escalares
interacao_adicao = array1 + 2
interacao_subtracao = array1 - 2
interacao_multiplicacao = array1 * 2
interacao_divisao = array1 / 2

print("Interação Adição:", interacao_adicao)
print("Interação Subtração:", interacao_subtracao)
print("Interação Multiplicação:", interacao_multiplicacao)
print("Interação Divisão:", interacao_divisao)

#### **2j. Any, all e múltiplas condições**

Vamos voltar ao último exemplo que usamos sobre máscara booleana:

In [None]:
mat = np.array([1, 10, 20, 30]).reshape(2, 2)
mat

array([[ 1, 10],
       [20, 30]])

In [None]:
mat[mat > 10]

array([20, 30])

Neste exemplo, temos como retorno um array com os elementos 20 e 30, como era esperado.

Podemos fazer operações semelhantes, mas restritos a seguir "linha a linha" ou "coluna a coluna". Por exemplo, tomando como base a matriz anterior, poderíamos querer:
> todas as linhas que contenham pelo menos um elemento com valor `10` ou <br>
todas as colunas que contenham pelo menos 1 elemento abaixo do valor `10`.

Para isso, usamos os métodos auxiliares `any` e `all`.

* any: se qualquer elemento do meu eixo for `True`, retorna um valor `True`
* all: se, e somente se, todos os elementos do meu eixo forem `True`, retorna `True`

Nas explicações, o "eixo" são as dimensões do ndarray, como discutimos algumas seções atrás.

Vamos ver alguns exemplos.

O exemplo abaixo retorna todas as linhas onde existe pelo menos um elemento com valor `10`.


In [None]:
mat

array([[ 1, 10],
       [20, 30]])

In [None]:
(mat == 10).any(axis = 0)

array([False,  True])

In [None]:
mat[[False, True]]

array([[20, 30]])

In [None]:
mat

array([[ 1, 10],
       [20, 30]])

Por que usamos o eixo 1 nesse caso? Porque aqui, o eixo define por onde o NumPy vai "traversar" para avaliar o nosso ndarray.

O eixo 0 são as linhas. Assim, quando olhamos *ao longo do eixo 0*, nós estamos caminhando através das linhas. Se usássemos `(mat == 10).any(axis=0)`, o NumPy checaria a existência de elementos iguais a 10 **ao longo do eixo 0**.

O processo, nesse caso, seria o seguinte:
- Checaríamos se `1 == 10`. Nesse caso, teríamos `False`.
- o próximo elemento ao longo do eixo 0 (i.e., primeiro elemento da próxima linha) seria o `20`. `20 == 10` também retornaria `False`.
- Logo, nessa coluna, a resposta seria `False`.
- Seguiríamos para a próxima coluna.

Já quando usamos `(mat == 10).any(axis=1)`, o numpy checa **ao longo do eixo 1**, ou seja, ao longo das colunas. O processo fica:
- checa se `1 == 10`. Nesse caso, temos `False`.
- o próximo elemento ao longo do eixo 1 (i.e., primeiro elemento da próxima coluna) seria o `10`. `10 == 10` retornaria `True`.
- Logo, nessa linha, a resposta seria `True`.
- Seguimos para a próxima linha.

Como um outro exemplo, se quisermos trazer as colunas onde todos os elementos sejam maiores que `5`, podemos usar o `all`. A regra de qual eixo usar permanece igual.

In [None]:
mat[:, (mat > 5).all(axis=0)]

array([[10],
       [30]])

Perceba que neste exemplo, nós colocamos dois pontos na primeira posição. Isso garante que pegamos todas as linhas, e olhamos a nossa máscara booleana apenas ao longo das colunas. Além disso, colocamos `axis=0`, para olhar ao longo do eixo 0.

Para nos ajudar a lembrar essa questão do parâmetro `axis`, podemos pensar que esse parâmetro define ao longo de qual eixo a função irá "esmagar" o nosso array.


In [None]:
new_mat = np.array([1, 2, 4, 5, 7, 8]).reshape(3, 2)
new_mat

array([[1, 2],
       [4, 5],
       [7, 8]])

In [None]:
(new_mat < 8).all(axis=1) # Apenas as 2 primeiras linhas têm todos os elementos < 8

array([ True,  True, False])

In [None]:
(new_mat == 5).any(axis=0) # Apenas a segunda coluna tem um elemento com valor 5

array([False,  True])

Similar ao `and` do python, nós podemos usar múltiplas condições para filtrar dados da nossa matriz com o operador `&`.

In [None]:
mask = (mat > 10) & (mat <= 20)
mat[mask]

array([20])

No caso do `or`, nós temos o operador `|`.


In [None]:
mask = (mat == 1) | (mat >= 20)
mat[mask]

array([ 1, 20, 30])

No caso do `not`, nós temos o operador `~`.

In [None]:
mat

array([[ 1, 10],
       [20, 30]])

In [None]:
mask = (mat == 1) | (mat >= 20)
mat[~mask]

array([10])

#### **2k. Métodos built-in de criação de arrays**

O NumPy já possui diversos métodos para gerar alguns arrays comuns mais conhecidos.
Isso nos ajuda imensamente a criar algumas matrizes padrões para fazer contas.

Primeiro, é possível gerar um array de zeros com qualquer formato.

In [None]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [None]:
np.zeros((3, 2, 5))

array([[[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]]])

Para criar um array de uns, a sintaxe é semelhante.

In [None]:
np.ones((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

Se invés de uma matriz apenas de uns, nós quisermos usar outro número, podemos fazer isso aproveitando o `np.ones`. Basta multiplicarmos a matriz pelo número que desejamos.

In [None]:
np.ones((2, 3)) * 10

array([[10., 10., 10.],
       [10., 10., 10.]])

Mas o NumPy já tem uma opção mais direta, o `full`.

In [None]:
np.full((2, 3), 99)

array([[99, 99, 99],
       [99, 99, 99]])

Também temos o `full_like`, que copia o formato de uma matriz que já tenha sido declarada antes.

In [None]:
np_mat = np.array([
  [1, 2,  3,  4,  5,  6,  7],
  [8, 9, 10, 11, 12, 13, 14]
])
np_mat

array([[ 1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14]])

In [None]:
np.full_like(np_mat, 999)

array([[999, 999, 999, 999, 999, 999, 999],
       [999, 999, 999, 999, 999, 999, 999]])

Outra função para criação de arrays é `np.repeat`. Ela repete um determinado array na direção do eixo escolhido.

Para um vetor de 1D, temos apenas 1 eixo, mas para matrizes, tempos dois. O eixo 0 é linha, o eixo 1 é coluna.

In [None]:
arr = np.array([1, 2, 3])
arr

array([1, 2, 3])

In [None]:
r1 = np.repeat(arr, 3)
r1

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

Para fazermos uma matriz, mudamos o formato da variável `arr` de (3,) para (1,3).

In [None]:
arr = np.array([[1, 2, 3]])
r1 = np.repeat(arr, 3, axis=0)
print(r1)

[[1 2 3]
 [1 2 3]
 [1 2 3]]


Ainda, um caso específico de criação de arrays é quando queremos gerar uma lista sequencial de números. Isso é muito comum, por exemplo, quando queremos calcular uma função matemática em vários pontos de uma única vez.

A primeira função do NumPy para criar essa sequência numérica é `np.arange`. Esta função retorna elementos igualmente espaçados por um step (que por padrão é 1) dentro de um certo intervalo.

In [None]:
np.arange(0, 11)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [None]:
np.arange(5, 11)

array([ 5,  6,  7,  8,  9, 10])

A função `np.arange` é semelhante à função `range` do Python, porém permite que peguemos valores de ponto flutuante (números com decimal) dentro do nosso intervalo.

In [None]:
np.arange(0, 10, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. , 1.1, 1.2,
       1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. , 2.1, 2.2, 2.3, 2.4, 2.5,
       2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 3.7, 3.8,
       3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5. , 5.1,
       5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8, 5.9, 6. , 6.1, 6.2, 6.3, 6.4,
       6.5, 6.6, 6.7, 6.8, 6.9, 7. , 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7,
       7.8, 7.9, 8. , 8.1, 8.2, 8.3, 8.4, 8.5, 8.6, 8.7, 8.8, 8.9, 9. ,
       9.1, 9.2, 9.3, 9.4, 9.5, 9.6, 9.7, 9.8, 9.9])

Outro caso comum que esbarramos para criar uma lista sequencial é quando queremos escolher uma grande quantidade de pontos entre dois números. Por exemplo, pode ser que nós queiramos fazer um mesmo cálculo para 10 valores entre 3 e 7.

Neste caso, usamos a função `np.linspace`.

In [None]:
np.linspace(3, 7, num=30)

array([3.        , 3.13793103, 3.27586207, 3.4137931 , 3.55172414,
       3.68965517, 3.82758621, 3.96551724, 4.10344828, 4.24137931,
       4.37931034, 4.51724138, 4.65517241, 4.79310345, 4.93103448,
       5.06896552, 5.20689655, 5.34482759, 5.48275862, 5.62068966,
       5.75862069, 5.89655172, 6.03448276, 6.17241379, 6.31034483,
       6.44827586, 6.5862069 , 6.72413793, 6.86206897, 7.        ])

Por fim, vale mencionar que o NumPy tem um sub-módulo chamado `random` (cujas funções são acessadas usando o preâmbulo `np.random`). Nele, existe um conjunto de funções focadas em gerar arrays com números aleatórios.

Por exemplo, a função `np.random.random_sample` retorna valores aleatórios entre 0 e 1.

In [None]:
np.random.random_sample((4,3))

array([[0.67288908, 0.83078212, 0.0406322 ],
       [0.95050633, 0.72175361, 0.01107082],
       [0.00387044, 0.75424507, 0.59872557],
       [0.27877084, 0.25496013, 0.10994316]])


A função `np.random.rand` é um "alias" da função de cima. Isso significa que, por trás dos panos, ela literalmente só executa a função `np.random.random_sample`.

Essa função existe para facilitar a migração de códigos de outras linguagens de computação numérica (especificamente, códigos de uma linguagem chamada MATLAB).

In [None]:
np.random.rand(4,3)

array([[0.53373096, 0.96714558, 0.34372846],
       [0.0717346 , 0.81056617, 0.34973524],
       [0.80965905, 0.69313191, 0.74621217],
       [0.9918702 , 0.75779018, 0.77978666]])

Se quisermos criar um array de números inteiros abaixo de um certo valor, escolhidos ao acaso, usamos a função `np.random.randint`.

In [None]:
np.random.randint(100, size=(4,3))

array([[94, 94, 46],
       [91, 62, 46],
       [20, 59, 35],
       [92, 46,  8]])

Os argumentos principais da função `np.random.randint` são `low`, `high` e `size`, que definem o menor inteiro possível, o maior inteiro possível, e o tamanho do array resultante.

In [None]:
np.random.randint(low = 90, high = 100, size=(4,3))

array([[95, 98, 94],
       [93, 97, 96],
       [98, 96, 99],
       [90, 98, 90]])

#### **2j. Exercícios I**
Vamos exercitar o conteúdo visto até aqui?

**Ex1:** Imagine que você é um cientista de dados analisando o desempenho de duas equipes de vendas ao longo de um ano. Para cada equipe, utilize um ndarray com 6 posições para representar as vendas totais ao longo de cada um dos 6 bimestres de um ano. Preencha ambos os arrays com os valores que desejar.
Em seguida, calcule a média de vendas por bimestre, e indique, para cada equipe, em quais bimestres a venda média foi ultrapassada.

In [None]:
import numpy as np

team_a = np.array([50, 60, 45, 55, 70])
team_b = np.array([55, 58, 60, 52, 68])

bimonthly_mean = (team_a + team_b) / 2
print(bimonthly_mean)

team_a_gt_bim_mean = team_a[team_a > bimonthly_mean]
team_b_gt_bim_mean = team_b[team_b > bimonthly_mean]
print(team_a_gt_bim_mean)
print(team_b_gt_bim_mean)

[52.5 59.  52.5 53.5 69. ]
[60 55 70]
[55 60]


**Ex2:** Você trabalha em uma empresa e recebeu relatórios de despesas separados por trimestre. Considere 3 tipos de despesas: `pessoal`, `insumos` e `diversos`.
Para cada tipo, use um ndarray para armazenar os 4 valores trimestrais de despesa que foram registrados ao longo do último ano. Depois disso, use ndarrays para descobrir as despesas totais de cada trimestre e, em seguida, organize todas as despesas em uma única estrutura de dados, empilhando os ndarrays.

In [None]:
pessoal = np.array([10, 20, 10, 15])
insumos = np.array([5, 2, 6, 7])
diversos = np.array([1, 2, 1, 3])

totais = pessoal + insumos + diversos
print(totais)

resultante = np.vstack([pessoal, insumos, diversos])
print(resultante)

[16 24 17 25]
[[10 20 10 15]
 [ 5  2  6  7]
 [ 1  2  1  3]]


**Ex3:** Usando as despesas salvas em ndarrays no exercício anterior, use os ndarrays para descobrir as despesas totais de cada semestre, e não de cada trimestre.

In [None]:
pessoal = np.array([pessoal[:2].sum(), pessoal[-2:].sum()])
insumos = np.array([insumos[:2].sum(), insumos[-2:].sum()])
diversos = np.array([diversos[:2].sum(), diversos[-2:].sum()])

print(pessoal)
print(insumos)
print(diversos)

[55 55]
[ 7 13]
[3 4]


In [None]:
pessoal = np.array([pessoal[0] + pessoal[1], pessoal[-2] + pessoal[-1]])
insumos = np.array([insumos[0] + insumos[1], insumos[-2] + insumos[-1]])
diversos = np.array([diversos[0] + diversos[1], diversos[-2] + diversos[-1]])

print(pessoal)
print(insumos)
print(diversos)

[30 25]
[ 7 13]
[3 4]


In [None]:
a = np.array([1,2,3,4,5])

In [None]:
a.sum()

15

**Ex4:** Considere a seguinte matriz NumPy arr:

```
arr = np.array([[1, 2, 3, 4],
                [5, 6, 7, 8],
                [9, 10, 11, 12]])
```

Realize as seguintes operações de slicing:

- Extraia a segunda linha da matriz arr.
- Obtenha a última coluna da matriz arr.
- Crie uma submatriz composta pelas duas primeiras linhas e pelas duas primeiras colunas de arr.
- Selecione os elementos 6, 7, 10 e 11 de arr.

In [None]:
a = np.array([1,2,3,4])
b = np.array([2,3])
np.isin(b, a)

array([ True,  True])

In [None]:
'AB' in 'ABACATE'

True

In [None]:
a = [1, 2, 3, 4]
b = [2, 3]
b in a

True

In [None]:
arr = np.array([[1, 2, 3, 4],
                [5, 6, 7, 8],
                [9, 10, 11, 12]])
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
arr[1]

array([5, 6, 7, 8])

In [None]:
arr[:, -1]

array([ 4,  8, 12])

In [None]:
arr[:2, :2]

array([[1, 2],
       [5, 6]])

In [None]:
arr[1:3, 1:3]

array([[ 6,  7],
       [10, 11]])

In [None]:
arr[[1, 1, 2, 2], [1, 2, 1, 2]]

array([ 6,  7, 10, 11])

In [None]:
mask = ((arr >= 6) & (arr <= 7)) | ((arr >= 10) & (arr <= 11))
arr[mask]

array([ 6,  7, 10, 11])

array([ 6,  7,  8,  9, 10, 11])

In [None]:
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

**Ex5:** Para a mesma matriz `arr` do exercício anterior, crie uma matriz booleana com o mesmo shape de `arr` onde True representa valores maiores que 6. E depois disso, use a matriz booleana para criar um novo ndarray contendo apenas os valores maiores que 6.

In [None]:
arr

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [None]:
mask = arr > 6
mask

array([[False, False, False, False],
       [False, False,  True,  True],
       [ True,  True,  True,  True]])

In [None]:
arr[mask]

array([ 7,  8,  9, 10, 11, 12])

## **3. Principais funções matemáticas do NumPy**<br>

No início deste texto, nós introduzimos o NumPy como uma biblioteca muito utilizada para fazer cálculos numéricos. Vamos ver então as operações matemáticas disponíveis no NumPy.

#### **3a. Revisão de aritmética básica de ndarrays**

A primeira coisa a se observar é que as operações matemáticas básicas, como usadas no Python, podem ser usadas também para ndarrays. Só temos que lembrar sempre que elas são aplicadas elemento a elemento.

In [None]:
vec1 = np.array([2., 4., 6., 8.])
vec2 = np.array([1., 2., 3., 4.])
vec1 + vec2 # Soma

In [None]:
vec1 - vec2 # subtração

In [None]:
vec1 * vec2 # Multiplicação

In [None]:
vec1 / vec2 # Divisão

In [None]:
vec1 ** vec2 # Exponenciação

A notação com este "e" minúsculo significa que o número está escrito em notação científica, isto é, em potências de 10. Assim, `4.096e+03` significa `4096` (pois multiplicamos o número por 1000, que é dez elevado a 3). Ainda nesta linha, `2.160e+02` significa `216`.

O NumPy também consegue fazer operações entre arrays e números (chamadas operações com escalares).

In [None]:
vec2 + 2 # Somar

In [None]:
vec2 - 2 # Subtrair

In [None]:
vec2 * 2 # Multiplicar

In [None]:
vec2 / 2 # Dividir

In [None]:
a ** 2 # Potência (elevar a um número)

In [None]:
vec2 += 2 # Incrementar
vec2

Agora uma dúvida é: se os nossos ndarrays tiverem formatos diferentes, então o NumPy apenas retorna um erro?

Depende do caso. Ele consegue fazer a operação se a diferença entre os formatos seguirem algumas regras que veremos abaixo. Nestes casos, ele faz o que chamamos de **Broadcasting**.

Se a diferença entre os formatos não seguirem as regrinhas necessárias para realizar broadcasting, então o NumPy retorna de fato um erro.


In [None]:
import numpy as np

In [None]:
a = np.array([1, 2, 3])
b = np.array([2, 2])
a * b

ValueError: operands could not be broadcast together with shapes (3,) (2,) 

#### **3b. Broadcasting**

O que fizemos, nas operações com escalar, é um tipo de broadcasting. Você pode imaginar que o que está acontecendo é o seguinte:
- pegue o seu número,
- crie um ndarray, de mesmo formato que o primeiro, mas cujos valores são o seu número.

![broadcasting01](https://s3-sa-east-1.amazonaws.com/lcpi/dec6164e-6fc2-4e13-8e83-047617a2f89b.png "broadcasting escalar")

Na imagem acima (que foi tirada dos tutoriais oficiais do NumPy), nota que o valor 2 é "esticado". Ele é repetido ao longo do eixo 0 até ter um ndarray de formato (3,).

Essa ideia pode ser generalizada. Sempre que fizer sentido "esticar" (ou repetir) o array menor até ele ficar com o mesmo formato do maior, então o NumPy consegue realizar uma operação de broadcasting.

In [None]:
matrix = np.array([
  [0, 0, 0],
  [10, 10, 10],
  [20, 20, 20],
  [30, 30, 30]
])
matrix

matrix + np.array([1, 2, 3])

array([[  0,   0,   0],
       [ 50,  50,  50],
       [100, 100, 100],
       [150, 150, 150]])

![broadcasting02](https://s3-sa-east-1.amazonaws.com/lcpi/ab17651c-1154-4ea1-a716-09e203f49060.png "broadcasting array")

(**Fonte:** Tutoriais oficiais do NumPy [\[2\]](#2))

A imagem acima mostra o que está acontecendo no código de exemplo que demos.

Mas por que colocamos a expressão "sempre que fizer sentido"? O motivo é que a única coisa que o NumPy aceita fazer é repetir o array menor diversas vezes na direção de uma dimensão. Ele não reajusta o seu array!

![not_broadcasting](https://s3-sa-east-1.amazonaws.com/lcpi/862c983a-f9b3-4474-80e2-b807f15d5a7b.png "not broadcasting")


In [None]:
matrix = np.array([
  [0, 0, 0],
  [10, 10, 10],
  [20, 20, 20],
  [30, 30, 30]
])
vec = np.array([1, 2, 3, 4])
matrix + vec

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

É interessante notar que essa "esticada" para realizar o broadcast só pode ser feita em 1 eixo. Mesmo que fosse possível copiar o array menor até ele ter o mesmo formato do array maior, se para isso precisarmos fazer cópias ao longo de 2 eixos, então o NumPy retorna um erro.


In [None]:
a = np.array([
  [1, 2, 3, 4],
  [3, 4, 5, 6],
  [7, 8, 9, 10]
])
a

array([[ 1,  2,  3,  4],
       [ 3,  4,  5,  6],
       [ 7,  8,  9, 10]])

In [None]:
b = np.array([2, 2])
a * b

ValueError: operands could not be broadcast together with shapes (3,4) (2,) 

In [None]:
a

array([[ 1,  2,  3,  4],
       [ 3,  4,  5,  6],
       [ 7,  8,  9, 10]])

In [None]:
b = np.array([10, 20, 30, 40])
b

array([10, 20, 30, 40])

In [None]:
a * b

array([[ 10,  40,  90, 160],
       [ 30,  80, 150, 240],
       [ 70, 160, 270, 400]])

In [None]:
c = np.array([10, 20, 30]).reshape(3,1)
c

array([[10],
       [20],
       [30]])

In [None]:
a * c

array([[ 10,  20,  30,  40],
       [ 60,  80, 100, 120],
       [210, 240, 270, 300]])

#### **3c. Funções matemáticas do NumPy**

Além de fazer operações matemáticas entre arrays, também podemos usar funções matemáticas conhecidas. O NumPy possui milhares de funções já implementadas. Por exemplo, ele possui as funções trigonométricas.

Função seno:

In [None]:
x = np.array([1.24,2,3.89,4])

In [None]:
np.sin(x)

array([ 0.945784  ,  0.90929743, -0.68047257, -0.7568025 ])

Função cosseno:

In [None]:
np.cos(x)

array([ 0.32479628, -0.41614684, -0.73277355, -0.65364362])

O NumPy também possui o valor de constantes matemáticas comuns, como o π ("pi").

In [None]:
np.pi

3.141592653589793

In [None]:
x = np.array([0, np.pi / 2 , np.pi, 3 * np.pi / 2, 2 * np.pi])
np.sin(x)

array([ 0.0000000e+00,  1.0000000e+00,  1.2246468e-16, -1.0000000e+00,
       -2.4492936e-16])

Os valores `1.2246468e-16` e `-2.4492936e-16` representam o número zero. O motivo de não estar zerado é que nem todas as operações com números de ponto flutuante (números reais com decimal) conseguem ser perfeitamente representadas pelo computador. Números de ponto flutuante sempre tem um grau de imprecisão. Então dentro da precisão do nosso cálculo, esses valores são basicamente o mesmo que zero.

Depois das funções trigonométricas, vamos ver a função exponencial.

In [None]:
x = np.array([1, 2, 3, 4])
np.exp(x)

array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003])

Também existe a constante "e" (número euleriano) no NumPy. De fato, a função exponencial `np.exp(x)` nada mais é do que o número euleriano elevado a x.
$$e^{x}$$

Assim, também podemos fazer a mesma conta abaixo.

In [None]:
np.e

2.718281828459045

In [None]:
x = np.array([1, 2, 3, 4])
np.e ** x

array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003])

Como falamos, existem milhares de funções matemáticas nativamente no NumPy, e todas são muito úteis para fazermos cálculos matemáticos computacionais. Porém, se tentarmos listar todas, precisaríamos de um texto insanamente maior. Então melhor ficarmos só com uma ou outra mesmo.

Temos falado, ao longo do texto, sobre o poder e eficiência do NumPy. Do ponto de vista de escrever código, uma enorme vantagem do NumPy é que podemos escrever equações matemáticas complicadas para todos os elementos do nosso array da mesma forma que escreveríamos no papel.

Aqui entra em foco a ideia de "operações vetorizadas", que encontramos antes. No fim das contas, conseguimos escrever tudo de forma vetorizada no NumPy.

Imagine a equação abaixo:
$$ e^{x} + sin(x) $$

Se quisermos achar o valor dela para diversos valores de "x" entre -1 e 2 no Python, teríamos que fazer um loop iterativo. No NumPy, a operação é mais clara e direta.


In [None]:
x = np.linspace(-1, 2, 10)
x

array([-1.        , -0.66666667, -0.33333333,  0.        ,  0.33333333,
        0.66666667,  1.        ,  1.33333333,  1.66666667,  2.        ])

In [None]:
np.exp(x) + np.sin(x)

array([-0.47359154, -0.10495268,  0.38933661,  1.        ,  1.72280712,
        2.56610384,  3.55975281,  4.7656058 ,  6.28989801,  8.29835353])

Por fim, o último conceito essencial de se conhecer quanto a operações matemáticas no NumPy é o de número infinito e de NaN (not a number).

O NumPy possui duas constantes, `np.inf` e `np.NaN` que representam um "número infinito" e um erro, respectivamente.

O "número infinito" é um valor de ponto flutuante que é maior que qualquer outro número. Se colocarmos um sinal negativo, ele vira "menos infinito", e passa a ser menor que qualquer outro número.

In [None]:
np.inf > 999999999999999999999999

True

In [None]:
-np.inf < -999999999999999999999999

True

In [None]:
(np.inf + 1) == np.inf

True

In [None]:
np.inf - np.inf

nan

In [None]:
np.nan != np.nan

True

In [None]:
np.array([1]) / np.array([0])

  np.array([1]) / np.array([0])


array([inf])

In [None]:
a = np.array([1,2,3,4,5])

In [None]:
a.dtype

dtype('int64')

In [None]:
a[0] = np.nan

ValueError: cannot convert float NaN to integer

In [None]:
a = np.array([np.nan,2,3,4,5])

In [None]:
a.dtype

dtype('float64')

In [None]:
None

In [None]:
np.nan

nan

In [None]:
np.float64(0)/np.float64(0)

  np.float64(0)/np.float64(0)


nan

Já o NaN é um valor indefinido. Sempre que nossa operação não fizer sentido, o numpy retorna um NaN.

In [None]:
np.float64(0) / np.float64(0)

  np.float64(0) / np.float64(0)


nan

O cuidado que devemos tomar com o NaN é que todas as operações entre um número e um NaN passam a ser NaN.

In [None]:
np.NaN + 44

nan

## **4. Álgebra Linear e Estatística básica**

#### **4a. Álgebra Linear**

Da definição do Wikipédia:

Álgebra linear é um ramo da matemática que surgiu do estudo detalhado de sistemas de equações lineares [...]. A álgebra linear utiliza alguns conceitos e estruturas fundamentais da matemática como vetores,[...] e matrizes.

Independente da definição exata, a questão é que a álgebra linear estuda vetores e matrizes. Como vimos até aqui, o NumPy opera de forma bastante análoga à vetores e matrizes.

O que não vimos ainda é como o NumPy nos permite também executar operações típicas da álgebra linear, como "produto entre matrizes".

De fato, o NumPy tem a capacidade de realizar um "produto escalar" entre vetores, de fazer o produto de uma matriz por um vetor, e de fazer o produto entre matrizes.

Vamos relembrar o que são essas operações. O produto escalar de dois vetores consiste em multiplicar os dois, elemento a elemento, e depois somar os resultados de cada par de elementos.

![inner_prod](https://s3-sa-east-1.amazonaws.com/lcpi/d331eb96-4d9e-4cf4-98f6-23fdd8bebf7a.png)

(Exemplo de produto escalar, ou "produto interno") <br>
(**Fonte:** Imagem original Ada)

A sintaxe do NumPy é dada abaixo.

In [None]:
vec1 = np.array([1, 2, 3])
vec2 = np.array([2, 2, 3])

In [None]:
vec1.dot(vec2)

15

In [None]:
vec1 @ vec2

15

O produto de matriz e vetor é dado fazendo algo semelhante ao produto escalar. Para cada linha da matriz, a gente faz o produto escalar entre aquela linha e o vetor. O resultado então vai ser o elemento que se encontra na mesma posição da linha.

![matrix_vec](https://s3-sa-east-1.amazonaws.com/lcpi/364aee03-990f-49ca-a3b8-19881f09be3c.svg)

As possibilidades de sintaxe do NumPy seguem abaixo.

In [None]:
matrix = np.array([
  [1, 1, 1],
  [1, 2, 3],
  [1, 1, 1]
])
vec2 = np.array([2, 2, 3])

In [None]:
matrix.dot(vec2)

array([ 7, 15,  7])

In [None]:
matrix @ vec2

array([ 7, 15,  7])

Na multiplicação entre matrizes, nós multiplicamos a linha da matriz da esquerda pela coluna da matriz da direita, elemento a elemento, e somamos o resultado (produto escalar entre a linha da matriz da esquerda com a coluna da matriz da direita) para obter uma nova matriz.

Neste caso, quando fazemos o produto interno da linha N com a coluna M, nós obtemos o elemento que ficará na posição (N,M) na nova matriz.

![matrix_mult01](https://s3-sa-east-1.amazonaws.com/lcpi/7569206e-95e5-405b-8bff-6b7901590149.svg)

![matrix_mult02](https://s3-sa-east-1.amazonaws.com/lcpi/e7217171-a90e-483e-8af4-0b73a463951c.svg)

Como nos casos anteriores, abaixo temos a sintaxe do NumPy.

In [None]:
matrix1 = np.array([
  [1, 1, 1],
  [1, 2, 3],
  [1, 1, 1]
])
matrix2 = np.array([
  [1, 1, 1],
  [1, 1, 1],
  [1, 1, 1]
])
matrix1.dot(matrix2)

array([[3, 3, 3],
       [6, 6, 6],
       [3, 3, 3]])

No campo da álgebra linear, existem algumas matrizes especiais muito úteis. O NumPy possui métodos de criação para a maioria delas.

A mais importante é a chamada matriz identidade. Ela é uma matriz quadrada (mesmo número de linhas e colunas) com diagonal 1, e os outros valores 0.

In [None]:
np.identity(10)

array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]])

In [None]:
matrix1

array([[1, 1, 1],
       [1, 2, 3],
       [1, 1, 1]])

In [None]:
matrix1 @ np.identity(3)

array([[1., 1., 1.],
       [1., 2., 3.],
       [1., 1., 1.]])

Ela se chama identidade pois qualquer matriz multiplicada pela identidade (por produto de matrizes) dá a própria matriz.

In [None]:
a = np.array([1,2,3,4,5,6]).reshape((3,2))
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
np.transpose(a)

array([[1, 3, 5],
       [2, 4, 6]])

In [None]:
a.T

array([[1, 3, 5],
       [2, 4, 6]])

Outra operação comum com matrizes é a transposição.

![transposition](https://s3-sa-east-1.amazonaws.com/lcpi/3d11b2c4-65cb-463a-9ccc-b858b065d2b3.png "Transposição")

(**Fonte:** Imagem original Ada)

A transposição pode ser feita com a função `np.transpose`.

Outra forma é usando o atributo `T`:

Operações mais específicas se encontram no módulo `linalg` do NumPy.

Um exemplo é encontrar o determinante de uma matriz. O determinante é um número característico de uma dada matriz, e que se relaciona com diversas propriedades dela.

In [None]:
a = np.array([1,2,3,4,5,6,7,8,9]).reshape((3,3))
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
np.linalg.det(a)

0.0

In [None]:
c = np.identity(3)
print(c)

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [None]:
np.linalg.det(c)

1.0

Para encontrar todas as funções específicas de Álgebra Linear que têm no NumPy, você pode acessar o link https://numpy.org/doc/stable/reference/routines.linalg.html.

Algum exemplo de funções já implementadas na biblioteca:
- Traço
- Decomposição de vetores
- Autovalor/autovetor
- Norma de Matriz
- Inversa
- Etc...

#### **4b. Estatística**

Por fim, o NumPy também possui várias funções básicas de estatística, como mínimo, máximo, média, mediana, etc.

In [None]:
stats = np.array([[1, 2, 3], [4, 5, 6]])
stats

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
np.min(stats)

1

In [None]:
np.max(stats)

6

In [None]:
np.min(stats, axis=0)

array([1, 2, 3])

In [None]:
np.min(stats, axis=1)

array([1, 4])

In [None]:
np.sum(stats)

21

In [None]:
np.sum(stats, axis=1)

array([ 6, 15])

In [None]:
np.mean(stats)

3.5

In [None]:
np.median(stats)

3.5

In [None]:
a = np.array([1,2,3,4,7,20,300])
a

array([  1,   2,   3,   4,   7,  20, 300])

In [None]:
np.mean(a)

48.142857142857146

In [None]:
np.median(a)

4.0

In [None]:
valores = np.array([40000, 60000, 35000, 38000, 280000])
valores

array([ 40000,  60000,  35000,  38000, 280000])

In [None]:
np.mean(valores)

90600.0

In [None]:
np.median(valores)

40000.0

**Referências:**
--------------

1. <a name="1"></a> Documentação NumPy, disponível em https://NumPy.org/doc/stable/index.html ;
2. <a name="2"></a> Tutorial NumPy, disponível em https://NumPy.org/doc/stable/user/absolute_beginners.html ;
3. <a name="3"></a> Funções matemáticas do NumPy, disponível em https://numpy.org/doc/stable/reference/routines.math.html
4. <a name="4"></a> Álgebra linear com NumPy, disponível em https://numpy.org/doc/stable/reference/routines.linalg.html
5. <a name="5"></a> Tutorial NumPy da ABRACD, disponível em https://abracd.org/tutorial-numpy-os-primeiros-passos-em-computacao-numerica-e-tratamento-de-dados/

[NumPy_docs]: https://NumPy.org/doc/stable/index.html
[NumPy_install]: https://NumPy.org/install/

----------
----------
----------

#### **4a. Reshaping de ndarrays**

Muitas vezes queremos mudar o formato de um array. Para isso, utilizamos a função `reshape`.<br>Por exemplo, podemos querer transformar um vetor de 4 elementos em uma matriz 2x2.

In [None]:
a = np.array([1,2,3,4])
print(a)
print(a.shape)

In [None]:
a = a.reshape((2,2))
print(a)
print(a.shape)

Podemos também querer transformar uma matriz de 2x4 em um vetor de 8 posições.

In [None]:
a = np.array([[1,2,3,4],[5,6,7,8]])
print(a.shape)

In [None]:
a = a.reshape((8)) # o novo array deve ter a mesma quantidade de elementos
a

Ou até mesmo, o vetor de 8 posições, em uma matriz com uma só coluna, e 8 linhas.

In [None]:
a = a.reshape((8, 1))
a

Ou em um tensor 2x2x2, que podemos entender como um array de duas posições, em que cada posições é uma matriz 2x2. Em ouras palavras, estamos falando de um cubo, com duas posições em cada eixo.

In [None]:
a = a.reshape(2, 2, 2)
a

Mas note que, após um reshape, qualquer que seja, a quantidade de elementos no ndarray resultante deve ser igual à quantidade de elementos do ndarray original.

In [None]:
a = np.array([1,2,3,4,5,6,7,8,9]).reshape((3,3))
a

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
a[0]

array([1, 2, 3])

In [None]:
a[[True, False, True]]

array([[1, 2, 3],
       [7, 8, 9]])

In [None]:
a[
    np.array([True, False, True, True, False, True, True, False, True]).reshape((3,3))
]

array([1, 3, 4, 6, 7, 9])