Comparação de Python com NumPy

O NumPy pode ser de 10 a 100x mais rápido

In [2]:
import numpy as np

In [14]:
arr = np.array(([1, 2], [4, 5]))

for linha in range(0, arr.shape[0]):
  for coluna in range(0, arr.shape[1]):
    arr[linha][coluna] +=3

arr

array([[4, 5],
       [7, 8]])

In [15]:
arr = np.array(([1, 2], [4, 5]))
arr +=3
arr

array([[4, 5],
       [7, 8]])

Vetorizando código Python
np.vectorize = transforma funções Python regulares em funções vetorizadas. Issso significa que podemos aflicar eficientemente uma função a cada elemento de um array NumPy sem nos preocuparmos com loops explícitos. É muito útil quando precisamos operar em arrays, mas temos funções projetadas para operar em valores únicos.

In [16]:
arr =np.array(["Hello", "meninas", "coders"])
len(arr) > 5

False

In [17]:
vetorizar_len = np.vectorize(len)
vetorizar_len(arr) > 5

array([False,  True,  True])

Podemos também definir funções e aplicar sobre cada elemento da array

In [21]:
def minha_funcao(x):
    return x**2 + 3*x + 1

vetorizada_funcao = np.vectorize(minha_funcao)
array_original = np.array([1, 2, 3, 4, 5])
resultado = vetorizada_funcao(array_original)

resultado

array([ 5, 11, 19, 29, 41])

Broadcasting (transmissão) - refere-se a capacidade do NumPy de lidar com operações entre arrays de diferentes formas e tamanhos durante operações aritméticas. Permite que o NumPy execute essas operações mesmo quando as dimensções dos arrays não são as mesmas, seguindo um conjunto de regras específicas.

In [3]:
arr2 = np.array([[1, 2], [4, 5]])
arr2 * 5

array([[ 5, 10],
       [20, 25]])

In [5]:
arr_3x3 = np.array([[1, 2],
                    [4, 5],
                    [7, 8]])
arr_3x3

array([[1, 2],
       [4, 5],
       [7, 8]])

In [7]:
arr_3x1 = np.array([1, 0, -1]).reshape((3,1))
arr_3x1

array([[ 1],
       [ 0],
       [-1]])

Abaixo - a cada uma das colunas 3x3 foi somada a coluna 3x1

In [8]:
arr_3x3 + arr_3x1

array([[2, 3],
       [4, 5],
       [6, 7]])

Linhas - nesse caso é respeitado a quantidade de linhas. Observe quando houver array com formato indefinido ex = (5,), pois o resultado final ficará errado, como se estivéssemos somando linha a linha.

In [10]:
arr10 = np.arange(10).reshape((2, 5))
arr5 = np.array([0, 1, 2, 3, 4])
arr10.shape, arr5.shape

((2, 5), (5,))

In [11]:
arr10 + arr5

array([[ 0,  2,  4,  6,  8],
       [ 5,  7,  9, 11, 13]])

Colunas - nesse caso é respeitado a quantidade de colunas.

In [15]:
arr10 = np.arange(10).reshape((2, 5))
arr2 = np.array([2, 1]).reshape(2, 1)
arr10.shape, arr2.shape

((2, 5), (2, 1))

In [16]:
arr10 + arr2

array([[ 2,  3,  4,  5,  6],
       [ 6,  7,  8,  9, 10]])

Outras Operações - a aplicação da mesma lógica estende-se à multiplicação, subtração e divisão.

Divisão

In [None]:
arr10 = np.arange(10).reshape((2, 5))
arr2 = np.array([2, 1]).reshape(2, 1)
arr10.shape, arr2.shape

In [17]:
arr10 / arr2

array([[0. , 0.5, 1. , 1.5, 2. ],
       [5. , 6. , 7. , 8. , 9. ]])

Multiplicação

In [14]:
arr10 = np.arange(10).reshape((2, 5))
arr2 = np.array([2, 1]).reshape(2, 1)
arr10.shape, arr2.shape

((2, 5), (2, 1))

In [18]:
arr10 * arr2

array([[0, 2, 4, 6, 8],
       [5, 6, 7, 8, 9]])

Salvando arquivos tipo NumPy - podemos salvar em diferentes formatos:

.npy  |  .txt  |  .h5  |  .json  |  .csv  |  .parquet

Mas porque salvar como NumPy?

1 Eficiência de Armazenamento: O formato npy é otimizado para armazenar arrays NumPy de forma compacta, ocupando menos espaço em disco em comparação com outros formatos de arquivo.

2 Velocidade de Leitura e Escrita: O formato npy é rápido para leitura e escrita, o que é especialmente útil ao lidar com grandes conjuntos de dados.

3 Compatibilidade: O formato npy é amplamente suportado por várias bibliotecas e ferramentas de análise de dados em Python, garantindo interoperabilidade com outras partes do seu projeto.

4 Preservação de Metadados: Ao salvar um array NumPy em formato npy, você pode preservar metadados importantes, como forma, tipo de dados e outras informações associadas ao array.

5 Facilidade de Uso: O processo de salvar e carregar arrays NumPy em formato npy é simples e direto, exigindo apenas algumas linhas de código em Python.

6 Compressão Opcional: O formato npy suporta compressão opcional, o que pode reduzir ainda mais o tamanho do arquivo em disco, especialmente para conjuntos de dados maiores.

Salvando o arquivo

In [20]:
arr10 = np.arange(10).reshape((2, 5))
arr10

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [21]:
np.save('arr10.npy', arr10)

Carregando o arquivo

In [22]:
arr = np.load('arr10.npy')
arr

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])