# Vetorização

Embora possamos usar list comprehension e função map em arrays numpy, este pode não ser o melhor método e a maneira mais eficiente de se obter o mesmo resultado seria através de vetorização.

Vetorização nos permite aplicar uma função a um array inteiro, ao invés de aplicar a função elemento a elemento (similar ao que fazemos com as funções map() e filter())

Ao trabalhar com objetos NumPy e Pandas, existem maneiras mais eficientes de se aplicar uma função a um conjunto de elementos, que serão mais velozes que a aplicação de loops for - Evite o LoopFor o quanto possível.

In [1]:
import sys
import numpy as np
print(sys.version)
np.__version__

3.8.10 (default, Jun  4 2021, 15:09:15) 
[GCC 7.5.0]


'1.20.2'

In [2]:
array1 = np.random.randint(0, 50, 20)

In [3]:
array1

array([45, 31, 10, 47, 17, 42, 49, 41, 49, 22, 35, 16, 20, 15, 33, 16, 20,
       16, 24, 27])

In [4]:
# Criando uma função
def calc_func(num):
    if num < 10:
        return num ** 3
    else:
        return num ** 2

In [5]:
# Para que a função funcione no objeto array do NumPy, ela precisa ser vetorizada
calc_func(array1)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [8]:
?np.vectorize

In [9]:
v_calc_func = np.vectorize(calc_func)

In [10]:
type(v_calc_func)

numpy.vectorize

In [11]:
# Aplicando a função vetorizada ao array
v_calc_func(array1)

array([2025,  961,  100, 2209,  289, 1764, 2401, 1681, 2401,  484, 1225,
        256,  400,  225, 1089,  256,  400,  256,  576,  729])

In [12]:
# Uma alternativa - Map sem vetorização
list(map(calc_func, array1))

[2025,
 961,
 100,
 2209,
 289,
 1764,
 2401,
 1681,
 2401,
 484,
 1225,
 256,
 400,
 225,
 1089,
 256,
 400,
 256,
 576,
 729]

In [13]:
# Podemos usar list comprehension para obter o mesmo resultado, sem vetorizar a função
[calc_func(x) for x in array1]

[2025,
 961,
 100,
 2209,
 289,
 1764,
 2401,
 1681,
 2401,
 484,
 1225,
 256,
 400,
 225,
 1089,
 256,
 400,
 256,
 576,
 729]

No Python 3, a list comprehension recebeu atualizações e ficou muito mais rápida e eficiente, uma vez que ela é amplamente utilizada em programação Python. Lembre-se sempre de checar a documentação antes de decidir como você irá manipular suas estruturas de dados.

In [15]:
# Função vetorizada
%timeit v_calc_func(array1)

# List Comprehension
%timeit [calc_func(x) for x in array1]

# Função Map
%timeit list(map(calc_func, array1))

15.6 µs ± 185 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
6.63 µs ± 72.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
6.33 µs ± 77.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [16]:
# Criando Array com valores Maiores
array2 = np.random.randint(0, 100, 20 * 10000)

In [17]:
# Função vetorizada
%timeit v_calc_func(array1)

# List Comprehension
%timeit [calc_func(x) for x in array1]

# Função Map
%timeit list(map(calc_func, array1))

17.2 µs ± 250 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
7.26 µs ± 77 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
6.97 µs ± 83.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Utilizar as versões mais recentes de um software pode trazer problemas de compatibilidade com aplicações xistentes, mas é grande a possibilidade trazerem melhorias em performance e novas funcionalidades.

# FIM