### Vetorização
Embora possamos usar list comprehension e função map em arrays Numpy, este pode não ser o melhor método e a meneira mais eficiente de se obter o mesmo resultado seria através de vetorização.

Vetorização nos permite aplicar uma função a um array inteiro, ao invés de aplicar a função elemento a elemento (similar ao que fazemos com as funções map() e filter()).

Ao trabalhar com objetos Numpy e Pandas, existem maneiras mais eficiente de se aplicar uma função a um conjunto de elementos, que serão mais velozes que aplicação de loops for.

In [1]:
import numpy as np

In [2]:
array1 = np.random.randint(0, 50, 20)

In [3]:
array1

array([19, 41, 24, 17,  1,  0, 29, 17, 38,  2,  3, 30, 38, 39, 41, 13, 30,
       46, 30, 18])

In [4]:
# Criando uma função
def calc_func(num):
    if num < 10:
        return num ** 3
    else:
        return num ** 2

In [5]:
# Para que a função funcione no objeto array do Numpy, ela precisa ser vetorizada
calc_func(array1)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [6]:
?np.vectorize

In [16]:
# Vetorizando a função
v_calc_func = np.vectorize(calc_func)

In [17]:
type(v_calc_func)

numpy.vectorize

In [18]:
# Aplicando a função vetorizada ao array1 Numpy
v_calc_func(array1)

array([ 361, 1681,  576,  289,    1,    0,  841,  289, 1444,    8,   27,
        900, 1444, 1521, 1681,  169,  900, 2116,  900,  324])

In [19]:
# Aplicando a função map() sem vetorizar a função
list(map(calc_func, array1))

[361,
 1681,
 576,
 289,
 1,
 0,
 841,
 289,
 1444,
 8,
 27,
 900,
 1444,
 1521,
 1681,
 169,
 900,
 2116,
 900,
 324]

In [20]:
# Podemos usar a list comprehension para obter o mesmo resultado, sem vetorizar a função
[calc_func(x) for x in array1]

[361,
 1681,
 576,
 289,
 1,
 0,
 841,
 289,
 1444,
 8,
 27,
 900,
 1444,
 1521,
 1681,
 169,
 900,
 2116,
 900,
 324]

No Python 3, a list comprehension recebeu atualizações e ficou muito mais rápida e eficiente, uma vez que ela é amplamente utilizada em programação Python. Lembre-se sempre de chegar a documentação antes de decidir como você irá manipular suas estrutura de dados.

In [21]:
# Função vetorizada
%timeit v_calc_func(array1)

# List comprehension
%timeit [calc_func(x) for x in array1]

# Função map()
%timeit list(map(calc_func, array1))

17.1 µs ± 282 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
9.86 µs ± 71 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
9.45 µs ± 95.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [22]:
# Criando um array com valores maiores
array2 = np.random.randint(0, 100, 20 * 10000)

In [23]:
# Função vetorizada
%timeit v_calc_func(array2)

# List comprehension
%timeit [calc_func(x) for x in array2]

# Função map()
%timeit list(map(calc_func, array2))

58.1 ms ± 675 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
91.5 ms ± 708 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
88.5 ms ± 607 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Utilizar versões mais recentes de um software pode trazer problemas de compatibilidade com aplicações existentes, mas é grande a possibilidade de trazerem melhorias em performance e novas funcionalidades.