## Vetorização

Embora possamos usar list comprehension e função map em arrays numpy, este pode não ser o melhor método e a maneira mais eficiente de se obter o mesmo resultado seria através de vetorização. 

Vetorização nos permite aplicar uma função a um array inteiro, ao invés de aplicar a função elemento a elemento (similar ao que fazemos com as funções map() e filter()). 

Função vetorizada para se obter o mesmo resultado que se poderia obter utilizando uma função map() ou list comprehension

Ao trabalhar com objetos NumPy e Pandas, existem maneiras mais eficientes de se aplicar uma função a um conjunto de elementos, que serão mais velozes que a aplicação de loops for.

In [3]:
import numpy as np

In [4]:
array1 = np.random.randint(0, 50, 20) #Array randômico de 20 elementos de 0 a 50

In [5]:
array1

array([42, 28, 18, 24, 28,  7, 36,  9, 27, 36, 21, 30, 43, 25, 14, 21, 17,
       23, 21, 47])

In [6]:
# Criando um função que recebe num como parâmetro
def calc_func(num): 
    if num < 10:
        return num ** 3 #Menor do que 10 retorna o cubo do parâmetro
    else:
        return num ** 2 #Maior do que 10 retorna o quadrado do parâmetro

In [7]:
# Para que a função funcione no objeto array do NumPy, ela precisa ser vetorizada
calc_func(array1)
# ERRO - não se pode aplicar uma função diretamente ao conjunto de dados

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [None]:
?np.vectorize #Função np.vectorize do NumPy, recebe uma sequência aninhada de objetos ou Array NumPy no input
#Retorna um single ou tupla de arrays como output

In [10]:
# Vetorizando a função, passando a função como parâmetro. Gravando em outro objeto. 
v_calc_func = np.vectorize(calc_func)

In [11]:
type (v_calc_func) #Função vetorizada do NumPy

numpy.vectorize

In [None]:
# Chamando a função vetorizada de antes e passando como parâmetro o array1 Numpy
v_calc_func(array1)

In [None]:
# Podemos obter o mesmo resultado aplicando a função map() sem necessidade de vetorizar a função
list(map(calc_func, array1))

In [None]:
# Podemos usar list comprehension para obter o mesmo resutado, sem vetorizar a função
[calc_func(x) for x in array1]
#Para cada elemento(x) no array1, chame a função "calc_func" e passe o elemento (x) como parâmetro

No Python 3, a list comprehension recebeu atualizações e ficou muito mais rápida e eficiente, uma vez que ela é amplamente utilizada em programação Python. Lembre-se sempre de checar a documentação antes de decidir como você irá manipular suas estruturas de dados.

In [15]:
# Função vetorizada
%timeit v_calc_func(array1)

# List comprehension
%timeit [calc_func(x) for x in array1]

# Função map()
%timeit list(map(calc_func, array1))

20.6 µs ± 954 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
11.9 µs ± 253 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
11.1 µs ± 173 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [16]:
# Criando um array com elementos muito maiores
array2 = np.random.randint(0, 100, 20 * 10000)

In [17]:
# Função vetorizada leva menos tempo para executar em relação aos outros dois. 
# Função vetorizada não é interessante para valores pequenos.
%timeit v_calc_func(array2)

# List comprehension
%timeit [calc_func(x) for x in array2]

# Função map()
%timeit list(map(calc_func, array2))

79.8 ms ± 810 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
110 ms ± 1.39 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
103 ms ± 2.01 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Utilizar as versões mais recentes de um software pode trazer problemas de compatibilidade com aplicações existentes, mas é grande a possibilidade trazerem melhorias em performance e novas funcionalidades.