# Vetorização - Funções - Operações - Arrays
<br><br>

## Vetorização

Embora possamos usar list comprehension e função map em arrays numpy, este pode não ser o melhor método e a maneira mais eficiente de se obter o mesmo resultado seria através de vetorização. 

Vetorização nos permite aplicar uma função a um array inteiro, ao invés de aplicar a função elemento a elemento (similar ao que fazemos com as funções map() e filter()).

Ao trabalhar com objetos NumPy e Pandas, existem maneiras mais eficientes de se aplicar uma função a um conjunto de elementos, que serão mais velozes que a aplicação de loops for.

In [1]:
import numpy as np

In [2]:
array1 = np.random.randint(0, 50, 20)
array1

array([33, 33,  9,  0, 21, 21,  9, 48, 39, 30, 16, 44,  9,  0,  9,  5,  7,
       33,  2, 22])

In [3]:
# Criando um função
def calc_func(num):
    if num < 10:
        return num ** 3
    else:
        return num ** 2

In [4]:
# Para que a função funcione no objeto array do NumPy, ela precisa ser vetorizada
calc_func(array1)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [5]:
?np.vectorize

In [6]:
# Vetorizando a função
v_calc_func = np.vectorize(calc_func)
v_calc_func

<numpy.vectorize at 0x1e5ff096588>

In [7]:
type (v_calc_func)

numpy.vectorize

In [8]:
# Aplicando a função vetorizada ao array3 NumPy
v_calc_func(array1)

array([1089, 1089,  729,    0,  441,  441,  729, 2304, 1521,  900,  256,
       1936,  729,    0,  729,  125,  343, 1089,    8,  484])

In [9]:
# Aplicando a função map() sem vetorizar a função
list(map(calc_func, array1))

[1089,
 1089,
 729,
 0,
 441,
 441,
 729,
 2304,
 1521,
 900,
 256,
 1936,
 729,
 0,
 729,
 125,
 343,
 1089,
 8,
 484]

In [10]:
# Podemos usar list comprehension para obter o mesmo resutado, sem vetorizar a função
[calc_func(x) for x in array1]

[1089,
 1089,
 729,
 0,
 441,
 441,
 729,
 2304,
 1521,
 900,
 256,
 1936,
 729,
 0,
 729,
 125,
 343,
 1089,
 8,
 484]

No Python 3, a list comprehension recebeu atualizações e ficou muito mais rápida e eficiente, uma vez que ela é amplamente utilizada em programação Python. Lembre-se sempre de checar a documentação antes de decidir como você irá manipular suas estruturas de dados.

In [11]:
# Função vetorizada
%timeit v_calc_func(array1)

# List comprehension
%timeit [calc_func(x) for x in array1]

# Função map()
%timeit list(map(calc_func, array1))

18.7 µs ± 599 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
8.28 µs ± 534 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
9.68 µs ± 962 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [12]:
# Criando um array com valores maiores
array2 = np.random.randint(0, 100, 20 * 10000)

In [13]:
# Função vetorizada
%timeit v_calc_func(array2)

# List comprehension
%timeit [calc_func(x) for x in array2]

# Função map()
%timeit list(map(calc_func, array2))

109 ms ± 16.4 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
100 ms ± 13.5 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
82.1 ms ± 5.19 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


Utilizar as versões mais recentes de um software pode trazer problemas de compatibilidade com aplicações existentes, mas é grande a possibilidade trazerem melhorias em performance e novas funcionalidades.