## NumPy

### Vetorização
Embora possamos usar list comprehension em arrays numpy, este pode não ser o melhor método e a maneira mais eficiente de se obter o mesmo resultado,
seria através de vetorização.
Vetorização nos permite aplicar uma função a um array inteiro, ao invés de aplicar a função elemento a elemento (similar ao que fazemos com as funções map() e filter())

Ao trabalhar com objetos NumPy e Pandas, existem maneiras mais eficientes de se aplicar uma função a um conjunto de elementos, que serão mais velozes que a aplicação de loops for.

In [1]:
import numpy as np

In [2]:
array1 = np.random.randint(0, 50, 20)

In [3]:
array1

array([26,  6, 43,  1, 42, 33, 14, 32, 47, 34,  6,  1, 39,  5, 41, 19, 45,
       26, 46, 28])

In [4]:
# Criando uma função
def calc_func(num):
    if num < 10:
        return num ** 3
    else:
        return num ** 2

In [5]:
# Para que a função funcione no objeto array do NumPy, ela precisa ser vetorizada
calc_func(array1)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [6]:
?np.vectorize

In [7]:
# Vetorizando a função
v_calc_func = np.vectorize(calc_func)

In [8]:
type(v_calc_func)

numpy.vectorize

In [9]:
# Aplicando a função vetorizada ao array NumPy
v_calc_func(array1)

array([ 676,  216, 1849,    1, 1764, 1089,  196, 1024, 2209, 1156,  216,
          1, 1521,  125, 1681,  361, 2025,  676, 2116,  784])

In [10]:
list(map(calc_func, array1))

[676,
 216,
 1849,
 1,
 1764,
 1089,
 196,
 1024,
 2209,
 1156,
 216,
 1,
 1521,
 125,
 1681,
 361,
 2025,
 676,
 2116,
 784]

In [11]:
# Podemos usar list comprehension for para obter o mesmo resultado, sem vetorizar a função
[calc_func(x) for x in array1]

[676,
 216,
 1849,
 1,
 1764,
 1089,
 196,
 1024,
 2209,
 1156,
 216,
 1,
 1521,
 125,
 1681,
 361,
 2025,
 676,
 2116,
 784]

No Python 3, a list comprehension recebeu atualização e ficou muito mais rápida e eficiente, uma vez que ela é amplamente utilizada em programação Python.
Lembre-se sempre de checar a documentação antes de decidir como você irá manipular suas estruturas de dados.

In [12]:
%timeit [calc_func(x) for x in array1]
%timeit v_calc_func(array1)
%timeit list(map(calc_func, array1))

8.45 µs ± 31.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
13.6 µs ± 24.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
8.25 µs ± 19.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [13]:
array2 = np.random.randint(0, 100, 20 * 1000)

In [14]:
%timeit [calc_func(x) for x in array2]
%timeit v_calc_func(array2)
%timeit list(map(calc_func, array2))

8.09 ms ± 15.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
5.42 ms ± 10.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
7.52 ms ± 12.6 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Utilizar as versões mais recentes de um software pode trazer problemas de compatibilidade com aplicações existentes, mas é grande a possibilidade de trazerem melhorias em performance e novas funcionalidades.