## Data Science Academy - Big Data Real-Time Analytics com Python e Spark

## NumPy

## Vetorização

Embora possamos usar list comprehension em arrays numpy, este pode não ser o melhor método e a maneira mais eficiente de se obter o mesmo resultado, seria através de vetorização. Vetorização nos permite aplicar uma função a um array inteiro, ao invés de aplicar a função elemento a elemento (similar ao que fazemos com as funções map() e filter()).

Ao trabalhar com objetos NumPy e Pandas, existem maneiras mais eficientes de se aplicar uma função a um conjnto de elementos, que serão mais velozes que a aplicação de loops for.

In [1]:
import numpy as np

In [2]:
array1 = np.random.randint(0, 50, 20)

In [3]:
array1

array([ 3,  8, 15, 20, 13, 36,  2, 41, 48,  2, 24,  4,  9, 17, 36, 15, 20,
       47, 42, 35])

In [4]:
# Criando um função
def calc_func(num):
    if num < 10:
        return num ** 3
    else:
        return num ** 2

In [5]:
# Para que a função funcione no objeto array do NumPy, ela precisa ser vetorizada
calc_func(array1)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [6]:
?np.vectorize

[0;31mInit signature:[0m
[0mnp[0m[0;34m.[0m[0mvectorize[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mpyfunc[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0motypes[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdoc[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mexcluded[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcache[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msignature[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
vectorize(pyfunc, otypes=None, doc=None, excluded=None, cache=False,
          signature=None)

Generalized function class.

Define a vectorized function which takes a nested sequence of objects or
numpy arrays as inputs and returns a single numpy array or a tuple of numpy
arrays. The vectorized function evaluates `pyfunc` over successive tuples
of the input arrays like the p

In [7]:
# Vetorizando a função
v_calc_func = np.vectorize(calc_func)

In [8]:
type (v_calc_func)

numpy.lib.function_base.vectorize

In [9]:
# Aplicando a função vetorizada ao array3 NumPy
v_calc_func(array1)

array([1156,  784, 2401, 2025, 2209,  216,  784,  784,  121,  144,    0,
        484,  256, 1600, 1089,  225, 1521,  900,  100,  361])

In [10]:
 list(map(calc_func, array1))

[1156,
 784,
 2401,
 2025,
 2209,
 216,
 784,
 784,
 121,
 144,
 0,
 484,
 256,
 1600,
 1089,
 225,
 1521,
 900,
 100,
 361]

In [11]:
# Podemos usar list comprehension for para obter o mesmo resutado, sem vetorizar a função
[calc_func(x) for x in array1]

[1156,
 784,
 2401,
 2025,
 2209,
 216,
 784,
 784,
 121,
 144,
 0,
 484,
 256,
 1600,
 1089,
 225,
 1521,
 900,
 100,
 361]

No Python 3, a list comprehension recebeu atualizações e ficou muito mais rápida e eficiente, uma vez que ela é amplamente utilizada em programação Python. Lembre-se sempre de checar a documentação antes de decidir como você irá manipular suas estruturas de dados.

In [12]:
%timeit [calc_func(x) for x in array1]
%timeit v_calc_func(array1)
%timeit list(map(calc_func, array1))

100000 loops, best of 3: 9.23 µs per loop
10000 loops, best of 3: 25.3 µs per loop
100000 loops, best of 3: 8.51 µs per loop


In [13]:
array2 = np.random.randint(0, 100, 20 * 1000)

In [14]:
%timeit [calc_func(x) for x in array2]
%timeit v_calc_func(array2)
%timeit list(map(calc_func, array2))

100 loops, best of 3: 7.79 ms per loop
100 loops, best of 3: 9.55 ms per loop
100 loops, best of 3: 7.11 ms per loop


Utilizar as versões mais recentes de um software pode trazer problemas de compatibilidade com aplicações existentes, mas é grande a possibilidade trazerem melhorias em performance e novas funcionalidades.