# <font color='blue'>Data Science Academy - Big Data Real-Time Analytics com Python e Spark</font>
# <font color='blue'>Capítulo 3</font>

****** Este Jupyter Notebook foi atualizado para a versão 3.6.1. da Linguagem Python em 13/06/2017 ******

## NumPy

## Vetorização

Embora possamos usar list comprehension em arrays numpy, este pode não ser o melhor método e a maneira mais eficiente de se obter o mesmo resultado, seria através de vetorização. Vetorização nos permite aplicar uma função a um array inteiro, ao invés de aplicar a função elemento a elemento (similar ao que fazemos com as funções map() e filter()).

Ao trabalhar com objetos NumPy e Pandas, existem maneiras mais eficientes de se aplicar uma função a um conjnto de elementos, que serão mais velozes que a aplicação de loops for.

In [1]:
import numpy as np

In [4]:
array1 = np.random.randint(0, 50, 20)

In [12]:
array1

array([ 4,  8, 32, 37, 26, 27,  1,  9, 15, 39, 49,  7,  8, 13,  4, 29, 35,
       38, 44, 30])

In [6]:
# Criando um função
def calc_func(num):
    if num < 10:
        return num ** 3
    else:
        return num ** 2

In [7]:
# Para que a função funcione no objeto array do NumPy, ela precisa ser vetorizada
calc_func(array1)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [8]:
?np.vectorize

In [9]:
# Vetorizando a função
v_calc_func = np.vectorize(calc_func)

In [10]:
type (v_calc_func)

numpy.lib.function_base.vectorize

In [11]:
# Aplicando a função vetorizada ao array3 NumPy
v_calc_func(array1)

array([  64,  512, 1024, 1369,  676,  729,    1,  729,  225, 1521, 2401,
        343,  512,  169,   64,  841, 1225, 1444, 1936,  900])

In [15]:
 list(map(calc_func, array1))

[64,
 512,
 1024,
 1369,
 676,
 729,
 1,
 729,
 225,
 1521,
 2401,
 343,
 512,
 169,
 64,
 841,
 1225,
 1444,
 1936,
 900]

In [16]:
# Podemos usar list comprehension for para obter o mesmo resutado, sem vetorizar a função
[calc_func(x) for x in array1]

[64,
 512,
 1024,
 1369,
 676,
 729,
 1,
 729,
 225,
 1521,
 2401,
 343,
 512,
 169,
 64,
 841,
 1225,
 1444,
 1936,
 900]

No Python 3, a list comprehension recebeu atualizações e ficou muito mais rápida e eficiente, uma vez que ela é amplamente utilizada em programação Python. Lembre-se sempre de checar a documentação antes de decidir como você irá manipular suas estruturas de dados.

In [22]:
%timeit [calc_func(x) for x in array1]
%timeit v_calc_func(array1)
%timeit list(map(calc_func, array1))
%timeit list((lambda x: calc_func(x), array1))

16 µs ± 1.48 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)
36.4 µs ± 3.79 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
13.6 µs ± 440 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
385 ns ± 47.3 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [23]:
array2 = np.random.randint(0, 100, 20 * 1000)

In [24]:
%timeit [calc_func(x) for x in array2]
%timeit v_calc_func(array2)
%timeit list(map(calc_func, array2))

15.9 ms ± 25.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
17.6 ms ± 80.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
15 ms ± 34.5 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [26]:
%timeit [calc_func(x) for x in array2]
%timeit list((lambda x: calc_func(x), array2))

15.7 ms ± 110 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
475 ns ± 1.72 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


Utilizar as versões mais recentes de um software pode trazer problemas de compatibilidade com aplicações existentes, mas é grande a possibilidade trazerem melhorias em performance e novas funcionalidades.

# Fim

### Obrigado - Data Science Academy - <a href=http://facebook.com/dsacademy>facebook.com/dsacademybr</a>