## Diferença de tempo entre um array numpy e uma lista (ambos com 1 milhão de inteiros)

In [1]:
import numpy as np

In [2]:
my_arr = np.arange(5_000_000)

my_list = list(range(5_000_000))

In [3]:
%timeit my_arr2 = my_arr * 2

9.42 ms ± 73.2 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [4]:
%timeit my_list2 = [x * 2 for x in my_list]

277 ms ± 23.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [5]:
test_arr = np.arange(10)

In [6]:
test_arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [7]:
np.arange?

[31mDocstring:[39m
arange([start,] stop[, step,], dtype=None, *, device=None, like=None)

Return evenly spaced values within a given interval.

``arange`` can be called with a varying number of positional arguments:

* ``arange(stop)``: Values are generated within the half-open interval
  ``[0, stop)`` (in other words, the interval including `start` but
  excluding `stop`).
* ``arange(start, stop)``: Values are generated within the half-open
  interval ``[start, stop)``.
* ``arange(start, stop, step)`` Values are generated within the half-open
  interval ``[start, stop)``, with spacing between values given by
  ``step``.

For integer arguments the function is roughly equivalent to the Python
built-in :py:class:`range`, but returns an ndarray rather than a ``range``
instance.

When using a non-integer step, such as 0.1, it is often better to use
`numpy.linspace`.


Parameters
----------
start : integer or real, optional
    Start of interval.  The interval includes this value.  The de

## Computação em lote com NumPy - Algumas operações padrões

In [8]:
data = np.array([[1, 2, 3],[3.5, 7, 4]])

In [9]:
data

array([[1. , 2. , 3. ],
       [3.5, 7. , 4. ]])

In [10]:
data * 10

array([[10., 20., 30.],
       [35., 70., 40.]])

In [11]:
data + data

array([[ 2.,  4.,  6.],
       [ 7., 14.,  8.]])

In [12]:
# Chegar dimensao do array
data.shape

(2, 3)

In [13]:
# Chegar type do array
data.dtype

dtype('float64')

## Convertendo uma lista para ndarray

Um array é mais performático que uma lista comum do python (built-in list).
Como os arrays do NumPy são implementados com libs de C isso aumenta o desempenho.
Isso permite a estes arrays executar operações vetoriais por todos os elementos sem a necessidade de utilizar um loop (for)


In [15]:
lst = [1, 7, 4, 2.5, 3.7]
arr = np.array(lst)

In [16]:
arr

array([1. , 7. , 4. , 2.5, 3.7])

In [17]:
# Sequencias aninhadas (lista de lista) ira criar um array multidimensional
lst2 = [[3.4, 2.7, 3],[2.1, 2, 4]]
arr2 = np.array(lst2)
arr2

array([[3.4, 2.7, 3. ],
       [2.1, 2. , 4. ]])

In [18]:
# Chegar numero de dimensoes do array
arr2.ndim

2

In [19]:
arr2.shape

(2, 3)

## Criando arrays pre-definidos com 0's 1's e sem tamanho

In [22]:
# É possível criar um array de zeros com a funcao zeros(n)
arr_z = np.zeros(10) # Neste caso sera criado um array unidimensional com 10 valores zerados
arr_z

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [23]:
# Porém é possível multidimensionar um array de zeros passando uma tupla com a dimensao desejada
arr_z_multi = np.zeros((2, 4))
arr_z_multi

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [25]:
# np.empty vai criar um array sem inicializa-lo especificamente
np.empty((2, 3, 2)) # Não é seguro afirmar que será criado um array somente com zeros, np.empty pode pegar valores sujos da memória

array([[[0., 0.],
        [0., 0.],
        [0., 0.]],

       [[0., 0.],
        [0., 0.],
        [0., 0.]]])

In [26]:
# Também existe a opcao de criar um array somente com 1's
np.ones(5)

array([1., 1., 1., 1., 1.])

In [27]:
np.ones((4, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [28]:
# O np.full criara um array com o shape e o valor padrao passados
np.full(3, 2)

array([2, 2, 2])

In [32]:
np.full((4,5), 'bb') # Cria um array multidimensional 4 por 5 com valores definidos como 'bb'

array([['bb', 'bb', 'bb', 'bb', 'bb'],
       ['bb', 'bb', 'bb', 'bb', 'bb'],
       ['bb', 'bb', 'bb', 'bb', 'bb'],
       ['bb', 'bb', 'bb', 'bb', 'bb']], dtype='<U2')

In [40]:
# Cria uma matriz identidiade quadrada N x N
np.eye(10)
np.identity(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

## Aritmética com arrays NumPy

Os arrays são importantes porque permitem expressar operações em lote com dados sem ser preciso escrever nenhum loop for. Os usuários do NumPy chamam isso de vetorização

In [2]:
import numpy as np
arr = np.array([[1, 2, 3],[4, 5, 6]])

In [12]:
arr

array([[ 3,  7, 12],
       [ 2,  3,  9]])

In [4]:
arr * arr

array([[ 1,  4,  9],
       [16, 25, 36]])

In [5]:
arr - arr

array([[0, 0, 0],
       [0, 0, 0]])

In [7]:
# As operações aritméticas escalares propagam o argumento escalar para cada elemento do array, como na divisão abaixo
1 / arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [8]:
arr ** 2

array([[ 1,  4,  9],
       [16, 25, 36]])

In [17]:
# As comparações entre arrays do mesmo tamanho gera arrays booleanos
arr = np.array([[1, 2, 3],[4, 5, 6]])
arr2 = np.array([[3, 7, 12],[2, 5, 9]])

arr == arr2

array([[False, False, False],
       [False,  True, False]])

In [18]:
arr != arr2

array([[ True,  True,  True],
       [ True, False,  True]])

In [19]:
arr > arr2

array([[False, False, False],
       [ True, False, False]])

In [20]:
arr >= arr2

array([[False, False, False],
       [ True,  True, False]])

In [22]:
# Fatiamento e acesso a indice de arrays unidimensionais é muito similar com os tipos built-in do python
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [25]:
arr[8]

np.int64(8)

In [24]:
arr[2:6]

array([2, 3, 4, 5])

In [26]:
arr[2:-3]

array([2, 3, 4, 5, 6])

In [29]:
# Valor 12 foi propagado (feito um broadcast) para as chaves abaixo
arr[5:8] = 12

In [28]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

### Uma diferança inicial importante em relação às listas internas do Python é que as fatias dos arrays são visualizações do array original. Isso significa que os dados não são copiados e qualqeur modificação feita na visualização será refletida no array de origem.

### No exemplo abaixo, copiamos uma fatia do array original para *arr_slice*. Quando modificarmos arr_slice essas modificações serão refletidas em *arr*

In [31]:
arr_slice = arr[2:4]
arr_slice

array([2, 3])

In [32]:
arr_slice[1] = 400
arr_slice

array([  2, 400])

In [33]:
arr

array([  0,   1,   2, 400,   4,  12,  12,  12,   8,   9])

### A fatia vazia [:] faz atribuição a todos os elementos de um array

In [34]:
arr_slice[:] = 24

In [35]:
arr_slice

array([24, 24])

In [36]:
arr

array([ 0,  1, 24, 24,  4, 12, 12, 12,  8,  9])

In [38]:
# Formas diferentes de acessar indices de arrays
arr = np.array([['a', 'b', 'c'], ['d', 'e', 'f']])
arr[0][2]

np.str_('c')

In [39]:
arr[0, 2]

np.str_('c')

### É importante ressaltas que o fatiamento em arrays multidimensionais o comportamento é diferente de como fatiar uma lista por exemplo

In [43]:
arr_multi = np.array([[[2, 3, 7],[9, 4, 22], [1, 3, 15]],[[6, 2, 1], [5, 15, 3], [0, 3, 6]]])

In [45]:
arr_multi.shape

(2, 3, 3)

In [52]:
# Pega as duas dimensões e somente a segunda linha de cada
arr_multi[:2, 1]

array([[ 9,  4, 22],
       [ 5, 15,  3]])

In [54]:
# Pega as duas dimensões e somente a última linha
arr_multi[:2, 2]

array([[ 1,  3, 15],
       [ 0,  3,  6]])

In [56]:
arr_multi[:2, 1:]

array([[[ 9,  4, 22],
        [ 1,  3, 15]],

       [[ 5, 15,  3],
        [ 0,  3,  6]]])

In [60]:
import numpy as nd
arr2d = nd.array([[1,2,3],[4,5,6],[7,8,9]])

In [61]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [62]:
# Pega as duas primeiras linhas
arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [63]:
# pega as duas primeiras linhas a partir do indice 1, excluindo (1, 4)
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

In [65]:
# Pega apenas os elementos da terceira linha
arr2d[2:, :]

array([[7, 8, 9]])

In [68]:
# Pega apenas o primeiro e segundo elemento da segunda linha
arr2d[1:2, :2]

array([[4, 5]])

## Indexação Booleana


In [13]:
import numpy as np

names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

data = np.array([[4, 7], [0, 2], [-5, 6], [0, 0], [1, 2], [-12,-4], [3, 4]])

In [7]:
names
data

array([[  4,   7],
       [  0,   2],
       [ -5,   6],
       [  0,   0],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [8]:
names == "Bob"

array([ True, False, False,  True, False, False, False])

### Considerando os arrays acima, podemos querer indexar um array ao outro. Por exemplo, procurar no array *data* as mesmas posições as quais corresponde ao nome 'Bob'. Veja o exemplo abaixo:

In [9]:
data[names == 'Bob']

array([[4, 7],
       [0, 0]])

### Como é possível ver, apenas as posições 0 e 3 foram mostradas. Isso pode ser interessante para casos mais complexos.

In [10]:
# Indexando e fatiando
data[names == 'Will', 1:]

array([[6],
       [2]])

In [11]:
# Mais um exemplo
data[names == 'Joe', 1]

array([ 2, -4,  4])

In [12]:
# Outros exemplos utilizando o negar != ou o til (˜)
# NOTE: Por algum motivo o til não tá workando
names != 'Will'

array([ True,  True, False,  True, False,  True,  True])

In [14]:
data[names != "Bob"]

array([[  0,   2],
       [ -5,   6],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

In [15]:
cond = names == "Bob"

˜cond

In [18]:
cond

array([ True, False, False,  True, False, False, False])

### É possível selecionar dois dos três nomes e combinar condições utlizando os operadores aritméticos booleanos & (and) e | (or)
>NOTE: as palavras 'and' e 'or' utilizadas em condicionais normais do python não funcionam com arrays booleanos

In [21]:
mas = (names == "Bob") | (names == "Will") # só náo vai pegar o Joe

In [22]:
mas

array([ True, False,  True,  True,  True, False, False])

In [23]:
data[mas]

array([[ 4,  7],
       [-5,  6],
       [ 0,  0],
       [ 1,  2]])

In [24]:
### Se eu quiser transformar todos os valores menores que 0 (negativos) de data em 0, basta fazer a seguinte operação
data[data < 0] = 0 # Todos os valores menores que 0 serão 0

In [6]:
data

array([[  4,   7],
       [  0,   2],
       [ -5,   6],
       [  0,   0],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

## VERY IMPORTANT NOTE: Como visto acima a operação quer zerou os valores negativos agiu diretamente em cima do array 'data'. Ou seja, caso queira manter os valores originais, crie uma cópia

## VOU BOTAR EM CAPS MESMO. GERALMENTE QUANDO EU TRABALHEI COM PANDAS (POR EXEMPLO) EU SEMPRE CRIEI UMA COPIA DO DATAFRAME ORIGINAL, ALGO COMO (df_copy = df.copy()) NÃO LEMBRO SE É ESSE O COMANDO, mas acho que é.

## ISTO É DEVERAS IMPORTANTE E CRUCIAL PARA NÃO AVACALHAR O DATAFRAME ORIGINAL


In [16]:
data_copy = data # 🟥🟥🟥 NÃO FAÇA ISSO PARA CRIAR UMA NOVA CÓPIA, 
                 # ISSO MANTÉM A REFERÊNCIA E TUDO QUE VOCÊ ALTERAR EM data_copy VAI ALTERAR TAMBÉM EM data

In [17]:
data_copy = data.copy() # 🟩🟩🟩 ASSIM PODE, ISSO GERA UM OBJETO COMPLETAMENTE INDEPENDENTE DE data

In [18]:
data_copy[data_copy < 0] = 0

In [19]:
data_copy

array([[4, 7],
       [0, 2],
       [0, 6],
       [0, 0],
       [1, 2],
       [0, 0],
       [3, 4]])

In [20]:
data

array([[  4,   7],
       [  0,   2],
       [ -5,   6],
       [  0,   0],
       [  1,   2],
       [-12,  -4],
       [  3,   4]])

# INDEXAÇÃO SOFISTICADA (fancy indexing)

Este tipo de indexação é feito com o uso de arrays de interios.

In [23]:
arr = np.zeros((8, 4)) # Cria um array 8 x 4 e preenche com zero
arr

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [26]:
for i in range(8): # itera sobre o array anterior e preenche cada 1 dos 8 arrays com seu index como valor
    arr[i] = i

In [25]:
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [27]:
# Agora para selecionar um subconjunto das linhas em uma ordem específica, basta passar uma lista ou um ndarray de inteiros especificando a ordem desejada

arr[[4, 3, 0, 6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [28]:
# Com indices negativos a ordem se inverte (como nos fatiamentos dos built-in types)
arr[[-3,-5,-7]]

array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

In [34]:
arr[[0, 1, 2, 3, 4, 5, 6, 7]]

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [35]:
arr = np.arange(32).reshape((8, 4)) # Cria um array com 32 posições em um formato 8 x 4

In [36]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [40]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]] # Para entender o valor selecionado na saida junte o elemento correspondente de cada array

array([ 4, 23, 29, 10])

### A saída desse gonócio é sempre unidimensional

### Para um comportamento diferente, como selecionar um subconjunto das linhas e colunas da matriz

In [42]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]] # Basicamente ele mapeia de um jeito diferente. [[linhas]][:[colunas]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

### Se tentar atribuir valores na indexação sofisticada isso afetará o array original

In [43]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

In [44]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]] = 0

In [46]:
arr

array([[ 0,  1,  2,  3],
       [ 0,  5,  6,  7],
       [ 8,  9,  0, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22,  0],
       [24, 25, 26, 27],
       [28,  0, 30, 31]])

## Transposição de Array e troca de eixos

A transposição é uma forma especial de reformatação que retorna dados subjacentes, sem fazer nenhuma cópia. Utiliza-se o método transpose com os arrays.

In [2]:
import numpy as np
arr = np.arange(15).reshape((3, 5))

In [3]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [4]:
arr.T # Transpose

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [6]:
arr = np.array([[0, 1, 0], [1, 2, -2], [6, 3, 2], [-1, 0, -1], [1, 0, 1]])

In [7]:
arr

array([[ 0,  1,  0],
       [ 1,  2, -2],
       [ 6,  3,  2],
       [-1,  0, -1],
       [ 1,  0,  1]])

In [10]:
# Calculando o produto de uma matriz interna, com np.dot
# Os parametros são o array normal e o array transposto
np.dot(arr.T, arr)

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [11]:
# É possível também utilizar o operador infixo @ para multiplicar matrizes

In [12]:
arr.T @ arr

array([[39, 20, 12],
       [20, 14,  2],
       [12,  2, 10]])

In [13]:
# Existe o método swapaxes, que recebe um par de números de eixos e troca o número de eixos para reorganizar os dados
arr

array([[ 0,  1,  0],
       [ 1,  2, -2],
       [ 6,  3,  2],
       [-1,  0, -1],
       [ 1,  0,  1]])

In [14]:
arr.swapaxes(0, 1)

array([[ 0,  1,  6, -1,  1],
       [ 1,  2,  3,  0,  0],
       [ 0, -2,  2, -1,  1]])

## Geração de Números Pseudo-Aleatórios
O módulo numpy.random complementa o módulo random interno (built-in) do Python, para a geração eficiente de arrays de inteiros com valores de amostras de muitos tipos de distribuições de probabilidade. Por exemplo, vocë pode obter uma arra 4 x 4 de amostras da distribuição normal padráo usando numpy.random.standard_normal

In [16]:
samples = np.random.standard_normal(size=(4, 4))

In [17]:
samples

array([[ 0.18297353, -0.2476076 ,  0.33702014, -1.15287738],
       [-1.53971212, -0.88082282,  0.21562765,  0.86114517],
       [-0.48220963, -0.49920021, -0.71773677,  0.61291113],
       [-0.5741862 , -1.35941369,  0.43198433, -1.64938292]])

In [18]:
# np.random é acima de uma ordem de grandeza mais rápido para a geração de amostras muito grandes
from random import normalvariate

N = 1_000_000

In [19]:
%timeit samples = [normalvariate(0,1) for _ in range(N)]

427 ms ± 5.55 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [20]:
%timeit np.random.standard_normal(N)

27.4 ms ± 391 μs per loop (mean ± std. dev. of 7 runs, 10 loops each)
