# Básicos de NumPy
Bernardo Pandolfi Costa (19207646)

NumPy é uma abreviação da expressão "Numerical Python" (Python numérico) e é um pacote essencial para computação numérica com Python. <br>
Operações NumPy executam computações complexas em arrays sem a necessidade de loops.<br>

<a href="https://docs.scipy.org/doc/numpy/reference/">Referência</a>

In [1]:
import numpy as np

my_array = np.arange(1000000)

my_list = list(range(1000000))

In [2]:
%time for _ in range(10): my_arr2 = my_array * 2
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: total: 31.2 ms
Wall time: 33.9 ms
CPU times: total: 1.55 s
Wall time: 1.55 s


Algoritmos baseados em NumPy são geralmente muito mais rápidos que os algoritmos em Python puro e usam significativamente menos memória.

## ndarray: Uma array multidimensional

Um dos componentes mais poderosos do NumPy são as arrays de n dimensões, os ndarray. Os ndarray são containers flexíveis e rápidos para grandes datasets em Python.

ndarrays são containers multidimensionais genéricos de dados homogêneos, isto é, todos os elementos da array devem ser do mesmo tipo.

In [3]:
%config IPCompleter.greedy=True

import numpy as np
# Generate some random data
data = np.random.randn(2, 3)
data

array([[-0.55831012,  0.43972064, -0.6603166 ],
       [-0.60524359,  0.43583004,  0.44738865]])

In [4]:
data * 10


array([[-5.58310117,  4.3972064 , -6.603166  ],
       [-6.05243592,  4.35830042,  4.47388649]])

In [5]:
data + data

array([[-1.11662023,  0.87944128, -1.3206332 ],
       [-1.21048718,  0.87166008,  0.8947773 ]])

In [6]:
data.shape


(2, 3)

In [7]:
data.dtype

dtype('float64')

### Criando ndarrays

O método mais fácil para criar uma array é através da função ```array()```. Esta aceita qualquer objeto sequencial, incluindo outras arrays, e produz uma nova NumPy array que contém os dados passados na função.

In [8]:
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

Uma lista de objetos complexos, como uma lista de listas serão convertidas em uma array multidimensional:

In [9]:
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [10]:
arr2.ndim


2

In [11]:
arr2.shape

(2, 4)

In [12]:
arr1.dtype


dtype('float64')

In [13]:
arr2.dtype

dtype('int32')

In [14]:
np.zeros(10)


array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [15]:
np.zeros((3, 6))


array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

Para criar arrays com mais dimensões usando esses métodos, passamos uma tupla para a forma. ```empty()``` cria uma array sem inicializar os valores para seus elementos:

In [16]:
np.empty((2, 3, 2))

array([[[8.24201572e-312, 3.16202013e-322],
        [0.00000000e+000, 0.00000000e+000],
        [1.89146896e-307, 4.04479542e-037]],

       [[2.61937778e+180, 3.34944695e-061],
        [5.19318416e+170, 4.79582608e-037],
        [2.14263502e+160, 6.38272780e-067]]])

```arange()``` cria um array com valores da função ```range()```:

In [17]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### Tipos de dados para ndarrays

Os tipos de dado ou <b>dtype</b> é um objeto especial que contém a informação (ou metadata) que a ndarray precisa para interpretar dados em um determinado tipo de dado:

In [18]:
arr1 = np.array([1, 2, 3], dtype=np.float64)
arr2 = np.array([1, 2, 3], dtype=np.int32)

In [19]:
arr1.dtype

dtype('float64')

In [20]:
arr1

array([1., 2., 3.])

In [21]:
arr2.dtype

dtype('int32')

É possível converter uma array de um dtype para outro explicitamente usando o método ```astype```:

In [22]:
arr = np.array([1, 2, 3, 4, 5])
arr.dtype

dtype('int32')

In [23]:
float_arr = arr.astype(np.float64)
float_arr

array([1., 2., 3., 4., 5.])

Neste caso, convertemos a array, inicialmente de inteiros, em uma de valores float.

In [24]:
float_arr.dtype

dtype('float64')

In [25]:
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
print (arr)
arr.astype(np.int32)

[ 3.7 -1.2 -2.6  0.5 12.9 10.1]


array([ 3, -1, -2,  0, 12, 10])

In [26]:
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
print (numeric_strings)
numeric_strings.astype(float)


[b'1.25' b'-9.6' b'42']


array([ 1.25, -9.6 , 42.  ])

In [27]:
int_array = np.arange(10)
calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

In [28]:
#u4 - unsigned ints
empty_uint32 = np.empty(8, dtype='u4')
empty_uint32

array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

### Operações com arrays NumPy

Arrays são importantes pois capacitam operações em múltiplos dados sem o uso de loops. Usuários de NumPy chamam isso de vetorização. Qualquer operação aritmética entre arrays de mesmo tamanho aplicam a operação em cada elemento:

In [29]:
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print (arr)

[[1. 2. 3.]
 [4. 5. 6.]]


In [30]:
print (arr * arr)

[[ 1.  4.  9.]
 [16. 25. 36.]]


In [31]:
print (arr - arr)

[[0. 0. 0.]
 [0. 0. 0.]]


Arithmetic operations with scalars propagate the scalar argument to each element in
the array:

In [32]:
print (1 / arr)

[[1.         0.5        0.33333333]
 [0.25       0.2        0.16666667]]


In [33]:
print (arr ** 0.5)

[[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]]


Comparações entre arrays do mesmo tamanho retorna uma array booleana de mesmo tamanho:

In [34]:
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
print (arr2)


[[ 0.  4.  1.]
 [ 7.  2. 12.]]


In [35]:
print (arr2 > arr)

[[False  True False]
 [ True False  True]]


### Índices e Cortes

In [36]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [37]:
arr[5:8]

array([5, 6, 7])

In [38]:
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

Uma distinção importante das listas padrões de Python é que cortes de arrays são mostrados na array original. Isso significa que os dados não são copiados, e modificações no corte vão ser aplicados no array original.

In [39]:
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [40]:
arr_slice[1] = 12345

arr

array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

In [41]:
arr_slice[:] = 64

arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

Com arrays de mais dimensões, existem mais opções. Em arrays bidimensionais, os elementos de cada índice não são mais escalares, mas sim arrays unidimensionais:

In [42]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [43]:
arr2d[2]

array([7, 8, 9])

Logo, elementos individuais podem ser acessados recursivamente. Para acessarmos os elementos indiviudais mais facilmente, podemos separar o segundo índice por uma vírgula ou com outros colchetes:

In [44]:
arr2d[0][2]


3

In [45]:
arr2d[0, 2]

3

Em arrays multidimensionais, ao omitir índices, o objeto retornado será uma ndarray de menor dimensão que contém  todos os dados das maiores dimensões. Então, em uma array 2 x 2 x 3:

In [46]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [47]:
arr3d[0]

array([[1, 2, 3],
       [4, 5, 6]])

Tanto valores escalares quanto arrays podem ser colocados ao arr3d[0]:

In [48]:
old_values = arr3d[0].copy()
arr3d[0] = 42
arr3d

array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [49]:
arr3d[0] = old_values
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [50]:
arr3d[1, 0]

array([7, 8, 9])

In [51]:
x = arr3d[1]
x
x[0]

array([7, 8, 9])

### Índices em cortes

In [52]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [53]:
arr[1:6]

array([ 1,  2,  3,  4, 64])

Considere a array bidimensional anterior, arr2d. Cortar esta array é um pouco diferente:

In [54]:
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [55]:
arr2d[0:]

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Como pode ser visto, ela foi cortada no eixo 0 (linhas), o primeiro eixo. Um corte, então, seleciona um intervalo de elementos em um eixo. Pode ser útil para ler a expressão ```arr2d[:2]``` como "selecionar as duas primeiras linhas da arr2d".

In [56]:
arr2d[:2, 1:]

array([[2, 3],
       [5, 6]])

É possível passar múltiplos cortes assim como pode passar múltiplos índices.

In [57]:
arr2d[1, :2]

array([4, 5])

In [58]:
arr2d[:2, 2]

array([3, 6])

In [59]:
arr2d[:, :1]

array([[1],
       [4],
       [7]])

Associar valores a um corte, associará o valor para toda a seleção:

In [60]:
arr2d[:2, 1:] = 0
arr2d

array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

### Indiciação booleana

In [61]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')

In [62]:
data

array([[ 0.15609554,  1.54262272,  1.54852067, -0.59868463],
       [ 0.32365059,  0.94653447,  1.18486866, -0.04858156],
       [-1.29769949,  0.15732487, -0.08124015, -2.40254149],
       [ 0.45041279,  0.26919384,  0.73419131, -2.07927626],
       [ 0.8889614 ,  0.13909774, -1.48661848,  0.04984106],
       [-1.03847831,  0.06775886,  0.29041145,  1.84402671],
       [ 2.27066939, -1.24064317, -0.70657179, -0.40008209]])

Suponha que cada nome corresponda a uma linha na array 'data' e queremos selecionar todas as linhas com o nome 'Bob". Como operações aritméticas, comparações, como ==, em arrays também são vetorizadas. Logo, comparando nomes com a string 'Bob' retorna uma array booleana:

In [63]:
names == 'Bob'

array([ True, False, False,  True, False, False, False])

A array booleana deve ter o mesmo comprimento que o eixo da array indexada.

In [64]:
data[names == 'Bob']

array([[ 0.15609554,  1.54262272,  1.54852067, -0.59868463],
       [ 0.45041279,  0.26919384,  0.73419131, -2.07927626]])

Nos exemplos seguintes, selecionamos as linhas em que names=='Bob' e indiciamos as colunas também:

In [65]:
data[names == 'Bob', 2:]

array([[ 1.54852067, -0.59868463],
       [ 0.73419131, -2.07927626]])

In [66]:
data[names == 'Bob', 3]

array([-0.59868463, -2.07927626])

In [67]:
names != 'Bob'
data[~(names == 'Bob')]

array([[ 0.32365059,  0.94653447,  1.18486866, -0.04858156],
       [-1.29769949,  0.15732487, -0.08124015, -2.40254149],
       [ 0.8889614 ,  0.13909774, -1.48661848,  0.04984106],
       [-1.03847831,  0.06775886,  0.29041145,  1.84402671],
       [ 2.27066939, -1.24064317, -0.70657179, -0.40008209]])

In [68]:
cond = names == 'Bob'
data[~cond]

array([[ 0.32365059,  0.94653447,  1.18486866, -0.04858156],
       [-1.29769949,  0.15732487, -0.08124015, -2.40254149],
       [ 0.8889614 ,  0.13909774, -1.48661848,  0.04984106],
       [-1.03847831,  0.06775886,  0.29041145,  1.84402671],
       [ 2.27066939, -1.24064317, -0.70657179, -0.40008209]])

In [69]:
mask = (names == 'Bob') | (names == 'Will')
mask
data[mask]

array([[ 0.15609554,  1.54262272,  1.54852067, -0.59868463],
       [-1.29769949,  0.15732487, -0.08124015, -2.40254149],
       [ 0.45041279,  0.26919384,  0.73419131, -2.07927626],
       [ 0.8889614 ,  0.13909774, -1.48661848,  0.04984106]])

In [70]:
data[data < 0] = 0
data

array([[0.15609554, 1.54262272, 1.54852067, 0.        ],
       [0.32365059, 0.94653447, 1.18486866, 0.        ],
       [0.        , 0.15732487, 0.        , 0.        ],
       [0.45041279, 0.26919384, 0.73419131, 0.        ],
       [0.8889614 , 0.13909774, 0.        , 0.04984106],
       [0.        , 0.06775886, 0.29041145, 1.84402671],
       [2.27066939, 0.        , 0.        , 0.        ]])

In [71]:
data[names != 'Joe'] = 7
data

array([[7.        , 7.        , 7.        , 7.        ],
       [0.32365059, 0.94653447, 1.18486866, 0.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.06775886, 0.29041145, 1.84402671],
       [2.27066939, 0.        , 0.        , 0.        ]])

### Fancy Indexing

Fancy indexing é um termo adotado pelo NumPy para descrever indiciação usando arrays inteiras.

In [72]:
arrt = np.zeros((8, 4))
arrt

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [73]:
#[0,1,2,3,4,5,6,7]
for i in range(8):
    arrt[i] = i
arrt

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

Para selecionar um subconjunto de linhas em uma ordem particular, podemos simplesmente passar uma lista ou ndarray de inteiros especificando a ordem desejada:

In [74]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [75]:
arr[[4, 3, 0, 6]]

array([ 4,  3,  0, 64])

Usando índices negativos, linhas são selecionadas a partir do final:

In [76]:
arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

In [77]:
arr[[-3, -5, -7]]

array([64, 64,  3])

Passando múltiplos índices na forma de array faz algo diferente: seleciona uma array unidimensional de elementos correspondentes a cada tupla de índices.

In [78]:
arr = np.arange(32).reshape((8, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [79]:
arr[[1, 5, 7, 2], [0, 3, 1, 2]]

array([ 4, 23, 29, 10])

Aqui, os elementos (1,0), (5,3),(7,1) e (2,2) foram selecionados. Independente de quantas dimensões a array tem, neste caso tem duas,  o resultado da <b>fancy indexing</b> é sempre unidimensional.

In [80]:
arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

### Transposição de Array e Alternando Eixos

Transposição é uma forma especial de reformar que retorna uma visualização similar dos dados sem copiar nada.

In [81]:
arr = np.arange(15).reshape((3, 5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

Podemos conseguir a array transposta usando .T:

In [82]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [83]:
arr = np.random.randn(6, 3)
arr

array([[-0.2932752 , -0.25231398, -1.55165053],
       [ 0.10432229, -0.00977916,  1.09284016],
       [ 1.52141959, -0.34918447,  0.11786428],
       [-0.44412168,  1.17268122,  0.33955826],
       [-0.36742623, -1.25102034, -0.02783562],
       [-0.05747931,  1.85304219,  1.35719501]])

In [84]:
np.dot(arr.T, arr)

array([[ 2.74716102, -0.62594589,  0.52980096],
       [-0.62594589,  6.55968625,  3.28761583],
       [ 0.52980096,  3.28761583,  5.57386391]])

In [85]:
arr = np.arange(16).reshape((2, 2, 4))
arr
arr.transpose((1, 0, 2))

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

In [86]:
arr
arr.swapaxes(1, 2)

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

### Funções Universais: Funções de Elementos de Arrays

Uma função universal, ou ufunc, é uma função que performa uma operação nos elementos de ndarrays. São, em geral, funções que usam um ou mais valores escalares e produz um ou mais resultados também escalares.

In [87]:
arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

A função ```sqrt()``` tira a raiz de cada elemento da array:

In [88]:
np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

A função ```exp()``` coloca cada elemento como potência do valor de Euler <b>e</b>:

In [89]:
np.exp(arr)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

Outras funções, como ```add()``` ou ```maximum()```, usam duas arrays, sendo assim ufuncs binárias, e retornam uma única array como resultado:

In [90]:
x = np.random.randn(8)
y = np.random.randn(8)
print(x)
print(y)
np.maximum(x,y)

[ 0.70863083 -0.94842366 -0.74560271 -2.26034999 -0.00317959  0.53427656
 -0.29300522 -0.72151934]
[ 0.82443853  0.89815069 -0.79398783 -1.07329277  0.73427136  0.34934795
 -0.68799625  0.26108857]


array([ 0.82443853,  0.89815069, -0.74560271, -1.07329277,  0.73427136,
        0.53427656, -0.29300522,  0.26108857])

In [91]:
arr = np.random.randn(7) * 5
arr
remainder, whole_part = np.modf(arr)
remainder
whole_part

array([  3.,   8.,   2.,   7., -10.,   0.,   4.])

Veja que ao tentarmos encontrar a raiz de valores negativos, recebemos um erro e os valores são colocados como <b>nan</b>:

In [92]:
arr
np.sqrt(arr)
np.sqrt(arr, arr)
arr

  np.sqrt(arr)
  np.sqrt(arr, arr)


array([1.81915072, 2.90574447, 1.6294554 , 2.78610743,        nan,
       0.61338765, 2.18805223])

## Programação Orientada a Arrays

Usar NumPy arrays permite expressar diversos tipos de dados processando atividades com expressões concisas que, de outro modo, poderia requerir loops trabalhosos.

Esta prática de substituir loops por expressões de array é comumente chamada de vetorização.

Em geral, operações vetorizadas de array são geralmente muito mais rápidasque seus equivalentes puros do Python.

### Expressando Lógica Condicional como Operações de Array

In [93]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

In [94]:
result = [(x if c else y)
          for x, y, c in zip(xarr, yarr, cond)]
result

[1.1, 2.2, 1.3, 1.4, 2.5]

A função zip pareia os elementos de um número de listas, tuplas ou outras sequências para criar uma lista de tuplas:

In [95]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']
zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

Porém, isso tem vários problemas. Primeiro, não será muito rápido em arrays grandes, visto que todo o processo é interpretado e feito em código Python.  Segundo que não funcionará para arrays multidimensionais.

Com a função ```np.where()```, podemos fazer a operação toda de forma concisa:

In [96]:
result = np.where(cond, xarr, yarr)
result

array([1.1, 2.2, 1.3, 1.4, 2.5])

Um método comum usado em análise de dados é produzir uma nova array com valores baseados em outra array.

Suponha que tenhamos uma matriz de dados aleatórios e queiramos substituir todos os valores positivos por 2 e todos os negativos com -2. Isso pode ser feito de forma eficiente com ```np.where()```:

In [97]:
arr = np.random.randn(4, 4)
arr

array([[-9.17276811e-01,  7.22363310e-01, -6.91494085e-01,
         4.74166138e-01],
       [-6.63074306e-04,  1.12047050e+00,  1.55764165e+00,
        -1.19970265e+00],
       [-5.81541673e-01,  7.60218558e-01,  1.22190309e-01,
        -3.64052961e-01],
       [-2.21140896e-02, -8.74927900e-02, -2.08247515e-01,
         5.48896573e-01]])

In [98]:
arr > 0

array([[False,  True, False,  True],
       [False,  True,  True, False],
       [False,  True,  True, False],
       [False, False, False,  True]])

In [99]:
np.where(arr > 0, 2, -2)

array([[-2,  2, -2,  2],
       [-2,  2,  2, -2],
       [-2,  2,  2, -2],
       [-2, -2, -2,  2]])

In [100]:
np.where(arr > 0, 2, arr) # colocar apenas os valores positivos para 2

array([[-9.17276811e-01,  2.00000000e+00, -6.91494085e-01,
         2.00000000e+00],
       [-6.63074306e-04,  2.00000000e+00,  2.00000000e+00,
        -1.19970265e+00],
       [-5.81541673e-01,  2.00000000e+00,  2.00000000e+00,
        -3.64052961e-01],
       [-2.21140896e-02, -8.74927900e-02, -2.08247515e-01,
         2.00000000e+00]])

### Métodos estatísticos e matemáticos

Um conjunto de funções matemáticas que computam estatísticas de uma array inteira ou de dados em um eixo são acessíveis como métodos da classe de array.

Podemos usar agregações, comumente chamadas de reduções, como ```sum```, ```mean``` e ```std```.

In [101]:
arr = np.random.randn(5, 4)
arr

array([[ 1.54286245, -0.60937168,  1.42482794,  0.79717446],
       [ 2.51530366, -1.51640846, -1.08832392, -0.41896961],
       [ 0.46032724,  0.0657713 ,  0.01978978, -0.59579087],
       [-0.624207  , -0.37727821, -1.2819546 , -0.8969853 ],
       [-1.27439866,  1.82578672, -1.06778267,  0.22355097]])

In [102]:
arr.mean()

-0.043803822922836085

In [103]:
np.mean(arr)


-0.043803822922836085

In [104]:
arr.sum()

-0.8760764584567217

```mean``` e ```sum``` usam um eixo opcional como argumento que computa a estatística em um eixo dado, resultando em uma array de menor dimensão. ```axis=0``` são as linhas e ```axis=1``` as colunas.

In [105]:
arr.mean(axis=1)

array([ 0.78887329, -0.12709958, -0.01247564, -0.79510628, -0.07321091])

Outros métodos como ```cumsum``` e ```cumprod``` não agregam, mas sim produzem uma array de resultados intermediários:

In [106]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
arr.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28], dtype=int32)

In [107]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr
arr.cumsum(axis=0)
arr.cumprod(axis=1)

array([[  0,   0,   0],
       [  3,  12,  60],
       [  6,  42, 336]], dtype=int32)

### Métodos para Arrays Booleanas

Dados booleanos podem tomar dois valores: 1 (True) e 0 (False). Então, ```sum``` é comumente usado como contagem de valores verdadeiros em uma array booleana:

In [108]:
arr = np.random.randn(100)
arr

array([ 0.78766605, -0.18071082, -0.54115931, -0.64317554, -0.51338963,
        0.26217572, -0.11737091,  0.56166668, -1.84408507, -0.65496766,
       -1.52716963, -1.70714762,  1.34839848,  1.89963768,  0.03754376,
       -0.43280187, -1.38515675, -0.44806324, -0.18808564,  0.73988848,
       -1.97813596, -0.21253421, -1.33099412, -0.34701577, -1.76828812,
        2.19009839, -1.10517885, -0.83209891,  0.17036694,  0.15298338,
        0.94564511, -1.86207895,  0.12605576, -0.04398468, -0.89315981,
        1.08123687,  0.76951056, -0.63543322, -0.28245623, -0.5518014 ,
       -0.8119266 , -0.4787175 , -0.72526136, -0.60104842,  0.2632583 ,
       -0.01869128,  0.46038108, -0.60775658, -0.68191664, -2.14453148,
       -1.10183433, -0.69512276,  0.66280398, -0.04601323,  0.38301928,
        0.2755159 ,  0.45771355,  0.13287635,  1.1964688 , -0.78743568,
       -0.04517867, -0.10095179, -0.50137698, -1.64700092, -0.54039952,
        1.30932913,  0.56426653,  0.79847988, -0.07481031,  1.69

In [109]:
(arr > 0)

array([ True, False, False, False, False,  True, False,  True, False,
       False, False, False,  True,  True,  True, False, False, False,
       False,  True, False, False, False, False, False,  True, False,
       False,  True,  True,  True, False,  True, False, False,  True,
        True, False, False, False, False, False, False, False,  True,
       False,  True, False, False, False, False, False,  True, False,
        True,  True,  True,  True,  True, False, False, False, False,
       False, False,  True,  True,  True, False,  True,  True, False,
        True, False, False, False, False, False,  True, False, False,
       False,  True,  True,  True,  True, False, False,  True, False,
       False, False, False, False,  True,  True, False,  True,  True,
       False])

In [110]:
(arr > 0).sum() # número de valores positivos

38

Existem outros dois métodos adicionais: ```any``` e ```all```, úteis especialmente para arrays booleanas. ```any``` testa se um ou mais valores em uma array é True, enquanto ```all``` checa se cada valor é True.

In [111]:
bools = np.array([False, False, True, False])
bools.any()


True

In [112]:
bools.all()

False

### Ordenação

Assim como listas de Python, arrays NumPy podem ser ordenadas com o método ```sort```:

In [113]:
arr = np.random.randn(6)
arr

array([ 1.00099552, -0.16903552,  0.8633119 ,  0.04911738,  0.11116408,
        0.63538016])

In [114]:
arr.sort()
arr

array([-0.16903552,  0.04911738,  0.11116408,  0.63538016,  0.8633119 ,
        1.00099552])

In [115]:
arr = np.random.randn(5, 3)
arr

array([[-2.38756484,  0.60494083, -0.53380156],
       [ 0.55159729, -0.31870602, -0.92568584],
       [ 0.66140444, -1.025353  , -0.88662059],
       [ 0.10117104, -0.83592753, -0.21722598],
       [ 1.04016812, -0.15734241,  0.14817044]])

In [116]:
arr.sort(1)
arr

array([[-2.38756484, -0.53380156,  0.60494083],
       [-0.92568584, -0.31870602,  0.55159729],
       [-1.025353  , -0.88662059,  0.66140444],
       [-0.83592753, -0.21722598,  0.10117104],
       [-0.15734241,  0.14817044,  1.04016812]])

In [117]:
large_arr = np.random.randn(1000)
large_arr.sort()
large_arr[int(0.05 * len(large_arr))] # 5% quantile

-1.7348651504297292

### Unique e Set

O método ```unique``` retorna os valores únicos de uma array de forma ordenada:

In [118]:
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='<U4')

In [119]:
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

array([1, 2, 3, 4])

In [120]:
sorted(set(names))

['Bob', 'Joe', 'Will']

In [121]:
values = np.array([6, 0, 0, 3, 2, 5, 6])
np.in1d(values, [2, 3, 6])

array([ True, False, False,  True,  True, False,  True])

## Input e Output de arquivos com Arrays

NumPy é capaz de salvar e carregar dados de um disco tanto em texto quanto no formato binário. Aqui, será discutido apenas o formato binário, pois a maioria dos usuários preferem pandas e outras ferramentas para carregar texto ou dados tabelados.

```np.save``` e ```np.load``` são as funçõs usadas para salvar e carregar dados do disco, respectivamente. Arrays são salvas por padrão em forma de binário em um arquivo de extensão .npy.

In [122]:
arr = np.arange(10)
np.save('some_array', arr)

In [123]:
np.load('some_array.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [124]:
np.savez('array_archive.npz', a=arr, b=arr)

In [125]:
arch = np.load('array_archive.npz')
arch['b']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [126]:
np.savez_compressed('arrays_compressed.npz', a=arr, b=arr)

## Álgebra Linear

In [127]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
x
y
x.dot(y)

array([[ 28.,  64.],
       [ 67., 181.]])

In [128]:
np.dot(x, y)

array([[ 28.,  64.],
       [ 67., 181.]])

In [129]:
np.dot(x, np.ones(3))

array([ 6., 15.])

In [130]:
x @ np.ones(3)

array([ 6., 15.])

In [131]:
from numpy.linalg import inv, qr
X = np.random.randn(5, 5)
mat = X.T.dot(X)
inv(mat)
mat.dot(inv(mat))
q, r = qr(mat)
r

array([[-3.61369886,  1.21339226,  3.77825905,  0.78362933,  1.56936787],
       [ 0.        , -3.59646713,  0.17557038,  4.04465179, -2.52485215],
       [ 0.        ,  0.        , -1.85230621, -3.44729465, -0.458741  ],
       [ 0.        ,  0.        ,  0.        , -1.11310881,  0.33419744],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  0.29894556]])

## Números Pseudoaleatórios

In [132]:
samples = np.random.normal(size=(4, 4))
samples

array([[ 0.53556684, -1.08507196, -0.1617874 , -0.54921841],
       [ 1.09290268,  0.72191653,  0.76992634, -1.82473144],
       [-0.73214481,  0.19091493,  0.01557541, -0.11153196],
       [ 0.23993977,  2.56100652, -0.63283608, -1.22111561]])

In [133]:
from random import normalvariate
N = 1000000
%timeit samples = [normalvariate(0, 1) for _ in range(N)]
%timeit np.random.normal(size=N)

1.41 s ± 46.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
53.8 ms ± 2.83 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [134]:
np.random.seed(1234)

In [135]:
rng = np.random.RandomState(1234)
rng.randn(10)

array([ 0.47143516, -1.19097569,  1.43270697, -0.3126519 , -0.72058873,
        0.88716294,  0.85958841, -0.6365235 ,  0.01569637, -2.24268495])