# Introdução ao Numpy

De acordo com as próprias palavras da [numpy.org](https://www.numpy.org) (tradução livre): 

> **Numpy** é um pacote fundamental pra computação científica com Python.

Entre outras coisas, o numpy possui:

- um poderoso objeto array n-dimensional
- funções de broadcasting (veremos isso já já) sofisticadas
- ferramentas para integração de código Fortran e C/C++
- utilidades para álgebra linear, tranformação de Fourier e números aleatórios

Para usar o numpy, tudo que precisamos é importá-lo:

In [1]:
import numpy as np

## Arrays

Um array numpy é basicament um grid de valores, todos do mesmo tipo e é indexada por uma tupla de inteiros não negativos. O número de dimensões é o **rank** da matriz; o **shape** de uma matriz é uma tupla de inteiros que fornece o tamanho da matriz ao longo de cada dimensão.

In [2]:
a = np.array([1, 2, 3]) # cria uma matriz de 1 dimensão (vetor)
b = np.array([[1, 2, 3], [4, 5, 6]], dtype=np.int64) # cria uma matriz de 2 dimensões (matriz)
print(a)
print(b)

[1 2 3]
[[1 2 3]
 [4 5 6]]


## Criando arrays

In [3]:
a = np.zeros((3, 3))
b = np.ones((3, 3))
c = np.full((3, 3), 7)
d = np.eye(3)
e, f = np.mgrid[1:4, 1:4] # similar ao meshgrid no Matlab
g = np.diag([1, 2, 3]) 
h = np.diag([1, 2, 3], k=1) # k = offset da diagonal
i = np.random.rand(3, 3) # distribuição aleatória
j = np.random.randn(3, 3) # distribuição normal (gaussiana)
k = np.random.randint(1, 10, (3, 3)) # número aleatórios inteiros de 1 a 10

print(a, b, c, d, e, f, g, h, i, j, k, sep='\n\n')

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

[[7 7 7]
 [7 7 7]
 [7 7 7]]

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]

[[1 1 1]
 [2 2 2]
 [3 3 3]]

[[1 2 3]
 [1 2 3]
 [1 2 3]]

[[1 0 0]
 [0 2 0]
 [0 0 3]]

[[0 1 0 0]
 [0 0 2 0]
 [0 0 0 3]
 [0 0 0 0]]

[[0.78698567 0.17029771 0.31317526]
 [0.11305738 0.28028987 0.85883208]
 [0.72063972 0.75211876 0.255542  ]]

[[ 0.27044801  0.92035025 -0.34482334]
 [ 1.05417311 -0.63862821  1.39890537]
 [ 0.25026393 -0.45032881  0.33178604]]

[[4 9 2]
 [7 5 5]
 [5 5 3]]


**np.arange([start,] stop[,step,], dtype=None)**

In [4]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
np.arange(1,10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [6]:
np.arange(1, 10, 0.5)

array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. ,
       7.5, 8. , 8.5, 9. , 9.5])

In [7]:
np.arange(1, 10, 3)

array([1, 4, 7])

In [8]:
np.arange(1, 10, 2, dtype=np.float64)

array([1., 3., 5., 7., 9.])

**np.linspace(start, stop, num=50, endpoint=True, retstep=False)**

In [9]:
np.linspace(1, 5, num=10)

array([1.        , 1.44444444, 1.88888889, 2.33333333, 2.77777778,
       3.22222222, 3.66666667, 4.11111111, 4.55555556, 5.        ])

In [10]:
np.linspace(0, 2, num=4)

array([0.        , 0.66666667, 1.33333333, 2.        ])

In [11]:
np.linspace(0, 2, num=4, endpoint=False)

array([0. , 0.5, 1. , 1.5])

## Examinando um array n-dimensional

In [12]:
ds = np.array([[1,2,3],[4,5,6],[7,8,9]])
ds.ndim

2

In [13]:
ds.shape

(3, 3)

In [14]:
ds.size

9

In [15]:
ds.dtype

dtype('int64')

In [16]:
ds.itemsize # qtde de bytes por valor

8

In [17]:
ds.size * ds.itemsize # espaço total ocupado em memória (em bytes)

72

## Análise Estatística

In [18]:
data_set = np.random.random((2, 3))
data_set

array([[0.27189266, 0.2536178 , 0.83538199],
       [0.84129937, 0.40536027, 0.66773745]])

**np.max(a, axis=None, out=None, keepdims=False)**

In [19]:
np.max(data_set)

0.8412993715464727

In [20]:
np.max(data_set, axis=0)

array([0.84129937, 0.40536027, 0.83538199])

In [21]:
np.max(data_set, axis=1)

array([0.83538199, 0.84129937])

**np.min(a, axis=None, out=None, keepDims=False)**

In [22]:
np.min(data_set)

0.2536178031113224

**np.mean(a, axis=None, dtype=None, out=None, keepdims=False)**

In [23]:
np.mean(data_set)

0.5458815907470658

**np.median(a, axis=None, out=None, overwrite_input=False)**

In [24]:
np.median(data_set)

0.5365488572799626

**np.std(a, axis=None, dtype=None, out=None, ddof=0, keepdims=False)**

In [25]:
np.std(data_set)

0.24703754648949264

**np.sum(a, axis=None, dtype=None, out=None, keepdims=False)**

In [26]:
np.sum(data_set)

3.2752895444823946

**np.prod(a, axis=None, dtype=None, out=None, keepdims=False)**

In [27]:
np.prod(data_set)

0.013117763790421129

**np.cumsum(a, axis=None, dtype=None, out=None)**

In [28]:
np.cumsum(data_set)

array([0.27189266, 0.52551046, 1.36089246, 2.20219183, 2.6075521 ,
       3.27528954])

**np.cumprod(a, axis=None, dtype=None, out=None)**

In [29]:
np.cumprod(data_set)

array([0.27189266, 0.06895682, 0.05760529, 0.04846329, 0.01964509,
       0.01311776])

## Redimensionando Arrays

#### **np.reshape(a, newshape, order='C')**

In [30]:
np.reshape(data_set, (3, 2))

array([[0.27189266, 0.2536178 ],
       [0.83538199, 0.84129937],
       [0.40536027, 0.66773745]])

In [31]:
np.reshape(data_set, (6, 1))

array([[0.27189266],
       [0.2536178 ],
       [0.83538199],
       [0.84129937],
       [0.40536027],
       [0.66773745]])

In [32]:
np.reshape(data_set, 6)

array([0.27189266, 0.2536178 , 0.83538199, 0.84129937, 0.40536027,
       0.66773745])

**np.ravel(a, order='C')**

In [33]:
np.ravel(data_set)

array([0.27189266, 0.2536178 , 0.83538199, 0.84129937, 0.40536027,
       0.66773745])

In [34]:
data_set.flatten() # igual ao ravel

array([0.27189266, 0.2536178 , 0.83538199, 0.84129937, 0.40536027,
       0.66773745])

## Acessando elementos

### Indexação

In [35]:
data_set = np.random.randint(1, 10, (5, 5))
data_set

array([[8, 4, 4, 6, 8],
       [6, 9, 3, 1, 4],
       [6, 6, 9, 8, 7],
       [3, 3, 3, 7, 7],
       [9, 9, 9, 2, 2]])

In [36]:
data_set[1] # segunda linha

array([6, 9, 3, 1, 4])

In [37]:
data_set[1][0] # segunda linha, primeira coluna 

6

In [38]:
data_set[1, 0] # equivalente a de cima

6

#### Indexação por inteiros

Quando você indexa matrizes numpy usando *slicing*, a matriz resultante sempre será um subarray da matriz original. Por outro lado, a indexação de matrizes por inteiros permite que você construa matrizes arbitrárias usando os dados de outra matriz. Aqui está um exemplo:

In [39]:
a = np.array([[1,2], [3,4], [5,6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [40]:
a[[0, 1, 2], [0, 1, 0]]

array([1, 4, 5])

In [41]:
np.array([a[0, 0], a[1, 1], a[2, 0]]) # equivalente ao de cima

array([1, 4, 5])

#### Indexação booleana

Boolean array indexing lets you pick out arbitrary elements of an array. Frequently this type of indexing is used to select the elements of an array that satisfy some condition. Here is an example:

In [42]:
a = np.array([[1,2], [3,4], [5,6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [43]:
bool_idx = (a > 2)
print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


In [44]:
print(a[bool_idx])

[3 4 5 6]


In [45]:
print(a[a > 2])

[3 4 5 6]


### Slicing

In [46]:
data_set[2:4] # terceira e quarta linhas

array([[6, 6, 9, 8, 7],
       [3, 3, 3, 7, 7]])

In [47]:
data_set[2:4, 0] # terceira e quarta linhas, primeira coluna

array([6, 3])

In [48]:
data_set[2:4, 0:2] # terceira e quarta linhas, primeira e segunda coluna

array([[6, 6],
       [3, 3]])

In [49]:
data_set[:, 0] # todas as linhas, primeira coluna

array([8, 6, 6, 3, 9])

### Steping

In [50]:
data_set[:, 0:10:2] # 1ª, 3ª, 5ª, 7ª e 9ª colunas para todas as linhas

array([[8, 4, 8],
       [6, 3, 4],
       [6, 9, 7],
       [3, 3, 7],
       [9, 9, 2]])

In [51]:
data_set[::]

array([[8, 4, 4, 6, 8],
       [6, 9, 3, 1, 4],
       [6, 6, 9, 8, 7],
       [3, 3, 3, 7, 7],
       [9, 9, 9, 2, 2]])

In [52]:
data_set[::2] # 1ª, 3ª e 5ª linha, todas as colunas

array([[8, 4, 4, 6, 8],
       [6, 6, 9, 8, 7],
       [9, 9, 9, 2, 2]])

## Operações com matrizes

In [53]:
x = np.array([[1,2], [3,4]])
y = np.array([[5,6], [7,8]])

print(x+y)
print(np.add(x,y))

[[ 6  8]
 [10 12]]
[[ 6  8]
 [10 12]]


In [54]:
print(x - y)
print(np.subtract(x, y))

[[-4 -4]
 [-4 -4]]
[[-4 -4]
 [-4 -4]]


In [55]:
print(x * y)
print(np.multiply(x, y))

[[ 5 12]
 [21 32]]
[[ 5 12]
 [21 32]]


In [56]:
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [57]:
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


Observe que, diferentemente do MATLAB, $*$ é a multiplicação elementar, não a multiplicação de matrizes. Em vez disso, usamos a função **dot** para calcular produtos internos de vetores, multiplicar um vetor por uma matriz e multiplicar matrizes. 

In [58]:
v = np.array([9, 10])
w = np.array([11, 12])

# produto interno
print(v.dot(w))
print(np.dot(v, w))

219
219


In [59]:
# multiplicação entre matriz (x) e vetor (v)
print(x.dot(v))
print(np.dot(x, v))

[29 67]
[29 67]


In [60]:
# multiplicação de matriz
print(x.dot(y))
print(np.dot(x, y))

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


In [61]:
# transposta
print(x.T)

[[1 3]
 [2 4]]


Lista de todas as operações: <a href="http://docs.scipy.org/doc/numpy/reference/routines.math.html"> documentation</a>.

## Broadcasting

Broadcasting é um mecanismo poderoso que permite que o numpy funcione com matrizes de diferentes shapes ao executar operações aritméticas. Frequentemente, temos uma matriz menor e uma matriz maior, e queremos usar a matriz menor várias vezes para executar alguma operação na matriz maior.

Por exemplo, suponha que queremos adicionar um vetor constante a cada linha de uma matriz. Nós poderíamos fazer assim:

In [62]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10,11,12]])
v = np.array([1,0,1])
print(x)
print(v)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[1 0 1]


In [63]:
vv = np.tile(v, (4,1)) # Cria 4 cópias de v e empilha-as
print(vv)

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]


In [64]:
y = x + vv
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Por outro lado, o broadcasting nos permite obter o mesmo resultado sem precisar criar cópias de v:

In [65]:
y = np.add(x, v)
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]
