# Introdução ao Numpy

De acordo com as próprias palavras da [numpy.org](https://www.numpy.org) (tradução livre): 

> **Numpy** é um pacote fundamental pra computação científica com Python.

E de fato, numpy é muito show! É bem fácil de usar e se usado corretamente super eficiente: 10/10.

Entre outras coisas, o numpy possui:

- um podereso ferramental para manipulação de arrays multi-dimensionais
- funções de broadcasting sofisticadas (veremos isso já já)
- ferramentas para integração de código Fortran e C/C++ (por baixo dos panos pra gente não ter que se preocupar)
- utilidades para álgebra linear, tranformação de Fourier e números aleatórios

Para usar o numpy, tudo que precisamos é importá-lo:

In [1]:
# Programador é bixo preguiçoso então chamamamos numpy de np
# pq numpy é muito grande pra ficar digitando toda hora
import numpy as np

**Ta... o que nós podemos fazer com numpy?**

Bem eu disse que numpy possui "um podereso ferramental para manipulação de arrais multi-dimensionais".

**o que danado isso significa?**

MÁGICA!

Vamos começar criando um array numpy. Um array numpy parece igualzinho a uma lista em python, mas não se engane, não é!

In [2]:
# Lista em python: xoxo e sem grassa
list_py = [1, 2, 3]

# Array numpy: cool e descolado
vector_np = np.array([1, 2, 3])

print('list python:', type(list_py), list_py)
print('vetor numpy', type(vector_np), vector_np)

list python: <class 'list'> [1, 2, 3]
vetor numpy <class 'numpy.ndarray'> [1 2 3]


Humm... okay, vamos tentar dar um append nas listas...

In [3]:
# Ok!
vector_py.append(1)

# Erro!
vector_np.append(1)

NameError: name 'vector_py' is not defined

Não existe append diretamente em um vetor numpy... Mas você pode fazer append via numpy...

In [4]:
vector_np = np.append(vector_np, 1)

Mas fica aquele velho ditado: não é porque você pode que você deve!

Normalmente não executamos `append` em vetores numpy, eles já nascem prontinhos e realizamos operações entre vetores (adição, multiplicação, transposição, ...). Não adicionamos ou removemos valores de vetores numpy. 

Por que? Em geral isso é ineficiente, olha o exemplo abaixo.

> Obs: Para mais detalhes da uma olhada nesses links [1](https://www.quora.com/Is-it-better-to-use-np-append-or-list-append), [2](https://stackoverflow.com/questions/7869095/concatenate-numpy-arrays-without-copying).


In [5]:
import time

N = 100000

# Usando uma lista python e depois convertendo para numpy
def time_to_create_vector_py():
    start = time.time()
    
    l = []
    for i in range(N):
        l.append(i)
        
    l = np.array(l)
    return time.time() - start

# Usando um vetor numpy desde o inicio pq sou teimoso
def time_to_create_vector_np():
    start = time.time()
    
    l = np.array([])
    for i in range(N):
        l = np.append(l, i)
        
    l = np.array(l, dtype=int)
    return time.time() - start
    
    
print('Tempo utilizando lista: %.3f (s)' % time_to_create_vector_py())
print('Tempo utilizando numpy: %.3f (s)' % time_to_create_vector_np())

Tempo utilizando lista: 0.012 (s)
Tempo utilizando numpy: 2.194 (s)


Ta, então uma vez que a gente cria um array numpy, normalmente não alteramos ele via operações convencionais de modificação de lista.

Se você para pra pensar isso faz todo sentido: já que um array numpy não é uma lista python, mas sim um **vetor**.

Já que temos vetores, temos propriedades de vetores associadas aos arrays numpy:
   * Vamos chamar o número de dimensões de um vetor de **ndim**;
   * O **shape** é uma tupla de inteiros do tamanho do **ndim** que fornece número de elementos ao longo de cada dimensão.

In [6]:
vector_np

array([1, 2, 3, 1])

Quanto é o ndim desse vetor?

In [7]:
# 1 pq só temos uma dimensão
vector_np.ndim

1

E o formato?

In [8]:
vector_np.shape

(4,)

E se em vez de um array tivermos um número?

In [9]:
scalar_np = np.array(3)

# 0 pq não temos nenhuma dimensão
print(scalar_np.ndim)

print(scalar_np.shape)

0
()


E matrizes?

In [10]:
matrix = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
matrix_np = np.array(matrix)

print(matrix_np.ndim)

# (3, 3) pq é uma matrix 3x3
print(matrix_np.shape)

2
(3, 3)


O céu é o limite!

In [11]:
a = np.array([1, 2, 3]) # cria uma matriz de 1 dimensão (vetor)
b = np.array([[1, 2, 3], [4, 5, 6]], dtype=np.int64) # cria uma matriz de 2 dimensões (matriz)
print('Vetor a:', a, '\nFormato de a:', a.shape)
print('----------------')
print('Vetor b:\n', b, '\nFormato de b:', b.shape)

Vetor a: [1 2 3] 
Formato de a: (3,)
----------------
Vetor b:
 [[1 2 3]
 [4 5 6]] 
Formato de b: (2, 3)


In [12]:
tensor_np = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]], [[9, 10], [11, 12]]])

tensor_np.shape

(3, 2, 2)

## Mágica com Numpy

### Broadcast

Esse código python quebra por que não da pra somar inteiro com lista.

In [13]:
1 + matrix

TypeError: unsupported operand type(s) for +: 'int' and 'list'

Mas pensa um pouco... o código faz "sentido", parece que 1 deveria ser somado a cada elemento da lista.

Bem que dava pra python ser mais esperto e entender que o que a gente quer é na verdade **propagar** o 1 por toda a matriz somando cada elemento a 1.

Essa propagação é justamente o que chamamos de [**broadcasting**](https://docs.scipy.org/doc/numpy-1.15.0/user/basics.broadcasting.html). Que é a ideia de que vetores de tamanhos e formatos diferentes são compatíveis para certas operações em alguns casos!

In [14]:
matrix_np

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [15]:
# Esse código numpy roda lindo
# Somar um valor a todos os elementos de uma matriz nunca foi tao fácil!
1 + matrix_np

array([[ 2,  3,  4],
       [ 5,  6,  7],
       [ 8,  9, 10]])

Por que?

Porque numpy consegue entender a partir dos formatos dos vetores o que deve ser feito. O que acontece se tentarmos somar um vetor de tamanho 3 a matriz?

In [16]:
# Somar uma lista a todas as linhas de uma matriz nunca foi tao fácil!
[1, 2, 3] + matrix_np

array([[ 2,  4,  6],
       [ 5,  7,  9],
       [ 8, 10, 12]])

Sem broadcasting, como faríamos a operação acima?

In [17]:
v = np.array([1, 2, 3])
v

array([1, 2, 3])

In [18]:
vv = np.tile(v, (3, 1)) # Cria 4 cópias de v e empilha
vv

array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]])

In [19]:
matrix_np + vv

array([[ 2,  4,  6],
       [ 5,  7,  9],
       [ 8, 10, 12]])

O broadcasting nos permite obter o mesmo resultado sem precisar criar cópias do vetor. Sendo mais eficiente tanto em tempo quanto em memória. Além de simplificar bastante a nossa vida.

In [20]:
# Somar uma lista a todas as colunas de uma matriz nunca foi tao fácil!
np.array([[1], [2], [3]]) + matrix_np

array([[ 2,  3,  4],
       [ 6,  7,  8],
       [10, 11, 12]])

Vai ter caso que vai dar errado?

In [21]:
# Somar uma lista a todas as linhas de uma matriz nunca foi tao... eita perainda quebrou aqui
[1, 2] + matrix_np

ValueError: operands could not be broadcast together with shapes (2,) (3,3) 

O que aconteceu foi que os formatos dos vetores não são compatíveis, então numpy não conseguiu realizar broadcast corretamente para realizar a operação.

O que é até intuitivo, o que danado a gente estava esperando somando um vetor de tamanho 2 com uma matriz 3x3?

Existe um algoritmo que podemos utilizar pra saber se o broadcast vai dar certo:

* Recebemos a e b
* Percorremos os formatos de a e b de trás pra frente
* Para cada uma das dimensões dim_a e dim_b deve ser verdade que:
   * dim_a == dim_b ou dim_a == 1 ou dim_b == 1

Pense um pouco a respeito... e tende adivinhar os formatos de cada vetor e se os pares são passíveis de broadcast:

* Caso 1: [1, 2] e [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
* Caso 2: [1] e [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
* Caso 3: [[[[[1]]]]] e [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
* Caso 4: [1, 2] e [[1, 2], [4, 5], [7, 8]]

O código da checagem e soluções seguem logo abaixo.

In [22]:
def is_broadcast_possible(a, b):
    # Oferecimento: https://stackoverflow.com/questions/47243451/checking-if-two-arrays-are-broadcastable-in-python
    a, b = np.array(a), np.array(b)
    print('Formato de a:', a.shape)
    print('Formato de b:', b.shape)
    return all((m == n) or (m == 1) or (n == 1) for m, n in zip(a.shape[::-1], b.shape[::-1]))

In [23]:
is_broadcast_possible([1, 2], [[1, 2, 3], [4, 5, 6], [7, 8, 9]])

Formato de a: (2,)
Formato de b: (3, 3)


False

In [24]:
is_broadcast_possible([1], [[1, 2, 3], [4, 5, 6], [7, 8, 9]])

Formato de a: (1,)
Formato de b: (3, 3)


True

In [25]:
is_broadcast_possible([[[[[1]]]]], [[1, 2, 3], [4, 5, 6], [7, 8, 9]])

Formato de a: (1, 1, 1, 1, 1)
Formato de b: (3, 3)


True

In [26]:
is_broadcast_possible([1, 2], [[1, 2], [4, 5], [7, 8]])

Formato de a: (2,)
Formato de b: (3, 2)


True

### Manipulação de matrizes

In [27]:
# Transposta de uma matriz
matrix_np.transpose()

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [28]:
# Multiplicação de matrizes
matrix_np.dot(matrix_np)

array([[ 30,  36,  42],
       [ 66,  81,  96],
       [102, 126, 150]])

### Criando tipos específicos de arrays

In [29]:
np.zeros((3, 3))

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [30]:
np.ones((3, 3))

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [31]:
np.full((3, 3), 7)

array([[7, 7, 7],
       [7, 7, 7],
       [7, 7, 7]])

In [32]:
np.eye(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

In [33]:
np.diag([1, 2, 3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [34]:
np.diag([1, 2, 3], k=1) # k = offset da diagonal

array([[0, 1, 0, 0],
       [0, 0, 2, 0],
       [0, 0, 0, 3],
       [0, 0, 0, 0]])

In [35]:
np.mgrid[1:4, 1:4] # similar ao meshgrid no Matlab

array([[[1, 1, 1],
        [2, 2, 2],
        [3, 3, 3]],

       [[1, 2, 3],
        [1, 2, 3],
        [1, 2, 3]]])

In [36]:
np.random.rand(3, 3) # distribuição aleatória

array([[ 0.91364028,  0.4408339 ,  0.65251051],
       [ 0.89478035,  0.49410589,  0.68962237],
       [ 0.11590382,  0.32048899,  0.75107557]])

In [37]:
np.random.randn(3, 3) # distribuição normal (gaussiana)

array([[ 0.05290034, -0.87768182, -0.94384387],
       [-0.63596293, -0.00936166,  0.25018653],
       [ 0.99313152, -1.10631277,  1.02928441]])

In [38]:
np.random.randint(1, 10, (3, 3)) # número aleatórios inteiros de 1 a 10

array([[7, 7, 9],
       [9, 4, 2],
       [1, 5, 7]])

**np.arange([start,] stop[,step,], dtype=None)**

In [39]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [40]:
np.arange(1,10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [41]:
np.arange(1, 10, 0.5)

array([ 1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,  5.5,  6. ,
        6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5])

In [42]:
np.arange(1, 10, 3)

array([1, 4, 7])

In [43]:
np.arange(1, 10, 2, dtype=np.float64)

array([ 1.,  3.,  5.,  7.,  9.])

**np.linspace(start, stop, num=50, endpoint=True, retstep=False)**

In [44]:
np.linspace(1, 5, num=10)

array([ 1.        ,  1.44444444,  1.88888889,  2.33333333,  2.77777778,
        3.22222222,  3.66666667,  4.11111111,  4.55555556,  5.        ])

In [45]:
np.linspace(0, 2, num=4)

array([ 0.        ,  0.66666667,  1.33333333,  2.        ])

In [46]:
np.linspace(0, 2, num=4, endpoint=False)

array([ 0. ,  0.5,  1. ,  1.5])

## Examinando um array n-dimensional

In [47]:
ds = np.array([[1,2,3],[4,5,6],[7,8,9]])
ds.ndim

2

In [48]:
ds.shape

(3, 3)

In [49]:
ds.size

9

In [50]:
ds.dtype  # tipo dos elementos guardados

dtype('int64')

In [51]:
ds.itemsize  # qtde de bytes por valor

8

In [52]:
ds.size * ds.itemsize  # espaço total ocupado em memória (em bytes)

72

## Análise Estatística

In [53]:
data_set = np.random.random((2, 3))
data_set

array([[ 0.97054673,  0.35857832,  0.20979014],
       [ 0.6939001 ,  0.87199282,  0.7442244 ]])

**np.max(a, axis=None, out=None, keepdims=False)**

In [54]:
np.max(data_set)

0.97054672767941563

In [55]:
np.max(data_set, axis=0)

array([ 0.97054673,  0.87199282,  0.7442244 ])

In [56]:
np.max(data_set, axis=1)

array([ 0.97054673,  0.87199282])

**np.min(a, axis=None, out=None, keepDims=False)**

In [57]:
np.min(data_set)

0.20979014003667951

**np.mean(a, axis=None, dtype=None, out=None, keepdims=False)**

In [58]:
np.mean(data_set)

0.64150541875340539

**np.median(a, axis=None, out=None, overwrite_input=False)**

In [59]:
np.median(data_set)

0.71906224976763788

**np.std(a, axis=None, dtype=None, out=None, ddof=0, keepdims=False)**

In [60]:
np.std(data_set)

0.27114413265171439

**np.sum(a, axis=None, dtype=None, out=None, keepdims=False)**

In [61]:
np.sum(data_set)

3.8490325125204325

**np.prod(a, axis=None, dtype=None, out=None, keepdims=False)**

In [62]:
np.prod(data_set)

0.032877540156687972

**np.cumsum(a, axis=None, dtype=None, out=None)**

In [63]:
np.cumsum(data_set)

array([ 0.97054673,  1.32912505,  1.53891519,  2.23281529,  3.10480811,
        3.84903251])

**np.cumprod(a, axis=None, dtype=None, out=None)**

In [64]:
np.cumprod(data_set)

array([ 0.97054673,  0.34801702,  0.07301054,  0.05066202,  0.04417692,
        0.03287754])

## Redimensionando Arrays

#### **np.reshape(a, newshape, order='C')**

In [65]:
np.reshape(data_set, (3, 2))

array([[ 0.97054673,  0.35857832],
       [ 0.20979014,  0.6939001 ],
       [ 0.87199282,  0.7442244 ]])

In [66]:
np.reshape(data_set, (6, 1))

array([[ 0.97054673],
       [ 0.35857832],
       [ 0.20979014],
       [ 0.6939001 ],
       [ 0.87199282],
       [ 0.7442244 ]])

In [67]:
np.reshape(data_set, 6)

array([ 0.97054673,  0.35857832,  0.20979014,  0.6939001 ,  0.87199282,
        0.7442244 ])

**np.ravel(a, order='C')**

In [68]:
np.ravel(data_set)

array([ 0.97054673,  0.35857832,  0.20979014,  0.6939001 ,  0.87199282,
        0.7442244 ])

In [69]:
data_set.flatten() # igual ao ravel

array([ 0.97054673,  0.35857832,  0.20979014,  0.6939001 ,  0.87199282,
        0.7442244 ])

## Acessando elementos

### Indexação

In [70]:
data_set = np.random.randint(1, 10, (5, 5))
data_set

array([[1, 2, 7, 5, 5],
       [9, 9, 7, 1, 2],
       [9, 4, 4, 5, 3],
       [9, 6, 6, 5, 3],
       [7, 9, 8, 5, 1]])

In [71]:
data_set[1] # segunda linha

array([9, 9, 7, 1, 2])

In [72]:
data_set[1][0] # segunda linha, primeira coluna 

9

In [73]:
data_set[1, 0] # equivalente a de cima

9

#### Indexação por inteiros

Quando você indexa matrizes numpy usando *slicing*, a matriz resultante sempre será um subarray da matriz original. Por outro lado, a indexação de matrizes por inteiros permite que você construa matrizes arbitrárias usando os dados de outra matriz. Aqui está um exemplo:

In [74]:
a = np.array([[1,2], [3,4], [5,6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [75]:
a[[0, 1, 2], [0, 1, 0]]

array([1, 4, 5])

In [76]:
np.array([a[0, 0], a[1, 1], a[2, 0]]) # equivalente ao de cima

array([1, 4, 5])

#### Indexação booleana

Boolean array indexing lets you pick out arbitrary elements of an array. Frequently this type of indexing is used to select the elements of an array that satisfy some condition. Here is an example:

In [77]:
a = np.array([[1,2], [3,4], [5,6]])
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [78]:
bool_idx = (a > 2)
print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


In [79]:
print(a[bool_idx])

[3 4 5 6]


In [80]:
print(a[a > 2])

[3 4 5 6]


### Slicing

In [81]:
data_set[2:4] # terceira e quarta linhas

array([[9, 4, 4, 5, 3],
       [9, 6, 6, 5, 3]])

In [82]:
data_set[2:4, 0] # terceira e quarta linhas, primeira coluna

array([9, 9])

In [83]:
data_set[2:4, 0:2] # terceira e quarta linhas, primeira e segunda coluna

array([[9, 4],
       [9, 6]])

In [84]:
data_set[:, 0] # todas as linhas, primeira coluna

array([1, 9, 9, 9, 7])

### Steping

In [85]:
data_set[:, 0:10:2] # 1ª, 3ª, 5ª, 7ª e 9ª colunas para todas as linhas

array([[1, 7, 5],
       [9, 7, 2],
       [9, 4, 3],
       [9, 6, 3],
       [7, 8, 1]])

In [86]:
data_set[::]

array([[1, 2, 7, 5, 5],
       [9, 9, 7, 1, 2],
       [9, 4, 4, 5, 3],
       [9, 6, 6, 5, 3],
       [7, 9, 8, 5, 1]])

In [87]:
data_set[::2] # 1ª, 3ª e 5ª linha, todas as colunas

array([[1, 2, 7, 5, 5],
       [9, 4, 4, 5, 3],
       [7, 9, 8, 5, 1]])

## Operações com matrizes

In [88]:
x = np.array([[1,2], [3,4]])
y = np.array([[5,6], [7,8]])

print(x+y)
print(np.add(x,y))

[[ 6  8]
 [10 12]]
[[ 6  8]
 [10 12]]


In [89]:
print(x - y)
print(np.subtract(x, y))

[[-4 -4]
 [-4 -4]]
[[-4 -4]
 [-4 -4]]


In [90]:
print(x * y)
print(np.multiply(x, y))

[[ 5 12]
 [21 32]]
[[ 5 12]
 [21 32]]


In [91]:
print(x / y)
print(np.divide(x, y))

[[ 0.2         0.33333333]
 [ 0.42857143  0.5       ]]
[[ 0.2         0.33333333]
 [ 0.42857143  0.5       ]]


In [92]:
print(np.sqrt(x))

[[ 1.          1.41421356]
 [ 1.73205081  2.        ]]


Observe que, diferentemente do MATLAB, $*$ é a multiplicação elementar, não a multiplicação de matrizes. Em vez disso, usamos a função **dot** para calcular produtos internos de vetores, multiplicar um vetor por uma matriz e multiplicar matrizes. 

In [93]:
v = np.array([9, 10])
w = np.array([11, 12])

# produto interno
print(v.dot(w))
print(np.dot(v, w))

219
219


In [94]:
# multiplicação entre matriz (x) e vetor (v)
print(x.dot(v))
print(np.dot(x, v))

[29 67]
[29 67]


In [95]:
# multiplicação de matriz
print(x.dot(y))
print(np.dot(x, y))

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


In [96]:
# transposta
print(x.T)

print('-------------')
# ou
print(np.transpose(x))

[[1 3]
 [2 4]]
-------------
[[1 3]
 [2 4]]


Lista de todas as operações: <a href="http://docs.scipy.org/doc/numpy/reference/routines.math.html"> documentation</a>.