# Numpy

Numpy é uma biblioteca (pacote python) que prove varias funções numéricas para trabalhamos eficientemente com array multidimensionais homogeneos. Esse array é uma tabela de elementes (geralmente de numeros), todos no mesmo tipo, indexados por uma tupla de inteiros positivos. No NumPy dimensões são chamadas de eixos (axes).

Um exemplo de array multimensional de pontos flutuante.

```python
[[ 1., 0., 0.],
 [ 0., 1., 2.]]
``` 

Tipo do array do numpy é chamdo de ndarray. Os atributos mais importantes de um objeto do tipo ndarray são:

- **ndrray.ndim**

    número de dimensões (eixos) que o array possui
    
    
- **ndarray.shape**

    os valores das dimensões (eixos) do array. Por exemplo, uma matrix com n linhas e m colunas terá o shape = (n, m).


- **ndarray.size**

    Total de elementos no array. É equivalente ao produto dos elementos do shape.


- **ndarray.dtype**

    O tipo dos elementos armazenados no array.


- **ndrray.itemsize**

    Tamanho em bytes de cada elemento no array.


- **ndarray.data**

    Um buffer contendo realmente os elementos do array. Geralemente, não precisamos acessá-lo diretamente, pois utilizaremos o mecanismo de indexição que veremos a seguir.


### Exemplo

In [7]:
import numpy as np

# criando um ndarray a partir de uma lista
a = np.array([1, 2, 3, 4, 5, 6])

# cria um array 2D com 15 elementos de 0 a 14
# com 3 linhas e 5 colunas
b = np.arange(15).reshape(3, 5)

print("a : "), (a), ("dims: "), (a.ndim)

print("b : "), (b), ("dims: "), (b.ndim)

# tipo dos elementos no array
print(a.dtype)

# convertendo para float
print(b.astype(float).dtype)

print(type(a))

a :  [1 2 3 4 5 6] dims:  1
b :  [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]] dims:  2
int64
float64
<type 'numpy.ndarray'>


### Criando array

Há varias formas de criar um ndarray.

Por exemplo, você pode criar a partir de uma lista ou tupla Python com a função ```array```.
O tipo dos elementos será inferido a partir do elementos na lista.

In [3]:
import numpy as np

a = np.array([2, 3.4, 4])

print(a, a.dtype)

a = np.array([2, 3, 4])

print(a, a.dtype)

(array([ 2. ,  3.4,  4. ]), dtype('float64'))
(array([2, 3, 4]), dtype('int64'))


Um erro frequente é chamar a função ```array``` com múltiplos argumentos, ao invés de passar apenas uma única lista de elementos.   

In [22]:
# descomente para testar
# a = np.array(1,2,3,4) # errado
a = np.array([1,2,3,4]) # certo

A função array transforma sequencia de sequência em arrays multidimensioanis.

In [26]:
a = [(1., 0., 0),
     (0., 1., 2.)]
b = np.array(a)
b

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  2.]])

In [31]:
a = [(1., 0., 0),
     (0., 1., 2.)]
# explicitamente falando qual é o tipo dos elementos
b = np.array(a, dtype=complex)
b

array([[ 1.+0.j,  0.+0.j,  0.+0.j],
       [ 0.+0.j,  1.+0.j,  2.+0.j]])

Geralmente, nós sabemos as dimensões do array, porém não sabemos seu valor. O Numpy nos ofere funções para criar arrays pre-preenchidos com valores padrões. 

In [43]:
# array apenas com zeros
# recebe como parametro o shape
# shape sempre é uma tupla
print(np.zeros((3, 4)))

# array apenas de uns
print(np.ones((3)))

# array não inicializado 
# (apenas lixos, valores podem sofre alteraco)
print(np.empty((1,2,10)))

[[ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]
 [ 0.  0.  0.  0.]]
[ 1.  1.  1.]
[[[  6.93454544e-310   1.93757131e-316   1.39616193e-316   1.39616074e-316
     6.93454310e-310   6.93454315e-310   1.39616193e-316   6.93454310e-310
     6.93454438e-310   1.39616430e-316]
  [  1.39616311e-316   1.39615363e-316   1.05161976e-153   7.10004767e-154
     4.96136463e-313   1.27633810e-152   5.72938864e-313   1.63041663e-322
     2.04299386e-316   6.93454544e-310]]]


### Criando sequências de números (arange)

A função ```arange``` sequências numéricas assim como a ``` range``` do Python.

In [8]:
print(np.arange(10, 30, 5))

# também aceita float
print(np.arange(0, 10, 0.5))

[10 15 20 25]
[ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5  7.
  7.5  8.   8.5  9.   9.5]


Quando utilizamos ```arange``` com float, muitas vezes é impossível saber quantos elementos a sequência vai ter. Portanto, é preferível utiliar a função linspace, com a qual nós passamos o número de elementos ao invés do passo:

In [51]:
np.linspace(0, 9.5, 20)

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5])

## Criando números aleatórios

Numpy também nos provê meios de criar arrays com números aleatórios. Para isso vamos utilizar o subpacote ```random```.

In [9]:
# criando 10 valores entre 0 - 1
print(np.random.uniform(0, 1, 10))

# criando 10 valores entre 0 - 10
print(np.random.randint(0, 10, 10))

# criando uma matrix 2x5 com valores aleatórios (entre 0 - 1)
print(np.random.rand(2, 5))

[ 0.79874584  0.08429816  0.00609859  0.79417363  0.90710795  0.64367089
  0.80722906  0.73575907  0.75461314  0.40022238]
[3 6 7 5 6 7 9 7 8 4]
[[ 0.82754949  0.77010521  0.96656406  0.80860813  0.90076575]
 [ 0.5528236   0.58725876  0.71923129  0.00419684  0.28338973]]


## Operações basicas

As operações aritiméticas são aplicadas elemento a elemento. Como resultado um novo arry é criado preenchido com os valores resultantes.

In [64]:
# array
a = np.array([20, 40, 50])

# escalar
b = 4

print(b * a)
print(b + a)
print(b - a)

c = np.array([10, 2, 5])

print(a * c)
print(a + c)
print(a - c)

print(np.log(c))
print(np.sqrt(c))

[ 80 160 200]
[24 44 54]
[-16 -36 -46]
[200  80 250]
[30 42 55]
[10 38 45]
[ 2.30258509  0.69314718  1.60943791]
[ 3.16227766  1.41421356  2.23606798]


O operador \* no numpy faz o produto elemento a elemento de uma matrix. Para fazer a multiplicação de matrix é utilizado a função ```dot```.

In [67]:
A = np.array([[1, 1], [0,1]])
B = np.array([[2, 0], [3,4]])

print(A * B)

print(A.dot(B))

print(np.dot(A, B))

[[2 0]
 [0 4]]
[[5 4]
 [3 4]]
[[5 4]
 [3 4]]


## Vetorizando laços

Laço em Python são custosos. Isso fica evidente, sobretudo, quando estamos mexendo com muitos dados.
Numpy, implementa eficientemente, várias funções matemáticas que são operadas sobre listas (arrays).

#### Outras funções matemáticas

all, any, apply_along_axis, argmax, argmin, argsort, average, bincount, ceil, clip, conj, corrcoef, cov, cross, cumprod, cumsum, diff, dot, floor, inner, inv, lexsort, max, maximum, mean, median, min, minimum, nonzero, outer, prod, re, round, sort, std, sum, trace, transpose, var, vdot, vectorize, where

Vamos vetorizar a função somatório utilizando a função numpy sum e comprar uma implementação iterativa escrita puramente em python.

In [113]:
# dez milhão de elementos
arr = np.arange(10000000) + 1

def isum(arr):
    soma = 0
    for elem in arr:
        soma += elem
    return soma

%timeit reduce(lambda a, b: a + b, arr)
%timeit isum(arr)
%timeit np.sum(arr)

1 loop, best of 3: 1.8 s per loop
1 loop, best of 3: 1.47 s per loop
100 loops, best of 3: 7.48 ms per loop
100 loops, best of 3: 7.57 ms per loop


A função ```sum``` do ```numpy``` é ~150x mais rápida do que o ```reduce``` do python ou a implementação equivalente usando laço ```for```. Por isso, é muito importante utilizar a versão vetorizada das operações.

Para praticarmos a vetorização de laço, peço que implemente a versão vetorizada do RMSLE implementado anteriormente.

In [10]:
import math
import numpy as np

def RMSLE(y_true, y_pred):
    """ Root Mean Squared Logarithmic Error 
    Parâmetros
    ----------
    y_true : 1d array
        Rótulos.
    y_pred : 1d array
        Predições, retornadas pelo modelo.
    """
    n = len(y_true)
    soma = 0
    for i in range(n):
        soma += (math.log(y_pred[i]) - math.log(y_true[i]))**2
    return math.sqrt(soma / n)


def vRMSLE(y_true, y_pred):
    """vectorized Root Mean Squared Logarithmic Error 
    Parâmetros
    ----------
    y_true : 1d array
        Rótulos.
    y_pred : 1d array
        Predições, retornadas pelo modelo.
    """
    # TODO: versão vetorizada do RMSLE
    return np.sqrt(np.mean((np.log(y_pred) - np.log(y_true))**2))
    
    
y_true =  np.arange(1000000) + 1
y_pred = y_true - np.random.normal(0, 1, y_true.shape[0])

print(RMSLE(y_true, y_pred))
print(vRMSLE(y_true, y_pred))

# %timeit RMSLE(y_true, y_pred)
%timeit vRMSLE(y_true, y_pred)

0.000758837853481
0.000758837853481
10 loops, best of 3: 19.5 ms per loop


# Indexação, Slicing e Iteração

Array uni-dimensional podem ser idenxados, repartidos e iterados muito similarmente a lista e outras sequências do Python.

In [80]:
a = np.arange(10)**2

print(a)

print(a[4])

print(a[5:])

print(a[::2]) # de 2 em dois

print(a[::-1]) # invertendo

[ 0  1  4  9 16 25 36 49 64 81]
16
[25 36 49 64 81]
[ 0  4 16 36 64]
[81 64 49 36 25 16  9  4  1  0]


Array multidimensional tem um indice por eixo.

In [96]:
a = (np.arange(16)**2).reshape((4, 4))

print(a)

# elemento da linha 0 e coluna 1
print(a[0, 1])

print(a[:3, 0]) # elementos da linha 0 a 2 da coluna 0

print(a[:, 0]) # todos elementos da coluna 0

print(a[-1]) # equivalente a a[-1, :]

[[  0   1   4   9]
 [ 16  25  36  49]
 [ 64  81 100 121]
 [144 169 196 225]]
1
[ 0 16 64]
[  0  16  64 144]
[144 169 196 225]


In [100]:
for linha in a:
    print(linha)

[0 1 4 9]
[16 25 36 49]
[ 64  81 100 121]
[144 169 196 225]


## Manipulação do Shape

In [129]:
a = (np.arange(16)**2).reshape((4, 4))

print(a)

# flattened array
print(a.ravel())

# retorna array com novo formato
print(a.reshape(8,2))

# transposta
print(a.T)

[[  0   1   4   9]
 [ 16  25  36  49]
 [ 64  81 100 121]
 [144 169 196 225]]
[  0   1   4   9  16  25  36  49  64  81 100 121 144 169 196 225]
[[  0   1]
 [  4   9]
 [ 16  25]
 [ 36  49]
 [ 64  81]
 [100 121]
 [144 169]
 [196 225]]
[[  0  16  64 144]
 [  1  25  81 169]
 [  4  36 100 196]
 [  9  49 121 225]]


## Empilhando arrays

In [137]:
a = np.floor(10*np.random.random((2,2)))

print(a)

b = np.floor(10*np.random.random((2,2)))

print(b)

print(np.vstack((a, b)))

print(np.hstack((a, b)))

[[ 9.  1.]
 [ 9.  4.]]
[[ 1.  8.]
 [ 3.  2.]]
[[ 9.  1.]
 [ 9.  4.]
 [ 1.  8.]
 [ 3.  2.]]
[[ 9.  1.  1.  8.]
 [ 9.  4.  3.  2.]]


In [143]:
# equivale ao np.vstack((a, b))
print(np.concatenate((a,b), axis=0))

# equivale ao np.hstack((a, b))
print(np.concatenate((a,b), axis=1))

[[ 9.  1.]
 [ 9.  4.]
 [ 1.  8.]
 [ 3.  2.]]
[[ 9.  1.  1.  8.]
 [ 9.  4.  3.  2.]]


## Cópias

Nunca é criado uma cópia do array implicitamente.

In [147]:
a = np.arange(12)

b = a

print(b is a, id(b), id(a)) # a e b são o mesmo objeto

b.shape = 3,4 # muda a
a.shape

(True, 140355823903888, 140355823903888)


(3, 4)

Python passa objetos mutaveis como referência, portanto a chamada de uma função não faz cópia.

In [149]:
def f(x):
    print(id(x))
    
print(id(a))
f(a)

140355823903888
140355823903888


Sclicing retorna uma view do array. Views são novos objetos do tipo ndarray que apontam para o mesmo dado.

In [150]:
s = a[:, 1:3]    
s[:] = 10      
a

array([[ 0, 10, 10,  3],
       [ 4, 10, 10,  7],
       [ 8, 10, 10, 11]])

Portanto, é necessário fazer cópias explicitamente (quando desejado) através do métod ```copy```.

In [153]:
d = a.copy()       # um novo objeto com um novo data é criado
print(d is a)
print(d.base is a) # não compartilha nada com a
d[0,0] = 9999
a

False
False


array([[ 0, 10, 10,  3],
       [ 4, 10, 10,  7],
       [ 8, 10, 10, 11]])

## Truques de Indexação

NumPy oferece mais opções de indexação do que Python. Além da indexação por inteiros e slices, como vimos anteriormente, arrays podem ser indexados por outros arrays de inteiros e booleanos.

In [157]:
a = np.arange(12)**2                      
indices = np.array([1, 1, 6, 3, 5])

print(a[indices])

bidim_indices = np.array([[1, 6], [3, 5]])

print(a[bidim_indices])

[ 1  1 36  9 25]
[[ 1 36]
 [ 9 25]]


Quando estamos indexando um array multimensional, um único array de indices refere-se a primeira dimensão de **a**.

In [1]:
a = (np.arange(21)**2).reshape((7, 3))

print(a)

bidim_indices = np.array([[1, 0], [2, 6]])

a[bidim_indices] 

NameError: name 'np' is not defined

In [170]:
# tem de ter o mesmo tamanho
id_linhas = np.array([0, 1, 5])
id_colunas = np.array([2, 1, 1])

print(a[id_linhas, id_colunas])

print(a[:, [0,2]])

[  4  16 256]
[[  0   4]
 [  9  25]
 [ 36  64]
 [ 81 121]
 [144 196]
 [225 289]
 [324 400]]


### Indexando com booleanos

In [171]:
b = a > 200

print(b)

a[b]

[[False False False]
 [False False False]
 [False False False]
 [False False False]
 [False False False]
 [ True  True  True]
 [ True  True  True]]


array([225, 256, 289, 324, 361, 400])

In [172]:
# pode ser util para atribuição de valores
a[b] = 0
a

array([[  0,   1,   4],
       [  9,  16,  25],
       [ 36,  49,  64],
       [ 81, 100, 121],
       [144, 169, 196],
       [  0,   0,   0],
       [  0,   0,   0]])

## Linear algebra

Numpy provê um subpacote com implementações de várias funções de algebra linear. Alguns exemplos básicos a seguir.

In [173]:
a = np.array([[1.0, 2.0], [3.0, 4.0]])

a.transpose()

array([[ 1.,  3.],
       [ 2.,  4.]])

In [174]:
# matriz inversa
np.linalg.inv(a)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

In [175]:
# matriz identidade nxn
n = 2
np.eye(n)

array([[ 1.,  0.],
       [ 0.,  1.]])

In [6]:
# multiplicaco de matriz
np.dot(a, np.linalg.inv(a)) # ~I

LinAlgError: 1-dimensional array given. Array must be at least two-dimensional

In [181]:
# autovalores e autovetores, respectivamente
np.linalg.eig(a)

(array([-0.37228132,  5.37228132]), array([[-0.82456484, -0.41597356],
        [ 0.56576746, -0.90937671]]))

## Exercício

Agora que demos uma boa pincelada sobre o numpy, vou propor um desafio para você.

Vamos supor que estamos querendo predizer o valor do aluguel de um imóveis e temos 1 atributo do mesmo (i.e., área construída). Utilizando as funções do numpy faça uma função que encontre os coeficientes da reta que melhor se ajuste aos dados, isso nada mais é do que a regressão linear. Um método clássico utilzado para isso é o **método dos mínimos quadrados**, esse método possui uma fórmula analítica para encontrar o coeficiente da reta, e que é definida do seguinte modo:

$w = (X^TX)^{-1}X^Ty$

onde:

- $X$ é a matriz que representa nosso conjuntos de pontos (cada linha é um vetor multidimensional que representa um ponto no espaço ND)
- $y$ y é o valor desse ponto

Portanto, o objetivo é implementar uma função que retorne o vetor de coefientes $w$.

In [20]:
X = np.abs(np.random.normal(60, 500, 100))[:, np.newaxis]
w = 2000
y = X * (w - np.random.normal(0, 100, X.shape[0]))[:, np.newaxis]

w_pred = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)

In [5]:
import numpy as np
def ajustar(X, y):
    # TODO: seu código
    w_pred = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
    print w_pred
    
X = np.abs(np.random.normal(60, 500, 100))[:, np.newaxis]
w = 2000
y = X * (w - np.random.normal(0, 100, X.shape[0]))[:, np.newaxis]
ajustar(X,y)

[[ 2016.72030657]]
