# Numpy

Numpy é uma biblioteca (pacote python) que prove varias funções numéricas para trabalhamos eficientemente com array multidimensionais homogeneos. Esse array é uma tabela de elementes (geralmente de numeros), todos no mesmo tipo, indexados por uma tupla de inteiros positivos. No NumPy dimensões são chamadas de eixos (axes).

Um exemplo de array multimensional de pontos flutuante.

```python
[[ 1., 0., 0.],
 [ 0., 1., 2.]]
``` 

Tipo do array do numpy é chamdo de ndarray. Os atributos mais importantes de um objeto do tipo ndarray são:

- **ndrray.ndim**

    número de dimensões (eixos) que o array possui
    
    
- **ndarray.shape**

    os valores das dimensões (eixos) do array. Por exemplo, uma matrix com n linhas e m colunas terá o shape = (n, m).


- **ndarray.size**

    Total de elementos no array. É equivalente ao produto dos elementos do shape.


- **ndarray.dtype**

    O tipo dos elementos armazenados no array.


- **ndrray.itemsize**

    Tamanho em bytes de cada elemento no array.


- **ndarray.data**

    Um buffer contendo realmente os elementos do array. Geralemente, não precisamos acessá-lo diretamente, pois utilizaremos o mecanismo de indexição que veremos a seguir.


### Exemplo

In [None]:
import numpy as np

# criando um ndarray a partir de uma lista
a = np.array([1, 2, 3, 4, 5, 6])

# cria um array 2D com 15 elementos de 0 a 14
# com 3 linhas e 5 colunas
b = np.arange(15).reshape(3, 5)

print("a : ", a, "dims: ", a.ndim)

print("b : ", b, "dims: ", b.ndim)

# tipo dos elementos no array
print(a.dtype)

# convertendo para float
print(b.astype(float).dtype)

print(type(a))

### Criando array

Há varias formas de criar um ndarray.

Por exemplo, você pode criar a partir de uma lista ou tupla Python com a função ```array```.
O tipo dos elementos será inferido a partir do elementos na lista.

In [None]:
import numpy as np

a = np.array([2, 3.4, 4])

print(a, a.dtype)

a = np.array([2, 3, 4])

print(a, a.dtype)

Um erro frequente é chamar a função ```array``` com múltiplos argumentos, ao invés de passar apenas uma única lista de elementos.   

In [None]:
# descomente para testar
# a = np.array(1,2,3,4) # errado
a = np.array([1,2,3,4]) # certo

In [None]:
a = [(1., 0., 0),
     (0., 1., 2.)]
b = np.array(a)
b

In [None]:
a = [(1., 0., 0),
     (0., 1., 2.)]
# explicitamente falando qual é o tipo dos elementos
b = np.array(a, dtype=complex)
b

Geralmente, nós sabemos as dimensões do array, porém não sabemos seu valor. O Numpy nos ofere funções para criar arrays pre-preenchidos com valores padrões. 

In [None]:
# array apenas com zeros
# recebe como parametro o shape
# shape sempre é uma tupla
print(np.zeros((3, 4)))

# array apenas de uns
print(np.ones((3)))

# array não inicializado 
# (apenas lixos, valores podem sofre alteraco)
print(np.empty((1,2,10)))

### Criando sequências de números (arange)

A função ```arange``` sequências numéricas assim como a ``` range``` do Python.

In [None]:
print(np.arange(10, 30, 5))

# também aceita float
print(np.arange(0, 10, 0.5))

Quando utilizamos ```arange``` com float, muitas vezes é impossível saber quantos elementos a sequência vai ter. Portanto, é preferível utiliar a função linspace, com a qual nós passamos o número de elementos ao invés do passo:

In [None]:
np.linspace(0, 9.5, 20)

## Operações basicas

As operações aritiméticas são aplicadas elemento a elemento. Como resultado um novo arry é criado preenchido com os valores resultantes.

### Arrays e Escalares

In [None]:
# array
a = np.array([1, 2, 3])

# escalar
b = 2

print("{} * {} = {}".format(b, a, b * a))
print("{} + {} = {}".format(b, a, b + a))
print("{} - {} = {}".format(b, a, b - a))
print("{} / {} = {}".format(b, a, b / a))
print("{} ** {} = {}".format(b, a, b ** a))

### Entre arrays

In [None]:
c = np.array([10, 2, 5])

print("{} * {} = {}".format(a, c, a * c))
print("{} + {} = {}".format(a, c, a + c))
print("{} - {} = {}".format(a, c, a - c))
print("{} / {} = {}".format(a, c, a / c))
print("{} % {} = {}".format(a, c, a % c))
print("{} ** {} = {}".format(a, c, a ** c))

### Funções elemento a elemento (element-wise)

In [None]:
print("np.log({}) = {}".format(c, np.log(c)))
print("np.sqrt({}) = {}".format(c, np.sqrt(c)))

### Exercício

Muitas vezes quando estamos criando nossos modelos é preciso definir uma métrica para nós os avaliarmos e escolher o melhor dentre eles. Algumas vezes, nós mesmo temos de implementá-las, portanto, nesse exercício você vai ter de implementar a métrica Erro Quadrático Médio, em inglês *Mean Squared Error (MSE)*. 

A MSE é deifnida como:

$\epsilon = \frac{1}{n}\sum_{i=1}^{n}(\hat{y}_i - y_i)^2$

onde:

- $\epsilon$ é o valor do erro (score)
- $n$ é o total de exemplos no conjunto de dados testado
- $\hat{y}_i$ é a predição do modelo
- $y_i$ é o valor do real (rótulo)
- $\frac{1}{n}\sum_{i=1}^{n}$ é a média
- $(\hat{y}_i - y_i)^2$ são os erros quadráticos

In [None]:
import math

def MSE(y_true, y_pred):
    """ Mean Squared Error 
    Parâmetros
    ----------
    y_true : 1d array
        Rótulos.
    y_pred : 1d array
        Predições, retornadas pelo modelo.
    """
    n = len(y_true)
    soma = 0
    for i in range(n):
        soma += (math.log(y_pred[i]) - math.log(y_true[i]))**2
    return math.sqrt(soma / n)


def vMSE(y_true, y_pred):
    """vectorized Mean Squared Error 
    Parâmetros
    ----------
    y_true : 1d array
        Rótulos.
    y_pred : 1d array
        Predições, retornadas pelo modelo.
    """
    # TODO: versão vetorizada do RMSLE
    pass
    

y_true =  np.arange(1000000) + 1
y_pred = y_true - np.random.rand(y_true.shape[0])

print(MSE(y_true, y_pred))
print(vMSE(y_true, y_pred))

# %timeit MSE(y_true, y_pred)
%timeit vMSE(y_true, y_pred)