# Numpy e Arrays multidimensionais

Nesse notebook estudaremos o que são arrays multidimensionais e como utilizá-los em Python, em especial usando a biblioteca Numpy.

Ao final desse notebook, você será capaz de:

* Entender a importância dos arrays e suas principais propriedades.
* Criar arrays explicitamente e utilizando geradores.
* Acessá-los e atribuir novos valores diretamente, por slicing ou máscaras booleanas.
* Conhecer e aplicar as principais funções matemáticas e lógicas em arrays.
* Saber utilizar arrays para responder perguntas sobre seus dados.
* Entender o papel e os fundamentos de uma regressão linear.


In [None]:
import utils
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

## Por que eu usaria numpy?

Vamos resolver alguns pequenos problemas sem usar vetorização e depois compararemos com uma solução vetorizada para entender a diferença.

Vamos começar com um bem fácil. Crie uma lista com o valor absoluto de cada elemento dessa lista:

In [None]:
values = [-3,10,0,-15,-6]

Em numpy ficaria assim:

Imagine que você é responsável pelo estoque de uma distribuidora e precise calcular o preço cada compra:

In [None]:
nitems = [101, 42, 18, 12, 5, 134]  # quantidade de itens comprados
prices = [12.2, 3.9, 15.0, 2.75, 1.1, 0.99]  # preço de cada item

Agora vamos supor que você tem vários armazéns diferentes para fazer a compra e gostaria de saber qual é o mais próximo da sua distribuidora. Considere que as localizações são coordenadas do quarteirão de cada armazém (e também da sua distribuidora) e que os quarteirões são perfeitamente quadrados:

In [None]:
your_loc = (2,5)
warehouse_locs = [(1,0), (2,4), (7,2), (0,5)]

Em numpy ficaria assim:

## Arrays

Podemos definir arrays chamando `np.array()` passando listas...

In [None]:
a = np.array([1,2,3,4,5])
a

ou com tuplas também:

In [None]:
a = np.array((10,20,30,40))
a

E podemos usar múltiplas

In [None]:
a = np.array([[1,2,3], [3,2,1]])
a

Experimente com o método e crie alguns arrays:

### Algumas propriedades importantes

Número de dimensões ou rank de um array: 

* Calendário: 2 dimensões
* Gastos com alimentação todo mês: 1 dimensão
* Jogo da velha: 2 dimensões

In [None]:
a.ndim

Dimensões ou shape:
* Calendário: 5 x 7 (variável)
* Gastos com alimentação todo mês: 12
* Jogo da velha: 3 x 3
* Sudoku: 9 x 9

In [None]:
a.shape

O tipo de valor que está armazenado em cada posição:

In [None]:
a.dtype

### Exercícios rápidos!

Quais as dimensões de cada um desses arrays?

In [None]:
np.array([[ 0.4519243 ,  0.17657074,  0.82173731,  0.73718558],
          [ 0.37762179,  0.09939027,  0.84810815,  0.57109009]])

In [None]:
np.array([9, 1, 8, 5, 0, 8, 1, 5, 6, 3])

In [None]:
np.array([[[ 0,  1,  2],
           [ 3,  4,  5],
           [ 6,  7,  8]],
   
          [[ 9, 10, 11],
           [12, 13, 14],
           [15, 16, 17]],
   
          [[18, 19, 20],
           [21, 22, 23],
           [24, 25, 26]]])

## Controlando o tipo

Por padrão o numpy vai definir o tipo que mais faz sentido:

In [None]:
a = np.array([1, 2, 3])

print(a.dtype)

Porém podemos controlar o tipo durante a criação do array:

In [None]:
np.array([200, 121, 399], dtype=np.int16)

É clara a diferença entre um `int` e um `float`? E um `int16` e um `int64`?

## Arrays vs lists

Listas podem conter objetos de diferentes tipos:

In [None]:
lst = [1, 1., 'one', int]

for item in lst:
    print(item, type(item))

Já arrays podem ter somente objetos de um mesmo tipo, geralmente tipos numéricos:

In [None]:
a = np.array([1, 2, 3, 4, 5])
a

In [None]:
a.dtype

Numpy sempre tenta inferir o tipo que você quer usar e converte todos elementos para esse tipo (optando pelo tipo mais flexível).

Listas suportam quaiquer dimensões:

In [None]:
matriz_py = [[1,2,3], ['one', 'two'], [1., 2., 3., 4., 5., 6.], ['one', 2, 3.0]]
matriz_py

Já um array requer que cada linha tenha o mesmo tamanho para formar uma matriz completa:

In [None]:
matrix_np = np.array([[1,2,3], [10,20,30]])
print(matrix_np.shape)
print(matrix_np.dtype)
matrix_np

## Geradores

Dadas certas dimensões, numpy oferece alguns construtores/geradores de arrays úteis:

Array de 1's:

In [None]:
np.ones((3,4))

Array of 0's:

In [None]:
np.zeros((2,10),dtype=np.int16)

Valores aleatórios:

In [None]:
np.random.random((6,4))

In [None]:
np.random.randint(1, 3, 10)

Valores em sequência:

In [None]:
np.arange(10, 25)

Valores igualmente espaçados:

In [None]:
np.linspace(0,2,9)

### Exercícios!

Crie uma matriz com 5 colunas e 3 linhas de valores aleatórios

Crie um array começando em 2 e indo até 10 em incrementos de 0.5

## Indexação e Atribuições

Numpy oferece múltiplas formas de acessar (indexar) e atribuir seus elementos:

Para acessar o i-ésimo elemento de um array, basta fazer `a[i]`:

In [None]:
a = np.array([0,10,20,30,40,50])
a

In [None]:
a[3]

Da mesma forma, quando temos mais dimensões, para acessar o elemento na linha `i` e coluna `j`, basta fazer `a[i,j]`:

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
a

In [None]:
a[1,3]

Você pode fazer atribuições normalmente:

In [None]:
z = np.zeros(10, dtype=int)
z

In [None]:
z[4] = 1
z

### Slicing

Slicing é uma sintaxe que te permite indexar intervalos e acessar para acessar subarrays (fatias) de arrays.

In [None]:
m = np.random.random((10,5))
m

Para acessar as 3 primeiras linhas e as 2 últimas colunas:

In [None]:
m[0:3, 3:5]

Você pode ignorar um dos limites:

In [None]:
m[:, 4:6]

Ou pode usar índices negativos:

In [None]:
m[:3, -2:]

Você pode combinar slicing com índices diretos:

In [None]:
m[0,:3]

Lembre-se que isso vai sempre reduzir o rank (número de dimensões) de seu array em 1 para cada acesso de índice direto:

In [None]:
print(m.ndim)
print(m[0].ndim)
print(m[:2, 0].ndim)
print(m[0,0].ndim)

In [None]:
print(m.shape)
print(m[0].shape)
print(m[:2, 0].shape)
print(m[0,0].shape)

Podemos fazer atribuições em slicings também:

In [None]:
m = np.random.random((3,3))
m

In [None]:
m[1,:] = 0
m

Se as dimensões baterem, podemos atribuir um array em um slice de outro array:

In [None]:
m = np.zeros((4,5))
m

In [None]:
m[1] = [1,2,3,4,5]
m

In [None]:
m[:,-1] = np.ones(4)
m

### Exercícios:

Crie um array 2D com 4 linhas e 5 colunas de 0's, porém com a coluna central de 1's

Crie a matrix identidade 3x3

### Acesso com booleanos e listas

Podemos também acessar múltiplos elementos definidos por uma lista:

In [None]:
a = np.arange(20).reshape(5,4)
a

In [None]:
a[[0,2,3]]

In [None]:
a[:,[0,-1]]

Podemos também usar arrays de booleanos com o mesmo shape que o array sendo acessado. Um valor `True` indica que o valor correspondente daquela célula deve ser acessado:

In [None]:
a[[True, False, True, True, False]]

In [None]:
a[:, [True, False, True, False]]

### Exercícios

Retorne todas as linhas ímpares de `a`:

In [None]:
a = np.array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
              [1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
              [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
              [3, 3, 3, 3, 3, 3, 3, 3, 3, 3],
              [4, 4, 4, 4, 4, 4, 4, 4, 4, 4],
              [5, 5, 5, 5, 5, 5, 5, 5, 5, 5],
              [6, 6, 6, 6, 6, 6, 6, 6, 6, 6]])

E se o array `a` possui 100 linhas, sua solução ainda funciona bem?

Dado o array abaixo, o que é retornado por `a[[True, False, False, False, True], [1,4]]`? (pense antes de rodar)

In [None]:
a = np.arange(20).reshape(5,4)
a

Essa forma de acesso parece estranha a primeira vista, porém é uma das mais comuns quando estamos trabalhando com modelagem. Veremos por que em breve!

#### Lembretes importantes sobre slicing:

* Se você ignorar um dos limites, ele considera todo o restante
* O limite inferior é inclusivo, já o limite superior é exclusive
* Você pode usar índices negativos
* Diferente da indexação direta, índices inválidos vão retornar um array vazio, e não um erro
* Slincing e acessos diretos podem ser combinados, porém lembre-se que seu array perde dimensões com cada acesso

## Operações matemáticas com arrays

Provavelmente a ferramenta mais poderosa de numpy é poder fazer operações matemáticas com arrays. Numpy suporta todas operações tradicionais e muitas outras. 

A maioria das operações que fazemos é elemento por elemento (element-wise), ou seja, se `C = A + B`, temos que `A.shape == B.shape == C.shape` e para todo `i,j` temos que `C[i,j] = A[i,j] + B[i,j]`

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
z = np.ones((2,2))

In [None]:
x+z

In [None]:
x+y*z

Como sempre, existem outras formas de operar arrays

In [None]:
np.add(x, y)
np.subtract(x, y)
np.multiply(x, y)
np.divide(x, y)

Podemos operar com escalar e array também, onde o escalar é aplicado em cada elemento do array:

In [None]:
2*x

E quaisquer combinações com essas operações:

Numpy disponibiliza várias operações de comparação também:

In [None]:
a = np.array([-3, 7, 3, 23])
b = np.array([0, 2, 10, -1])
c = np.array([1, 13, 0, 8])

np.maximum(a, b)
np.minimum(a, b)

### Operações lógicas 

Além das operações matemáticas, operações lógicas em arrays são também muito comuns:

In [None]:
a>b

In [None]:
(b>a) & (b<c)

In [None]:
(b>a) | (b>c)

Elas são úteis para contar valores que tornam uma condição verdade (pois numpy considera True=1 e False=0):

In [None]:
np.sum(a>b)

E também são excepcionalmente úteis para indexação e atribuição:

In [None]:
a[a>5]

## Exercícios

Quantos elementos de `a` estão entre 40 e 60?

In [None]:
a = np.array([[17, 18, 34, 78, 65],
              [26, 92, 48, 56,  6],
              [19, 41, 97, 52, 43],
              [62, 49, 74, 97,  5],
              [65, 93,  3, 15, 22]])

Divida o array a em b e c, onde b tem as linhas que começam com valores menores que 5 e b as linhas que começam com valores maiores ou iguais a 5:

In [None]:
a = np.random.randint(1, 10, 90).reshape(15,6)
a

## Views vs Copy

Antes de continuarmos vale a pena falar um pouco sobre cópias e visões!

Numpy evita de fazer cópias desncessárias dos dados. Por um lado isso é eficiente, por outro lado é fácil cometer erros:

In [None]:
a = np.arange(12).reshape(3,4)
a

In [None]:
v = a[:,1:3]
v

`v` é uma view de `a` (uma parte de `a`), não é uma cópia!

In [None]:
v[:] = 100
v

In [None]:
a

Para resolver isso, você pode usar o método `copy` (mas só se precisar mesmo):

In [None]:
a = np.arange(12).reshape(3,4)
c = a[:,1:3].copy()
c

Agora `c` é uma cópia de `a`:

In [None]:
c[:] = 100
a

## Usando imagens para explorar arrays

In [None]:
from matplotlib.image import imread
from matplotlib.pyplot import imshow

def imshowg(img):
    imshow(img, cmap='gray')

In [None]:
img = imread('../data/lenna-gray.png')
imshowg(img)

Investigando um pouco mais o que é uma imagem, vemos que é apenas um array de duas dimensões:

In [None]:
print(img.shape)
print(img.dtype)

Podemos manipular como quisermos os valores da imagem:

In [None]:
imshowg(img[:100,:200])

In [None]:
imshowg(img.T)

## Exercícios

Faça um close dramático nos olhos de Lenna!!

Lenna não quer ser identificada. Coloque uma tarja preja em seus belíssimos olhos.

Lenna quer ser uma estrela de cinema. Faça sua imagem parecer um tela widescreen (tarjas pretas inferiores e superiores)

## Funções

Bumpy oferece várias funções matemáticas clássicas e todas funções implementadas estão sobrecarregadas (?) para operar em arrays, elemento a elemento:

In [None]:
a = np.array([2, 4, 1, 16])
a

In [None]:
print(np.log2(a))
print(np.sqrt(a))
print(np.power(a, 3))

In [None]:
f = np.array([1.3, 5.6, 100.101, 0.24])
f

In [None]:
print(np.ceil(f))
print(np.floor(f))

## Plotting

Vamos aprender o básico do básico de Matplotlib para poder visualizar algumas das nossas análises. O principal método da biblioteca é o `plt.plot(x, y)`, onde x são os valores do eixo x, e y os valores correspondentes do eixo y.

Se quisermos plotar os pontos (1,1), (2,2) e (3,3) com diferentes tipos de plot:

In [None]:
plt.plot([1,2,3], [1,2,3])

É bem simples, como vimos, só lembre-se que cada eixo fica em um array separado, ao invés de passarmos os pontos juntos:

In [None]:
x = np.array([-3,-2,-1,-0,1,2,3])
plt.plot(x, x**2)

Nosso plot parece meio quadradão :/ 

Podemos combinar os geradores de arrays com as funções numpy para plotar mais pontos e visualizar diferentes funções:

In [None]:
x = np.linspace(-4, 4, 100)
plt.plot(x, x)
plt.plot(x, 2*x)
plt.plot(x, x**2)

Matplolib é extremamente customizável, mas teremos tempo pra 

In [None]:
x = np.linspace(-4,4,100)
plt.plot(x, x, label='identidade')
plt.plot(x, -2*x, label='linear')
plt.plot(x, x**2-1, label='quadrática')
plt.title('Título')
plt.xlabel('Eixo x')
plt.ylabel('Eixo y')
plt.xlim((-3,4))
plt.ylim((-2,4))
plt.legend()

### Exercícios

Calcule a distancia absoluta (arredondando para inteiros) entre cada elemento de A para cada elemento de B: 

In [None]:
a = np.array([[ 2.24076221,  6.94465659,  8.1025218 ],
              [ 2.5315115 ,  5.11973604,  4.47462266]])
b = np.array([[ 0.05494317,  5.85191288,  1.74149864],
              [ 9.24855539,  7.85211148,  8.7456627 ]])

Existe um resultado interessante da trigonomia diz que, para qualquer valor x, temos que $\sin(x)^2 + \cos(x)^2 = 1$.
Verifique se isso é verdade para pelo menos 30 valores aleatórios.

## Agregações

Numpy oferece funções que agregam múltiplos valores em um único valor, como `sum` e `mean`:

In [None]:
a = np.arange(10)
a

print(' sum:', a.sum())
print(' min:', a.min())
print(' max:', a.max())
print(' cum:', a.cumsum())
print('mean:', a.mean())
print(' std: ', a.std())

Notem como é possível chamar tanto `np.func(a)`, ou `a.func()`.

Quando temos mais de uma dimensão podemos fazer agregações em dimensões específicas usando o argumento axis:

In [None]:
m = np.arange(12).reshape(3,4)
m

In [None]:
np.sum(m, axis=1)

<img src="sum-axis.png">

Muitos métodos oferecem um opção `arg`, que ao invés de retornar o valor, retorna o índice:

In [None]:
a = np.array([4,8,2,5,6,0])
a.argmax()

In [None]:
np.argsort(a)

Esses métodos são importantes pois muitas vezes queremos saber qual é o maior elemento, e não o valor do maior elemento.

### Exercício

Voltando ao nosso exemplos das compras, qual é o item mais custoso na nossa compra?

In [None]:
items =  np.array(['queijo minas', 'rúcula', 'palmito', 'molho de tomate', 'chuchu', 'sacola 10x'])
nitems = np.array([11,   32,   9,   12,   5,  134])
prices = np.array([12.2, 3.9, 15.0, 2.75, 1.99, 0.99])

Agora imprima todos os itens dos mais caros para os mais baratos:

### Exercícios

A raiz do erro quadrático médio (RMSE) é uma métrica comum para medir a precisão de um regressor. Se os valores que você queria prever estão no array $Y$, e os valores de fato preditos estão no array $Y^p$, o RMSE das suas predições é definido como $\sqrt{\frac{1}{n} \sum_{i=1}^{n}{{(Y_i - Y^p_i)}^2}}$

Dados Y e Yp, calcule o RMSE : 

In [None]:
Y = np.array([1.67, 1.78, 1.57, 1.50, 2.01])
Yp = np.array([1.51, 1.72, 1.81, 1.41, 1.91])

Um outlier é um valor anormalmente maior ou menor que os outros valores de uma mesma variável (array). Eles costumam atrapalhar análises e métodos estatísticos por serem uma anomalia. Vamos definirmos um outlier como qualquer valor da variável X que esteja distante da média de X por mais de 3 vezes o desvio padrão de X. Liste os outliers da variável abaixo:

In [None]:
a = np.array([-16.6, -145.72, 66.36, -197.01, -118.13, 133.02, 117.31, 83.64, 103.38, 
              61.06, 129.33, -85.02, -202.67, 86.2, -66.51, -40.59, 39.86, 24.75, 15.58, 
              3023.3, 59.52, -89.94, 61.73, -55.74, -31.21, -150.92, 122.08, 44.03, 6.66, 
              129.76, -105.09, 113.48, -178.97, -71.71, -66.32, 55.31, 41.04, 107.6, 81.87, 
              2430.6, -140.71, -98.84, 52.57, 3.2, 22.77, -81.76, -49.85, 162.47, 167.89, 75.32])

## Voltemos à Lenna, agora com cores!!

Como você acha que a representação deveria ser para podermos ter cor?

In [None]:
img = imread('../data/lenna.png')
imshow(img)

In [None]:
img.shape

### Exercícios

Como seria essa imagem sem nenhum tom verde? Coloque 0 no canal verde e plote a imagem:

Qual é a cor predominante dessa imagem? Mostre com números :)

Transforme essa imagem em uma imagem preto e branco! Como você acha que podemos fazer isso?

## Case: Alturas dos pais e filhos

Vamos dar uma investigada em um dataset clássico de alturas. A principal pergunta que queremos responder é se **existe alguma correlação entre a altura dos pais e de seus filhos?**

In [None]:
heights = utils.load_heights()

A primeira coluna contém as alturas dos pais e a segunda dos filhos. Porém as alturas estão em polegadas, mas **queremos elas em centímetros**. Além disso, para facilitar algumas análises, vamos criar um vetor 1D para os filhos e um para os pais:

Agora queremos responder algumas perguntas básicas primeiro:

* Quantos amostras/instâncias/exemplos temos na nossa base?
* Qual o índice do filho mais baixo e do pai mais alto?
* Qual a probabilidade de um filho ser mais alto que seu pai?
* Estamos ficando mais altos ou mais baixos com o tempo?

Agora vamos **plotar nossos pontos** usando matplotlib:

O que você acha da correlação? Se você tivesse que advinhar a altura do filho de uma pessoa com 160cm, qual seria seu melhor palpite?

Essa reta imaginária que visualizamos é um modelo que recebe a altura do pai e preve a altura do filho. Esse modelo pode ser visto como uma função `f(x) = y`, onde x é a altura do pai e y é a altura do filho.

Vocês conseguem definir essa função?

Vamos revistar nossa resposta anterior usando nossa nova função:

Porém nós achamos essa reta no olhão O.O Se usarmos um número ligeiramente diferente, como podemos saber se a reta é melhor ou pior que outras que tentamos?

Agora vamos comparar nossos resultados com os do sklearn. Aposto que os nossos são melhores!

## Case: Canceres benignos e malignos

Vamos trabalhar com um dataset famoso que contém medidas clínicas de diferentes tumores diagnosticados. Cada linha representa um tumor que eventualmente foi diagnosticado como benigno ou maligno. Vamos tentar responder algumas perguntas sobre esses dados.

* Quantos tumores temos no dataset? Quantas medidas pra cada tumor? E qual a porcentagem de benígnos?
* Queremos ter uma idéia dos dados que estamos trabalhando. Calcule a média, desvio padrão, mínimo, máximo de cada atributo/variável (aqui você pode usar um for para iterar nos atributos).
* Existem outliers nesse dataset? Conte o número de outliers de cada variável. Escolha uma variável com outliers (de preferência a que mais tem) e limite esses valores em um intervalo razoável para evitar que esses valores afetem nossa regressão.
* As variáveis assumem intervalos muito diferentes, portanto queremos normalizá-as. Faça com que cada variável esteja limitada entre 0 e 1 (basta subtrair cada elemento pelo menor valor e dividir pelo maior valor).
* Se você pudesse usar somente uma variável para identificar se um tumor é maligno ou benigno, como você encontraria a mais informativa? Qual valor de corte você usaria?

In [None]:
features, values, is_benign = utils.load_cancer()