# Aula 6 - Análise de dados com _arrays_ multidimensionais
![image.png](https://somostera.com/wp-content/uploads/2017/08/Tera_logo_250.jpg)

### Show! Mas que diabos é um _array_ multidimensional?!
Por partes:
* _array_ é um vetor. Um vetor é uma lista!
* _array_ multidimensional é um _array_ de _arrays_ ou uma lista de listas.
![image.png](http://community.datacamp.com.s3.amazonaws.com/community/production/ckeditor_assets/pictures/332/content_arrays-axes.png)

### Tá, qual é a vantagem?
Um _array_ de duas dimensões é uma lista de listas.
![image.png](attachment:image.png)

## NumPy e o mágico universo das matrizes e álgebra linear
NumPy vem de _Numerical Python_ e é uma biblioteca que permite a manipulação de dados em _arrays_.
* Agora podemos ter seqüências de valores n-dimensionais!
* Construção de matrizes e, por sua vez, usar álgebra linear (cenas dos próximos episódios, em _machine learning_).
    * Pandas <3
* Um mundo de facilidade na manipulação de dados!

Antes do NumPy, coisas muito simples ficavam consideravelmente complexas.
Vamos criar um vetor e multiplicar cada um dos elementos dele por 2 e depois somar 5 sem NumPy?

In [None]:
vector = [-3, 10, 0, -15, -6]

**E com NumPy?**

In [None]:
# más práticas de programação: vamos importar as bibliotecas agora
import numpy as np
import matplotlib.pyplot as plt
import utils

%matplotlib inline

In [None]:
vector_np = np.array(vector)

In [None]:
print(type(vector))
print(type(vector_np))

In [None]:
(vector_np * 2) + 5

In [None]:
# ó como o Python entende um vetor do tipo lista
vector * 2

#### A vida é mais bonita e natural com NumPy <3

### Mãos na massa
Você é responsável pelo estoque de uma distribuidora e precisa calcular o preço total de uma compra. Como faz? (Nota: pensar em algoritmos é quebrar um grande problema em problemas menores.)
* Cada item tem um preço.
* Se mais de uma unidade de um item é comprada, o preço é multiplicado pela quantidade de itens.
* Total da compra é a soma da multiplicação.

In [None]:
n_items = np.array([101,   42,   18,   12,   5,  134])           # quantidade de itens comprados
prices  = np.array([12.2, 3.9, 15.0, 2.75, 1.1, 0.99])

### Fun facts: NumPy não é melhor só pra gente
As máquinas gostam mais dele também.

Suponha que você tem vários armazéns de estoque da distribuidora e quer saber qual é o mais próximo de você no momento. Sua localização é dada por coordenadas (uma tupla de latitude e longitude), bem como a localização de cada estoque. Como faz?

In [None]:
your_location = np.array((2, 5))
warehouse_locations = np.array([(1 ,0), (2 ,4), (7 ,2), (0 ,5)])

In [None]:
def pure_python(your_loc, warehouse_locs):
    mx, my = your_loc

    best_wh = None
    min_d = 100
    dists = []
    for i, (x, y) in enumerate(warehouse_locs):
        d = abs(mx - x) + abs(my - y)
        if d < min_d:
            best_wh = i
            min_d = d

    return best_wh

In [None]:
pure_python(your_location, warehouse_locations)

In [None]:
np.abs((your_location - warehouse_locations)).sum(axis = 1).argmin()

In [None]:
warehouse_locations[1]

In [None]:
%timeit pure_python(your_location, warehouse_locations)

In [None]:
%timeit np.abs((your_location - warehouse_locations)).sum(axis = 1).argmin()

#### Convencidos?
E a mágica não pára por aí...

Podemos definir _arrays_ NumPy passando listas, como já vimos:

In [None]:
a = np.array([1, 2, 3, 4, 5])
a

Ou várias listas aninhadas:

In [None]:
b = np.array([[1, 2, 3], [3, 2, 1]])
b

E pode seguir e ficar tão complexo quanto eu bem entender!

In [None]:
np.array([[1, 2, 3], 
          [3, 2, 1],
          [0, 0, 0]])

### Ferramentas legais
**Dimensões (_rank_) de um _array_:**
* Calendário: 2 dimensões
* Gasto com alimentação todo mês: 1 dimensão
* Jogo da velha ou batalha naval: 2 dimensões

In [None]:
a.ndim

In [None]:
b.ndim

**Formato (_shape_) do _array_:**
* Calendário: 5 x 7 (mas varia)
* Gasto com alimentação todo mês: 12
* Jogo da velha: 3 x 3
* Sudoku: 9 x 9

In [None]:
a.shape

In [None]:
b.shape

### Jogo rápido:
Quantas e quais são as dimensões desses _arrays_?

In [None]:
np.array([[ 0.4519243 ,  0.17657074,  0.82173731,  0.73718558],
          [ 0.37762179,  0.09939027,  0.84810815,  0.57109009]])

In [None]:
np.array([9, 1, 8, 5, 0, 3])

In [None]:
np.array([[[ 0,  1,  2],
           [ 3,  4,  5],
           [ 6,  7,  8]],

          [[ 9, 10, 11],
           [12, 13, 14],
           [15, 16, 17]],

          [[18, 19, 20],
           [21, 22, 23],
           [24, 25, 26]]])

### _Array_ ou _list_?
Listas comportam objetos de diferentes tipos:

In [None]:
lst = [1, 1., 'one', int]

for item in lst:
    print(item, type(item))

_Arrays_, por outro lado, só podem ter objetos de um mesmo tipo (normalmente numéricos):

In [None]:
c = np.array([1.0, 2, 3, 4, 5, 'seis'])
c

In [None]:
c.dtype

NumPy tenta inferir qual é o tipo que você quer e converte todos pro mesmo tipo (com preferência pelo mais flexível, claro).

Listas suportam qualquer dimensão:

In [None]:
matrix_py = [[1,2,3], ['one', 'two'], [1., 2., 3., 4., 5., 6.], ['one', 2, 3.0]]
matrix_py

_Arrays_ exigem que toda linha tenha a mesma dimensão pra conseguir montar a matriz.

In [None]:
matrix_np = np.array([[1,2,3], [10,20,30]])
print(matrix_np.shape)
print(matrix_np.dtype)
matrix_np

### Geradores
As magias NumPynianas incluem geradores de _arrays_ úteis:

In [None]:
np.ones((3, 4))

In [None]:
np.zeros((2, 10), dtype = np.int64)

In [None]:
np.random.random((6, 4))

In [None]:
np.random.randint(1, 5, (3, 4))

In [None]:
np.arange(10, 50, 5)      # Valores em sequência np.arange(primeiro inclusivo, último exclusivo, incremento)

### Indexação e atribuições
Para acessar o i-ésimo elemento de um _array_, basta fazer `a[i]`. Não se esqueça que todos os índices começam em zero!

In [None]:
a = np.array([0, 10, 20, 30, 40, 50])

In [None]:
a[4]

Da mesma forma, se temos duas dimensões e queremos acessar o elemento na linha `i` e coluna `j`, basta fazer `a[i, j]`.

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
a

In [None]:
a[0,2]

E ainda por cima posso usar a indexação para fazer atribuições!

In [None]:
z = np.zeros(10, dtype = int)
z

In [None]:
z[4] = 1
z

### _Slicing_
É uma sintaxe que permite indexar intervalos e acessar sub-_arrays_ (fatias de _ arrays_).

In [None]:
m = np.random.random((10,5))
m

Para acessar as três primeiras linhas e as duas últimas colunas, 

In [None]:
m[0:3]

Você também pode ignorar um dos limites:

In [None]:
m[:, 4:5]

Ou usar índices negativos!

In [None]:
m[:3, -2:]

E combinar _slicing_ com índices:

In [None]:
m[0, :3]

Note que isso reduz a dimensão do seu _array_:

In [None]:
print(m.ndim)
print(m[0].ndim)
print(m[:2, 0].ndim)
print(m[0,0].ndim)

In [None]:
print(m.shape)
print(m[0].shape)
print(m[:2, 0].shape)
print(m[0,0].shape)

E atribuições com _slicing_? Pode também!

In [None]:
m = np.random.random((3,3))
m

In [None]:
m[1, ] = 0
m

Se as dimensões batem, ainda podemos atribuir um _array_ num _slice_ de outro _array_:

In [None]:
m = np.zeros((4, 5))
m

In [None]:
m[1] = [1, 2, 3, 4, 5]
m[:, -1] = np.ones(4)

m

## Bora trabalhar?
Crie uma matriz com 5 colunas e 3 linhas de valores aleatórios entre 0 e 1. Depois, imprima o valor da segunda linha, terceira coluna.

Crie um _array_ que vai de 2 a 10 (inclusivos) com incrementos de 0.5 em 0.5 (Dica: `np.arrange` e `np.linspace`).

Crie um _array_ 2D com quatro linhas e cinco colunas de zeros, mas com a coluna central de uns.

Crie uma matriz 10 x 10 com valores aleatórios inteiros entre 0 e 9:

Imprima os três primeiros elementos da última linha:

Atribua esses elementos aos 3 primeiros da última linha:

E se eu quiser esses mesmos 3 elementos nos três primeiros de todas as linhas?

### Acesso com máscaras booleanas

In [None]:
a = np.arange(20).reshape(5,4)
a

Podemos acessar um _array_ com um _array_ de booleanos com o mesmo _shape_.

In [None]:
a[[True, False, True, True, False]]

In [None]:
a[:, [True, False, True, False]]

Parece estranho, eu sei... mas é bastante útil e fará sentido em breve!

#### Lembrete rápido sobre _slicing_
* Se você ignorar um dos limites, ele considera todo o restante
* O limite inferior é inclusivo, já o limite superior é exclusivo
* Você pode usar índices negativos
* Diferente da indexação direta, índices inválidos vão retornar um _array_ vazio, e não um erro
* _Slincing_ e acessos diretos podem ser combinados, porém lembre-se que seu _array_ perde dimensões com cada acesso

### Operações matemáticas com _arrays_
Já vimos como o NumPy facilita a vida ao lidar com operações matemáticas em _arrays_ de forma natural. NumPy suporta todas as operações tradicionais e mais muitas outras!

A maioria das operações que fazemos é elemento por elemento (_element-wise_), ou seja, se C = A + B, temos que `A.shape == B.shape == C.shape` e para todo i, j temos que `C[i,j] = A[i,j] + B[i,j]`

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
z = np.ones((2,2))

In [None]:
x

In [None]:
y

In [None]:
z

In [None]:
x + y

In [None]:
(x + y)*z

Há também outras formas de se operar _arrays_:

In [None]:
np.add(x, y)

In [None]:
np.subtract(x, y)

In [None]:
np.multiply(x, y)

In [None]:
np.divide(x, y)

Também podemos fazer operações entre um escalar e um _array_, aí o escalar é aplicado a todos os elementos do _array_.

In [None]:
(2*x + y/2)*z

NumPy também tem várias funções de comparação:

In [None]:
a = np.array([-3, 7, 3, 23])
b = np.array([0, 2, 10, -1])
c = np.array([1, 13, 0, 8])

np.maximum(a, b)
np.minimum(a, b)

### Operações lógicas
Operações lógicas são bastante comuns em _arrays_ também:

In [None]:
a > b

In [None]:
(b > a) & (b < c)

In [None]:
(b > a) & (b > c)

São úteis para contar valores que tornam alguma condição verdade (isso porque o NumPy considera `True = 1` e `False = 0`)

In [None]:
np.sum(a < b)

Também são incrivelmente úteis para indexação e atribuição:

In [None]:
a[a > 5]

### Exercícios!
Dado o array abaixo, o que é retornado por `a[[True, False, False, False, True]]`? (pense antes de rodar)

In [None]:
a = np.arange(20).reshape(5,4)
a

Quantos elementos estão entre 40 e 60?

In [None]:
a = np.array([[17, 18, 34, 78, 65],
              [26, 92, 48, 56,  6],
              [19, 41, 97, 52, 43],
              [62, 49, 74, 97,  5],
              [65, 93,  3, 15, 22]])

Divida o array a em b e c, onde b tem as linhas que começam com valores menores que 5 e b as linhas que começam com valores maiores ou iguais a 5:

In [None]:
a = np.random.randint(1, 10, 90).reshape(15,6)
a

Crie uma matriz 5 x 5 com números inteiros entre 0 e 9. Agora retorne a primeira linha somada com a última, subtraída pelo número exatamente no centro da matriz:

### _Views_ vs _Copy_
NumPy evita fazer cópias desnecessárias dos dados. Apesar disso ser super eficiente, também facilita para cometermos erros:

In [None]:
a = np.arange(12).reshape(3,4)
a

In [None]:
v = a[:,1:3]
v

`v` é uma _view_ de `a` (um pedaço), mas não uma cópia.

In [None]:
v[:] = 100
v

Para resolver isso, você pode usar o método `copy` (mas só se precisar mesmo):

In [None]:
a = np.arange(12).reshape(3,4)

c = a[:,1:3].copy()
c

Agora `c` é uma cópia de `a`.

In [None]:
c[:] = 100
a

## Usando imagens para explorar _arrays_

In [None]:
from matplotlib.image import imread
from matplotlib.pyplot import imshow

def imshowg(img):
    imshow(img, cmap = 'gray')

In [None]:
img = imread('lenna-gray.png')
imshowg(img)

Investigando um pouco mais o que é uma imagem, vemos que é apenas um array de duas dimensões:

In [None]:
print(img.shape)
print(img.dtype)

Assim sendo, podemos manipular os valores da imagem da forma que bem entendermos!

In [None]:
imshowg(img[:100, :200])

In [None]:
imshowg(img.T)

### Exercícios com imagens
_Because we can._ 

Faça um close dramático nos olhos da Lenna!

Lenna não quer ser identificada. Vamos esconder seus belos olhos com uma tarja preta.

Lenna quer ser uma estrela de cinema. Faça sua imagem parecer um tela _widescreen_ (tarjas pretas inferiores e superiores).

## Funções
NumPy oferece várias funções matemáticas clássicas e todas estão prontas para operar em _arrays_, elemento a elemento:

In [None]:
a = np.array([2, 4, 1, 16])
a

In [None]:
np.log2(a)

In [None]:
np.sqrt(a)

In [None]:
np.power(a, 2)

In [None]:
a**2

## Gráficos!
Vamos aprender o básico do básico de Matplotlib para podermos visualizar algumas das nossas análises. O principal método da biblioteca é o `plt.plot(x, y)`.

In [None]:
import matplotlib.pyplot as plt

Se quisermos plotar os pontos (1, 1), (2, 2) e (3, 3) com diferentes tipos de plot:

In [None]:
plt.plot([1,2,3], [1,2,3])

É bem simples, como vimos, só lembre-se que cada eixo fica em um _array_ separado, ao invés de passarmos os pontos juntos:

In [None]:
x = np.array([-3,-2,-1,-0,1,2,3])
plt.plot(x, x**2)

Nosso plot parece meio quadradão :/

Podemos combinar os geradores de _arrays_ com as funções NumPy para plotar mais pontos e visualizar diferentes funções:

In [None]:
x = np.linspace(-4, 4, 100)
plt.plot(x, x)
plt.plot(x, 2*x)
plt.plot(x, x**2 - 4, '--')
plt.plot(x, np.sin(x))

Matplolib é extremamente customizável, mas teremos tempo pra explorar suas funcionalidades em outra aula.

In [None]:
x = np.linspace(-4, 4, 100)
plt.plot(x, x, label = 'identidade')
plt.plot(x, -2*x, label = 'linear')
plt.plot(x, x**2 - 1, label = 'quadrática')
plt.title('Título')
plt.xlabel('Eixo x')
plt.ylabel('Eixo y')
plt.xlim((-3, 4))
plt.ylim((-2, 4))
plt.legend()

## Exercícios
Calcule a distância absoluta entre cada elemento de A para cada elemento de B:

In [None]:
a = np.array([[ 2.24076221,  6.94465659,  8.1025218 ],
              [ 2.5315115 ,  5.11973604,  4.47462266]])
b = np.array([[ 0.05494317,  5.85191288,  1.74149864],
              [ 9.24855539,  7.85211148,  8.7456627 ]])

In [None]:
np.abs(a - b).astype(int)

Existe um resultado interessante da trigonometria diz que, para qualquer valor x, temos que $\sin(x)^2 + \cos(x)^2 = 1$. Verifique se isso é verdade para pelo menos 30 valores aleatórios.

In [None]:
a = np.random.random(30)
np.allclose(np.sin(a)**2 + np.cos(a)**2, 1)

## Agregações
NumPy oferece funções que agregam múltiplos valores em um único valor, como `sum` e `mean`:

In [None]:
a = np.arange(10)

print(' sum:', a.sum())
print(' min:', a.min())
print(' max:', a.max())
print(' cum:', a.cumsum())
print('mean:', a.mean())
print(' std: ', a.std())

Notem como é possível chamar tanto `np.func(a)`, ou `a.func()`.

Quando temos mais de uma dimensão podemos fazer agregações em dimensões específicas usando o argumento `axis`:

In [None]:
m = np.arange(12).reshape(3,4)
m

In [None]:
np.sum(m, axis=0)

![image.png](attachment:image.png)


Muitos métodos oferecem um opção `arg`, que ao invés de retornar o valor, retorna o índice:

In [None]:
a = np.array([4, 8, 8, 2, 5, 6, 0])
np.where(np.max(a) == a)

Esses métodos são importantes pois muitas vezes queremos saber qual é o maior elemento, e não o valor do maior elemento.

## Métricas de erro
É muito comum termos métricas de erro no processo de modelagem. Uma métrica geralmente vai falar quão distante nossas predições estão dos dados reais. Por exemplo, se eu estava tentando prever vendas em 3 setores da minha empresa no próximo mês, após eu ter observado que as vendas reais foram [97K, 50K, 12K], um resultado que previu [102K, 74K,  5K] é claramente melhor que um que previu [20K, 400K, 15K]. Porém a medida que esses números se aproximam, devemos ter formas mais quantitativas de avaliar essas previsões.

Uma métrica de erro popular é a raiz do erro quadrático médio (RMSE). Se os valores que você queria prever estão no array $Y$, e os valores de fato preditos estão no array $Y^p$, o RMSE das suas predições é definido como $\sqrt{\frac{1}{n} \sum_{i=1}^{n}{{(Y_i - Y^p_i)}^2}}$

Dados Y e Yp, calcule o RMSE:

In [None]:
Y = np.array([1.67, 1.78, 1.57, 1.50, 2.01])
Yp = np.array([1.51, 1.72, 1.81, 1.41, 1.91])

## Outliers
Um outlier é um valor anormalmente maior ou menor que os outros valores de uma mesma variável (_array_). Eles costumam atrapalhar análises e métodos estatísticos por serem uma anomalia. Vamos definirmos um outlier como qualquer valor da variável X que esteja distante da média de X por mais de 3 vezes o desvio padrão de X. Liste os outliers da variável abaixo:

In [None]:
a = np.array([-16.6, -145.72, 66.36, -197.01, -118.13, 133.02, 117.31, 83.64, 103.38, 
              61.06, 129.33, -85.02, -202.67, 86.2, -66.51, -40.59, 39.86, 24.75, 15.58, 
              3023.3, 59.52, -89.94, 61.73, -55.74, -31.21, -150.92, 122.08, 44.03, 6.66, 
              129.76, -105.09, 113.48, -178.97, -71.71, -66.32, 55.31, 41.04, 107.6, 81.87, 
              2430.6, -140.71, -98.84, 52.57, 3.2, 22.77, -81.76, -49.85, 162.47, 167.89, 75.32])

## Voltemos à Lenna, agora com cores!
Como você acha que a representação deveria ser para podermos ter cor?

In [None]:
img = imread('lenna.png')
imshow(img)

In [None]:
img.shape

### Exercícios
Como seria essa imagem sem nenhum tom verde? Coloque 0 no canal verde e plote a imagem:

Qual é a cor predominante dessa imagem? Mostre com números :)

Transforme essa imagem em uma imagem preto e branco! Como você acha que podemos fazer isso?

## Case: Alturas dos pais e filhos
Vamos dar uma investigada em um dataset clássico de alturas. A principal pergunta que queremos responder é: existe alguma correlação entre a altura dos pais e de seus filhos?

In [None]:
heights = 2.54*utils.load_heights()

A primeira coluna contém as alturas dos pais e a segunda dos filhos. Porém as alturas estão em polegadas, mas queremos elas em centímetros. Além disso, para facilitar algumas análises, vamos criar um vetor 1D para os filhos e um para os pais:

Agora queremos responder algumas perguntas básicas primeiro:

* Quantos elementos/exemplos temos na nossa base?
* Qual o índice do filho mais baixo e do pai mais alto?
* Qual a probabilidade de um filho ser mais alto que seu pai?
* Estamos ficando mais altos ou mais baixos com o tempo?

In [None]:
print('instancias:', len(f))
print('filho mais baixo:', np.argmin(f))
print('pai mais alto:', np.argmax(p))
print('probabilidade:', (f > p).mean())

Agora vamos plotar nossos pontos usando Matplotlib:

O que você acha da correlação? Se você tivesse que advinhar a altura do filho de uma pessoa com 160cm, qual seria seu melhor palpite?

Talvez 165cm?

Essa reta imaginária que visualizamos é um modelo que recebe a altura do pai e preve a altura do filho. Esse modelo pode ser visto como uma função `f(x) = y`, onde x é a altura do pai e y é a altura do filho.

Vocês conseguem definir essa função?

In [None]:
def predict(p):
    return 0.8*p + 35

Vamos revistar nossa resposta anterior usando nossa nova função:

Porém nós achamos essa reta no olhão. Se usarmos um número ligeiramente diferente, como podemos saber se a reta é melhor ou pior que outras que tentamos? Vamos definir nossa função de erro, que vai contabilizar todos nossos erros:

Agora vamos comparar nossos resultados com os do sklearn. Aposto que os nossos são melhores!

In [None]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(p.reshape(-1,1), f)

**Pra casa:** Tente substituir esses valores na nossa função predict e plotar a reta. Ela parece fazer sentido?

## Case: Canceres benignos e malignos
Vamos trabalhar com um dataset famoso que contém medidas clínicas de diferentes tumores diagnosticados. Cada linha representa um tumor que eventualmente foi diagnosticado como benigno ou maligno. Vamos tentar responder algumas perguntas sobre esses dados.

* Quantos tumores temos no dataset? Quantas medidas pra cada tumor? E qual a porcentagem de benígnos?
* Queremos ter uma idéia dos dados que estamos trabalhando. Calcule a média, desvio padrão, mínimo, máximo de cada atributo/variável (aqui você pode usar um for para iterar nos atributos).
* Existem outliers nesse dataset? Conte o número de outliers de cada variável. Escolha uma variável com outliers (de preferência a que mais tem) e limite esses valores em um intervalo razoável para evitar que esses valores afetem nossa regressão.
* As variáveis assumem intervalos muito diferentes, portanto queremos normalizá-as. Faça com que cada variável esteja limitada entre 0 e 1 (basta subtrair cada elemento pelo menor valor e dividir pelo maior valor).
* Se você pudesse usar somente uma variável para identificar se um tumor é maligno ou benigno, como você encontraria a mais informativa? Qual valor de corte você usaria?

In [None]:
features, values, is_benign = utils.load_cancer()

Esses exercícios são um pouco mais difíceis, mas são bem próximos das tarefas do dia-a-dia de um cientista de dados. Case não entenda alguma solução, separe e inspecione as várias partes do comando e tente entender cada uma delas individualmente.

Quantos tumores temos no dataset? Quantas medidas/features/atributos temos pra cada tumor? E qual a porcentagem de benígnos?

In [None]:
print('# tumores:', ?)
print('# medidas:', ?)
print('% benignos:', ?)

Queremos ter uma idéia dos dados que estamos trabalhando. Calcule a média, desvio padrão, mínimo, máximo de cada atributo/variável (aqui você pode usar um for para iterar nos atributos).

Existem outliers nesse dataset? Conte o número de outliers de cada variável. Escolha uma variável com outliers (de preferência a que mais tem) e limite esses valores em um intervalo razoável para evitar que esses valores afetem nossa regressão.

A maioria das features possui outliers. Vamos achar a que mais tem e substituir os outliers pelo valor que consideramos o máximo aceitável, a média mais três o desvio padrão.

Por simplicidade, desconsideramos que podem ter outliers muito pequenos também, que poderiam ser tratados de forma semelhante, mas verificando se eles violam o limite inferior, não o superior.

As variáveis assumem intervalos muito diferentes, portanto queremos normalizá-as. Faça com que cada variável esteja limitada entre 0 e 1 (basta subtrair cada elemento pelo menor valor e dividir pelo diferença entre o maior valor e o menor).

Se você pudesse usar somente uma variável para identificar se um tumor é maligno ou benigno, como você encontraria a mais informativa? Qual valor de corte você usaria?

Modelos estatísticos são úteis exatamente para combinar todas features e chegar em uma resposta. Porém enquanto não aprendemos como usá-los, podemos tentar fazer análises univariadas (usam somente uma feature para tomar uma decisão).

Uma forma de encontrar as variáveis com maior correlação com a informação que queremos prever é calcular a média das features para os grupos que queremos prever separadamente. Ou seja, se a média da feature `worst_concave_points` é 98 para todos os tumores benignos e 210 para todos os malígnos, é possível que essa feature seja discriminatória em relação ao tipo de tumor. Ou seja, talvez podemos achar um valor C tal que uma regra "se `worst_concave_points` > C então o tumor é maligno" seja razoavelmente precisa.

Agora ordenamos as features com a maior diferença absoluta:

Como valor C podemos usar o valor bem no meio das médias de cada tipo de tumor:

Caso não seja óbvio para você, tente se convencer que `(a + b)/2` é sempre o valor perfeitamente entre a e b.

Só falta saber se são os valores maiores que V são os benignos ou os malignos:

Ok, os benignos tem a média menor, então nossa regra é (feature_value < C) => benigno.

Agora que temos uma vetor de predições usando nossa regra, podemos comparar com a verdade e ver como nos saímos:

Isso quer dizer que criamos uma regra (que pode ser considerado um modelo simples) somente a partir dos dados (sem nenhum conhecimento de domínio), e sem utilizar nenhuma lib de machine learning, que consegue detectar se um tumor é maligno ou benigno com 90% de precisão.

Not bad, eu diria!

Em uma aplicação real teríamos reservado parte dos dados para validar nosso modelo, ignorando esses dados até a última parte onde aplicamos a regra e medimos a precisão. É como se esses dados fossem do futuro, onde já aprendemos a regra e estamos somente aplicando ela em novos pacientes. Isso evita algo que veremos mais para frente como overfitting.