# Vetores, normas e distância euclidiana

### Vetores

Abordaremos vetores de uma forma bem pragmática e própria para a linguagem do *Data Science*. Nesse nosso framework, vetores são uma coleção de números em forma matricial, sendo que estamos falando de uma matriz de várias linhas e uma coluna ou uma matriz de várias colunas e uma linha (o que não importa muito quando estamos mexendo no Python), algo como uma lista numérica da forma $x=(2,1,-9,0)$.

É importante dizer que a ordem dos números dentro do vetor tem grande importância e que se a ordem dos elementos for mudada, teremos um novo vetor. Para ver mais sobre a teoria de vetores, entre na nossa apostila e baixe nosso Jupyter Notebook de Álgebra Linear aqui: https://goo.gl/Dz9Dfu. Para criar um vetor no Python criamos uma lista e transformamos essa lista em um Numpy Array:

In [1]:
import numpy as np

In [2]:
#Criando lista
x=[1,4,2,9]
print(type(x))

#Convertendo
x=np.array(x)
print(type(x)) #já temos um vetor criado

<class 'list'>
<class 'numpy.ndarray'>


In [3]:
#Printando Vetor
print(x)

[1 4 2 9]


In [4]:
#Verificando o "shape"
print(x.shape) #O vetor "x" tem tamanho 4

(4,)


### Adição e subtração de vetores

Quando queremos somar dois vetores basta somarmos elemento por elemento. Assuma $x=(x_1,x_2,...,x_k)$ e $y=(y_1,y_2,...,y_k)$. Logo, se $x+y=z$, então $x_{i}+y_{i}=z_{i}$. Por outro lado, se $x-y=z$, então $x_{i}-y_{i}=z_{i}$. Pela definição de adição e subtração, temos que os vetores $x$ e $y$ devem ter a mesma ordem $n X 1$ ou $1 X n$.

Ou seja, se $x=(1,0,-3)$ e $y=(-1,5,10)$, então $x+y=(0,5,7)$.

In [5]:
#Criando vetores
x=np.array([1,0,-3])
y=np.array([-1,5,10])

#Somando
z=x+y
print(z)

#Subtraindo
c=x-y
print(c)

[0 5 7]
[  2  -5 -13]


### Produto por um escalar

Quando queremos multiplicar matrizes (incluindo vetores na forma matricial) por um escalar $\alpha$, basta multiplicarmos todos os elementos da matriz pelo escalar. Ou seja, se $z=\alpha x$ então, $z_{i}=\alpha x_{i}$.

Ou seja, se $x=(1,0,-3)$ e $\alpha=2$, então $\alpha x=(2,0,-6)$.

In [6]:
alpha=2
print(alpha*x)

[ 2  0 -6]


### Norma de um vetor

A norma (euclidiana) de um vetor é basicamente o seu comprimento e pode ser calculada com uma fórmula específica. Se $x=(x_1,x_2,...,x_k)$ então a norma de  $x$ é dada por $||x||=\sqrt{x_1^2+x_2^2+...+x_k^2}$.

Ou seja, se $x=(1,0,-3)$ então $||x||=\sqrt{1^2+0^2+(-3)^2}=\sqrt{10}$.

In [7]:
#Usando uma função que calcula a norma
print(np.linalg.norm(x)) 

3.1622776601683795


### Distância entre dois vetores

A distância entre dois vetores $x$ e $y$  é dado pela fórmula $||x-y||=||y-x||$.

Ou seja, se $x=(1,0,-3)$ e $y=(-1,5,10)$ então a distância entre os dois vetores é 

$||x-y||=||y-x||=\sqrt{(-1-1)^2+(5-0)^2+(10-(-3))^2}=\sqrt{198}$.

In [11]:
#Usando uma função que calcula a norma
print(np.linalg.norm(x-y)) 

14.071247279470288


## Exercícios

1) Crie uma função que calcula a norma de um vetor.

2) Crie uma função que calcula a distância entre dois vetores.

3) Pegue o vetor $x$ definido anteriormente e compare com todas as linhas da matriz A (considere cada linha da matriz como sendo um vetor diferente) definida como (copie e cole o código abaixo em uma célula):

A=np.array([[1,-2,0],[4,2,10],[10,-3,1],[1,1,1]])

Construa um código que dê as distâncias entre o vetor $x$ e as linhas de A. Ademais, o código deve ranquear as linhas conforme sua proximidade com $x$.

4) Use a célula abaixo para importar o dataset da Iris. Pegue sua primeira linha e compare com todas as outras conforme o exercício anterior (use somente as quatro primeiras colunas). Compare a espécie da planta de acordo com as distâncias.

## Resolução

### Exercício 1

In [9]:
import numpy as np

def norma(x):
    return np.sqrt(x@x) # lembre que "@" performa uma multiplicação de matrizes

#comparando
print(norma(x), np.linalg.norm(x))

3.1622776601683795 3.1622776601683795


### Exercício 2

In [13]:
import numpy as np

def dist(x,y):
    return np.sqrt((x-y)@(x-y))

#comparando
print(dist(x,y), np.linalg.norm(x-y))

14.071247279470288 14.071247279470288


### Exercício 3

In [65]:
#definindo A
A=np.array([[1,-2,0],[4,2,10],[10,-3,1],[1,1,1]])

def dist_matriz(y,B):
    #comparando x com as linhas de B
    distancias=[]

    for i in range(B.shape[0]):
        distancias.append(dist(y, B[i,:]))

    #ranqueando as linhas de B 
    aux=np.array(distancias)

    posic=[]
    maximo=np.max(distancias) #distância máxima

    for i in range(B.shape[0]):
        posic.append(np.argmin(aux))
        aux[posic[i]]=maximo+1

    return posic

In [62]:
#testando
dist_matriz(x,A) #agora já temos o 0 denotando a posição da menor e o 3 a posição da maior distância

[0, 3, 2, 1]

### Exercício 4

In [51]:
import pandas as pd

iris = 'http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
df = pd.read_csv(iris, sep=',',header=None)

df.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [71]:
#Separando as 4 primeiras colunas da última
y=df.iloc[:,4]
X=df.iloc[:,:4]

#Convertendo X em np.array
X=np.array(X)

#Calculando as posições de ranking
posic=dist_matriz(X[0],X[1:])
posic=np.array(posic) #convertendo

In [89]:
#Vendo as espécies das 10 orquídeas mais "próximas" da primeira orquídea
y.iloc[posic<10]

1     Iris-setosa
6     Iris-setosa
15    Iris-setosa
20    Iris-setosa
24    Iris-setosa
25    Iris-setosa
27    Iris-setosa
36    Iris-setosa
38    Iris-setosa
45    Iris-setosa
Name: 4, dtype: object

In [90]:
#Como as 10 mais próximas pertencem à espécie 'Iris-setosa', vamos assumir que muito provavelmente a primeira flor 
#também é dessa espécie. De fato, podemos conferir:
y.iloc[0]

'Iris-setosa'