# Introdução

## Qual é o objetivo da máquina de vetores de suporte (SVM - Support Vector Machine)?

O objetivo de uma máquina de vetores de suporte é encontrar o hiperplano de separação ideal que maximiza a margem dos dados de treinamento. 
<The goal of a support vector machine is to find  the optimal separating hyperplane which maximizes the margin of the training data.>

A primeira coisa que podemos ver nessa definição é que uma SVM precisa de dados de treinamento. O que significa que é um algoritmo de aprendizado supervisionado.
<The first thing we can see from this definition, is that a SVM needs training data. Which means it is a supervised learning algorithm.>

Também é importante saber que o SVM é um algoritmo de classificação. O que significa que vamos usá-lo para prever se algo pertence a uma determinada classe.
<It is also important to know that SVM is a classification algorithm. Which means we will use it to predict if something belongs to a particular class.>

Por exemplo, podemos ter os dados de treinamento abaixo:
<For instance, we can have the training data below:>

![01_svm-dataset1.png](attachment:01_svm-dataset1.png)

Nós plotamos o tamanho e o peso de várias pessoas, e também uma maneira de distinguir entre homens e mulheres.
<We have plotted the size and weight of several people, and there is also a way to distinguish between men and women.>

Com esses dados, o uso de um SVM nos permitirá responder à seguinte pergunta:
<With such data, using a SVM will allow us to answer the following question:>

*Dado um determinado ponto de dados (peso e tamanho), a pessoa é um homem ou uma mulher?*
<Given a particular data point (weight and size), is the person a man or a woman?>

Por exemplo: se alguém mede 175 cm e pesa 80 kg, é um homem ou uma mulher?
<For instance:  if someone measures 175 cm and weights 80 kg, is it a man of a woman?>

## O que é um hiperplano separador?
<What is a separating hyperplane?>

Apenas observando o plot, podemos ver que é possível separar os dados. Por exemplo, podemos traçar uma linha e, em seguida, todos os pontos de dados que representam os homens estarão acima da linha e todos os pontos de dados que representam as mulheres estarão abaixo da linha.
<Just by looking at the plot, we can see that it is possible to separate the data.  For instance, we could trace a line and then all the data points representing men will be above the line, and all the data points representing women will be below the line.>

Essa linha é chamada de **hiperplano de separação** e é mostrada abaixo:
<Such a line is called a separating hyperplane and is depicted below:>

![01_svm-dataset1-separated.png](attachment:01_svm-dataset1-separated.png)

Se é apenas uma linha, por que chamamos de hiperplano?
<If it is just a line, why do we call it an hyperplane ?>

Apesar de usarmos um exemplo muito simples com pontos de dados colocados no $R^2$, a máquina de vetores de suporte pode trabalhar com qualquer número de dimensões!
<Even though we use a very simple example with data points laying in R2 the support vector machine can work with any number of dimensions!>

Um hiperplano é uma generalização de um plano.
<An hyperplane is a generalization of a plane.>

+ em uma dimensão, um hiperplano é chamado de ponto
+ em duas dimensões, é uma linha
+ em três dimensões, é um plano
+ em mais dimensões você pode chamar de hiperplano
<in one dimension, an hyperplane is called a point
in two dimensions, it is a line
in three dimensions, it is a plane
in more dimensions you can call it an hyperplane>

Na figura abaixo o ponto K é um hiperplano separador de uma dimensão
![separating-hyperplane.png](attachment:separating-hyperplane.png)

## Qual é o hiperplano de separação ideal
<What is the optimal separating hyperplane?>

O fato de você poder encontrar um **hiperplano separador**, não significa que seja o melhor! No exemplo abaixo, há vários hiperplanos de separação. Cada um deles é válido, pois separa com sucesso o nosso conjunto de dados com homens de um lado e mulheres do outro lado.
<The fact that you can find a separating hyperplane,  does not mean it is the best one !  In the example below there is several separating hyperplanes. Each of them is valid as it successfully separates our data set with men on one side and women on the other side.>

![01_svm-dataset1-separated-2.png](attachment:01_svm-dataset1-separated-2.png)

Suponha que selecionamos o hiperplano verde e o utilizemos para classificar dados da vida real.
<Suppose we select the green hyperplane and use it to classify on real life data.>

![01_svm-dataset1-separated-bad.png](attachment:01_svm-dataset1-separated-bad.png)

Este hiperplano não generaliza bem. Desta vez, comete alguns erros, classificando erroneamente três mulheres. Intuitivamente, podemos ver que, se selecionarmos um hiperplano que esteja próximo dos pontos de dados de uma classe, talvez ele não generalize bem.
<This time, it makes some mistakes as it wrongly classify three women. Intuitively, we can see that if we select an hyperplane which is close to the data points of one class, then it might not generalize well.>

Então, tentaremos selecionar um hiperplano **longe o máximo possível dos pontos de dados de cada categoria**:
<So we will try to select an hyperplane as far as possible from data points from each category:>

![01_svm-dataset-optimal-hyperplane.png](attachment:01_svm-dataset-optimal-hyperplane.png)

Este parece melhor. Quando o usamos com dados não vistos no treinamento, podemos ver que ele ainda faz uma classificação perfeita (ao contrário do hiperplano verde).
<This one looks better. When we use it with real life data, we can see it still make perfect classification.>

![01_svm-dataset1-separated-good.png](attachment:01_svm-dataset1-separated-good.png)

É por isso que o objetivo de um SVM é encontrar o **hiperplano de separação ideal**:
<That is why the objective of a SVM is to find the optimal separating hyperplane>

+ porque classifica corretamente os dados de treinamento
+ e porque é o que vai generalizar melhor com dados não vistos
<because it correctly classifies the training data
and because it is the one which will generalize better with unseen data>

## Qual é a margem e como isso ajuda a escolher o hiperplano ideal?
<What is the margin and how does it help choosing the optimal hyperplane?>

![07_withMidpointsAndSeparator1.png](attachment:07_withMidpointsAndSeparator1.png)

Dado um hiperplano particular, podemos calcular a distância entre o hiperplano e o ponto de dados mais próximo. Quando tivermos esse valor, se duplicarmos, obteremos o que é chamado de **margem**.
<Given a particular hyperplane, we can compute the distance between the hyperplane and the closest data point. Once we have this value, if we double it we will get what is called the margin.>

**Basicamente, a margem é uma terra de ninguém. Nunca haverá nenhum ponto de dados dentro da margem.** (Nota: isto pode causar alguns problemas quando os dados são ruidosos, e é por isso que o classificador de margem suave (soft margin) será introduzido mais tarde)
<Basically the margin is a no mans land. There will never be any data point inside the margin. (Note: this can cause some problems when data is noisy, and this is why soft margin classifier will be introduced later)>

Para outro hiperplano, a margem ficará assim:
<For another hyperplane, the margin will look like this:>

![01_svm-dataset1-small-margin.png](attachment:01_svm-dataset1-small-margin.png)

Como você pode ver, a margem B é menor que a margem A.

Podemos fazer as seguintes observações:

+ Se um hiperplano estiver muito próximo de um ponto de dados, sua margem será pequena.
+ Quanto mais um hiperplano for longe um ponto de dados, maior será sua margem.
Isso significa que **o hiperplano ideal será aquele com a maior margem**.

É por isso que o objetivo do SVM é **encontrar o hiperplano de separação ideal que maximize a margem dos dados de treinamento**.
<As you can see, Margin B is smaller than Margin A.

We can make the following observations:

If an hyperplane is very close to a data point, its margin will be small.
The further an hyperplane is from a data point, the larger its margin will be.
This means that the optimal hyperplane will be the one with the biggest margin.

That is why the objective of the SVM is to find  the optimal separating hyperplane which maximizes the margin of the training data.>