<h1 style='font-size:40px'> Support Vector Machines</h1>
<div> 
    <ul style='font-size:20px'> 
        <li> 
            As SVM's são um dos modelos mais populares de ML. São frequentemente utilizadas em tarefas de classificação de datasets complexos com pequeno ou médio tamanho. Por outro lado, é possível fazer regressões e até mesmo detecção de outliers com elas.
        </li>
        <li> 
            Nota: sempre normalize os dados quando for trabalhar com SVM's.
        </li>
    </ul>
</div>

<h2 style='font-size:30px'> Linear SVM Classification</h2>
<div> 
    <ul style='font-size:20px'> 
        <li> 
           As SVM's com o kernel linear são apropriadas para a segregação de dados linearmente distinguíveis.
        </li>
        <li> 
            Na imagem da esquerda, as linhas sólidas representam dois modelos de classificação. Apesar de identificarem corretamente todas as instâncias de treino, note que elas estão muito próximas dos pontos. Isso é um indicativo de que os modelos foram excessivamente adequados a esses dados -possivelmente um overfitting- e que eles falharão em corretamente classificar novas instâncias.
        </li>
    </ul>
</div>
<img src='svm_linear1.png'>
<div> 
    <ul style='font-size:20px'> 
        <li> 
           No entanto, observe que a linha da imagem à direita (de um SVM Linear) não só gabarita a classificação, como também está bem afastada dos pontos. Isso nos dá uma segurança muito maior de que novos dados serão corretamente classificados.
        </li>
        <li> 
            A intenção da linha é estar o mais distante possível das instâncias de treino. Os pontos mais próximos (circulados) são denominados como support vectors.
        </li>
    </ul>
</div>

<h3 style='font-size:30px;font-style:italic'>Soft-Margin Classification</h3>
<div> 
    <ul style='font-size:20px'> 
        <li> 
           Mas vamos ser honestos. É muito difícil haver um dataset cujas categorias sejam linearmente distinguíveis. Como consequência desse fato, ter um SVM como o da imagem à direita é algo improvável; o modelo provavelmente terá que tolerar que algumas instâncias estejam no lado errado.
        </li>
        <li> 
            É considerando isso que é praticada a Soft-Margin Classification. Uma SVM voltada a esse tipo de tarefa precisa ter uma baixa regularização.
        </li>
        <li> 
            A regularização de uma SVM é controlada pelo argumento C. Quanto menor, menos regularização.
        </li>
    </ul>
</div>

<center> 
    <h1>Exemplos de SVM com Soft-Margin Classification</h1>
    <img src='svm_linear2.png'>
</center>
<div> 
    <ul style='font-size:20px'> 
        <li> 
          Claramente o modelo à esquerda parece ser o mais apropriado
        </li>
    </ul>
</div>

In [5]:
# Montando uma SVM linear para o dataset de iris.
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
from sklearn.svm import LinearSVC
import numpy

iris = load_iris()
X = iris['data'][:, 2:]
y = (iris['target']==2).astype('int')

svm_clf = Pipeline([
            ('scaler', StandardScaler()),
            ('linear_svc', LinearSVC(C=1, loss='hinge'))])
svm_clf.fit(X,y)
svm_clf.predict([[5.5, 1.7]])

array([1])

<div> 
    <ul style='font-size:20px'> 
        <li> 
              Seria possível usarmos o objecto SVC com o kernel='linear', mas ele é muito mais lento do que o LinearSVC.
        </li>
        <li> 
            Se quiséssemos usar um Stochastic Gradient Descent para o encontro da reta, poderíamos usar o SGDClassifier(loss='hinge', alpha=1/(m*C)). É bastante recomendável para datasets gigantescos.
        </li>
    </ul>
</div>

<h4 style='font-size:30px;font-style:italic;text-decoration:underline'>Dicas</h4>
<div> 
    <ul style='font-size:20px'> 
        <li> 
           Para LinearSVC, é recomendável usar o StandardScaler com o dataset. Defina também loss='hinge'. Sette dual=False a não ser que haja mais features do que instâncias de treino.
        </li>
    </ul>
</div>

<p style='color:red'> Soft-Margin Classification