# 🌌 Tentando algo diferente

Guerreiros da missão: **Tsuru** (Júlia Guedes Almeida dos Santos), **Pólux** (Raquel de Godoy Vianna) e **Tiles** (Thalles José de Souza Cansi).

> Macaco velho não põe a mão na cumbuca

## 🖼️ Enunciado

Escolha um dos seguintes algoritmos de aprendizado de máquina: Support Vector Machine, Naive Bayes ou Gaussian Proccesses. Sua tarefa é entender como este algoritmo funciona e reportar isso de maneira clara e didática. Induza um modelo utilizando este algoritmo nos dados que pretende usar no seu projeto de conclusão do semestre desta disciplina.

## 📝 Introdução

Em mais um novo desafio, os cavaleiros da Aliança da Supernova estão à todo vapor para entender e aplicar um novo algoritmo de aprendizado de máquina. Dessa vez, o algoritmo escolhido foi o **Support Vector Machine (SVM)**. Este algoritmo é um dos mais populares e eficazes para classificação de dados, sendo muito utilizado em problemas de aprendizado supervisionado.

## 📚 Support Vector Machine (SVM)

O SVM é um algoritmo de aprendizado de máquina supervisionado que classifica dados encontrando uma linha ou hiperplano ideal que maximiza a distância entre cada classe em um espaço N-dimensional. [1]

<!-- alinhar imagem no centro -->
<p align="center">
  <img style="width: 500px;" src="images/Svm separating hyperplanes.svg">
</p>

A reta ótima (H3) é a mais distante dos dois grupos, considerando apenas os pontos de cada grupo mais próximos à reta (como indicado pelas linhas cinzas). Fonte: [Wikimedia Commons](https://commons.wikimedia.org/wiki/File:Svm_separating_hyperplanes(SVG).svg).

O SVM é especialmente eficaz em situações onde o número de dimensões é maior que o número de amostras. Além disso, utiliza apenas um subconjunto dos dados de treinamento (os vetores de suporte), tornando-o eficiente em termos computacionais [2].

A ideia central do SVM é encontrar um **hiperplano** que divida os pontos de dados em classes distintas. Em um problema de classificação linear, os dados podem ser separados em duas classes por uma linha (ou plano no caso de mais dimensões).

No entanto, existem muitos hiperplanos possíveis que poderiam separar os dados. O **SVM escolhe o hiperplano que maximiza a margem** — a distância entre os pontos mais próximos de cada classe (chamados de **vetores de suporte**) e o hiperplano.

A **margem** é a distância entre o hiperplano e os pontos mais próximos de qualquer classe. O SVM tenta maximizar essa margem para garantir uma boa separação entre as classes, de modo que o modelo generalize bem em novos dados.

A equação de um hiperplano em um espaço de dimensão $ d $ é dada por:

$$
w \cdot x + b = 0
$$

Onde:

$ w $ é o vetor de pesos normais ao hiperplano.

$ x $ é o vetor de características (amostras).

$ b $ é o termo de bias.

<p align="center">
  <img style="width: 500px" src="images/hyperplanes and line.png">
</p>

Os pontos de dados mais próximos do hiperplano são chamados de **vetores de suporte**. Eles são críticos, pois definem a posição do hiperplano e a margem. Sem esses vetores de suporte, o hiperplano pode mudar de posição, e o modelo não teria uma boa generalização.

Os vetores de suporte são os pontos que têm a menor margem entre eles e o hiperplano, e estes são utilizados para **ajustar o hiperplano** durante o treinamento [3].

Se os dados forem linearmente separáveis, o SVM consegue encontrar um hiperplano que os separe perfeitamente. Porém, muitos problemas reais têm dados que não podem ser separados linearmente. Para isso, o SVM utiliza uma técnica chamada **kernel trick**.

O **kernel** permite que o SVM transforme os dados de um espaço de baixa dimensionalidade (onde os dados não são linearmente separáveis) para um espaço de maior dimensionalidade onde os dados podem ser separados linearmente. Existem alguns tipos de kernel comuns, como o **kernel linear**, **kernel polinomial** e **kernel RBF** [4].
- **Kernel linear:** usado quando os dados são linearmente separáveis.
- **Kernel polinomial:** mapeia os dados para uma dimensão mais alta utilizando polinômios.
- **Kernel RBF (Radial Basis Function):** usado para dados mais complexos, onde as fronteiras de decisão são não-lineares (também conhecido como kernel gaussiano).

**Vantagens do SVM:**
- Funciona bem com margens claras de separação.
- Eficaz em espaços de alta dimensionalidade.
- Ainda eficaz mesmo com poucos exemplos de treinamento.

**Desvantagens do SVM:**
- Não é eficiente com grandes conjuntos de dados (por exemplo, milhões de amostras).
- Não funciona bem quando há muita sobreposição entre as classes.
- Escolher o kernel e os parâmetros corretos pode ser desafiador.

## 🗡️ Que comecem os códigos!

### 📚 Importação de bibliotecas

Os cavaleiros importam as bibliotecas essenciais para a execução do código!

In [30]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.metrics import root_mean_squared_error, make_scorer
from sklearn.model_selection import cross_val_score

### ⚛️ Importação do Dataset

Antes de começar, devemos importar o conjunto de dados com o qual iremos trabalhar.

In [4]:
df = pd.read_csv(f"../data/train.csv", sep = ',')
df = df.dropna()
display(df)

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence,critical_temp
0,4,88.944468,57.862692,66.361592,36.116612,1.181795,1.062396,122.90607,31.794921,51.968828,...,2.257143,2.213364,2.219783,1.368922,1.066221,1,1.085714,0.433013,0.437059,29.00
1,5,92.729214,58.518416,73.132787,36.396602,1.449309,1.057755,122.90607,36.161939,47.094633,...,2.257143,1.888175,2.210679,1.557113,1.047221,2,1.128571,0.632456,0.468606,26.00
2,4,88.944468,57.885242,66.361592,36.122509,1.181795,0.975980,122.90607,35.741099,51.968828,...,2.271429,2.213364,2.232679,1.368922,1.029175,1,1.114286,0.433013,0.444697,19.00
3,4,88.944468,57.873967,66.361592,36.119560,1.181795,1.022291,122.90607,33.768010,51.968828,...,2.264286,2.213364,2.226222,1.368922,1.048834,1,1.100000,0.433013,0.440952,22.00
4,4,88.944468,57.840143,66.361592,36.110716,1.181795,1.129224,122.90607,27.848743,51.968828,...,2.242857,2.213364,2.206963,1.368922,1.096052,1,1.057143,0.433013,0.428809,23.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21258,4,106.957877,53.095769,82.515384,43.135565,1.177145,1.254119,146.88130,15.504479,65.764081,...,3.555556,3.223710,3.519911,1.377820,0.913658,1,2.168889,0.433013,0.496904,2.44
21259,5,92.266740,49.021367,64.812662,32.867748,1.323287,1.571630,188.38390,7.353333,69.232655,...,2.047619,2.168944,2.038991,1.594167,1.337246,1,0.904762,0.400000,0.212959,122.10
21260,2,99.663190,95.609104,99.433882,95.464320,0.690847,0.530198,13.51362,53.041104,6.756810,...,4.800000,4.472136,4.781762,0.686962,0.450561,1,3.200000,0.500000,0.400000,1.98
21261,2,99.663190,97.095602,99.433882,96.901083,0.690847,0.640883,13.51362,31.115202,6.756810,...,4.690000,4.472136,4.665819,0.686962,0.577601,1,2.210000,0.500000,0.462493,1.84


Só relembrando aquilo que já foi demonstrado anteriormente: o dataset com o qual estamos trabalhando não apresenta valores faltantes!

### 🗂️Treino ou teste?

Para, posteriormente, realizar uma análise da eficiência do modelo é essencial separarmos o dataframe em dados de **treino** (90% do dataset original) e dados **teste** (os 10% restantes). Isso foi feito por meio da função ``train_test_split`` do módulo ``scikit-learn``. 

In [5]:
tamanho_teste = 0.1
seed = 314159

indices = df.index
indices_treino, indices_teste = train_test_split(
    indices, test_size=tamanho_teste, random_state=seed, shuffle=True
)

df_treino = df.loc[indices_treino]
df_teste = df.loc[indices_teste]

Agora, definiremos X_treino e y_treino, bem como o X_teste e o y_teste, isto é, quais os atributos (x) e qual o target (y). Nesse sentido, o target será a temperatura crítica, enquanto os atributos serão as colunas restantes. Para isso, inicialmente, foi definida uma lista com os nomes das colunas do dataframe para facilitar o processo.

In [6]:
lista_colunas = list(df.columns)

target = [lista_colunas.pop(81)]
atributos = lista_colunas

y_treino = df_treino[target]
X_treino = df_treino[atributos]

y_teste = df_teste[target]
X_teste = df_teste[atributos]

## 🤌🏼 Utilizando o modelo SVM

Bom, agora que já entendemos o que é o SVM e como ele funciona, e também já feito as separações dos dados de treino e teste, podemos finalmente aplicar o modelo SVM nos dados.

In [14]:
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('svm', SVR(kernel='linear', C=1.0))
])

pipeline.fit(X_treino, y_treino.values.ravel())

In [33]:
pipeline.fit(X_treino, y_treino.values.ravel())

X_verdadeiro = X_teste
y_verdadeiro = y_teste.values.ravel()

y_previsto = pipeline.predict(X_verdadeiro)

RMSE = root_mean_squared_error(y_verdadeiro, y_previsto)

print(f"O RMSE do modelo foi de {RMSE} K.")

O RMSE do modelo foi de 18.35487988659475 K.


In [32]:
k = 5

scorer = make_scorer(root_mean_squared_error)

scores = cross_val_score(pipeline, X_treino, y_treino.values.ravel(), cv=k, scoring=scorer)

print(f'RMSE médio: {scores.mean():.2f} K')

RMSE médio: 18.10 K


## 🖇️ Referências

[1] IBM. “What Is Support Vector Machine? | IBM.” Www.ibm.com, 27 Dec. 2023, www.ibm.com/topics/support-vector-machine.

[2] “1.4. Support Vector Machines.” Scikit-Learn, 2024, scikit-learn.org/1.5/modules/svm.html.

[3] “Support Vector Machine.” Wikipedia, 4 Nov. 2023, en.wikipedia.org/wiki/Support_vector_machine#.

[4] Coutinho, Bernardo. “Modelos de Predição | SVM.” Turing Talks, 9 June 2020, medium.com/turing-talks/turing-talks-12-classifica%C3%A7%C3%A3o-por-svm-f4598094a3f1.