# üåå Tentando algo diferente

Guerreiros da miss√£o: **Tsuru** (J√∫lia Guedes Almeida dos Santos), **P√≥lux** (Raquel de Godoy Vianna) e **Tiles** (Thalles Jos√© de Souza Cansi).

> Macaco velho n√£o p√µe a m√£o na cumbuca

## üñºÔ∏è Enunciado

Escolha um dos seguintes algoritmos de aprendizado de m√°quina: Support Vector Machine, Naive Bayes ou Gaussian Proccesses. Sua tarefa √© entender como este algoritmo funciona e reportar isso de maneira clara e did√°tica. Induza um modelo utilizando este algoritmo nos dados que pretende usar no seu projeto de conclus√£o do semestre desta disciplina.

## üìù Introdu√ß√£o

Em mais um novo desafio, os cavaleiros da Alian√ßa da Supernova est√£o √† todo vapor para entender e aplicar um novo algoritmo de aprendizado de m√°quina. Dessa vez, o algoritmo escolhido foi o **Support Vector Machine (SVM)**. Este algoritmo √© um dos mais populares e eficazes para classifica√ß√£o de dados, sendo muito utilizado em problemas de aprendizado supervisionado.

## üìö Support Vector Machine (SVM)

O SVM √© um algoritmo de aprendizado de m√°quina supervisionado que classifica dados encontrando uma linha ou hiperplano ideal que maximiza a dist√¢ncia entre cada classe em um espa√ßo N-dimensional. [1]

<!-- alinhar imagem no centro -->
<p align="center">
  <img style="width: 500px;" src="images/Svm separating hyperplanes.svg">
</p>

A reta √≥tima (H3) √© a mais distante dos dois grupos, considerando apenas os pontos de cada grupo mais pr√≥ximos √† reta (como indicado pelas linhas cinzas). Fonte: [Wikimedia Commons](https://commons.wikimedia.org/wiki/File:Svm_separating_hyperplanes(SVG).svg).

O SVM √© especialmente eficaz em situa√ß√µes onde o n√∫mero de dimens√µes √© maior que o n√∫mero de amostras. Al√©m disso, utiliza apenas um subconjunto dos dados de treinamento (os vetores de suporte), tornando-o eficiente em termos computacionais [2].

A ideia central do SVM √© encontrar um **hiperplano** que divida os pontos de dados em classes distintas. Em um problema de classifica√ß√£o linear, os dados podem ser separados em duas classes por uma linha (ou plano no caso de mais dimens√µes).

No entanto, existem muitos hiperplanos poss√≠veis que poderiam separar os dados. O **SVM escolhe o hiperplano que maximiza a margem** ‚Äî a dist√¢ncia entre os pontos mais pr√≥ximos de cada classe (chamados de **vetores de suporte**) e o hiperplano.

A **margem** √© a dist√¢ncia entre o hiperplano e os pontos mais pr√≥ximos de qualquer classe. O SVM tenta maximizar essa margem para garantir uma boa separa√ß√£o entre as classes, de modo que o modelo generalize bem em novos dados.

A equa√ß√£o de um hiperplano em um espa√ßo de dimens√£o $ d $ √© dada por:

$$
w \cdot x + b = 0
$$

Onde:

$ w $ √© o vetor de pesos normais ao hiperplano.

$ x $ √© o vetor de caracter√≠sticas (amostras).

$ b $ √© o termo de bias.

<p align="center">
  <img style="width: 500px" src="images/hyperplanes and line.png">
</p>

Os pontos de dados mais pr√≥ximos do hiperplano s√£o chamados de **vetores de suporte**. Eles s√£o cr√≠ticos, pois definem a posi√ß√£o do hiperplano e a margem. Sem esses vetores de suporte, o hiperplano pode mudar de posi√ß√£o, e o modelo n√£o teria uma boa generaliza√ß√£o.

Os vetores de suporte s√£o os pontos que t√™m a menor margem entre eles e o hiperplano, e estes s√£o utilizados para **ajustar o hiperplano** durante o treinamento [3].

Se os dados forem linearmente separ√°veis, o SVM consegue encontrar um hiperplano que os separe perfeitamente. Por√©m, muitos problemas reais t√™m dados que n√£o podem ser separados linearmente. Para isso, o SVM utiliza uma t√©cnica chamada **kernel trick**.

O **kernel** permite que o SVM transforme os dados de um espa√ßo de baixa dimensionalidade (onde os dados n√£o s√£o linearmente separ√°veis) para um espa√ßo de maior dimensionalidade onde os dados podem ser separados linearmente. Existem alguns tipos de kernel comuns, como o **kernel linear**, **kernel polinomial** e **kernel RBF** [4].
- **Kernel linear:** usado quando os dados s√£o linearmente separ√°veis.
- **Kernel polinomial:** mapeia os dados para uma dimens√£o mais alta utilizando polin√¥mios.
- **Kernel RBF (Radial Basis Function):** usado para dados mais complexos, onde as fronteiras de decis√£o s√£o n√£o-lineares (tamb√©m conhecido como kernel gaussiano).

**Vantagens do SVM:**
- Funciona bem com margens claras de separa√ß√£o.
- Eficaz em espa√ßos de alta dimensionalidade.
- Ainda eficaz mesmo com poucos exemplos de treinamento.

**Desvantagens do SVM:**
- N√£o √© eficiente com grandes conjuntos de dados (por exemplo, milh√µes de amostras).
- N√£o funciona bem quando h√° muita sobreposi√ß√£o entre as classes.
- Escolher o kernel e os par√¢metros corretos pode ser desafiador.

## üó°Ô∏è Que comecem os c√≥digos!

### üìö Importa√ß√£o de bibliotecas

Os cavaleiros importam as bibliotecas essenciais para a execu√ß√£o do c√≥digo!

In [30]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.metrics import root_mean_squared_error, make_scorer
from sklearn.model_selection import cross_val_score

### ‚öõÔ∏è Importa√ß√£o do Dataset

Antes de come√ßar, devemos importar o conjunto de dados com o qual iremos trabalhar.

In [4]:
df = pd.read_csv(f"../data/train.csv", sep = ',')
df = df.dropna()
display(df)

Unnamed: 0,number_of_elements,mean_atomic_mass,wtd_mean_atomic_mass,gmean_atomic_mass,wtd_gmean_atomic_mass,entropy_atomic_mass,wtd_entropy_atomic_mass,range_atomic_mass,wtd_range_atomic_mass,std_atomic_mass,...,wtd_mean_Valence,gmean_Valence,wtd_gmean_Valence,entropy_Valence,wtd_entropy_Valence,range_Valence,wtd_range_Valence,std_Valence,wtd_std_Valence,critical_temp
0,4,88.944468,57.862692,66.361592,36.116612,1.181795,1.062396,122.90607,31.794921,51.968828,...,2.257143,2.213364,2.219783,1.368922,1.066221,1,1.085714,0.433013,0.437059,29.00
1,5,92.729214,58.518416,73.132787,36.396602,1.449309,1.057755,122.90607,36.161939,47.094633,...,2.257143,1.888175,2.210679,1.557113,1.047221,2,1.128571,0.632456,0.468606,26.00
2,4,88.944468,57.885242,66.361592,36.122509,1.181795,0.975980,122.90607,35.741099,51.968828,...,2.271429,2.213364,2.232679,1.368922,1.029175,1,1.114286,0.433013,0.444697,19.00
3,4,88.944468,57.873967,66.361592,36.119560,1.181795,1.022291,122.90607,33.768010,51.968828,...,2.264286,2.213364,2.226222,1.368922,1.048834,1,1.100000,0.433013,0.440952,22.00
4,4,88.944468,57.840143,66.361592,36.110716,1.181795,1.129224,122.90607,27.848743,51.968828,...,2.242857,2.213364,2.206963,1.368922,1.096052,1,1.057143,0.433013,0.428809,23.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21258,4,106.957877,53.095769,82.515384,43.135565,1.177145,1.254119,146.88130,15.504479,65.764081,...,3.555556,3.223710,3.519911,1.377820,0.913658,1,2.168889,0.433013,0.496904,2.44
21259,5,92.266740,49.021367,64.812662,32.867748,1.323287,1.571630,188.38390,7.353333,69.232655,...,2.047619,2.168944,2.038991,1.594167,1.337246,1,0.904762,0.400000,0.212959,122.10
21260,2,99.663190,95.609104,99.433882,95.464320,0.690847,0.530198,13.51362,53.041104,6.756810,...,4.800000,4.472136,4.781762,0.686962,0.450561,1,3.200000,0.500000,0.400000,1.98
21261,2,99.663190,97.095602,99.433882,96.901083,0.690847,0.640883,13.51362,31.115202,6.756810,...,4.690000,4.472136,4.665819,0.686962,0.577601,1,2.210000,0.500000,0.462493,1.84


S√≥ relembrando aquilo que j√° foi demonstrado anteriormente: o dataset com o qual estamos trabalhando n√£o apresenta valores faltantes!

### üóÇÔ∏èTreino ou teste?

Para, posteriormente, realizar uma an√°lise da efici√™ncia do modelo √© essencial separarmos o dataframe em dados de **treino** (90% do dataset original) e dados **teste** (os 10% restantes). Isso foi feito por meio da fun√ß√£o ``train_test_split`` do m√≥dulo ``scikit-learn``. 

In [5]:
tamanho_teste = 0.1
seed = 314159

indices = df.index
indices_treino, indices_teste = train_test_split(
    indices, test_size=tamanho_teste, random_state=seed, shuffle=True
)

df_treino = df.loc[indices_treino]
df_teste = df.loc[indices_teste]

Agora, definiremos X_treino e y_treino, bem como o X_teste e o y_teste, isto √©, quais os atributos (x) e qual o target (y). Nesse sentido, o target ser√° a temperatura cr√≠tica, enquanto os atributos ser√£o as colunas restantes. Para isso, inicialmente, foi definida uma lista com os nomes das colunas do dataframe para facilitar o processo.

In [6]:
lista_colunas = list(df.columns)

target = [lista_colunas.pop(81)]
atributos = lista_colunas

y_treino = df_treino[target]
X_treino = df_treino[atributos]

y_teste = df_teste[target]
X_teste = df_teste[atributos]

## ü§åüèº Utilizando o modelo SVM

Bom, agora que j√° entendemos o que √© o SVM e como ele funciona, e tamb√©m j√° feito as separa√ß√µes dos dados de treino e teste, podemos finalmente aplicar o modelo SVM nos dados.

In [14]:
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('svm', SVR(kernel='linear', C=1.0))
])

pipeline.fit(X_treino, y_treino.values.ravel())

In [33]:
pipeline.fit(X_treino, y_treino.values.ravel())

X_verdadeiro = X_teste
y_verdadeiro = y_teste.values.ravel()

y_previsto = pipeline.predict(X_verdadeiro)

RMSE = root_mean_squared_error(y_verdadeiro, y_previsto)

print(f"O RMSE do modelo foi de {RMSE} K.")

O RMSE do modelo foi de 18.35487988659475 K.


In [32]:
k = 5

scorer = make_scorer(root_mean_squared_error)

scores = cross_val_score(pipeline, X_treino, y_treino.values.ravel(), cv=k, scoring=scorer)

print(f'RMSE m√©dio: {scores.mean():.2f} K')

RMSE m√©dio: 18.10 K


## üñáÔ∏è Refer√™ncias

[1] IBM. ‚ÄúWhat Is Support Vector Machine? | IBM.‚Äù Www.ibm.com, 27 Dec. 2023, www.ibm.com/topics/support-vector-machine.

[2] ‚Äú1.4. Support Vector Machines.‚Äù Scikit-Learn, 2024, scikit-learn.org/1.5/modules/svm.html.

[3] ‚ÄúSupport Vector Machine.‚Äù Wikipedia, 4 Nov. 2023, en.wikipedia.org/wiki/Support_vector_machine#.

[4] Coutinho, Bernardo. ‚ÄúModelos de Predi√ß√£o | SVM.‚Äù Turing Talks, 9 June 2020, medium.com/turing-talks/turing-talks-12-classifica%C3%A7%C3%A3o-por-svm-f4598094a3f1.