### Algoritmo de Classificação com SVM (Máquina de Vetores de Suporte)
Esse algoritmo encontra uma linha que separe as duas classes.

In [7]:
import pandas as pd
from datetime import datetime
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
import numpy as np

In [8]:
url = "https://gist.githubusercontent.com/guilhermesilveira/4d1d4a16ccbf6ea4e0a64a38a24ec884/raw/afd05cb0c796d18f3f5a6537053ded308ba94bf7/car-prices.csv"
df = pd.read_csv(url)

map = {
    "mileage_per_year": "milhas_por_ano",
    "model_year": "ano_modelo",
    "price": "preco",
    "sold": "vendido",
}

df = df.rename(columns=map)

trocar = {
    "yes": 1,
    "no": 0,
}

df["vendido"] = df.vendido.map(trocar)

ano_atual = datetime.today().year
df["idade"] = ano_atual - df.ano_modelo
df["km_por_ano"] = df.milhas_por_ano * 1.60934

df.drop(columns=["Unnamed: 0", "milhas_por_ano", "ano_modelo"], axis=1, inplace=True)

df

Unnamed: 0,preco,vendido,idade,km_por_ano
0,30941.02,1,22,35085.22134
1,40557.96,1,24,12622.05362
2,89627.50,0,16,11440.79806
3,95276.14,0,7,43167.32682
4,117384.68,1,8,12770.11290
...,...,...,...,...
9995,97112.86,0,16,25060.64248
9996,107424.63,1,20,21317.31764
9997,93856.99,0,8,20950.38812
9998,51250.57,1,11,16840.13376


In [9]:
x = df[["preco", "idade", "km_por_ano"]]
y = df["vendido"]

SEED = 5
np.random.seed(SEED)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, stratify=y)
modelo = LinearSVC()
modelo.fit(x_train, y_train)
previsoes = modelo.predict(x_test)

acuracia = accuracy_score(y_test, previsoes) * 100
print("A acurária foi de %.2f%%" % acuracia)

print(
    "Proporção para Dados de Treino: %.2f\nProporção para Dados de Teste: %.2f"
    % (
        round(
            y_train.value_counts().to_list()[0] / y_train.value_counts().to_list()[1], 2
        ),
        round(
            y_test.value_counts().to_list()[0] / y_test.value_counts().to_list()[1], 2
        ),
    )
)

A acurária foi de 46.88%
Proporção para Dados de Treino: 1.38
Proporção para Dados de Teste: 1.38




In [10]:
from sklearn.dummy import DummyClassifier

dummy_stratified = DummyClassifier(strategy="stratified")
dummy_stratified.fit(x_train, y_train)
previsoes = dummy_stratified.predict(x_test)

acuracia = dummy_stratified.score(y_test, previsoes) * 100
print("A acurária do Dummy Stratified foi de %.2f%%" % acuracia)

A acurária do Dummy Stratified foi de 52.96%


In [11]:
from sklearn.dummy import DummyClassifier

dummy_mostfrequent = DummyClassifier(strategy="most_frequent")
dummy_mostfrequent.fit(x_train, y_train)
previsoes = dummy_mostfrequent.predict(x_test)
acuracia = dummy_mostfrequent.score(y_test, previsoes) * 100
print("A acurária do Dummy Most Frequent foi de %.2f%%" % acuracia)

A acurária do Dummy Most Frequent foi de 100.00%


In [12]:
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

SEED = 5
np.random.seed(SEED)

raw_x_train, raw_x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

scaler = StandardScaler()
scaler.fit(raw_x_train)
x_train = scaler.transform(raw_x_train)
x_test = scaler.transform(raw_x_test)

modelo = SVC()
modelo.fit(x_train, y_train)
previsoes = modelo.predict(x_test)

acuracia = accuracy_score(y_test, previsoes) * 100
print("A acurária foi de %.2f%%" % acuracia)

print(
    "Proporção para Dados de Treino: %.2f\nProporção para Dados de Teste: %.2f"
    % (
        round(
            y_train.value_counts().to_list()[0] / y_train.value_counts().to_list()[1], 2
        ),
        round(
            y_test.value_counts().to_list()[0] / y_test.value_counts().to_list()[1], 2
        ),
    )
)

A acurária foi de 76.80%
Proporção para Dados de Treino: 1.36
Proporção para Dados de Teste: 1.45
