In [20]:
from enum import auto
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler
from datetime import datetime
from sklearn.dummy import DummyClassifier as dum

dados = pd.read_csv("https://gist.githubusercontent.com/guilhermesilveira/dd7ba8142321c2c8aaa0ddd6c8862fcc/raw/e694a9b43bae4d52b6c990a5654a193c3f870750/precos.csv")
dados["km_por_ano"] = dados.milhas_por_ano * 1.60934
dados["preco"] = dados.preco / 10000
dados["idade"] = datetime.today().year - dados.ano_do_modelo
dados.drop(["milhas_por_ano", "ano_do_modelo"], axis=1, inplace=True)

x = dados[["preco", "idade", "km_por_ano"]]
y = dados["vendido"]

len(dados.query("vendido == True")) / len(dados)

0.58

In [14]:
# trabalhar modelo SVC
SEED = 20

raw_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y,
                                                         random_state = SEED,
                                                         stratify = y)
print(f"Treinaremos com {len(raw_x)}")
print(f"Testaremos com {len(raw_teste_x)}")

scaler = StandardScaler()
scaler.fit(raw_x)
treino_x = scaler.transform(raw_x)
teste_x = scaler.transform(raw_teste_x)

modelo = SVC(gamma="auto")
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acurácia foi de {acuracia:.2f}%")

Treinaremos com 7500
Testaremos com 2500
A acurácia foi de 75.92%


In [15]:
# trabalhar modelo LinearSVC
SEED = 20

raw_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y,
                                                         random_state = SEED,
                                                         stratify = y)
print(f"Treinaremos com {len(raw_x)}")
print(f"Testaremos com {len(raw_teste_x)}")

scaler = StandardScaler()
scaler.fit(raw_x)
treino_x = scaler.transform(raw_x)
teste_x = scaler.transform(raw_teste_x)

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acurácia foi de {acuracia:.2f}%")

Treinaremos com 7500
Testaremos com 2500
A acurácia foi de 69.92%


In [22]:
# trabalhar modelo DummyClassifier most frequent

SEED = 20

raw_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y,
                                                         random_state = SEED,
                                                         stratify = y)
print(f"Treinaremos com {len(raw_x)}")
print(f"Testaremos com {len(raw_teste_x)}")

modelo = dum()
modelo.fit(raw_x, treino_y)
previsoes = modelo.predict(raw_teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acurácia foi de {acuracia:.2f}%")

Treinaremos com 7500
Testaremos com 2500
A acurácia foi de 58.00%


In [24]:
# trabalhar modelo DummyClassifier stratified

SEED = 20

raw_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y,
                                                         random_state = SEED,
                                                         stratify = y)
print(f"Treinaremos com {len(raw_x)}")
print(f"Testaremos com {len(raw_teste_x)}")

modelo = dum(strategy = 'stratified')
modelo.fit(raw_x, treino_y)
previsoes = modelo.predict(raw_teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print(f"A acurácia foi de {acuracia:.2f}%")

Treinaremos com 7500
Testaremos com 2500
A acurácia foi de 51.52%
