In [1]:
import pandas as pd

uri = 'https://gist.githubusercontent.com/guilhermesilveira/4d1d4a16ccbf6ea4e0a64a38a24ec884/raw/afd05cb0c796d18f3f5a6537053ded308ba94bf7/car-prices.csv'

dados = pd.read_csv(uri)
dados.head()

Unnamed: 0.1,Unnamed: 0,mileage_per_year,model_year,price,sold
0,0,21801,2000,30941.02,yes
1,1,7843,1998,40557.96,yes
2,2,7109,2006,89627.5,no
3,3,26823,2015,95276.14,no
4,4,7935,2014,117384.68,yes


In [2]:
renomeando_colunas = {
    'mileage_per_year':'milhas_por_ano',
    'model_year':'ano_do_modelo',
    'price':'preco',
    'sold':'vendido'
}
dados.rename(columns=renomeando_colunas, inplace=True)

In [3]:
substituir_coluna_vendido = {
    'yes':1,
    'no':0
}

dados['vendido'] = dados['vendido'].map(substituir_coluna_vendido)
dados.drop(columns='Unnamed: 0', inplace=True)

In [4]:
dados.head()

Unnamed: 0,milhas_por_ano,ano_do_modelo,preco,vendido
0,21801,2000,30941.02,1
1,7843,1998,40557.96,1
2,7109,2006,89627.5,0
3,26823,2015,95276.14,0
4,7935,2014,117384.68,1


In [5]:
from datetime import datetime
ano_atual = datetime.today().year

dados['idade_do_modelo'] = ano_atual - dados['ano_do_modelo']
dados.head()

Unnamed: 0,milhas_por_ano,ano_do_modelo,preco,vendido,idade_do_modelo
0,21801,2000,30941.02,1,24
1,7843,1998,40557.96,1,26
2,7109,2006,89627.5,0,18
3,26823,2015,95276.14,0,9
4,7935,2014,117384.68,1,10


In [6]:
dados['km_por_ano'] = dados['milhas_por_ano'] * 1.60934
dados.drop(columns={
    'milhas_por_ano',
    'ano_do_modelo'
},
inplace=True)

In [7]:
dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano
0,30941.02,1,24,35085.22134
1,40557.96,1,26,12622.05362
2,89627.5,0,18,11440.79806
3,95276.14,0,9,43167.32682
4,117384.68,1,10,12770.1129


In [8]:
dados.shape[0]

10000

In [15]:
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

In [16]:
np.random.seed(20)

treino_x, teste_x, treino_y, teste_y = train_test_split(
    dados[['preco', 'idade_do_modelo', 'km_por_ano']], 
    dados['vendido'],
    stratify=dados['vendido'],
    test_size=0.25
)

print(f'O número de itens para o treino foi: {len(treino_x)}')
print(f'O número de itens para teste foi: {len(teste_y)}')

O número de itens para o treino foi: 7500
O número de itens para teste foi: 2500


In [21]:
model = LinearSVC(dual=True)
model.fit(treino_x, treino_y)
previsao = model.predict(teste_x)
acuracia = accuracy_score(teste_y, previsao)

print(f'Treinamos com {len(treino_x)} e testaremos com {len(teste_x)}')

print(f'A acurácia foi de: {acuracia*100:.4}%')

Treinamos com 7500 e testaremos com 2500
A acurácia foi de: 58.2%




In [12]:
from sklearn.dummy import DummyClassifier

dummy = DummyClassifier()

dummy.fit(treino_x, treino_y)
previsao = dummy.predict(teste_x)
acuracia = accuracy_score(teste_y, previsao)

print(f'Treinamos com {len(treino_x)} e testaremos com {len(teste_x)}')

print(f'A acurácia do DUMMY: {acuracia*100:.4}%')

Treinamos com 7500 e testaremos com 2500
A acurácia do DUMMY: 58.0%
