In [3]:
import pandas as pd
import numpy as np
uri = "https://gist.githubusercontent.com/guilhermesilveira/4d1d4a16ccbf6ea4e0a64a38a24ec884/raw/afd05cb0c796d18f3f5a6537053ded308ba94bf7/car-prices.csv"
dados = pd.read_csv(uri)
dados.head()

Unnamed: 0.1,Unnamed: 0,mileage_per_year,model_year,price,sold
0,0,21801,2000,30941.02,yes
1,1,7843,1998,40557.96,yes
2,2,7109,2006,89627.5,no
3,3,26823,2015,95276.14,no
4,4,7935,2014,117384.68,yes


In [4]:

a_renomear = {
    'mileage_per_year' : 'milhas_por_ano',
    'model_year' : 'ano_do_modelo',
    'price' : 'preco',
    'sold' : 'vendido'
}
dados = dados.rename(columns=a_renomear)
dados.head()

Unnamed: 0.1,Unnamed: 0,milhas_por_ano,ano_do_modelo,preco,vendido
0,0,21801,2000,30941.02,yes
1,1,7843,1998,40557.96,yes
2,2,7109,2006,89627.5,no
3,3,26823,2015,95276.14,no
4,4,7935,2014,117384.68,yes


In [5]:
a_trocar = {
    'no' : 0,
    'yes' : 1
}
dados.vendido = dados.vendido.map(a_trocar)
dados.head()

Unnamed: 0.1,Unnamed: 0,milhas_por_ano,ano_do_modelo,preco,vendido
0,0,21801,2000,30941.02,1
1,1,7843,1998,40557.96,1
2,2,7109,2006,89627.5,0
3,3,26823,2015,95276.14,0
4,4,7935,2014,117384.68,1


In [6]:

from datetime import datetime

ano_atual = datetime.today().year
dados['idade_do_modelo'] = ano_atual - dados.ano_do_modelo
dados.head()

Unnamed: 0.1,Unnamed: 0,milhas_por_ano,ano_do_modelo,preco,vendido,idade_do_modelo
0,0,21801,2000,30941.02,1,21
1,1,7843,1998,40557.96,1,23
2,2,7109,2006,89627.5,0,15
3,3,26823,2015,95276.14,0,6
4,4,7935,2014,117384.68,1,7


In [7]:
dados['km_por_ano'] = dados.milhas_por_ano * 1.60934
dados.head()

Unnamed: 0.1,Unnamed: 0,milhas_por_ano,ano_do_modelo,preco,vendido,idade_do_modelo,km_por_ano
0,0,21801,2000,30941.02,1,21,35085.22134
1,1,7843,1998,40557.96,1,23,12622.05362
2,2,7109,2006,89627.5,0,15,11440.79806
3,3,26823,2015,95276.14,0,6,43167.32682
4,4,7935,2014,117384.68,1,7,12770.1129


In [8]:
dados = dados.drop(columns = ["Unnamed: 0", "milhas_por_ano","ano_do_modelo"], axis=1)
dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano
0,30941.02,1,21,35085.22134
1,40557.96,1,23,12622.05362
2,89627.5,0,15,11440.79806
3,95276.14,0,6,43167.32682
4,117384.68,1,7,12770.1129


In [9]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

x = dados[["preco", "idade_do_modelo","km_por_ano"]]
y = dados["vendido"]

SEED = 5
np.random.seed(SEED)
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = LinearSVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 7500 elementos e testaremos com 2500 elementos
A acurácia foi 58.00%


In [10]:
from sklearn.dummy import DummyClassifier

dummy_stratified = DummyClassifier()
dummy_stratified.fit(treino_x, treino_y)
acuracia = dummy_stratified.score(teste_x, teste_y) * 100

print("A acurácia do dummy stratified foi %.2f%%" % acuracia)

A acurácia do dummy stratified foi 58.00%


In [11]:
from sklearn.dummy import DummyClassifier

dummy_mostfrequent = DummyClassifier()
dummy_mostfrequent.fit(treino_x, treino_y)
acuracia = dummy_mostfrequent.score(teste_x, teste_y) * 100

print("A acurácia do dummy mostfrequent foi %.2f%%" % acuracia)

A acurácia do dummy mostfrequent foi 58.00%


In [12]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

SEED = 5
np.random.seed(SEED)
raw_treino_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

scaler = StandardScaler()
scaler.fit(raw_treino_x)
treino_x = scaler.transform(raw_treino_x)
teste_x = scaler.transform(raw_teste_x)

modelo = SVC()
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 7500 elementos e testaremos com 2500 elementos
A acurácia foi 77.48%


In [13]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

SEED = 5
np.random.seed(SEED)
raw_treino_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = DecisionTreeClassifier(max_depth=3)
modelo.fit(raw_treino_x, treino_y)
previsoes = modelo.predict(raw_teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 7500 elementos e testaremos com 2500 elementos
A acurácia foi 79.28%


In [18]:
def imprime_resultado(results):
    mean=results['test_score'].mean()
    print('a media da acuracia é %.2f' % (mean*100))
    desvio_padrao=results['test_score'].std()
    print(f'intervalo de confiança = [{round(mean-2*desvio_padrao,4)*100} , {round(mean+2*desvio_padrao,4)*100}]')

In [20]:
from sklearn.model_selection import cross_validate,KFold
cv=KFold(n_splits=5)
SEED = 1234
np.random.seed(SEED)
modelo=DecisionTreeClassifier(max_depth=2)
results=cross_validate(modelo,x,y,cv=cv,return_train_score=False)
imprime_resultado(results)


# cross validadate é um kfold

a media da acuracia é 75.78
intervalo de confiança = [75.33 , 76.23]


In [22]:
SEED = 1234
cv=KFold(n_splits=5,shuffle=True)
np.random.seed(SEED)
modelo=DecisionTreeClassifier(max_depth=2)
results=cross_validate(modelo,x,y,cv=cv,return_train_score=False)
imprime_resultado(results)


# cross validadate é um kfold

a media da acuracia é 75.78
intervalo de confiança = [74.63 , 76.92999999999999]


In [27]:
dados_azar=dados.sort_values(by='vendido',ascending=True)
x_azar=dados_azar[["preco", "idade_do_modelo","km_por_ano"]]
y_azar=dados_azar['vendido']
dados_azar.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano
4999,74023.29,0,15,24812.80412
5322,84843.49,0,16,23095.63834
5319,83100.27,0,22,36240.72746
5316,87932.13,0,19,32249.56426
5315,77937.01,0,18,28414.50704


In [28]:
cv=KFold(n_splits=5)
SEED = 1234
np.random.seed(SEED)
modelo=DecisionTreeClassifier(max_depth=2)
results=cross_validate(modelo,x_azar,y_azar,cv=cv,return_train_score=False)
imprime_resultado(results)

a media da acuracia é 59.70
intervalo de confiança = [32.22 , 87.18]


In [29]:
SEED = 1234
cv=KFold(n_splits=5,shuffle=True)
np.random.seed(SEED)
modelo=DecisionTreeClassifier(max_depth=2)
results=cross_validate(modelo,x_azar,y_azar,cv=cv,return_train_score=False)
imprime_resultado(results)


# cross validadate é um kfold

a media da acuracia é 75.78
intervalo de confiança = [73.57000000000001 , 77.99000000000001]


In [30]:
from sklearn.model_selection import StratifiedKFold
cv=StratifiedKFold(n_splits=5,shuffle=True)
SEED = 1234
np.random.seed(SEED)
modelo=DecisionTreeClassifier(max_depth=2)
results=cross_validate(modelo,x,y,cv=cv,return_train_score=False)
imprime_resultado(results)

a media da acuracia é 75.79
intervalo de confiança = [74.0 , 77.58]


In [39]:
np.random.seed(4)
dados['modelo']=dados.idade_do_modelo+np.random.randint(-2,2,size=10000)
dados.modelo=abs(dados.modelo)

In [42]:
from sklearn.model_selection import GroupKFold
cv=GroupKFold(n_splits=5)
SEED = 1234
np.random.seed(SEED)
modelo=DecisionTreeClassifier(max_depth=2)
results=cross_validate(modelo,x,y,cv=cv,return_train_score=False,groups=dados.modelo)
imprime_resultado(results)

a media da acuracia é 75.78
intervalo de confiança = [74.3 , 77.25]


In [45]:

np.random.seed(123)
scaler=StandardScaler()

scaler.fit(treino_x)
treino_x_escalado=scaler.transform(treino_x)
teste_x_escalado=scaler.transform(teste_x)

modelo=SVC()
modelo.fit(treino_x_escalado,treino_y)
previsoes=modelo.predict(teste_x_escalado)
acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

A acurácia foi 77.48%


In [49]:

np.random.seed(301)


modelo=SVC()
cv=GroupKFold(n_splits=10)

results=cross_validate(modelo,x_azar,y_azar,cv=cv,return_train_score=False,groups=dados.modelo)
imprime_resultado(results)

a media da acuracia é 77.21
intervalo de confiança = [75.82 , 78.60000000000001]


In [48]:
np.random.seed(123)
scaler=StandardScaler()

scaler.fit(x_azar)
x_azar_escalado=scaler.transform(x_azar)

modelo=SVC()
cv=GroupKFold(n_splits=5)

results=cross_validate(modelo,x_azar_escalado,y_azar,cv=cv,return_train_score=False,groups=dados.modelo)
imprime_resultado(results)

a media da acuracia é 76.57
intervalo de confiança = [75.42999999999999 , 77.71000000000001]


In [54]:
from sklearn.pipeline import Pipeline
np.random.seed(123)


scaler=StandardScaler()
modelo=SVC()
pipeline=Pipeline([('transformacao',scaler),('estimador',modelo)])
cv=GroupKFold(n_splits=5)

results=cross_validate(pipeline,x_azar,y_azar,cv=cv,return_train_score=False,groups=dados.modelo)
imprime_resultado(results)

a media da acuracia é 76.56
intervalo de confiança = [75.4 , 77.71000000000001]
