In [1]:
import pandas as pd
uri = 'https://gist.githubusercontent.com/guilhermesilveira/4d1d4a16ccbf6ea4e0a64a38a24ec884/raw/afd05cb0c796d18f3f5a6537053ded308ba94bf7/car-prices.csv'

In [2]:
dados = pd.read_csv(uri)

In [3]:
dados.head()

Unnamed: 0.1,Unnamed: 0,mileage_per_year,model_year,price,sold
0,0,21801,2000,30941.02,yes
1,1,7843,1998,40557.96,yes
2,2,7109,2006,89627.5,no
3,3,26823,2015,95276.14,no
4,4,7935,2014,117384.68,yes


In [4]:
dados['sold'] = dados['sold'].map({'yes':1, 'no' : 0})

In [5]:
from datetime import datetime
ano_atual = datetime.today().year
dados['idade'] = ano_atual - dados[['model_year']]

In [6]:
dados = dados.drop(columns= ['Unnamed: 0', 'model_year'], axis=1)

In [7]:
dados.head()

Unnamed: 0,mileage_per_year,price,sold,idade
0,21801,30941.02,1,22
1,7843,40557.96,1,24
2,7109,89627.5,0,16
3,26823,95276.14,0,7
4,7935,117384.68,1,8


In [8]:
dados['km_ano'] = dados['mileage_per_year'] * 1.60934

In [9]:
dados.drop(columns = ['mileage_per_year'], axis=1, inplace=True)

In [10]:
dados.head()

Unnamed: 0,price,sold,idade,km_ano
0,30941.02,1,22,35085.22134
1,40557.96,1,24,12622.05362
2,89627.5,0,16,11440.79806
3,95276.14,0,7,43167.32682
4,117384.68,1,8,12770.1129


### Model Linear

In [11]:
import numpy as np
x = dados[['price', 'idade', 'km_ano']]
y = dados['sold']


from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

Seed = 5
np.random.seed(Seed)

train_x, test_x, train_y, test_y = train_test_split(x, y, test_size = 0.25, stratify = y)

model = LinearSVC()
model.fit(train_x, train_y)
predictions = model.predict(test_x)

accuracy = accuracy_score(test_y, predictions) * 100

print(f"Acuracia: {round(accuracy_score(test_y, predictions),2)*100}%")
print(f"Treinado com {len(train_x)} e testado com {len(test_x)}")


Acuracia: 47.0%
Treinado com 7500 e testado com 2500




In [12]:
from sklearn.dummy import DummyClassifier

dummy = DummyClassifier()
dummy.fit(train_x, train_y)
previsoes = dummy.predict(test_x)
acuraria = accuracy_score(test_y, previsoes) * 100
print(f"Acuracia do dummy é: {round(accuracy_score(test_y, previsoes),2)*100}%")

Acuracia do dummy é: 57.99999999999999%


In [13]:

dummy_stratified = DummyClassifier()
dummy_stratified.fit(train_x, train_y)
dummy_stratified.score(test_x, test_y)
acuraria = accuracy_score(test_y, previsoes) * 100
print(f"Acuracia do dummy stratified é: {round(accuracy_score(test_y, previsoes),2)*100}%")

Acuracia do dummy stratified é: 57.99999999999999%


In [14]:
import numpy as np

In [15]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

SEED = 5
np.random.seed(SEED)
raw_train_x, raw_test_x, trein_y, test_y = train_test_split(x, y, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(train_x), len(test_x)))

scaler = StandardScaler()
scaler.fit(raw_train_x)
treino_x = scaler.transform(raw_train_x)
teste_x = scaler.transform(raw_test_x)

modelo = SVC()
modelo.fit(train_x, train_y)
previsoes = modelo.predict(test_x)

acuracia = accuracy_score(test_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 7500 elementos e testaremos com 2500 elementos
A acurácia foi 78.24%


### Decison Tree

In [16]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

SEED = 5
np.random.seed(SEED)
raw_train_x, raw_test_x, trein_y, test_y = train_test_split(x, y, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(train_x), len(test_x)))

scaler = StandardScaler()
scaler.fit(raw_train_x)
treino_x = scaler.transform(raw_train_x)
teste_x = scaler.transform(raw_test_x)

modelo = DecisionTreeClassifier(max_depth=2)
modelo.fit(train_x, train_y)
previsoes = modelo.predict(test_x)

acuracia = accuracy_score(test_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 7500 elementos e testaremos com 2500 elementos
A acurácia foi 76.84%


In [17]:
# !pip install graphviz

In [18]:
# from sklearn.tree import export_graphviz
# import graphviz
# dot_data = export_graphviz(modelo, out_file=None)
# grafico = graphviz.Source(dot_data)
# grafico

Personalizando a arvore

In [19]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

SEED = 5
np.random.seed(SEED)
raw_train_x, raw_test_x, trein_y, test_y = train_test_split(x, y, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(train_x), len(test_x)))



modelo = DecisionTreeClassifier(max_depth=2)
modelo.fit(train_x, train_y)
previsoes = modelo.predict(test_x)

acuracia = accuracy_score(test_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)

Treinaremos com 7500 elementos e testaremos com 2500 elementos
A acurácia foi 76.84%


In [20]:
# from sklearn.tree import export_graphviz


# features = x.columns
# dot_data = export_graphviz(modelo, out_file=None,
# filled = True, rounded= True,
# feature_names = features,
# class_names = ['não', 'sim'])
# grafico = graphviz.Source(dot_data)
# grafico

## Avaliando modelo - Cross Validation

In [21]:
#importando modelo
from sklearn.model_selection import cross_validate

#Definindo a aletoriedade
SEED=5
np.random.seed(SEED)

#definindo modelo
modelo = DecisionTreeClassifier(max_depth=2)
#definindo validação cruzada
result = cross_validate(model, x,y,cv=5)
#imprimindo resultados
result



{'fit_time': array([0.40616035, 0.39990187, 0.3697052 , 0.35186839, 0.36003637]),
 'score_time': array([0.00343323, 0.00377369, 0.00184488, 0.00369573, 0.00199461]),
 'test_score': array([0.58 , 0.58 , 0.58 , 0.58 , 0.459])}

In [22]:
#Selecionando somente o teste
result['test_score']

#Calculando a media
media = result['test_score'].mean()

#Calculando o desvio padrão
desvio_padrao = result['test_score'].std()

#Intervalo 
intervalo = (media - 2* desvio_padrao, media + 2* desvio_padrao) 
print(f'A acurácia com Cros Validation é {intervalo}')

A acurácia com Cros Validation é (0.459, 0.6526)


### Aleatoriedade no Cross Validation

In [23]:
#Criando uma função
def imprime_resultados(resultados):
    media = result['test_score'].mean()
    desvio_padrao = result['test_score'].std()
    print("A Acurácia média é %.2f" % (media * 100))
    print("Intervalo de Acuracia com cros validatoin = [%.2f, %.2f]" % (media - 2*desvio_padrao, media + 2*desvio_padrao))

In [24]:
#Importando KFold
from sklearn.model_selection import KFold

#Criando aleatoriedae
SEED = 301
np.random.seed(SEED)

#Instaciando
cv = KFold(n_splits=10)

#Definindo modelo
modelo = DecisionTreeClassifier(max_depth=10)
results = cross_validate(modelo, x, y, cv=cv)
imprime_resultados(results)


A Acurácia média é 55.58
Intervalo de Acuracia com cros validatoin = [0.46, 0.65]


In [25]:
#Modelo com aleatoriedade, sfuffle
#Criando aleatoriedae
SEED = 301
np.random.seed(SEED)

#Definindo modelo com shuffle
cv = KFold(n_splits=10, shuffle=True)

#Definindo modelo
modelo = DecisionTreeClassifier(max_depth=10)
results = cross_validate(modelo, x, y, cv=cv)
imprime_resultados(results)


A Acurácia média é 55.58
Intervalo de Acuracia com cros validatoin = [0.46, 0.65]


In [26]:
#Simulando dados com azar

dados_azar = dados.sort_values("sold", ascending=True)
x_azar = dados_azar [['price', 'idade', 'km_ano']]
y_azar = dados_azar['sold']


In [27]:
#Definindo o modelo com dados de azar
from sklearn.model_selection import KFold

SEED = 301
np.random.seed(SEED)

cv = KFold(n_splits = 10)
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, return_train_score=False)
imprime_resultados(results)

A Acurácia média é 55.58
Intervalo de Acuracia com cros validatoin = [0.46, 0.65]


In [28]:
from sklearn.model_selection import KFold

SEED = 301
np.random.seed(SEED)

cv = KFold(n_splits = 10, shuffle=True)
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, return_train_score=False)
imprime_resultados(results)

A Acurácia média é 55.58
Intervalo de Acuracia com cros validatoin = [0.46, 0.65]


In [29]:
#Importando o StratifiedKFold
from sklearn.model_selection import StratifiedKFold

SEED = 301
np.random.seed(SEED)

cv = StratifiedKFold(n_splits = 10)
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, return_train_score=False)
imprime_resultados(results)

A Acurácia média é 55.58
Intervalo de Acuracia com cros validatoin = [0.46, 0.65]


### Gerando dados aleatórios


In [32]:
#Gerando aleatoriedade
np.random.seed(SEED)

#Gerando numeros entre -2 e 2 (3 excliuido)
np.random.randint(-2,3, size=10000)

array([-2,  2,  0, ...,  0,  2,  2])

In [35]:
#Inserindo modelo aleatorio no df
dados['aleatorio']=dados.idade + np.random.randint(-2,3, size=10000)

In [37]:
dados.head()

Unnamed: 0,price,sold,idade,km_ano,aleatorio
0,30941.02,1,22,35085.22134,21
1,40557.96,1,24,12622.05362,23
2,89627.5,0,16,11440.79806,14
3,95276.14,0,7,43167.32682,5
4,117384.68,1,8,12770.1129,6


In [38]:
dados.aleatorio.unique()

array([21, 23, 14,  5,  6, 17, 18, 13,  7, 19, 11, 16,  9, 20,  8, 24, 22,
       10, 26, 15, 25, 12,  4,  3])

### Validação usando grupos

In [40]:
#Importando biblioteca
from sklearn.model_selection import GroupKFold

SEED = 301
np.random.seed(SEED)

#Instanciando modelo
cv = GroupKFold(n_splits=10)
#Definindo modelo
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x_azar, y_azar, cv = cv, groups = dados.aleatorio)
imprime_resultados(results)

A Acurácia média é 55.58
Intervalo de Acuracia com cros validatoin = [0.46, 0.65]


### Pipeline


In [45]:
#importando bibliotecas
from sklearn.pipeline import Pipeline

SEED = 301
np.random.seed(SEED)

#Escalonador
scaler = StandardScaler()
#Modelo
modelo = SVC()

#Definindo pipeline
pipeline = Pipeline([('transformação', scaler), ('Estimador', modelo)])

#Parametros
cv = GroupKFold(n_splits = 10)
result = cross_validate(pipeline, x_azar, y_azar, cv = cv, groups = dados.aleatorio)
imprime_resultados(results)

A Acurácia média é 76.62
Intervalo de Acuracia com cros validatoin = [0.74, 0.79]


In [47]:
num = []
cat = []
for col in dados.columns:
    if dados[col].dtype == 'object':
        cat.append(col)
    else:
        num.append(col)