## Importa bibliotecas

In [72]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
from sklearn.dummy import DummyClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold, StratifiedKFold


## Carrega dados

In [2]:
uri = "https://gist.githubusercontent.com/guilhermesilveira/e99a526b2e7ccc6c3b70f53db43a87d2/raw/1605fc74aa778066bf2e6695e24d53cf65f2f447/machine-learning-carros-simulacao.csv"

dados = pd.read_csv(uri).drop(columns=["Unnamed: 0"], axis=1)
dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano
0,30941.02,1,18,35085.22134
1,40557.96,1,20,12622.05362
2,89627.5,0,12,11440.79806
3,95276.14,0,3,43167.32682
4,117384.68,1,4,12770.1129


In [3]:
x = dados [["preco", "idade_do_modelo", "km_por_ano"]]
y = dados ["vendido"]

In [7]:
SEED = 158020
np.random.seed(SEED)
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))


Treinaremos com 7500 elementos e testaremos com 2500 elementos


In [8]:
dummy_stratified = DummyClassifier()
dummy_stratified.fit(treino_x, treino_y)
acuracia = dummy_stratified.score(teste_x, teste_y) * 100

print("A acurácia do dummy stratified foi de %.2f%%" % acuracia)

A acurácia do dummy stratified foi de 50.96%


In [9]:
SEED = 158020
np.random.seed(SEED)
modelo = DecisionTreeClassifier(max_depth=2)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print ("A acurácia foi %.2f%%" % acuracia)


A acurácia foi 71.92%


In [10]:
x = dados[["preco", "idade_do_modelo","km_por_ano"]]
y = dados["vendido"]

SEED = 158020
np.random.seed(SEED)
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

modelo = DecisionTreeClassifier(max_depth=2)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia do dummy stratified foi %.2f%%" % acuracia)

Treinaremos com 7500 elementos e testaremos com 2500 elementos
A acurácia do dummy stratified foi 71.92%


In [47]:
SEED = 158020
np.random.seed(SEED)

cv = 5

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x, y, cv = cv, 
                            return_train_score=False)


media = resultados["test_score"].mean()
print(f"media: {media % 100} %")

desvio_padrao = resultados["test_score"].std()
print(f"desvio padrao: {desvio_padrao }")

print("Acuracia cross validation = {}. ".format(cv) +  
      "({:.2f},".format((media - 2 * desvio_padrao) * 100) +
      "{:.2f})".format((media + 2 * desvio_padrao) * 100))

media: 0.7577999999999999 %
desvio padrao: 0.0028565713714171354
Acuracia cross validation = 5. (75.21,76.35)


## Aleatoriedade no cross validade

In [59]:
def imprime_resultados(resultados, n_splits=10):
    media = resultados["test_score"].mean()
    print("media: {} %".format(media * 100))

    desvio_padrao = resultados["test_score"].std()
    print(f"desvio padrao: {desvio_padrao }")

    print("Acuracia cross validation = {}. ".format(n_splits) +  
      "({:.2f},".format((media - 2 * desvio_padrao) * 100) +
      "{:.2f})".format((media + 2 * desvio_padrao) * 100))

In [60]:
SEED = 158020
np.random.seed(SEED)

n_splits = 10
cv = KFold(n_splits=n_splits)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x, y, cv = cv, 
                            return_train_score=False)

imprime_resultados(resultados, n_splits)

media: 75.78 %
desvio padrao: 0.007025667228100124
Acuracia cross validation = 10. (74.37,77.19)


In [65]:
SEED = 158020
np.random.seed(SEED)

n_splits = 10
cv = KFold(n_splits=n_splits, shuffle = True)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x, y, cv = cv, 
                            return_train_score=False)

imprime_resultados(resultados, n_splits)

media: 75.77999999999999 %
desvio padrao: 0.011007270324653621
Acuracia cross validation = 10. (73.58,77.98)


## Simular situação de desbalanceamento entre as classes

In [71]:
dados_azar = dados.sort_values("vendido", ascending=True)
x_azar = dados_azar[["preco", "idade_do_modelo","km_por_ano"]]
y_azar = dados_azar["vendido"]


SEED = 158020
np.random.seed(SEED)

n_splits = 10
cv = KFold(n_splits=n_splits, shuffle = True)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x_azar, y_azar, cv = cv, 
                            return_train_score=False)

imprime_resultados(resultados, n_splits)

media: 75.75999999999999 %
desvio padrao: 0.013690872872099876
Acuracia cross validation = 10. (73.02,78.50)


In [75]:
dados_azar = dados.sort_values("vendido", ascending=True)
x_azar = dados_azar[["preco", "idade_do_modelo","km_por_ano"]]
y_azar = dados_azar["vendido"]


SEED = 158020
np.random.seed(SEED)

n_splits = 10
cv = StratifiedKFold(n_splits=n_splits, shuffle = True)

modelo = DecisionTreeClassifier(max_depth=2)

resultados = cross_validate(modelo, x_azar, y_azar, cv = cv, 
                            return_train_score=False)

imprime_resultados(resultados, n_splits)

media: 75.78 %
desvio padrao: 0.012773409881468625
Acuracia cross validation = 10. (73.23,78.33)


In [82]:
np.random.seed(SEED)
dados['modelo_aleatorio'] = dados.idade_do_modelo + np.random.randint(-2, 3, size=10000)

dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano,modelo_aleatorio
0,30941.02,1,18,35085.22134,17
1,40557.96,1,20,12622.05362,20
2,89627.5,0,12,11440.79806,12
3,95276.14,0,3,43167.32682,2
4,117384.68,1,4,12770.1129,2


In [83]:
dados.modelo_aleatorio.unique()

array([17, 20, 12,  2, 10,  9, 18,  4, 16,  6,  5, 21, 15, 13, 11, 14,  8,
        3, 19,  7, 22,  0,  1, -1])

In [85]:
abs(dados.modelo_aleatorio.min())

1

In [91]:
dados.modelo_aleatorio = dados.modelo_aleatorio + abs(dados.modelo_aleatorio.min()) +1
dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano,modelo_aleatorio
0,30941.02,1,18,35085.22134,19
1,40557.96,1,20,12622.05362,22
2,89627.5,0,12,11440.79806,14
3,95276.14,0,3,43167.32682,4
4,117384.68,1,4,12770.1129,4


In [92]:
dados.modelo_aleatorio.min()

1

In [94]:
dados['modelo'] = dados.modelo_aleatorio
dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano,modelo_aleatorio,modelo
0,30941.02,1,18,35085.22134,19,19
1,40557.96,1,20,12622.05362,22,22
2,89627.5,0,12,11440.79806,14,14
3,95276.14,0,3,43167.32682,4,4
4,117384.68,1,4,12770.1129,4,4


In [96]:
dados.modelo.value_counts()

20    873
19    830
18    788
21    707
17    687
15    669
16    616
22    597
14    577
13    576
12    497
11    397
10    376
23    347
9     320
8     288
7     217
24    199
6     186
5     120
4      66
3      44
2      20
1       3
Name: modelo, dtype: int64

In [97]:
del dados['modelo_aleatorio']
dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano,modelo
0,30941.02,1,18,35085.22134,19
1,40557.96,1,20,12622.05362,22
2,89627.5,0,12,11440.79806,14
3,95276.14,0,3,43167.32682,4
4,117384.68,1,4,12770.1129,4
