## O modelo de validação será feito usando a base de dados
## do projeto machine learning com classificação, a validação começa apartir do topico 1

# Bibliotecas

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score
from sklearn.dummy import DummyClassifier
from sklearn.tree import DecisionTreeClassifier

## Carregamento dos dados

In [2]:
#leitura dos dados, apague também a coluna Unnnamed que estava em branco

uri = "https://gist.githubusercontent.com/guilhermesilveira/e99a526b2e7ccc6c3b70f53db43a87d2/raw/1605fc74aa778066bf2e6695e24d53cf65f2f447/machine-learning-carros-simulacao.csv"
dados = pd.read_csv(uri).drop(columns=["Unnamed: 0"], axis=1)
dados.head()

Unnamed: 0,preco,vendido,idade_do_modelo,km_por_ano
0,30941.02,1,18,35085.22134
1,40557.96,1,20,12622.05362
2,89627.5,0,12,11440.79806
3,95276.14,0,3,43167.32682
4,117384.68,1,4,12770.1129


## Modelo de Classificação

In [3]:
#separo os dados como treino e teste para meu modelo X E Y 

x = dados[["preco", "idade_do_modelo","km_por_ano"]]
y = dados["vendido"]

SEED = 158020
np.random.seed(SEED)
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))


Treinaremos com 7500 elementos e testaremos com 2500 elementos


In [4]:
#DummyClassifier: É um modelo classificador que faz previsões sem tentar encontrar padrões nos dados.
#O modelo padrão basicamente analisa qual rótulo é mais frequente no conjunto de dados de treinamento e faz previsões com base nesse rótulo
dummy_stratified = DummyClassifier()
dummy_stratified.fit(treino_x, treino_y)
acuracia = dummy_stratified.score(teste_x, teste_y) * 100

print("A acurácia do dummy stratified foi %.2f%%" % acuracia)

A acurácia do dummy stratified foi 58.00%


In [5]:
#rodo uma arvore de decisao com profundidade 2 para entender os dados 
SEED = 158020
np.random.seed(SEED)
modelo = DecisionTreeClassifier(max_depth=2)
modelo.fit(treino_x, treino_y)
previsoes = modelo.predict(teste_x)

acuracia = accuracy_score(teste_y, previsoes) * 100
print("A acurácia foi %.2f%%" % acuracia)


A acurácia foi 71.92%


# Cross validate

- É uma técnica muito utilizada para avaliação de desempenho de modelos e consequente verificação de tendências no aprendizado de máquina
- também conhecido como validação cruzada o cross valite é um metodo reamostragem que usa diferentes porções dos dados para testar e treinar um modelo em diferentes iterações
-  Essa validação é feita quebrando os dados em K-fold testando e treinando diversas vezes e comparando esses resultados um com os outros
- e com isso possibilitando a geração de um intervalo de confiança entre os resultados

In [6]:
from sklearn.model_selection import cross_validate

#aqui eu aplico o mesmo modelo de arvore de decisao do projeto acima
# sem alterar os  dados de treino e teste pois a ideia é que o cross validate quebre esses dados 
#treino e teste de acordo com as vezes que eu pedir, nesse ponto também eu chamo a media
# e o desvio padrao dos dados para que eu possar gerar o intervalo de confiança entre os resultados


modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x, y, cv = 3, return_train_score = False)
media = results ['test_score'].mean()
desvio_padrao = results['test_score'].std()
print("Accuracy [%.2f, %.2f]" % ((media - 2 *desvio_padrao) * 100, (media + 2 * desvio_padrao) * 100))

Accuracy [74.99, 76.57]


In [7]:
#para garantir a reprodutividade do modelo adiciono o seed que estava acima
#o interesse é que apesar do seed mudar aqui os resultados do teste 
#continua o mesmo isso por conta do cross validate como eu estou aplicando
#3 vezes o teste o resultado já é diferente

SEED = 14
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x, y, cv = 3, return_train_score = False)
media = results ['test_score'].mean()
desvio_padrao = results['test_score'].std()
print("Accuracy [%.2f, %.2f]" % ((media - 2 *desvio_padrao) * 100, (media + 2 * desvio_padrao) * 100))

Accuracy [74.99, 76.57]


### Apesar do Seed não estar mais alterando os resultados como anteriormente posso ficar 
### a mercer dos resultados quanto eu observo o numero de vezes que eu peço para treinar o modelo com cross validate
### como no exemplo abaixo, eu mudei de cv=3 para cv= 6 isso altero os dados e gero aleatoriedade
### nesse caso eu vou seguir a orientação da documentação e irei manter 5
### link documentação cross validate ( https://scikit-learn.org/stable/modules/cross_validation.html)

In [8]:
#exemplo 
SEED = 14
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x, y, cv = 6, return_train_score = False)
media = results ['test_score'].mean()
desvio_padrao = results['test_score'].std()
print("Accuracy [%.2f, %.2f]" % ((media - 2 *desvio_padrao) * 100, (media + 2 * desvio_padrao) * 100))

Accuracy [74.22, 77.34]


In [10]:
#vou manter por padrao 5

# e com isso encontro meu intervalo de desvio padrao

SEED = 14
modelo = DecisionTreeClassifier(max_depth=2)
results = cross_validate(modelo, x, y, cv = 5, return_train_score = False)
media = results ['test_score'].mean()
desvio_padrao = results['test_score'].std()
print("Accuracy [%.2f, %.2f]" % ((media - 2 *desvio_padrao) * 100, (media + 2 * desvio_padrao) * 100))

Accuracy [75.21, 76.35]
