In [None]:
import pandas as pd

# Importando a biblioteca pandas para manipulação de dados
uri = "https://gist.githubusercontent.com/guilhermesilveira/4d1d4a16ccbf6ea4e0a64a38a24ec884/raw/afd05cb0c796d18f3f5a6537053ded308ba94bf7/car-prices.csv"
# Definindo a URL do arquivo CSV contendo os dados
dados = pd.read_csv(uri)
# Exibindo as primeiras linhas do DataFrame para visualização
dados.head()

In [None]:
a_renomear = {
    'mileage_per_year' : 'milhas_por_ano',
    'model_year' : 'ano_do_modelo',
    'price' : 'preco',
    'sold' :'vendido'
}
dados = dados.rename(columns=a_renomear)
# Renomeando as colunas do DataFrame de acordo com o dicionário "a_renomear"
dados.head()
# Exibindo as primeiras linhas do DataFrame após a renomeação das colunas


In [None]:
a_trocar = {
    'no': 0,
    'yes': 1
}
dados.vendido = dados.vendido.map(a_trocar)
# Mapeando os valores da coluna 'vendido' para substituir 'no' por 0 e 'yes' por 1
dados.head()
# Exibindo as primeiras linhas do DataFrame após a substituição dos valores na coluna 'vendido'

In [None]:
from datetime import datetime

ano_atual = datetime.today().year
# Obtendo o ano atual
dados['idade_do_modelo'] = ano_atual - dados.ano_do_modelo
# Criando uma nova coluna 'idade_do_modelo' no DataFrame que representa a idade do modelo de carro
dados.head()
# Exibindo as primeiras linhas do DataFrame após a adição da coluna

In [None]:
dados['km_por_ano'] = dados.milhas_por_ano * 1.60934
# Criando uma nova coluna 'km_por_ano' no DataFrame que representa a distância percorrida em quilômetros por ano
dados.head()
# Exibindo as primeiras linhas do DataFrame após a adição da coluna 'km_por_ano'

In [None]:
dados = dados.drop(columns=["Unnamed: 0", "milhas_por_ano", "ano_do_modelo"], axis=1)
# Removendo as colunas "Unnamed: 0", "milhas_por_ano" e "ano_do_modelo" do DataFrame
dados.head()
# Exibindo as primeiras linhas do DataFrame após a remoção das colunas

In [None]:
x = dados[["preco", "idade_do_modelo", "km_por_ano"]]
# Selecionando as colunas 'preco', 'idade_do_modelo' e 'km_por_ano' como variáveis de entrada
y = dados["vendido"]
# Selecionando a coluna 'vendido' como variável de saída

# Validando com o Linear SVC

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

SEED = 5
np.random.seed(SEED)
# Definindo uma semente aleatória para garantir a reprodutibilidade dos resultados

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.25, stratify=y)
# Dividindo os dados em conjuntos de treinamento e teste usando a função train_test_split()

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))
# Exibindo o número de elementos nos conjuntos de treinamento e teste

modelo = LinearSVC()
# Criando um objeto LinearSVC como modelo

modelo.fit(treino_x, treino_y)
# Treinando o modelo usando os dados de treinamento

previsoes = modelo.predict(teste_x)
# Fazendo previsões usando o conjunto de teste

acuracia = accuracy_score(teste_y, previsoes) * 100
# Calculando a acurácia do modelo comparando as previsões com os valores reais do conjunto de teste

print("A acurácia foi %.2f%%" % acuracia)
# Exibindo a acurácia do modelo

# Dummy classifiers

##### O DummyClassifier é um estimador básico que pode ser usado como uma linha de base (baseline) para comparar o desempenho de outros modelos. Ele fornece previsões aleatórias ou baseadas em regras simples, independentemente dos dados de entrada. No caso do DummyClassifier com estratégia 'stratified', as previsões são feitas aleatoriamente, mas mantendo a mesma proporção de classes observada no conjunto de treinamento.


In [None]:
from sklearn.dummy import DummyClassifier
# Importando a classe DummyClassifier do módulo sklearn.dummy

dummy_stratified = DummyClassifier(strategy='stratified')
# Criando um objeto DummyClassifier com estratégia 'stratified'

dummy_stratified.fit(treino_x, treino_y)
# Treinando o modelo dummy stratified usando os dados de treinamento

acuracia = dummy_stratified.score(teste_x, teste_y) * 100
# Calculando a acurácia do modelo dummy stratified usando os dados de teste

print("A acurácia do dummy stratified foi %.2f%%" % acuracia)
# Exibindo a acurácia do modelo dummy stratified

In [None]:
from sklearn.dummy import DummyClassifier
# Importando a classe DummyClassifier do módulo sklearn.dummy

dummy_mostfrequent = DummyClassifier(strategy="most_frequent")
# Criando um objeto DummyClassifier com estratégia 'most_frequent'

dummy_mostfrequent.fit(treino_x, treino_y)
# Treinando o modelo dummy mostfrequent usando os dados de treinamento

acuracia = dummy_mostfrequent.score(teste_x, teste_y) * 100
# Calculando a acurácia do modelo dummy mostfrequent usando os dados de teste

print("A acurácia do dummy mostfrequent foi %.2f%%" % acuracia)
# Exibindo a acurácia do modelo dummy mostfrequent

##### Nesse código, os dados são padronizados usando o StandardScaler antes de treinar o modelo SVC. Isso é útil quando as características têm escalas diferentes, pois ajuda a evitar que recursos com maior escala dominem o treinamento do modelo. A padronização transforma os dados de forma que eles tenham média zero e desvio padrão unitário.

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

SEED = 5
np.random.seed(SEED)
# Definindo uma semente aleatória para garantir a reprodutibilidade dos resultados

raw_treino_x, raw_teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.25, stratify=y)
# Dividindo os dados em conjuntos de treinamento e teste usando a função train_test_split()

print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))
# Exibindo o número de elementos nos conjuntos de treinamento e teste

scaler = StandardScaler()
# Criando um objeto StandardScaler para padronizar os dados

scaler.fit(raw_treino_x)
# Ajustando (fit) o scaler aos dados de treinamento para calcular as estatísticas necessárias

treino_x = scaler.transform(raw_treino_x)
# Aplicando a transformação de padronização aos dados de treinamento

teste_x = scaler.transform(raw_teste_x)
# Aplicando a mesma transformação aos dados de teste

modelo = SVC()
# Criando um objeto SVC (Support Vector Classifier) como modelo

modelo.fit(treino_x, treino_y)
# Treinando o modelo usando os dados de treinamento padronizados

previsoes = modelo.predict(teste_x)
# Fazendo previsões usando os dados de teste padronizados

acuracia = accuracy_score(teste_y, previsoes) * 100
# Calculando a acurácia do modelo comparando as previsões com os valores reais do conjunto de teste

print("A acurácia foi %.2f%%" % acuracia)
# Exibindo a acurácia do modelo
