# **Checkpoint 01 - Modelagem de Dados e Aprendizagem de Máquina**

## **Objetivo**
Avaliar conceitos sobre Modelagem de dados e Aprendizado de Máquina (ML) adquiridos no curso.

## **Descrição do Desafio**
Você foi contratado por uma empresa que desenvolveu uma plataforma de compra e venda de carros usados. O funcionamento é bem simples, os usuários cadastram o carro que querem vender e esperam que outro usuário os compre, a empresa então fica com uma parte do valor de venda. Seu papel é desenvolver um modelo que possa determinar qual o melhor preço de venda para um usado.

Para nortear o desenvolvimento, você precisa de um ponto de partida e determinou uma pergunta chave: **Qual o preço de venda de um veículo Volkswagen Sedan 2.0 a gasolina, ano 2005, com cerca de 172095 km rodados?**

### **Orientações**
Para responder a essa pergunta, você deve utilizar o dataset da empresa, que está representado no arquivo **carros.csv**, e seguir o roteiro proposto neste desafio.

## **Exploração de Dados - 2 pontos**

1 - Carregue o dataset e faça a inspeção nas 15 primeiras linhas para identificação dos atributos. Quantos dados existem nesse dataset? Qual a quantidade de atributos? Existem valores faltantes? De que tipo são os dados? (1,0)

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('carros.csv')

df.head(15)
#Existem 39.105 dados nesse dataset
#Para cada dado existem 9 atributos




In [None]:
df.info()
#Os tipos de dados são: int, float e object

In [None]:
print(df.isna().sum())

df = df.dropna()
#Existem 322 valores faltantes
print(df.isna().sum())

2 - Note que os dataset está no sistema americano. Converta os dados para o sistema métrico e altere o cabeçalho de forma que os dados façam sentido. (1,0)

Obs: Os dados de Milhas dividos por mil, ou seja, multiplique o valor por 1.000 para ter o valor real!

In [None]:
#Traduzindo o nome dos atributos
df.columns = ['Marca', 'Preço', 'Tipo', 'Quilometragem', 'Motor', 'Combustivel', 'Registro', 'Ano', 'Modelo']

df.head(10)

In [None]:
#Convertendo milhas para km
df['Quilometragem'] = df['Quilometragem'] * 1000

df.head(10)

## **Analise descritiva dos dados - 2 pontos**

3 - Faça uma análise exploratória dos dados, utilizando gráficos e tabelas para realizar correlações entre os atributos e que permitam criar um cenário de correlação entre eles.

In [None]:
import matplotlib.pyplot as plt

df.plot.scatter(x='Motor', y='Preço', alpha=0.5)
plt.title('Gráfico de dispersão')

In [None]:
import matplotlib.pyplot as plt

df.plot.scatter(x='Ano', y='Preço', alpha=0.5)
plt.title('Gráfico de dispersão')

In [None]:
import matplotlib.pyplot as plt

df.plot.scatter(x='Quilometragem', y='Preço', alpha=0.5)
plt.title('Gráfico de dispersão')

In [None]:
import seaborn as sns

corr_matrix = df.corr()

sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Tabela de Correlação')

## **Desenvolvimento do Modelo - 2 pontos**

4 - O conjunto de dados indica a aplicação de qual modelo de aprendizagem de máquina para responder a pergunta do desafio? Por quê? (1,0)

Resposta:  O recomendado seria utilizar o modelo de regressão, pois serão utilizados os valores já existentes no dataset para prever um valor desejado.

5 - Qual a técnica sugerida para este projeto? Por quê? (1,0)

Resposta:

Com base nas suas respostas, agora escolha dois algortimos para implementar e comparar a performance de cada um deles ao final do desafio.

Resposta: Utilizarei o algoritmo de Regressão Linear e o de Árvore de decisão

In [None]:
##ALGORITMO 1: REGRESSÃO LINEAR

x = df[['Motor', 'Ano', 'Quilometragem']]
y = df['Preço']

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(x, y)

In [None]:
##ALGORITMO 2: ÁRVORE DE DECISÃO

from sklearn.tree import DecisionTreeRegressor

dt = DecisionTreeRegressor()
dt.fit(x, y)

## **Treinamento e teste do Modelo - 3 pontos**

6 - Crie um subset dos dados que serão utilizados para o treinamento e para o teste do modelo. Divida este subset em treino e teste. (1,0) 

In [12]:
from sklearn.model_selection import train_test_split 
train, test = train_test_split(y, train_size=0.7)


from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)

7 - Faça o treinamento e teste dos 2 algoritmos escolhidos. Utilize uma métrica (ex. R2-score, RMSE e MAE...) para avaliar a performance dos modelos.

In [13]:
from sklearn.metrics import mean_squared_error, r2_score

7.1 - Algoritmo 1: (0,5)


In [None]:
y_predito_lr = lr.predict(x)
mse_lr = mean_squared_error(y, y_predito_lr)
r2_lr = r2_score(y, y_predito_lr)
print("Regressão Linear")
print(f"MSE: {mse_lr:.2f}")
print(f"R²: {r2_lr:.2f}")

7.2 - Algoritmo 2:  (0,5)

In [None]:
y_predito_dt = dt.predict(x)
mse_dt = mean_squared_error(y, y_predito_dt)
r2_dt = r2_score(y, y_predito_dt)
print("Árvore de Decisão")
print(f"MSE: {mse_dt:.2f}")
print(f"R²: {r2_dt:.2f}")


7.3 - Qual dos algortimos obteve melhor resultado? Por quê? (1,0)

Resposta: O algoritmo de Árvore de decisão obteve melhor resultado pois seu R2 score foi maior e seu MAE foi menor que o do algoritmo de regressão linear.

## **Modelo de Produção: Teste com novos dados - 1 ponto**

8 - Use o seu modelo treinado para responder a pergunta do desafio:

In [None]:
df = pd.DataFrame({
    "Motor": [2.0],
    "Ano": [2005],
    "Quilometragem": [172095]
})

# fazendo a previsão com o modelo de árvore de decisão
price_pred = dt.predict(df)

print(f"O preço de venda do veículo é de aproximadamente R$ {price_pred[0]:.2f}")