# 1 - Análise Exploratória dos dados
A partir da base de dados precos_carros_brasil.csv, execute as seguintes tarefas

### a. Carregue a base de dados media_precos_carros_brasil.csv

In [None]:
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.impute import SimpleImputer
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

#Carregando a base de dados.

dados = pd.read_csv('sample_data/precos_carros_brasil.csv')

In [None]:
from google.colab import drive
drive.mount('/content/drive')

### b. Verifique se há valores faltantes nos dados. Caso haja, escolha uma tratativa para resolver o problema de valores faltantes

In [None]:
# Verificando a existencia de elementos sem valor nenhum

dados.isna().sum()

# Metodo para remover linhas que contenham linhas com valores faltantes

# A função dropna() apaga as linhas que contem entradas com dados "não disponiveis"
dados = dados.dropna()

In [None]:
dados.head()

## c. Verifique se há dados duplicados nos dados

In [None]:
dados.duplicated().sum()

### d. Crie duas categorias, para separar colunas numéricas e categóricas. Imprima o resumo de informações das variáveis numéricas e categóricas (estatística descritiva dos dados)


In [None]:
# Criando duas categorias para armazenar as colunas categoricas e numéricas

numericas_cols = [col for col in dados.columns if dados[col].dtype != 'object']
categoricas_cols = [col for col in dados.columns if dados[col].dtype == 'object']

In [None]:
# Imprimindo o resumo de informações das variáveis numéricas
dados[numericas_cols].describe()

In [None]:
# Imprimindo o resumo de informações das variáveis categóricas
dados[categoricas_cols].describe()

### e. Imprima a contagem de valores por modelo (model) e marca do carro (brand)

In [None]:
# Imprimindo a contagem de valores - Modelo
dados['model'].value_counts()

In [None]:
# Imprimindo a contagem de valores - Marca
dados['brand'].value_counts()

### f. Dê um breve explicação (máximo de quatro linhas) sobre os principais resultados encontrados na Análise Exploratória dos dados


**Resposta contida no PDF** - Dentro os resultados obtidos na Analise Exploratoria, podemos dizer que a base de dados original possui 11 colunas e 202297 dados, destes, 65245 são valores que possuem dados faltantes. Depois do tratamento para eliminar valores faltantes obtivemos uma quantidade total de 137052 registros. Podemos constatar também que após os tratamentos, há 2 dados duplicados. O modelo de carro que aparece com mais frequencia é um empate entre o "Focus 1.6 S/SE/SE Plus Flex 8V/16V 5p" e o "Palio Week. Adv/Adv TRYON 1.8 mpi Flex" que aparecem ambos 425 vezes, ao passo que a marca que mais aparece é a Fiat com 44962 ocorrencias.

## 2 Visualização dos dados
A partir da base de dados precos_carros_brasil.csv, execute as seguintes tarefas:

### a. Gere um gráfico da distribuição da quantidade de carros por marca


In [None]:
valores_contados = dados['brand'].value_counts()

plt.figure(figsize=(20,10))
grafico_1 = plt.bar(valores_contados.index, valores_contados.values)
plt.title('Distribuição de carros por marca')
plt.ylabel('Quantidade')
plt.bar_label(grafico_1, size=10)

### b. Gere um gráfico da distribuição da quantidade de carros por tipo de engrenagem do carro

In [None]:
valores_contados_2 = dados['gear'].value_counts()

plt.figure(figsize=(20,10))
grafico_2 = plt.bar(valores_contados_2.index, valores_contados_2.values)
plt.title('Distribuição de carros por engrenagem')
plt.ylabel('Quantidade')
plt.bar_label(grafico_2, size=10)

### c. Gere um gráfico da evolução da média de preço dos carros ao longo dos meses de 2022 (variável de tempo no eixo X)


In [None]:
ano_2022 = dados[dados.year_of_reference == 2022]

plt.figure(figsize=(20,10))
grafico_3 = plt.bar(ano_2022['month_of_reference'].unique(),dados.groupby('month_of_reference')['avg_price_brl'].mean().round())
plt.ylabel('Preço medio')
plt.title('Media de preços no Ano de 2022')
plt.bar_label(grafico_3, size=10)

### d. Gere um gráfico da distribuição da média de preço dos carros por marca e tipo de engrenagem

In [None]:
media_marca_engrenagem = dados.groupby(['brand','gear'])['avg_price_brl'].mean().round()
media_marca_engrenagem = media_marca_engrenagem.reset_index(name='Preco Medio')

plt.figure(figsize=(20,10))
ax = sns.barplot(data=media_marca_engrenagem,x='brand',y='Preco Medio', hue='gear', hue_order=['manual','automatic'])
ax.bar_label(ax.containers[0], size=10)
ax.bar_label(ax.containers[1], size=10)

### e. Dê uma breve explicação (máximo de quatro linhas) sobre os resultados gerados no item d


**Resposta contida no PDF** - No grafico gerado no item d podemos verificar que todas as marcas oferecem tanto modelos de carros com cambios (engrenagens) manuais como automaticas. Podemos também concluir que os carros com cambio automaticos tem um preço muito maior que o de carros com engranagens manuais, em alguns casos, como o exemplo da Fiat e da Volkswagen, essa media de preço do carro automatico para o manual, pode chegar a ser o dobro do valor.

### f. Gere um gráfico da distribuição da média de preço dos carros por marca e tipo de combustível

In [None]:
marca_tipo_combustivel = dados.groupby(['brand','fuel'])['avg_price_brl'].mean().round()

marca_tipo_combustivel = marca_tipo_combustivel.reset_index(name='Preco')

plt.figure(figsize=(20,10))
ax = sns.barplot(data=marca_tipo_combustivel,x='brand',y='Preco',hue='fuel',hue_order=['Alcohol','Gasoline','Diesel'])
ax.bar_label(ax.containers[0], size=10)
ax.bar_label(ax.containers[1], size=10)
ax.bar_label(ax.containers[2], size=10)

### g. Dê uma breve explicação (máximo de quatro linhas) sobre os resultados gerados no item f

**Resposta contida no PDF** - O que o gráfico gerado no item f pode nos informar é que o valor dos carros que utilizam o Diesel como combustivel, em media, são os mais caros. Aquele que possui o segundo valor médio seriam os carros a gasolina, com os carros a alcool no terceiro e ultimo lugar, sendo que existem marcas, como o caso da Nissan e da Renault, que de acordo com a base de dados nem chega a fornecer uma opção de carro a alcool.

**# 3 Aplicação de modelos de machine learning para prever o preço médio dos carros**
A partir da base de dados precos_carros_brasil.csv, execute as seguintes tarefas:

### a. Escolha as variáveis numéricas (modelos de Regressão) para serem as variáveis independentes do modelo.A variável target é avg_price. Observação: caso julgue necessário, faça a transformação de variáveis categóricas em variáveis numéricas para inputar no modelo. Indique quais variáveis foram transformadas e como foram transformadas


Aqui será feita a alteração das variaveis da coluta 'gear', elas passarão a ser do tipo numérico com valores variando entre 0 (automatic) e 1 (manual).

In [None]:
dados['gear'] = LabelEncoder().fit_transform(dados['gear'])
dados.tail()

Aqui será feita a alteração das variaveis da coluna 'fuel', elas passarão a ser do tipo numérico com valores variando entre 0 (Alcohol), 1 (Diesel) e 2 (Gasoline).

In [None]:
dados['fuel'] = LabelEncoder().fit_transform(dados['fuel'])
dados.head()

Aqui será feita a alteração das variaveis da coluna 'brand', elas passarão a ser do tipo numérico com um numero limitado de opções. A marcas assumirão valores: 0 (Fiat), 1 (Ford), 2 (GM), 3 (Nissan), 4 (Renault) e 5 (VW).

In [None]:
dados['brand'] = LabelEncoder().fit_transform(dados['brand'])

Aqui é feito a alteração da coluna 'engine_size', o primeiro passo é alterar o caracter "," pelo caracter ".", pois o metodo que faz a conversão de texto para valores numericos não soube lidar com a maneira como o Português lida com casas decimais, pois isso, é necessário alterar o caracter para que o Python entenda que se trata de um numero decimal. Em seguida o metodo "pandas.to_numeric()" é usado para converter os valores da coluna 'engine_size'.

In [None]:
dados['engine_size'] = dados['engine_size'].str.replace(',','.')
dados['engine_size - numeric'] = pd.to_numeric(dados['engine_size'])
dados.head()

Aqui é criado um novo dataset utilizando somente os valores que serão utilizados no treinamento dos modelos.

In [None]:
dados_num = dados.drop(['month_of_reference','fipe_code','authentication','model','engine_size'],axis=1)
dados_num

### b. Crie partições contendo 75% dos dados para treino e 25% para teste


Aqui eu vou definir as variaveis numericas que serão utilizadas na analise com exceção da variavel target.

In [None]:
X = dados_num.drop('avg_price_brl',axis=1)

Aqui vai é definida a variavel Y apenas com a variavel target.

In [None]:
Y = dados_num['avg_price_brl']

Aqui é feita a divisão do dados entre a parte que será usada para treinar o modelo e a parte que será usada para testar o modelo.

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.25, random_state=42)

### c. Treine modelos RandomForest (biblioteca RandomForestRegressor) e XGBoost(biblioteca XGBRegressor) para predição dos preços dos carros. Observação: caso julgue necessário, mude os parâmetros dos modelos e rode novos modelos. Indique quais parâmetros foram inputados e indique o treinamento de cada modelo

In [None]:
# Preencher os valores ausentes em X_train e X_test
imputer = SimpleImputer(strategy='mean')
X_train_imputed = imputer.fit_transform(X_train)
X_test_imputed = imputer.transform(X_test)

# Preencher os valores ausentes em Y_train
Y_train_imputed = imputer.fit_transform(Y_train.values.reshape(-1, 1)).ravel()

# Modelo RandomForest
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X_train_imputed, Y_train_imputed)

# Modelo XGBoost
xgb_model = XGBRegressor(random_state=42)
xgb_model.fit(X_train_imputed, Y_train_imputed)

# Modelo RandomForest com parâmetros ajustados
rf_model_tuned = RandomForestRegressor(n_estimators=100, max_depth=5, random_state=42)
rf_model_tuned.fit(X_train_imputed, Y_train_imputed)

# Modelo XGBoost com parâmetros ajustados
xgb_model_tuned = XGBRegressor(n_estimators=100, max_depth=3, learning_rate=0.1, random_state=42)
xgb_model_tuned.fit(X_train_imputed, Y_train_imputed)

# Avaliação dos modelos (opcional)
# (Você pode adicionar aqui a avaliação dos modelos usando X_test_imputed e Y_test)

### d. Grave os valores preditos em variáveis criadas

In [None]:
Y_pred_rf = rf_model.predict(X_test_imputed)
Y_pred_xgb = xgb_model.predict(X_test_imputed)
Y_pred_rf_tuned = rf_model_tuned.predict(X_test_imputed)
Y_pred_xgb_tuned = xgb_model_tuned.predict(X_test_imputed)

### e. Realize a análise de importância das variáveis para estimar a variável target, para cada modelo treinado

In [None]:
# Análise de importância das variáveis para o modelo RandomForest
importances_rf = rf_model.feature_importances_
feature_names = X.columns

# Criar um DataFrame para visualização
importances_df_rf = pd.DataFrame({'Feature': feature_names, 'Importance': importances_rf})
importances_df_rf = importances_df_rf.sort_values(by='Importance', ascending=False)

# Visualizar a importância das variáveis
print("Importância das variáveis para o modelo RandomForest:")
print(importances_df_rf)

# Análise de importância das variáveis para o modelo XGBoost
importances_xgb = xgb_model.feature_importances_

# Criar um DataFrame para visualização
importances_df_xgb = pd.DataFrame({'Feature': feature_names, 'Importance': importances_xgb})
importances_df_xgb = importances_df_xgb.sort_values(by='Importance', ascending=False)

# Visualizar a importância das variáveis
print("Importância das variáveis para o modelo XGBoost:")
print(importances_df_xgb)

### f. Dê uma breve explicação (máximo de quatro linhas) sobre os resultados encontrados na análise de importância de variáveis


In [None]:
**Resposta contida no PDF** - Nos dois modelos analisados, notou-se uma maior importância para as variáveis engine_size e year_model. As demais variáveis, fuel e gear
 afetam de formas diferentes cada modelo. Já brand e year_of_reference são variáveis que tem uma menor influência nos dois modelos.

### g. Escolha o melhor modelo com base nas métricas de avaliação MSE, MAE e R²

In [None]:
mse = mean_squared_error(Y_test, Y_pred_rf)
mae = mean_absolute_error(Y_test, Y_pred_rf)
r2 = r2_score(Y_test, Y_pred_rf)

print("RandomForest - MSE - ", mse)
print("RandomForest - MAE -", mae)
print("RandomForest - R^2 -", r2)


mse = mean_squared_error(Y_test, Y_pred_rf_tuned)
mae = mean_absolute_error(Y_test, Y_pred_rf_tuned)
r2 = r2_score(Y_test, Y_pred_rf_tuned)

print("\nRandomForest Tuned - MSE - ", mse)
print("RandomForest Tuned - MAE -", mae)
print("RandomForest Tuned - R^2 -", r2)

mse = mean_squared_error(Y_test, Y_pred_xgb)
mae = mean_absolute_error(Y_test, Y_pred_xgb)
r2 = r2_score(Y_test, Y_pred_xgb)

print("\nXGBoost - MSE - ", mse)
print("XGBoost - MAE -", mae)
print("XGBoost - R^2 -", r2)


mse = mean_squared_error(Y_test, Y_pred_xgb_tuned)
mae = mean_absolute_error(Y_test, Y_pred_xgb_tuned)
r2 = r2_score(Y_test, Y_pred_xgb_tuned)

print("\nXGBoost Tuned - MSE - ", mse)
print("XGBoost Tuned - MAE -", mae)
print("XGBoost Tuned - R^2 -", r2)


# O melhor modelo é o RandomForest
# RandomForest - MSE -  109260296.40292338
# RandomForest - MAE - 5577.5337231235135
# RandomForest - R^2 - 0.9588152066232576

### h. Dê uma breve explicação (máximo de quatro linhas) sobre qual modelo gerou o melhor resultado e a métrica de avaliação utilizada


**Resposta contida no PDF** - O modelo que gerou o melhor resultado foi o RandomForest, utilizando os métodos de avaliação MSE (menor média de erro quadrático 109260296.40292338), MAE (menor média de erro absoluto 5577.5337231235135) e R^2 (maior precisão 0.9588152066232576).