## Importando Bibliotecas

In [None]:
# Bibliotecas para tratar dados
import pandas as pd

# Bibliotecas para EDA
import matplotlib.pyplot as plt
import seaborn as sns

# Configurando o estilo dos gráficos do Seaborn (opcional, apenas para melhorar a estética)
sns.set(style='whitegrid')

# Configurar para não exibir warnings
import warnings

warnings.filterwarnings("ignore")

# Configurando para exibir até 15 linhas de um DataFrame do Pandas
pd.set_option("display.max_rows", 15)

# Configurando para exibir todas as colunas de um DataFrame do Pandas
pd.set_option("display.max_columns", None)

# Configurando a opção para evitar notação científica
pd.set_option('display.float_format', lambda x: '{:.2f}'.format(x))




## Carregando Dataset de Treino

In [None]:
train_data = pd.read_csv('datasets/cars_train.csv')
train_data.head()

In [None]:
print(f"O dataframe possui {train_data.shape[0]} linhas e {train_data.shape[1]} colunas.")

In [None]:
train_data.info()

In [None]:
numerics = ["int16", "int32", "int64", "float16", "float32", "float64"]

numericas = train_data.select_dtypes(include=numerics)

nao_numericas = train_data.select_dtypes(exclude=numerics)

print(
    f"Temos {numericas.shape[1]} colunas numéricas e {nao_numericas.shape[1]} colunas não-numéricas."
)

Percebe-se que algumas colunas apresentam dados ausentes (NaN). São elas: 

- coluna #1 (num_fotos)
- coluna #20 (dono_aceita_troca) 
- coluna #21 (veiculo_único_dono) 
- coluna #22 (revisoes_concessionaria) 
- coluna #23 (ipva_pago) 
- coluna #24 (veiculo_licenciado) 
- coluna #25 (garantia_de_fábrica) 
- coluna #26 (revisoes_dentro_agenda)
- coluna #27 (veiculo_alienado)

Nesse sentido, é importante realizar uma avaliação dessas colunas e, se possível, aplicar um tratamento adequado para deixar nossa base de treino em condições adequadas.

## Tratando o Dataset de Treino

In [None]:
train_data.num_fotos.unique(), \
    train_data.dono_aceita_troca.unique(), \
        train_data.veiculo_único_dono.unique(), \
            train_data.revisoes_concessionaria.unique(), \
                train_data.ipva_pago.unique(), \
                    train_data.veiculo_licenciado.unique(), \
                        train_data.garantia_de_fábrica.unique(), \
                            train_data.revisoes_dentro_agenda.unique(), \
                                train_data.veiculo_alienado.unique()

Na coluna #1 (num_fotos) e da coluna #20 (dono_aceita_troca) até a coluna #26 (revisoes_dentro_agenda) é importante realizar uma avaliação minuciosa e, se possível, aplicar um tratamento adequado para deixar a base de treino em condições adequadas.

No que diz respeito à coluna #27 (veiculo_alienado), nota-se que ela está preenchida inteiramente com valores NaN, ou seja, todos os seus dados estão ausentes. Diante dessa situação, podemos inferir que esta coluna não possui informações relevantes para a nossa análise. A presença generalizada de valores ausentes sugere que tal variável pode não ter sido devidamente preenchida ou que não apresenta dados significativos para a investigação em questão.

Portanto, considerando essa constatação, é sensato desconsiderar a coluna 'veiculo_alienado' em nossa análise, uma vez que sua ausência de informações inviabiliza qualquer conclusão ou insight relevante que possa ser obtido a partir dela. 

In [None]:
# Removendo a coluna #27 'veiculo_alienado'

train_data = train_data.drop(columns=['veiculo_alienado'])

# Arredondando as casas decimais da coluna preço
train_data['preco'] = train_data['preco'].round(2)

In [None]:
print(f"O dataframe possui {train_data.shape[0]} linhas e {train_data.shape[1]} colunas.")

In [None]:
# Substituindo os NaN nas colunas #1 (num_fotos) e da coluna #20 (dono_aceita_troca) até a coluna #26 (revisoes_dentro_agenda)

train_data['num_fotos'] = train_data['num_fotos'].fillna(0)
train_data['dono_aceita_troca'] = train_data['dono_aceita_troca'].fillna('Não aceita troca') 
train_data['veiculo_único_dono'] = train_data['veiculo_único_dono'].fillna('Mais de um dono') 
train_data['revisoes_concessionaria'] = train_data['revisoes_concessionaria'].fillna('Nem todas as revisões feitas pela concessionária') 
train_data['ipva_pago'] = train_data['ipva_pago'].fillna('IPVA não pago') 
train_data['veiculo_licenciado'] = train_data['veiculo_licenciado'].fillna('Não Licenciado') 
train_data['garantia_de_fábrica'] = train_data['garantia_de_fábrica'].fillna('Não possui garantia de fábrica') 
train_data['revisoes_dentro_agenda'] = train_data['revisoes_dentro_agenda'].fillna('Nem todas as revisões feitas pela agenda do carro') 



In [None]:
train_data.info()

In [None]:
train_data.head()

Com as substituições realizadas, o dataset agora possui uma melhor qualidade, pois os valores NaN foram adequadamente tratados. Essas alterações garantem a integridade dos dados, possibilitando análises mais precisas e confiáveis.

## Analisando os Dados


In [None]:
train_data.info()

### Resumo estatístico para as colunas numéricas

In [None]:
# Resumo estatístico para as colunas numéricas
estatisticas_numericas = train_data.describe()
print("Estatísticas Numéricas:")
print(estatisticas_numericas)

### Hipóteses de Negócio

In [None]:
# Análise estatística da variável "preco"
preco_stats = train_data['preco'].describe()

# Calculando a mediana
mediana_preco = train_data['preco'].median()

# Calculando o desvio padrão
desvio_padrao_preco = train_data['preco'].std()

# Visualização do Boxplot na orientação horizontal com eixo y em formato de número inteiro
plt.figure(figsize=(8, 6))
plt.boxplot(train_data['preco'])
plt.title('Distribuição dos preços dos veículos')
plt.xlabel('Preço')
plt.show()

# Exibindo as estatísticas descritivas sem notação científica
print(f"Mediana do preço: R$ {mediana_preco:.2f}")
print(f"Desvio padrão do preço: R$ {desvio_padrao_preco:.2f}")

In [None]:
# Plot do histograma
plt.figure(figsize=(10, 6))
plt.hist(train_data['preco'], bins=50, color='blue', alpha=0.7)
plt.xlabel('Preço')
plt.ylabel('Contagem')
plt.title('Histograma da Distribuição de Preços')

# Calculando e formatando os valores da média e mediana para duas casas decimais
media = train_data['preco'].mean()
mediana = train_data['preco'].median()
media_label = f'Média: R${media:.2f}'
mediana_label = f'Mediana: R${mediana:.2f}'

# Adicionando as legendas da média e mediana
plt.axvline(media, color='red', linestyle='dashed', linewidth=2, label=media_label)
plt.axvline(mediana, color='green', linestyle='dashed', linewidth=2, label=mediana_label)

# Retirando a notação científica no eixo X (preço)
plt.ticklabel_format(axis='x', style='plain')  

# Plotando o gráfico
plt.legend()
plt.show()

A presença de outliers (valores extremos) nos preços dos veículos populares pode estar influenciando a média, puxando-a para cima. Os outliers podem ser preços excepcionalmente altos de alguns carros populares, que podem ser raros ou possuir características especiais. Enquanto a mediana não é tão afetada por outliers, a média pode ser distorcida por eles.

#### Hipótese 2: Carros sem garantia de fábrica são mais baratos.

In [None]:
# Contagem de veículos com e sem garantia de fábrica
garantia_counts = train_data['garantia_de_fábrica'].value_counts()

# Gráfico de pizza
plt.figure(figsize=(6, 6))
plt.pie(garantia_counts, labels=garantia_counts.index, autopct='%1.2f%%', startangle=90, colors=['lightskyblue', 'lightcoral'])
plt.title('Proporção de Veículos com Garantia de Fábrica')
plt.axis('equal')
plt.show()

In [None]:
# Valor médio dos carros com garantia
valor_medio_com_garantia = train_data[train_data['garantia_de_fábrica'] == "Não possui garantia de fábrica"]['preco'].mean()

# Valor médio dos carros sem garantia
valor_medio_sem_garantia = train_data[train_data['garantia_de_fábrica'] == "Garantia de fábrica"]['preco'].mean()

# Mostrar os resultados
print(f"Valor médio dos carros com garantia: R${valor_medio_com_garantia:.2f}")
print(f"Valor médio dos carros sem garantia: R${valor_medio_sem_garantia:.2f}")

Com base nos dados do dataset e no gráfico, é possível observar que a maioria dos carros não possui garantia de fábrica, mas o preço médio desses carros é maior do que os que possuem garantia, pode indicar que, apesar da ausência de garantia de fábrica, os carros sem garantia possuem outras características ou fatores que os tornam mais valorizados e, consequentemente, com preços mais altos. Alguns possíveis motivos para essa observação poderiam ser:

* Carros de Luxo ou Esportivos
* Carros de Edição Limitada ou Colecionador

#### Hipótese 3: A valorização do preço médio dos veículos ao longo dos anos está associada ao aumento da demanda por veículos mais novos

In [None]:
#Gráfico de Linha

plt.figure(figsize=(10, 6))
preco_medio_por_ano = train_data.groupby('ano_de_fabricacao')['preco'].mean()
plt.plot(preco_medio_por_ano.index, preco_medio_por_ano.values, marker='o', color='orange')
plt.xlabel('Ano de Fabricação')
plt.ylabel('Preço Médio')
plt.title('Evolução do Preço Médio por Ano de Fabricação')
plt.grid(True)
plt.show()

In [None]:
# Agrupar os dados por intervalos de 5 anos e calcular o preço médio
train_data['ano_de_fabricacao_intervalo'] = train_data['ano_de_fabricacao'] // 5 * 5
preco_medio_por_intervalo = train_data.groupby('ano_de_fabricacao_intervalo')['preco'].mean()

# Criando o gráfico de linha com o preço médio em cada intervalo de 5 anos
plt.figure(figsize=(10, 6))
plt.plot(preco_medio_por_intervalo.index, preco_medio_por_intervalo.values, marker='o', color='orange')
plt.xlabel('Ano de Fabricação (Intervalo de 5 anos)')
plt.ylabel('Preço Médio')
plt.title('Evolução do Preço Médio a cada 5 Anos de Fabricação')
plt.grid(True)

# Adicionando os valores do preço médio nos pontos
for x, y in zip(preco_medio_por_intervalo.index, preco_medio_por_intervalo.values):
    plt.text(x, y, f'R$ {y:.2f}', ha='right', va='bottom')

# Plot
plt.show()

 Observa-se que entre os anos de 2005 a 2010, o preço médio dos automóveis aumentou significativamente, chegando a mais que dobrar em relação aos anos anteriores. Essa variação expressiva pode ser influenciada pela presença de outliers, que são modelos mais novos ou edições especiais com preços excepcionalmente altos em comparação com os veículos comuns.

### Perguntas de Negócio

#### Qual o melhor estado cadastrado na base de dados para se vender um carro de marca popular e por quê?

In [None]:
# Contagem de cada marca
contagem_marcas = train_data['marca'].value_counts()

# Selecionando as marcas mais frequentes como sendo as marcas populares
marcas_populares = contagem_marcas.head(5).index.tolist()

# Filtrando os dados para incluir apenas carros das marcas populares
carros_populares = train_data[train_data['marca'].isin(marcas_populares)]

# Calculando a média de preços dos carros de marcas populares por estado
media_preco_por_estado = carros_populares.groupby('estado_vendedor')['preco'].mean().reset_index()

# Encontrando o índice do estado com o maior preço médio
indice_maior_preco = media_preco_por_estado['preco'].idxmax()

# Obtendo o nome do estado correspondente
estado_maior_preco = media_preco_por_estado.loc[indice_maior_preco, 'estado_vendedor']

preco_medio_maior_preco = media_preco_por_estado.loc[indice_maior_preco, 'preco']

print(f"O estado com o maior preço médio dos carros das 5 marcas mais populares é: {estado_maior_preco}")
print(f"O preço médio dos carros nesse estado é: R$ {preco_medio_maior_preco:.2f}")

#### Qual o melhor estado para se comprar uma picape com transmissão automática e por quê?

In [None]:
# Filtrando os dados para incluir apenas carros que são picapes e têm transmissão automática
picapes_trans_auto = train_data[(train_data['tipo'] == 'Picape') & (train_data['cambio'] == 'Automática')]

# Calculando a média de preços das picapes com transmissão automática por estado
media_preco_por_estado = picapes_trans_auto.groupby('estado_vendedor')['preco'].mean().reset_index()

# Encontrando o índice do estado com o menor preço médio
indice_menor_preco = media_preco_por_estado['preco'].idxmin()

# Obtendo o nome do estado correspondente
estado_menor_preco = media_preco_por_estado.loc[indice_menor_preco, 'estado_vendedor']

# Calculando o preço médio das picapes com transmissão automática para o estado com menor preço médio
preco_medio_menor_preco = media_preco_por_estado.loc[indice_menor_preco, 'preco']

print(f"O estado com o menor preço médio das picapes com transmissão automática é: {estado_menor_preco}")
print(f"O preço médio das picapes com transmissão automática nesse estado é: R$ {preco_medio_menor_preco:.2f}")

#### Qual o melhor estado para se comprar carros que ainda estejam dentro da garantia de fábrica e por quê?

In [None]:
# Filtrando os dados para incluir apenas carros que possuam garantia de fábrica
carros_com_garantia = train_data[train_data['garantia_de_fábrica'] == 'Garantia de fábrica']

# Calculando a média de preços dos carros com garantia de fábrica por estado
media_preco_por_estado = carros_com_garantia.groupby('estado_vendedor')['preco'].mean().reset_index()

# Encontrando o índice do estado com o menor preço médio
indice_menor_preco = media_preco_por_estado['preco'].idxmin()

# Obteno o nome do estado correspondente
estado_menor_preco = media_preco_por_estado.loc[indice_menor_preco, 'estado_vendedor']

# Calculando o preço médio dos carros com garantia de fábrica para o estado com menor preço médio
preco_medio_menor_preco = media_preco_por_estado.loc[indice_menor_preco, 'preco']

print(f"O estado com o menor preço médio dos carros com garantia de fábrica é: {estado_menor_preco}")
print(f"O preço médio dos carros com garantia de fábrica nesse estado é: R$ {preco_medio_menor_preco:.2f}")

## Modelo Preditivo

O problema de prever o preço de um carro com base nas características fornecidas no dataset, nesse caso o mais indicado seria um modelo de regressão, pois o objetivo é estimar um valor contínuo, como uma variável numérica, utilizando um conjunto de variáveis independentes como entrada. Nesse dataset específico, a variável que desejamos prever é o preço do carro, que é uma variável numérica e contínua.

Através de algoritmos de regressão, nosso objetivo é criar um modelo capaz de mapear as características do carro para um valor numérico correspondente ao seu preço, permitindo realizar previsões sobre o preço de carros desconhecidos com base nos padrões identificados nos dados de treinamento.

Prós:

- Eficiência computacional;
- Interpretação dos coeficientes;
- Simplicidade

Contras: 

- Overfitting;
- Sensibilidade a Outliers;
- Suposições de erros

#### Quais variáveis e/ou suas transformações você utilizou e por quê?

As 


O problema de prever o preço de um carro com base nas características fornecidas no dataset é um problema de regressão.

Em problemas de regressão, o objetivo é prever um valor contínuo, como uma variável numérica, a partir de um conjunto de variáveis independentes. No caso desse dataset, a variável alvo é o preço do carro, que é uma variável numérica e contínua.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_val, y_train, y_val = train_test_split(train_data.drop('preco', axis=1),
                                                  train_data['preco'],
                                                  test_size=0.25,
                                                  random_state=42)

In [None]:
X_train.shape, X_val.shape, y_train.shape, y_val.shape

In [None]:
X_train

## Carregando Dataset de Test