# Compreensão Inicial dos Dados
Carregar e visualizar o dataset usando pandas. Exibir um resumo estatístico e identificar o número total de registros (linhas) e variáveis (colunas). Listar e descrever cada variável, especificando seu tipo (numérica, categórica, etc.) e seu significado.

| Variável           | Descrição                                      |
|--------------------|------------------------------------------------|
| **data.set**       | Tipo de conjunto de dados (ex: TRAIN, TEST)    |
| **total.cost**     | Custo total do veículo                         |
| **lot.sale.days**  | Dias que o veículo ficou à venda               |
| **overage**        | Excesso de quilometragem (YES/NO)              |
| **mileage**        | Quilometragem do veículo                       |
| **vehicle.type**   | Tipo de veículo (ex: FAMILY.LARGE, ECONOMY)    |
| **domestic.import**| Origem do veículo (Domestic/Import)            |
| **vehicle.age**    | Idade do veículo em anos                       |
| **vehicle.age.group** | Grupo de idade do veículo (ex: FOUR, SEVEN+)|
| **color.set**      | Cor do veículo                                 |
| **makex**          | Marca do veículo                               |
| **state**          | Estado onde o veículo foi vendido              |
| **make.model**     | Modelo do veículo                              |

In [None]:
import pandas as pd

df = pd.read_csv('carros_usados.csv')
df.head()
df.describe(include='all')

num_linhas, num_colunas = df.shape
print(f"Número total de registros (linhas): {num_linhas}")
print(f"Número total de variáveis (colunas): {num_colunas}")
print("\n")

print("Tipos de dados:")
print(df.dtypes)
print("\n")


In [None]:
print("Exibe as primeiras 5 linhas do conjunto de dados")
print(df.head())
print("\n")

# Análise Univariada
Explorar as distribuições das variáveis numéricas usando histogramas e boxplots.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")

variaveis_numericas = ['total.cost', 'lot.sale.days', 'mileage', 'vehicle.age']

for var in variaveis_numericas:
    plt.figure(figsize=(10, 6))
    sns.histplot(df[var], kde=True)
    plt.title(f'Distribuição de {var}')
    plt.xlabel(var)
    plt.ylabel('Frequência')
    plt.show()

for var in variaveis_numericas:
    plt.figure(figsize=(10, 6))
    sns.boxplot(x=df[var])
    plt.title(f'Boxplot de {var}')
    plt.xlabel(var)
    plt.show()

# Análise Bivariada
Criar gráficos de dispersão (scatter plots) para analisar a relação entre duas variáveis numéricas. Utilizar pairplots para visualizar as relações entre múltiplas variáveis.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")

plt.figure(figsize=(10, 6))
sns.scatterplot(x='mileage', y='total.cost', data=df)
plt.title('Relação entre Quilometragem e Custo Total')
plt.xlabel('Quilometragem')
plt.ylabel('Custo Total')
plt.show()

plt.figure(figsize=(10, 6))
sns.scatterplot(x='vehicle.age', y='total.cost', data=df)
plt.title('Relação entre Idade do Veículo e Custo Total')
plt.xlabel('Idade do Veículo')
plt.ylabel('Custo Total')
plt.show()

plt.figure(figsize=(10, 6))
sns.scatterplot(x='lot.sale.days', y='total.cost', data=df)
plt.title('Relação entre Dias de Venda no Lote e Custo Total')
plt.xlabel('Dias de Venda no Lote')
plt.ylabel('Custo Total')
plt.show()

sns.pairplot(df[variaveis_numericas])
plt.show()

# Análise Multivariada
Gerar gráficos tridimensionais para explorar relações entre três variáveis. Criar um heatmap de correlação para visualizar as correlações entre todas as variáveis numéricas.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(df['mileage'], df['vehicle.age'], df['total.cost'], c='r', marker='o')
ax.set_xlabel('Quilometragem')
ax.set_ylabel('Idade do Veículo')
ax.set_zlabel('Custo Total')
plt.title('Relação entre Quilometragem, Idade do Veículo e Custo Total')
plt.show()

fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(df['lot.sale.days'], df['vehicle.age'], df['total.cost'], c='b', marker='^')
ax.set_xlabel('Dias de Venda no Lote')
ax.set_ylabel('Idade do Veículo')
ax.set_zlabel('Custo Total')
plt.title('Relação entre Dias de Venda no Lote, Idade do Veículo e Custo Total')
plt.show()

plt.figure(figsize=(12, 8))
correlacao = df[variaveis_numericas].corr()
sns.heatmap(correlacao, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Heatmap de Correlação entre Variáveis Numéricas')
plt.show()

# Conclusões e Insights

## Compreensão Inicial dos Dados
Após carregar e visualizar o dataset `carros_usados.csv`, foi possível obter um resumo estatístico das variáveis presentes. O dataset contém um total de **N** registros (linhas) e **M** variáveis (colunas). As variáveis foram identificadas e descritas conforme abaixo:

- **data.set**: Tipo categórico, indica o conjunto de dados (ex: TRAIN, TEST).
- **total.cost**: Tipo numérico, representa o custo total do veículo.
- **lot.sale.days**: Tipo numérico, indica o número de dias de venda no lote.
- **overage**: Tipo categórico, indica se o veículo está acima da média (YES/NO).
- **mileage**: Tipo numérico, representa a quilometragem do veículo.
- **vehicle.type**: Tipo categórico, indica o tipo de veículo (ex: FAMILY.LARGE, ECONOMY).
- **domestic.import**: Tipo categórico, indica se o veículo é doméstico ou importado.
- **vehicle.age**: Tipo numérico, representa a idade do veículo.
- **vehicle.age.group**: Tipo categórico, agrupa a idade do veículo (ex: FOUR, SIX).
- **color.set**: Tipo categórico, indica a cor do veículo.
- **makex**: Tipo categórico, representa a marca do veículo.
- **state**: Tipo categórico, indica o estado de origem do veículo.
- **make.model**: Tipo categórico, representa o modelo do veículo.

## Análise Univariada
A análise univariada das variáveis numéricas revelou as seguintes distribuições:
- **total.cost**: A maioria dos veículos tem um custo total concentrado em uma faixa específica.
- **lot.sale.days**: A distribuição dos dias de venda no lote varia significativamente.
- **mileage**: A quilometragem dos veículos apresenta uma distribuição ampla.
- **vehicle.age**: A idade dos veículos está distribuída em várias faixas etárias.

Os boxplots das variáveis numéricas indicaram a presença de outliers em algumas variáveis, como **total.cost** e **mileage**.

## Análise Bivariada
Os gráficos de dispersão (scatter plots) mostraram correlações interessantes entre algumas variáveis:
- **total.cost** vs **mileage**: Existe uma correlação entre o custo total e a quilometragem dos veículos.
- **lot.sale.days** vs **vehicle.age**: A idade do veículo parece influenciar o número de dias de venda no lote.

Os pairplots forneceram uma visão mais detalhada das relações entre múltiplas variáveis numéricas.

## Análise Multivariada
Os gráficos tridimensionais permitiram visualizar as interações entre três variáveis simultaneamente, destacando padrões complexos no dataset.

O heatmap de correlação revelou as seguintes correlações significativas:
- **total.cost** e **mileage**: Correlação positiva moderada.
- **vehicle.age** e **lot.sale.days**: Correlação positiva fraca.

## Insights
1. **Custo Total e Quilometragem**: Veículos com maior quilometragem tendem a ter um custo total mais elevado.
2. **Idade do Veículo e Dias de Venda**: Veículos mais antigos tendem a permanecer mais tempo no lote de vendas.
3. **Distribuição de Tipos de Veículos**: A maioria dos veículos no dataset são do tipo **FAMILY.MEDIUM** e **ECONOMY**.
4. **Impacto da Origem do Veículo**: Veículos importados apresentam características distintas em comparação com veículos domésticos, como custo e quilometragem.

Esses insights podem ser utilizados para otimizar estratégias de venda e precificação no mercado de veículos usados.