## Bibliotecas

In [None]:
#Bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt


## 1. Fazendo  a limpeza de dados.

### 1.1 Carregando a base de dados

In [None]:
#Base de dados
carros = pd.read_csv('https://raw.githubusercontent.com/RafaelSilvax06/ProjetoIA-Analise/refs/heads/main/car_sales_data.csv')
carros.head(30)


### 1.2 Traduzindo titulos de colunas e convertando valor em reais.

In [None]:
#Traduzindo colunas
carros.columns = ['Fabricante', 'Modelo', 'Potencia Motor', 'Tipo Combustivel', 'Ano De Fabricação', 'Quilometragem', 'Preco']

#Convertando preço dos carros para reais.
carros['Preco'] = carros['Preco'].astype(float)
carros['Preco'] = carros['Preco'] * 5.38
carros.head()


### 1.3 Fazendo a limpeza de dados.
Verificando dados nulos, type de variaveis e valores de colunas.

In [None]:
#Limpeza dos dados
print('===== ANÁLISE INICIAL DA BASE DE DADOS =====\n')

# Informações gerais sobre o DataFrame
print('Informações gerais:')
print('------------------------------------------------')
carros.info()
print('\n')

# Verificação de valores nulos
print('Verificando se existem dados nulos:')
print('------------------------------------------------')
print(carros.isnull().sum())
print('\n')

# Estatísticas descritivas
print('Descrição dos dados numéricos (verificar se há algo fora do padrão):')
print('------------------------------------------------')
print(carros.describe())
print('\n')

print('===== FIM DA ANÁLISE INICIAL =====')

### 1.4 Dando drop em preços de carros irreais.

In [None]:
'''Analisando o bloco percebemos que existem carros com valores muitos irreais, decidimos remover os carros com valor de R$ 3.500,00'''
carros_valor_irreais = carros[carros['Preco'] <= 3500.00].sort_values(by='Preco')
carros.drop(index=carros_valor_irreais.index, inplace=True)
carros.info()

### 1.5 Convertando type de variaveis em colunas necessarias.
Ao analisar o info do grafico é preciso converter a coluna quilometragem em float

In [None]:
# Transformando quilometragem em float
carros['Quilometragem'] = carros['Quilometragem'].astype(float)
carros.head()

## 2. Análise Das Variaveis Categoricas.
Analisando colunas 'Tipo Combustivel', 'Fabricante', 'Modelo' para entender seus dados.

### 2.1 Analise da coluna combustivel

In [None]:
#Combutivel
print('Analisando os tipos de combustivel dos carros:')
contagem_combustivel = carros['Tipo Combustivel'].value_counts()
print(contagem_combustivel)

#Criando um grafico para visualizar as contagens de combustivel.
sns.countplot(data=carros, x='Tipo Combustivel', order=contagem_combustivel.index)
plt.title('Contagem de Carros por Tipo de Combustível')
plt.xlabel('Tipo de Combustível')
plt.ylabel('Contagem de Carros')
plt.show()

### 2.2 Analise da coluna fabricante.

In [None]:
#Fabricante
print('Analisando os fabricantes dos carros:')
contagem_fabricante = carros['Fabricante'].value_counts()

#Imprimindo a contagem dos fabricantes
print(contagem_fabricante.head)
print('\n')

#Visualizando o total de fabricantes.
print('Total de fabricantes únicos:', carros['Fabricante'].nunique())

#Criando um grafico para visualizar as contagens de fabricantes.
sns.countplot(data=carros, x='Fabricante', order=contagem_fabricante.index)
plt.title('Contagem de Carros por Fabricante')
plt.xlabel('Fabricante')
plt.ylabel('Contagem de Carros')
plt.show()

### 2.3 Analise da coluna modelo

In [None]:
#Modelo
print('Analisando modelos dos carros')
contagem_modelos = carros['Modelo'].value_counts()

#Visualizando os 10 primeiros modelos.
print(contagem_modelos.head(10))

#Visualizando o total de modelos unicos por carros.
print(f'Total de modelos:', carros['Modelo'].nunique())

#Criando um grafico de barras para visualizar os modelos
plt.figure(figsize=(10,6))
sns.barplot(x=contagem_modelos.values, y=contagem_modelos.index, orient='h')
plt.title('Contagem de modelos por carros')
plt.xlabel('Contagem de carros')
plt.ylabel('Modelos')
plt.show()

## 3 Correlação de colunas númericas com o preço

In [None]:
#Extraindo colunas númericas.
colunas_numericas = ['Potencia Motor', 'Ano De Fabricação', 'Quilometragem', 'Preco']
df_numericas = carros[colunas_numericas]
df_numericas.head(10)

In [None]:
# Selecionar apenas as colunas numéricas para a correlação
# CORREÇÃO: Removido 'Tipo Combustivel' e adicionado 'Ano De Fabricação'
colunas_numericas = ['Potencia Motor', 'Ano De Fabricação', 'Quilometragem', 'Preco']
df_numerico = carros[colunas_numericas]

# Calcular a matriz de correlação
correlacao = df_numerico.corr()

# Exibir a matriz de correlação (para ver os números)
print("Matriz de Correlação:")
print(correlacao)

# Criar o mapa de calor (heatmap)
plt.figure(figsize=(10, 7))
sns.heatmap(
    correlacao,
    annot=True,      # Mostrar os números dentro de cada quadrado
    cmap='coolwarm', # Esquema de cores (azul=frio/negativo, vermelho=quente/positivo)
    fmt='.2f'        # Formatar os números para 2 casas decimais
)
plt.title('Mapa de Calor da Correlação entre Variáveis Numéricas')
plt.show()