In [4]:
import numpy as np
import pandas as pd

📊 **Carregar dados**

In [8]:
cars = pd.read_csv('/content/drive/MyDrive/Datasets/Mineração de Dados/car_price_prediction.csv')

👁️ **Visualização das primeiras linhas**

In [9]:
cars.head()

Unnamed: 0,ID,Price,Levy,Manufacturer,Model,Prod. year,Category,Leather interior,Fuel type,Engine volume,Mileage,Cylinders,Gear box type,Drive wheels,Doors,Wheel,Color,Airbags
0,45654403,13328,1399,LEXUS,RX 450,2010,Jeep,Yes,Hybrid,3.5,186005 km,6.0,Automatic,4x4,04-May,Left wheel,Silver,12
1,44731507,16621,1018,CHEVROLET,Equinox,2011,Jeep,No,Petrol,3.0,192000 km,6.0,Tiptronic,4x4,04-May,Left wheel,Black,8
2,45774419,8467,-,HONDA,FIT,2006,Hatchback,No,Petrol,1.3,200000 km,4.0,Variator,Front,04-May,Right-hand drive,Black,2
3,45769185,3607,862,FORD,Escape,2011,Jeep,Yes,Hybrid,2.5,168966 km,4.0,Automatic,4x4,04-May,Left wheel,White,0
4,45809263,11726,446,HONDA,FIT,2014,Hatchback,Yes,Petrol,1.3,91901 km,4.0,Automatic,Front,04-May,Left wheel,Silver,4


📝 **Descrição das Variáveis (colunas)**

-  `ID`: Identificador do carro
-  `Price`: **Alvo**: Preço do carro
-  `Levy`: Taxa/Imposto sobre o carro
-  `Manufacturer`: Fabricante
-  `Model`: Modelo específico do carro
-  `Prod. year`: Ano de fabricação
-  `Category`: Categoria do carro
-  `Leather interior`: Possui interior de couro Yes/No
-  `Fuel type`: Tipo de combustível
-  `Engine volume`: Volume do motor
-  `Mileage`: Quilometragem
-  `Cylinders`: Número de cilindros
-  `Gear box type`: Tipo de câmbio
-  `Drive wheels`: Tração
-  `Doors`: Número de portas"
-  `Wheel`: Lado do volante Left/Right
-  `Color`: Cor do carro
-  `Airbags`: Número de airbags

📊 **Dimensão do Dataset: Registros e Variáveis**

*Nesta etapa, é apresentada a quantidade total de registros (linhas) e variáveis (colunas).*

In [20]:
df_shape = cars.shape

print(f"Total de Registros: {df_shape[0]}")
print(f"Total de Variáveis: {df_shape[1]}")

Total de Registros: 19237
Total de Variáveis: 18


🔍 **Verificação dos Tipos de Variáveis**

*Nesta etapa, são verificados os tipos de dados de cada variável do dataset. Essa análise é útil para validar a estrutura dos dados e garantir que cada variável esteja no formato adequado para as próximas etapas da análise.*

In [12]:
cars.dtypes

Unnamed: 0,0
ID,int64
Price,int64
Levy,object
Manufacturer,object
Model,object
Prod. year,int64
Category,object
Leather interior,object
Fuel type,object
Engine volume,object


**Classificação das variáveis e geração de tabela resumo**

*Nesta etapa, as variáveis do dataset foram classificadas em dois grupos principais: quantitativas (numéricas) e qualitativas (categóricas). Em seguida, foi gerada uma tabela resumo que apresenta, lado a lado, os nomes das variáveis conforme o tipo, facilitando a visualização e análise dos dados.*

In [13]:
import pandas as pd

# Função para classificar variáveis
def classificar_variaveis(df):
    quantitativas = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
    qualitativas = df.select_dtypes(include=['object', 'category', 'bool']).columns.tolist()
    return quantitativas, qualitativas

In [14]:
def gerar_tabela_resumo(quantitativas, qualitativas):
    max_len = max(len(quantitativas), len(qualitativas))
    qnt_pad = quantitativas + [""] * (max_len - len(quantitativas))
    qlt_pad = qualitativas + [""] * (max_len - len(qualitativas))

    tabela = pd.DataFrame({
        "Variáveis Quantitativas": qnt_pad,
        "Variáveis Qualitativas": qlt_pad
    })
    return tabela

In [15]:
def exibir_dataset_classificado(nome_dataset, df):
    # Classificação
    quantitativas, qualitativas = classificar_variaveis(df)

    # Título
    print(f"\n📋 Dataset: {nome_dataset}")

    # Tamanho
    print(f"\n📊 Total: {df.shape[0]} linhas e {df.shape[1]} colunas")

    # Listas
    print("\n▶ Variáveis Quantitativas:", quantitativas)
    print("▶ Variáveis Qualitativas:", qualitativas)

    # Tabela resumo
    tabela_resumo = gerar_tabela_resumo(quantitativas, qualitativas)
    print("\n\n📋 Tabela Resumo:")
    print(tabela_resumo)

In [16]:
exibir_dataset_classificado("Cars", cars)


📋 Dataset: Cars

📊 Total: 19237 linhas e 18 colunas

▶ Variáveis Quantitativas: ['ID', 'Price', 'Prod. year', 'Cylinders', 'Airbags']
▶ Variáveis Qualitativas: ['Levy', 'Manufacturer', 'Model', 'Category', 'Leather interior', 'Fuel type', 'Engine volume', 'Mileage', 'Gear box type', 'Drive wheels', 'Doors', 'Wheel', 'Color']


📋 Tabela Resumo:
   Variáveis Quantitativas Variáveis Qualitativas
0                       ID                   Levy
1                    Price           Manufacturer
2               Prod. year                  Model
3                Cylinders               Category
4                  Airbags       Leather interior
5                                       Fuel type
6                                   Engine volume
7                                         Mileage
8                                   Gear box type
9                                    Drive wheels
10                                          Doors
11                                          Wheel
12 

📝 **Observação Sobre a Classificação das Variáveis**


Embora a classificação automática das variáveis com base nos tipos de dados (int64, float64, object) seja útil como ponto de partida, ela não é suficiente para uma análise precisa. Algumas variáveis que aparecem como object são, na verdade, quantitativas disfarçadas, devido à presença de símbolos, unidades ou valores inconsistentes.

Por exemplo:

Levy: representa um valor monetário, mas contém valores ausentes ou símbolos, exigindo limpeza antes da conversão para numérico.

Mileage: está como string com "km", mas representa uma medida contínua.

Doors: deveria ser numérica, mas está como texto, possivelmente por valores como '>5'.

✅ **Classificação Real das Variáveis**

🔢 Variáveis Quantitativas (Numéricas)

-  Price
-  Levy
-  Prod. year
-  Engine volume
-  Mileage
-  Cylinders
-  Airbags
-  Doors

🔠 Variáveis Qualitativas (Categóricas)

-  ID
-  Manufacturer
-  Model
-  Category
-  Leather interior
-  Fuel type
-  Gear box type
-  Drive wheels
-  Wheel
-  Color