# Dicionário de Dados - Componentes de Computador

## Descrição Geral
Este dataset contém informações sobre componentes de computador, incluindo CPUs, GPUs, memórias RAM, placas-mãe, fontes de alimentação, SSDs e HDDs. Os dados foram coletados para análise de mercado e características técnicas dos componentes.

## Objetivo
- Documentar e descrever todos os atributos presentes nos datasets, incluindo tipos de dados, formatos e descrições detalhadas. 
- O objetivo é criar um dicionário de dados que possa ser utilizado para a análise dos dados.

In [None]:
# Importação das bibliotecas necessárias
import json
import pandas as pd
import numpy as np
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configuração para exibição
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)


In [12]:
# Função para carregar dados JSON
def carregar_dados(arquivo):
    """
    Carrega dados de um arquivo JSON e retorna um DataFrame pandas
    
    Args:
        arquivo (str): Caminho para o arquivo JSON
    
    Returns:
        pd.DataFrame: DataFrame com os dados carregados
    """
    with open(f'data/{arquivo}', 'r', encoding='utf-8') as f:
        dados = json.load(f)
    return pd.DataFrame(dados)

# Carregamento de todos os datasets
datasets = {
    'CPUs': carregar_dados('cpus_clean.json'),
    'GPUs': carregar_dados('gpus_clean.json'),
    'RAM': carregar_dados('ram_clean.json'),
    'Motherboards': carregar_dados('motherboard_clean.json'),
    'PSUs': carregar_dados('psus_clean.json'),
    'SSDs': carregar_dados('ssds_clean.json'),
    'HDDs': carregar_dados('hdds_clean.json')
}

print("Datasets carregados com sucesso!")
print(f"Total de datasets: {len(datasets)}")


Datasets carregados com sucesso!
Total de datasets: 7


## 1. Visão Geral dos Datasets


In [14]:
# Resumo geral dos datasets
resumo_geral = pd.DataFrame({
    'Dataset': list(datasets.keys()),
    'Número de Registros': [len(df) for df in datasets.values()],
    'Número de Atributos': [len(df.columns) for df in datasets.values()],
    'Tamanho em Memória (KB)': [round(df.memory_usage(deep=True).sum() / 1024, 2) for df in datasets.values()]
})

print("=== RESUMO GERAL DOS DATASETS ===")
print(resumo_geral.to_string(index=False))
print(f"\nTotal de registros: {resumo_geral['Número de Registros'].sum():,}")
print(f"Total de atributos únicos: {sum(len(df.columns) for df in datasets.values())}")


=== RESUMO GERAL DOS DATASETS ===
     Dataset  Número de Registros  Número de Atributos  Tamanho em Memória (KB)
        CPUs                  324                    9                   127.25
        GPUs                 1325                    5                   391.16
         RAM                 1648                    5                   423.05
Motherboards                 1545                   25                   761.94
        PSUs                  916                    4                   180.30
        SSDs                  456                    4                   107.77
        HDDs                  247                    4                    48.39

Total de registros: 6,461
Total de atributos únicos: 56


In [15]:
def criar_dicionario_dataset(df, nome_dataset):
    """
    Cria um dicionário detalhado para um dataset específico
    
    Args:
        df (pd.DataFrame): DataFrame a ser analisado
        nome_dataset (str): Nome do dataset
    
    Returns:
        pd.DataFrame: Dicionário de dados formatado
    """
    dicionario = []
    
    for coluna in df.columns:
        # Determinar tipo de dado
        tipo_pandas = str(df[coluna].dtype)
        
        # Classificar como categórico ou numérico
        if df[coluna].dtype in ['object', 'bool']:
            formato = 'Categórico'
            tipo_valor = 'Texto/Booleano'
        else:
            formato = 'Numérico'
            tipo_valor = 'Numérico'
        
        # Calcular estatísticas básicas
        valores_unicos = df[coluna].nunique()
        valores_nulos = df[coluna].isnull().sum()
        percentual_nulos = (valores_nulos / len(df)) * 100
        
        # Exemplos de valores
        exemplos = df[coluna].dropna().unique()[:3].tolist()
        exemplos_str = ', '.join([str(x) for x in exemplos])
        
        dicionario.append({
            'Atributo': coluna,
            'Tipo do Valor': tipo_valor,
            'Tipo Pandas': tipo_pandas,
            'Formato': formato,
            'Valores Únicos': valores_unicos,
            'Valores Nulos': valores_nulos,
            '% Nulos': round(percentual_nulos, 2),
            'Exemplos': exemplos_str
        })
    
    return pd.DataFrame(dicionario)

# Criar dicionários para todos os datasets
print("=== CRIANDO DICIONÁRIOS PARA TODOS OS DATASETS ===")
dicionarios = {}
for nome, df in datasets.items():
    dicionarios[nome] = criar_dicionario_dataset(df, nome)
    print(f"✓ Dicionário criado para {nome}")

print("\nDicionários criados com sucesso!")


=== CRIANDO DICIONÁRIOS PARA TODOS OS DATASETS ===
✓ Dicionário criado para CPUs
✓ Dicionário criado para GPUs
✓ Dicionário criado para RAM
✓ Dicionário criado para Motherboards
✓ Dicionário criado para PSUs
✓ Dicionário criado para SSDs
✓ Dicionário criado para HDDs

Dicionários criados com sucesso!


## 2. Dicionários Detalhados por Dataset

### 2.1 Dataset: CPUs (Processadores)


In [16]:
# Análise detalhada do dataset CPUs
print("=== DICIONÁRIO DETALHADO - CPUs ===")
cpu_df = datasets['CPUs']
print(f"Total de registros: {len(cpu_df)}")
print(f"Total de atributos: {len(cpu_df.columns)}")

# Criar dicionário detalhado para CPUs
cpu_dict = dicionarios['CPUs'].copy()
print("\n" + "="*80)
print("DICIONÁRIO DE ATRIBUTOS - CPUs")
print("="*80)
for _, row in cpu_dict.iterrows():
    print(f"ATRIBUTO: {row['Atributo']}")
    print(f"  Tipo do Valor: {row['Tipo do Valor']}")
    print(f"  Formato: {row['Formato']}")
    print(f"  Valores Únicos: {row['Valores Únicos']}")
    print(f"  Valores Nulos: {row['Valores Nulos']} ({row['% Nulos']}%)")
    print(f"  Exemplos: {row['Exemplos']}")
    print("-" * 40)

# Descrições específicas dos atributos de CPUs
descricoes_cpu = {
    'manufacturer': {
        'descricao': 'Fabricante do processador',
        'detalhes': 'Empresa responsável pela fabricação do processador (AMD, Intel)',
        'escala': 'Nominal'
    },
    'model': {
        'descricao': 'Modelo específico do processador',
        'detalhes': 'Nome comercial completo do processador incluindo série e especificações',
        'escala': 'Nominal'
    },
    'socket': {
        'descricao': 'Tipo de soquete da placa-mãe',
        'detalhes': 'Interface física que conecta o processador à placa-mãe (AM4, AM5, 1151, etc.)',
        'escala': 'Nominal'
    },
    'n_cores': {
        'descricao': 'Número de núcleos físicos',
        'detalhes': 'Quantidade de núcleos de processamento independentes no chip',
        'escala': 'Razão'
    },
    'base_clock_spd': {
        'descricao': 'Velocidade base de clock',
        'detalhes': 'Frequência de operação padrão do processador em GHz',
        'escala': 'Razão'
    },
    'boost_clock_spd': {
        'descricao': 'Velocidade máxima de boost',
        'detalhes': 'Frequência máxima que o processador pode atingir temporariamente',
        'escala': 'Razão'
    },
    'consumption': {
        'descricao': 'Consumo energético (TDP)',
        'detalhes': 'Thermal Design Power - consumo máximo de energia em Watts',
        'escala': 'Razão'
    },
    'integrated_gpu': {
        'descricao': 'GPU integrada',
        'detalhes': 'Unidade de processamento gráfico incorporada ao processador',
        'escala': 'Nominal'
    },
    'overclock': {
        'descricao': 'Suporte a overclock',
        'detalhes': 'Indica se o processador permite alteração da frequência além do padrão',
        'escala': 'Nominal (Booleana)'
    }
}

print("\n" + "="*80)
print("DESCRIÇÕES DETALHADAS DOS ATRIBUTOS - CPUs")
print("="*80)
for atributo, info in descricoes_cpu.items():
    print(f"ATRIBUTO: {atributo}")
    print(f"  Descrição: {info['descricao']}")
    print(f"  Detalhes: {info['detalhes']}")
    print(f"  Escala de Medida: {info['escala']}")
    print("-" * 40)


=== DICIONÁRIO DETALHADO - CPUs ===
Total de registros: 324
Total de atributos: 9

DICIONÁRIO DE ATRIBUTOS - CPUs
ATRIBUTO: manufacturer
  Tipo do Valor: Texto/Booleano
  Formato: Categórico
  Valores Únicos: 2
  Valores Nulos: 0 (0.0%)
  Exemplos: AMD, Intel
----------------------------------------
ATRIBUTO: model
  Tipo do Valor: Texto/Booleano
  Formato: Categórico
  Valores Únicos: 316
  Valores Nulos: 0 (0.0%)
  Exemplos: AMD Ryzen 5 5600X, AMD Athlon 3000G, AMD Ryzen 3 3300X
----------------------------------------
ATRIBUTO: socket
  Tipo do Valor: Texto/Booleano
  Formato: Categórico
  Valores Únicos: 18
  Valores Nulos: 0 (0.0%)
  Exemplos: AM4, AM5, TRX40
----------------------------------------
ATRIBUTO: n_cores
  Tipo do Valor: Numérico
  Formato: Numérico
  Valores Únicos: 14
  Valores Nulos: 0 (0.0%)
  Exemplos: 6, 2, 4
----------------------------------------
ATRIBUTO: base_clock_spd
  Tipo do Valor: Texto/Booleano
  Formato: Categórico
  Valores Únicos: 30
  Valores Nulo

### 2.2 Dataset: GPUs (Placas de Vídeo)


In [17]:
# Análise detalhada do dataset GPUs
print("=== DICIONÁRIO DETALHADO - GPUs ===")
gpu_df = datasets['GPUs']
print(f"Total de registros: {len(gpu_df)}")
print(f"Total de atributos: {len(gpu_df.columns)}")

# Criar dicionário detalhado para GPUs
gpu_dict = dicionarios['GPUs'].copy()
print("\n" + "="*80)
print("DICIONÁRIO DE ATRIBUTOS - GPUs")
print("="*80)
for _, row in gpu_dict.iterrows():
    print(f"ATRIBUTO: {row['Atributo']}")
    print(f"  Tipo do Valor: {row['Tipo do Valor']}")
    print(f"  Formato: {row['Formato']}")
    print(f"  Valores Únicos: {row['Valores Únicos']}")
    print(f"  Valores Nulos: {row['Valores Nulos']} ({row['% Nulos']}%)")
    print(f"  Exemplos: {row['Exemplos']}")
    print("-" * 40)

# Descrições específicas dos atributos de GPUs
descricoes_gpu = {
    'manufacturer': {
        'descricao': 'Fabricante da placa de vídeo',
        'detalhes': 'Empresa que fabrica a placa gráfica (ASUS, MSI, Gigabyte, SAPPHIRE, etc.)',
        'escala': 'Nominal'
    },
    'model': {
        'descricao': 'Modelo específico da GPU',
        'detalhes': 'Nome comercial completo incluindo chipset e variações do fabricante',
        'escala': 'Nominal'
    },
    'consumption': {
        'descricao': 'Consumo energético (TGP)',
        'detalhes': 'Total Graphics Power - consumo máximo de energia da GPU em Watts',
        'escala': 'Razão'
    },
    'vram': {
        'descricao': 'Memória de vídeo (VRAM)',
        'detalhes': 'Quantidade de memória dedicada para processamento gráfico em GB',
        'escala': 'Razão'
    },
    'vram_spd': {
        'descricao': 'Velocidade da VRAM',
        'detalhes': 'Frequência de operação da memória de vídeo em MHz',
        'escala': 'Razão'
    }
}

print("\n" + "="*80)
print("DESCRIÇÕES DETALHADAS DOS ATRIBUTOS - GPUs")
print("="*80)
for atributo, info in descricoes_gpu.items():
    print(f"ATRIBUTO: {atributo}")
    print(f"  Descrição: {info['descricao']}")
    print(f"  Detalhes: {info['detalhes']}")
    print(f"  Escala de Medida: {info['escala']}")
    print("-" * 40)


=== DICIONÁRIO DETALHADO - GPUs ===
Total de registros: 1325
Total de atributos: 5

DICIONÁRIO DE ATRIBUTOS - GPUs
ATRIBUTO: manufacturer
  Tipo do Valor: Texto/Booleano
  Formato: Categórico
  Valores Únicos: 20
  Valores Nulos: 1 (0.08%)
  Exemplos: SAPPHIRE, Gigabyte, ASUS
----------------------------------------
ATRIBUTO: model
  Tipo do Valor: Texto/Booleano
  Formato: Categórico
  Valores Únicos: 1297
  Valores Nulos: 0 (0.0%)
  Exemplos: Sapphire Pulse Radeon RX 6600 Gaming, Aorus RTX 3070 Master, ASUS GeForce RTX 3050 Dual
----------------------------------------
ATRIBUTO: consumption
  Tipo do Valor: Texto/Booleano
  Formato: Categórico
  Valores Únicos: 81
  Valores Nulos: 1 (0.08%)
  Exemplos: 132 W, 220 W, 130 W
----------------------------------------
ATRIBUTO: vram
  Tipo do Valor: Texto/Booleano
  Formato: Categórico
  Valores Únicos: 17
  Valores Nulos: 1 (0.08%)
  Exemplos: 8 GB, 12 GB, 10 GB
----------------------------------------
ATRIBUTO: vram_spd
  Tipo do Valor: 

### 2.3 Dataset: RAM (Memórias)


In [18]:
# Análise detalhada do dataset RAM
print("=== DICIONÁRIO DETALHADO - RAM ===")
ram_df = datasets['RAM']
print(f"Total de registros: {len(ram_df)}")
print(f"Total de atributos: {len(ram_df.columns)}")

# Descrições específicas dos atributos de RAM
descricoes_ram = {
    'manufacturer': {
        'descricao': 'Fabricante da memória RAM',
        'detalhes': 'Empresa responsável pela fabricação do módulo de memória',
        'escala': 'Nominal'
    },
    'model': {
        'descricao': 'Modelo específico da memória',
        'detalhes': 'Nome comercial completo incluindo série e especificações técnicas',
        'escala': 'Nominal'
    },
    'generation': {
        'descricao': 'Geração e tipo da memória',
        'detalhes': 'Tipo de memória (DDR3, DDR4, DDR5) com velocidade padrão',
        'escala': 'Ordinal'
    },
    'size': {
        'descricao': 'Capacidade da memória',
        'detalhes': 'Quantidade total de armazenamento do módulo em GB',
        'escala': 'Razão'
    },
    'frequency': {
        'descricao': 'Frequência de operação',
        'detalhes': 'Velocidade de funcionamento da memória em MHz',
        'escala': 'Razão'
    }
}

print("\n" + "="*80)
print("DESCRIÇÕES DETALHADAS DOS ATRIBUTOS - RAM")
print("="*80)
for atributo, info in descricoes_ram.items():
    print(f"ATRIBUTO: {atributo}")
    print(f"  Descrição: {info['descricao']}")
    print(f"  Detalhes: {info['detalhes']}")
    print(f"  Escala de Medida: {info['escala']}")
    print("-" * 40)


=== DICIONÁRIO DETALHADO - RAM ===
Total de registros: 1648
Total de atributos: 5

DESCRIÇÕES DETALHADAS DOS ATRIBUTOS - RAM
ATRIBUTO: manufacturer
  Descrição: Fabricante da memória RAM
  Detalhes: Empresa responsável pela fabricação do módulo de memória
  Escala de Medida: Nominal
----------------------------------------
ATRIBUTO: model
  Descrição: Modelo específico da memória
  Detalhes: Nome comercial completo incluindo série e especificações técnicas
  Escala de Medida: Nominal
----------------------------------------
ATRIBUTO: generation
  Descrição: Geração e tipo da memória
  Detalhes: Tipo de memória (DDR3, DDR4, DDR5) com velocidade padrão
  Escala de Medida: Ordinal
----------------------------------------
ATRIBUTO: size
  Descrição: Capacidade da memória
  Detalhes: Quantidade total de armazenamento do módulo em GB
  Escala de Medida: Razão
----------------------------------------
ATRIBUTO: frequency
  Descrição: Frequência de operação
  Detalhes: Velocidade de funcionamen

### 2.4 Datasets Restantes: PSUs, SSDs, HDDs


In [19]:
# Dicionários para os datasets restantes
datasets_restantes = {
    'PSUs': {
        'manufacturer': {
            'descricao': 'Fabricante da fonte de alimentação',
            'detalhes': 'Empresa responsável pela fabricação da PSU',
            'escala': 'Nominal'
        },
        'model': {
            'descricao': 'Modelo específico da fonte',
            'detalhes': 'Nome comercial incluindo características (modular, semi-modular)',
            'escala': 'Nominal'
        },
        'power': {
            'descricao': 'Potência nominal',
            'detalhes': 'Capacidade máxima de fornecimento de energia em Watts',
            'escala': 'Razão'
        },
        'rate': {
            'descricao': 'Certificação de eficiência',
            'detalhes': 'Padrão 80 Plus (Bronze, Silver, Gold, Platinum, Titanium)',
            'escala': 'Ordinal'
        }
    },
    'SSDs': {
        'manufacturer': {
            'descricao': 'Fabricante do SSD',
            'detalhes': 'Empresa responsável pela fabricação da unidade de estado sólido',
            'escala': 'Nominal'
        },
        'model': {
            'descricao': 'Modelo específico do SSD',
            'detalhes': 'Nome comercial incluindo capacidade e série',
            'escala': 'Nominal'
        },
        'storage': {
            'descricao': 'Capacidade de armazenamento',
            'detalhes': 'Espaço total disponível para dados em GB',
            'escala': 'Razão'
        },
        'io': {
            'descricao': 'Interface de conexão',
            'detalhes': 'Tipo de conexão (SATA, NVMe/NVM)',
            'escala': 'Nominal'
        }
    },
    'HDDs': {
        'manufacturer': {
            'descricao': 'Fabricante do disco rígido',
            'detalhes': 'Empresa responsável pela fabricação do HDD',
            'escala': 'Nominal'
        },
        'model': {
            'descricao': 'Modelo específico do HDD',
            'detalhes': 'Nome comercial incluindo capacidade e características',
            'escala': 'Nominal'
        },
        'storage': {
            'descricao': 'Capacidade de armazenamento',
            'detalhes': 'Espaço total disponível para dados em TB',
            'escala': 'Razão'
        },
        'rpm': {
            'descricao': 'Rotações por minuto',
            'detalhes': 'Velocidade de rotação dos discos internos',
            'escala': 'Razão'
        }
    }
}

# Exibir dicionários dos datasets restantes
for dataset_nome, descricoes in datasets_restantes.items():
    print(f"\n{'='*80}")
    print(f"DESCRIÇÕES DETALHADAS DOS ATRIBUTOS - {dataset_nome}")
    print("="*80)
    
    df_atual = datasets[dataset_nome]
    print(f"Total de registros: {len(df_atual)}")
    print(f"Total de atributos: {len(df_atual.columns)}")
    print()
    
    for atributo, info in descricoes.items():
        print(f"ATRIBUTO: {atributo}")
        print(f"  Descrição: {info['descricao']}")
        print(f"  Detalhes: {info['detalhes']}")
        print(f"  Escala de Medida: {info['escala']}")
        print("-" * 40)



DESCRIÇÕES DETALHADAS DOS ATRIBUTOS - PSUs
Total de registros: 916
Total de atributos: 4

ATRIBUTO: manufacturer
  Descrição: Fabricante da fonte de alimentação
  Detalhes: Empresa responsável pela fabricação da PSU
  Escala de Medida: Nominal
----------------------------------------
ATRIBUTO: model
  Descrição: Modelo específico da fonte
  Detalhes: Nome comercial incluindo características (modular, semi-modular)
  Escala de Medida: Nominal
----------------------------------------
ATRIBUTO: power
  Descrição: Potência nominal
  Detalhes: Capacidade máxima de fornecimento de energia em Watts
  Escala de Medida: Razão
----------------------------------------
ATRIBUTO: rate
  Descrição: Certificação de eficiência
  Detalhes: Padrão 80 Plus (Bronze, Silver, Gold, Platinum, Titanium)
  Escala de Medida: Ordinal
----------------------------------------

DESCRIÇÕES DETALHADAS DOS ATRIBUTOS - SSDs
Total de registros: 456
Total de atributos: 4

ATRIBUTO: manufacturer
  Descrição: Fabricante d