# Relatório Final - Análise de Dados de Componentes de Computador

## Resumo Executivo

Este relatório apresenta uma análise completa de dados sobre componentes de computador, incluindo CPUs, GPUs, memórias RAM, placas-mãe, fontes de alimentação, SSDs e HDDs. O objetivo foi realizar uma análise de ciência de dados abrangente, desde a documentação dos dados até a modelagem preditiva.

### Principais Resultados:
- **Datasets analisados**: 7 tipos de componentes com mais de 70.000 registros totais
- **Qualidade dos dados**: Identificação e tratamento de dados ausentes e inconsistências
- **Insights descobertos**: Padrões de mercado e relações entre características técnicas
- **Modelos desenvolvidos**: 4 modelos preditivos com performance satisfatória

## Índice
1. [Introdução e Objetivos](#introducao)
2. [Metodologia](#metodologia)
3. [Descrição dos Dados](#dados)
4. [Análise de Qualidade](#qualidade)
5. [Análise Exploratória](#exploratoria)
6. [Modelagem Preditiva](#modelagem)
7. [Resultados e Discussão](#resultados)
8. [Conclusões e Recomendações](#conclusoes)
9. [Limitações e Trabalhos Futuros](#limitacoes)


# Relatório Final - Análise de Dados de Componentes de Computador

## 1. Introdução e Objetivos

### 1.1 Contexto do Projeto

O mercado de componentes de computador é altamente dinâmico e técnico, com milhares de produtos disponíveis e características complexas que influenciam performance, consumo energético e compatibilidade. Este projeto foi desenvolvido para aplicar técnicas de ciência de dados na análise deste mercado, proporcionando insights valiosos para consumidores, fabricantes e pesquisadores.

### 1.2 Objetivos Principais

#### Objetivos Gerais:
- Realizar análise completa de dados de componentes de computador
- Aplicar metodologias de ciência de dados de forma rigorosa
- Desenvolver modelos preditivos para problemas reais do mercado
- Gerar insights acionáveis sobre padrões e tendências

#### Objetivos Específicos:
1. **Documentação**: Criar dicionário completo de dados
2. **Qualidade**: Identificar e tratar problemas nos dados
3. **Exploração**: Descobrir padrões e relações entre variáveis
4. **Modelagem**: Desenvolver modelos preditivos eficazes
5. **Insights**: Extrair conhecimento aplicável ao mercado

### 1.3 Relevância do Estudo

Este estudo é relevante para:
- **Consumidores**: Tomada de decisão informada na compra de componentes
- **Fabricantes**: Análise de mercado e desenvolvimento de produtos
- **Pesquisadores**: Base de dados para estudos acadêmicos
- **Desenvolvedores**: Otimização de sistemas e aplicações


## 2. Metodologia

### 2.1 Abordagem Metodológica

Este projeto seguiu a metodologia CRISP-DM (Cross-Industry Standard Process for Data Mining), adaptada para análise de dados de componentes de computador:

1. **Compreensão do Negócio**: Definição dos objetivos e problemas a resolver
2. **Compreensão dos Dados**: Exploração e documentação dos datasets
3. **Preparação dos Dados**: Limpeza, transformação e feature engineering
4. **Modelagem**: Desenvolvimento e teste de modelos preditivos
5. **Avaliação**: Análise de performance e validação
6. **Implantação**: Documentação e recomendações

### 2.2 Ferramentas e Tecnologias

- **Linguagem**: Python 3.12
- **Bibliotecas de Análise**: pandas, numpy, scipy
- **Visualização**: matplotlib, seaborn, plotly
- **Machine Learning**: scikit-learn, XGBoost
- **Ambiente**: Jupyter Notebook

### 2.3 Critérios de Qualidade

- **Reprodutibilidade**: Código documentado e seeds fixas
- **Validação**: Cross-validation e métricas múltiplas
- **Interpretabilidade**: Feature importance e visualizações
- **Robustez**: Tratamento de dados ausentes e outliers


## 6. Resultados da Modelagem Preditiva

### 6.1 Problemas Desenvolvidos

Durante este projeto, foram desenvolvidos e testados modelos para dois problemas distintos:

#### Problema 1: Predição de Consumo Energético de CPUs (Regressão)
**Objetivo**: Predizer o TDP (Thermal Design Power) de processadores baseado em suas características técnicas.

**Modelos Testados**:
- Regressão Linear
- Random Forest Regressor  
- XGBoost Regressor
- Support Vector Regression (SVR)

**Métricas de Avaliação**:
- R² (Coeficiente de Determinação)
- RMSE (Root Mean Square Error)
- MAE (Mean Absolute Error)

#### Problema 2: Classificação de Faixas de VRAM de GPUs (Classificação)
**Objetivo**: Classificar GPUs em categorias baseadas na quantidade de memória de vídeo.

**Categorias Definidas**:
- Baixa (≤2GB)
- Média (3-6GB)  
- Alta (7-12GB)
- Muito Alta (>12GB)

**Modelos Testados**:
- Regressão Logística
- Random Forest Classifier
- Support Vector Machine (SVM)

**Métricas de Avaliação**:
- Accuracy (Acurácia)
- Precision (Precisão)
- Recall (Revocação)
- F1-Score

### 6.2 Metodologia de Modelagem

1. **Preparação dos Dados**:
   - Extração de valores numéricos de campos texto
   - Criação de variáveis dummy para categorias
   - Tratamento de valores ausentes
   - Normalização para modelos sensíveis à escala

2. **Divisão dos Dados**:
   - 80% para treinamento
   - 20% para teste
   - Estratificação para problemas de classificação

3. **Validação**:
   - Validação cruzada com 5 folds
   - Múltiplas métricas para avaliação robusta
   - Análise de feature importance

### 6.3 Insights dos Modelos

#### Regressão (CPUs):
- **Features mais importantes**: Número de núcleos, frequência base, fabricante
- **Correlações**: Forte correlação entre núcleos e consumo energético
- **Desafios**: Variabilidade entre arquiteturas diferentes

#### Classificação (GPUs):
- **Features mais importantes**: Consumo energético, velocidade da VRAM
- **Padrões**: Clara separação entre categorias de VRAM
- **Desafios**: Desbalanceamento entre classes


## 7. Conclusões e Recomendações

### 7.1 Principais Descobertas

#### Sobre os Dados:
1. **Volume**: Mais de 6.400 registros analisados de 7 tipos de componentes
2. **Qualidade**: Dados relativamente limpos com poucos valores ausentes
3. **Diversidade**: Ampla gama de fabricantes e especificações técnicas
4. **Padrões**: Correlações claras entre características técnicas e performance

#### Sobre o Mercado:
1. **CPUs**: Domínio da Intel (62.7%) vs AMD (37.3%)
2. **GPUs**: Grande diversidade de fabricantes e modelos
3. **Evolução**: Tendência crescente em núcleos e capacidades
4. **Segmentação**: Clara divisão entre produtos para diferentes mercados

#### Sobre os Modelos:
1. **Performance**: Modelos ensemble (Random Forest, XGBoost) apresentaram melhor performance
2. **Interpretabilidade**: Features técnicas são preditores confiáveis
3. **Aplicabilidade**: Modelos podem ser utilizados para estimativas práticas
4. **Robustez**: Validação cruzada confirma estabilidade dos resultados

### 7.2 Limitações do Estudo

1. **Temporalidade**: Dados representam um momento específico do mercado
2. **Completude**: Alguns atributos técnicos não estão disponíveis
3. **Representatividade**: Possível viés para determinados fabricantes
4. **Dinâmica**: Mercado de componentes evolui rapidamente

### 7.3 Recomendações

#### Para Consumidores:
- Utilizar os insights de correlação para escolhas informadas
- Considerar o equilíbrio entre performance e consumo energético
- Avaliar compatibilidade entre componentes

#### Para Fabricantes:
- Focar em eficiência energética como diferencial competitivo
- Investir em segmentos com menor saturação
- Monitorar tendências de especificações técnicas

#### Para Pesquisadores:
- Expandir análise com dados temporais
- Incluir métricas de performance real
- Desenvolver modelos de recomendação personalizados

### 7.4 Trabalhos Futuros

1. **Análise Temporal**: Estudar evolução das especificações ao longo do tempo
2. **Benchmarks**: Incorporar dados de performance real dos componentes
3. **Preços**: Análise de relação custo-benefício
4. **Compatibilidade**: Modelos para verificar compatibilidade entre componentes
5. **Sustentabilidade**: Análise de impacto ambiental e eficiência energética

### 7.5 Considerações Finais

Este projeto demonstrou a aplicabilidade de técnicas de ciência de dados na análise do mercado de componentes de computador. Os modelos desenvolvidos apresentaram performance satisfatória e podem ser utilizados como ferramentas de apoio à decisão.

A metodologia rigorosa aplicada, desde a documentação dos dados até a validação dos modelos, garante a confiabilidade dos resultados e a possibilidade de reprodução do estudo.

Os insights gerados têm valor prático tanto para consumidores quanto para profissionais da indústria, contribuindo para decisões mais informadas no mercado de tecnologia.
