### **Exploração Inicial**

Nesta etapa, realizamos a exploração inicial do **GHPR_dataset** com os seguintes objetivos:

- **Coleta e inspeção** do dataset GHPR_dataset.  
- **Tratamento de dados** ausentes, inconsistentes e outliers.  
- **Análise estatística descritiva**: médias, medianas e medidas de dispersão.  
- **Identificação de correlações e padrões** relevantes entre as variáveis.  
- **Geração de visualizações preliminares** para embasar as próximas decisões de modelagem.  

---

O propósito desta fase é **garantir a qualidade e a confiabilidade dos dados**, fornecendo uma base sólida para a etapa de **modelagem preditiva**.

In [1]:
%pip install pandas matplotlib seaborn numpy

# Imports principais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
url = "https://raw.githubusercontent.com/feiwww/GHPR_dataset/refs/heads/master/baseline.csv"
df = pd.read_csv(url)

# Visualizar primeiras linhas
df.head()

Unnamed: 0,SHA,cbo,wmc,dit,rfc,lcom,totalMethods,totalFields,nosi,loc,...,tryCatchQty,parenthesizedExpsQty,stringLiteralsQty,numbersQty,assignmentsQty,mathOperationsQty,variablesQty,maxNestedBlocks,uniqueWordsQty,defect
0,7a955fd6c7de2bd912be544dcfe77f9173a7aa600,5,60,2,55,189,27,5,30,247,...,4,2,47,9,27,5,17,3,191,0
1,000f1ab4780fc9460975791c52597f7c04e15be70,3,10,1,1,9,7,4,1,38,...,0,0,0,22,4,0,4,2,69,0
2,000f1ab4780fc9460975791c52597f7c04e15be71,3,10,1,1,9,7,4,0,38,...,0,0,0,22,4,0,4,2,69,1
3,0024dbdd6ba3cc7797cc0b1ae537dcdc488c4c270,20,59,3,63,189,24,9,4,262,...,0,6,6,14,45,8,41,4,222,0
4,0024dbdd6ba3cc7797cc0b1ae537dcdc488c4c271,21,58,2,61,189,24,9,0,260,...,0,6,6,14,45,8,41,4,222,1


### **Dicionário de Métricas – GHPR_dataset**

Este dicionário apresenta a descrição das métricas extraídas do **GHPR_dataset**, traduzidas para o português:

- **CBO (Coupling Between Objects)** – Mede o **acoplamento entre objetos**, contando o número de dependências que uma classe possui.  
- **WMC (Weight Method Class / McCabe’s Complexity)** – Mede a **complexidade ciclomática** de uma classe, contando a quantidade de instruções de desvio/ramificação.  
- **DIT (Depth Inheritance Tree)** – Profundidade da **árvore de herança**, contando o número de "pais" que uma classe possui. Todas têm pelo menos 1 (herdam de `java.lang.Object`).  
- **RFC (Response For a Class)** – Conta o número de **invocações únicas de métodos** em uma classe.  
- **LCOM (Lack of Cohesion of Methods)** – Mede a **falta de coesão entre métodos** de uma classe.  
- **totalMethods** – Número total de **métodos declarados** em uma classe.  
- **totalFields** – Número total de **atributos/variáveis de instância** em uma classe.  
- **NOSI (Number of Static Invocations)** – Quantidade de **invocações a métodos estáticos**.  
- **LOC (Lines of Code)** – Contagem de **linhas de código**, ignorando linhas em branco.  
- **returnQty** – Número de **instruções `return`**.  
- **loopQty** – Número de **estruturas de repetição** (`for`, `while`, `do while`, `foreach`).  
- **comparisonsQty** – Número de **comparações lógicas** (`==`, `!=`).  
- **tryCatchQty** – Número de **estruturas `try/catch`**.  
- **parenthesizedExpsQty** – Número de **expressões entre parênteses**.  
- **stringLiteralsQty** – Número de **literais do tipo string** (ex.: `"Exemplo"`).  
- **numbersQty** – Número de **literais numéricos** (ex.: `int`, `double`, `float`).  
- **assignmentsQty** – Número de **atribuições de variáveis**.  
- **mathOperationsQty** – Número de **operações matemáticas** (`+`, `-`, `*`, `/`, `%`, `<<`, `>>`).  
- **variablesQty** – Quantidade de **variáveis declaradas**.  
- **maxNestedBlocks** – Profundidade máxima de **blocos de código aninhados**.  
- **uniqueWordsQty** – Quantidade de **palavras únicas** presentes no código-fonte.  

---

Esse dicionário serve como referência para a análise exploratória e para a interpretação dos resultados na fase de **modelagem preditiva**.
