----------------------------------------------------------------------------------------------------------------

# Data Science and Machine Learning Project
## Disciplina C318 - Engenharia da Computação e Engenharia de Software

### Integrantes
- Airton Gabriel Honorato de Carvalho - GES 113
- Leonardo Teodoro Costa de Oliveira
- Luca Felipe de Lima Delmondes
- Lucas Ribeiro Garciad e Souza - GES 134

----------------------------------------------------------------------------------------------------------------

### Heart Disease Prediction using Machine Learning - End-to-End Machine Learning Project

### Estrutura em Etapas do Projeto:
- **Step 1** : Importação de bibliotecas e frameworks
- **Step 2** : Importação e informações sobre os dados
- **Step 3** : Importação de dados com Google Bigquery
- **Step 4** : Exploração inicial de dados
- **Step 5** : Métodos de amostragem
  - Métodos de amostragem aleatória baseados em permutação
  - Métodos de amostragem aleatória baseados em identificadores únicos
  - Métodos de amostragem aleatória com scikit-learn
  - Métodos de amostragem aleatória baseados em estratificação
  - Proporções e representatividade dos métodos de amostragem aleatória
- **Step 6** : Análise de dados - SQL Business Questions
- **Step 7** : Análise exploratória de dados
  - Visualizacão de dados
  - Análise estatística dos dados - correlações
  - Engenharia de features (combinação de atributos)
- **Step 8** : Preparação dos dados para modelagem 
  - Princípios de design do scikit-learn
  - Limpeza de dados (data cleaning)
  - Detecção e análise de outliers nos dados 
  - Processamento de features categóricas com codificadores (encoding)
  - Normalizações e padronizações (Feature Scaling)
- **Step 9** : Pipelines e transformações customizadas 
  - Transformações customizadas (custom transformers)
  - Pipelines de transformação (transformation pipelines)
  - Pipeline Design (feature_utils.py)
- **Step 10** : Machine Learning (Model Bulding)
  - Seleção de modelos e treinamento (Model Building)
  - Otimização de hiperparâmetros
  - Avaliação do treinamento (cross-validation)
- **Step 11** : Machine Learning (Model Testing)
  - Teste de performance da pipeline 
  - Model evaluation
  - Desempenho em dados de treinamento
  - Feature Importance
- **Step 12** : Salvando o Pipeline de Modelagem (Model Saving)
  - Procedimento via pickle e joblib

----------------------------------------------------------------------------------------------------------------

### **Step 1** : Importação de bibliotecas e frameworks

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 2** : Importação e informações sobre os dados
- Informações sobre o dataset
1. **age**: Idade do paciente (em anos)
2. **sex**: Sexo biológico do paciente (1 = masculino, 0 = feminino)
3. **cp**: [chest pain type] Tipo de dor no peito  
    - 0: Angina típica  
    - 1: Angina atípica  
    - 2: Dor não anginosa  
    - 3: Assintomático
4. **trestbps**: [resting blood pressure] Pressão arterial em repouso (mm Hg)
5. **chol**: [serum cholesterol] Colesterol sérico em mg/dl
6. **fbs**: [fasting blood sugar] Glicemia em jejum > 120 mg/dl (1 = verdadeiro; 0 = falso)
7. **restecg**: [resting electrocardiographic results] Resultados do eletrocardiograma em repouso  
    - 0: Normal  
    - 1: Anormalidade ST-T (inversão de onda T ou elevação/abaixamento do ST)  
    - 2: Hipertrofia ventricular esquerda provável ou definitiva
8. **thalach**: [maximum heart rate achieved] Frequência cardíaca máxima atingida
9. **exang**: [exercise induced angina] Angina induzida por exercício (1 = sim; 0 = não)
10. **oldpeak**: [ST depression] Depressão do segmento ST induzida por exercício em relação ao repouso
11. **slope**: [slope of the peak exercise ST segment] Inclinação do segmento ST durante exercício  
    - 0: Descendente  
    - 1: Plana  
    - 2: Ascendente
12. **ca**: [number of major vessels] Número de vasos principais (0–3) coloridos por fluoroscopia
13. **thal**: [thalassemia] Resultado do exame de tálio  
    - 1: Normal  
    - 2: Defeito fixo  
    - 3: Defeito reversível
14. **target**: Diagnóstico de doença cardíaca  
    - 0: Ausência de doença  
    - 1: Presença de doença

----------------------------------------------------------------------------------------------------------------

In [None]:
import kagglehub
from kagglehub import KaggleDatasetAdapter

file_path = ""

df = kagglehub.load_dataset(
  KaggleDatasetAdapter.PANDAS,
  "johnsmith88/heart-disease-dataset",
  file_path,
)

print("First 5 records:", df.head())

----------------------------------------------------------------------------------------------------------------

### **Step 3** : Importação de dados com Google Bigquery
 - How does Bigquery Works?
     - https://cloud.google.com/bigquery/docs/storage_overview

----------------------------------------------------------------------------------------------------------------

### **Step 4** : Exploração inicial dos dados

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 5** : Métodos de amostragem aleatória
 - Amostragem aleatória baseada em permutação
 - Amostragem aleatória baseada em identificadores únicos 
 - Amostragem aleatória simples com scikit-learn 
 - Amostragem aleatória baseada em estratificação 
 - Proporções e representatividade dos métodos de amostragem aleatória

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 6** : Análise de dados - SQL Business Questions

----------------------------------------------------------------------------------------------------------------

#### SQL-Business Questions

* **1) BUSINESS QUESTION 1** – WHICH AGE GROUP HAS THE HIGHEST INCIDENCE OF HEART DISEASE?
  > *(Agrupar por faixas etárias e verificar em qual delas a taxa de pacientes com `target = 1` é maior)*

* **2) BUSINESS QUESTION 2** – AMONG PATIENTS WITH HIGH BLOOD PRESSURE (trestbps > 140), WHICH SEX HAS A HIGHER RISK OF HEART DISEASE?
  > *(Filtrar por pressão > 140, agrupar por `sex` e comparar a proporção de `target = 1`)*

* **3) BUSINESS QUESTION 3** – WHICH CHEST PAIN TYPE (cp) IS MOST FREQUENT AMONG PEOPLE WITH DIAGNOSED HEART DISEASE?
  > *(Agrupar por `cp`, contando apenas os casos com `target = 1`)*

* **4) BUSINESS QUESTION 4** – IS THERE A SIGNIFICANT DIFFERENCE IN MAX HEART RATE (thalach) BETWEEN THOSE WHO HAVE AND HAVEN’T HAD HEART DISEASE?
  > *(Comparar médias de `thalach` entre grupos com `target = 0` e `target = 1`)*

* **5) BUSINESS QUESTION 5** – WHICH COMBINATION OF SLOPE AND EXANG IS MOST ASSOCIATED WITH HEART DISEASE?
  > *(Agrupar por `slope` e `exang`, contando ocorrências com `target = 1`)*

* **6) BUSINESS QUESTION 6** – WHAT IS THE AVERAGE OLDPEAK FOR EACH LEVEL OF ANGINA INDUCED BY EXERCISE (`exang`) AND HEART DISEASE STATUS?
  > *(Agrupar por `exang` e `target`, calcular média de `oldpeak`)*

----------------------------------------------------------------------------------------------------------------

### **Step 7** : Análise exploradória de dados
  - Visualizacão de dados
  - Análise estatística dos dados - correlações
  - Engenharia de features (combinação de atributos)

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 8** : Preparação dos dados para modelagem 
  - 8.1 Princípios de design do scikit-learn
  - 8.2 Limpeza de dados (data cleaning)
  - 8.3 Detecção e análise de outliers nos dados 
  - 8.4 Processamento de features categóricas com codificadores (encoding)
  - 8.5 Normalizações e padronizações (feature scaling)

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 8.2** : Limpeza de dados (data cleaning)
 - Opções de Limpeza e Estratégias de Imputação 
    - opção i)  fazendo o drop apenas dos valores faltantes
    - opção ii) fazendo o drop da variável total_bedrooms
    - opção iii) escolhendo a melhor estratégia de imputação (e.g., mediana)  

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 8.3** : Detecção e análise de outliers nos dados
 - https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html
 - Importante: veja que a incorporação de um detector de anomalia como parte do processo de preparação de dados é um ponto de relevância, especialmente se refletirmos sobre os passos a serem implementados nas pipelines em produção

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 8.4** : Processamento de features categóricas com codificadores (encoding)

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 8.5**: Normalizações e padronizações (feature scaling) 

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 9**: Custom Transformers (Transformações Customizadas)

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 10**: Pipelines de Transformação (Transformation Pipelines)

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 10**: Machine Learning - Model Building (feature_utils.py + custom_model_random_forest.py)

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 11**: Machine Learning - Model Testing

----------------------------------------------------------------------------------------------------------------

----------------------------------------------------------------------------------------------------------------

### **Step 12**: Salvando o Modelo de Machine Learning (Model Saving)

----------------------------------------------------------------------------------------------------------------