# Tech Challenge - IA para Devs: Fase 1

## Introdução e Justificativa da Escolha do Dataset

Doenças cardiovasculares representam uma das principais causas de mortalidade global, tornando a implementação de ferramentas de suporte ao diagnóstico uma necessidade real em ambientes clínicos. A capacidade de analisar um vasto volume de dados médicos e identificar padrões complexos pode otimizar a triagem de pacientes e auxiliar os profissionais de saúde na tomada de decisões informadas, agilizando processos e potencialmente salvando vidas.

Este projeto visa desenvolver a base de um sistema inteligente de suporte ao diagnóstico, utilizando técnicas de Machine Learning. Para atingir este objetivo, selecionamos o conjunto de dados ["Heart Disease" (Doença Cardíaca)](https://www.kaggle.com/datasets/oktayrdeki/heart-disease), disponível na plataforma Kaggle.

### Motivos para a Escolha do Dataset "Heart Disease":

1 - Relevância Clínica: A predição de doença cardíaca é um problema real com potencial para aplicações práticas em hospitais e clínicas.

2 - Natureza da Classificação: O conjunto de dados é estruturado para uma tarefa de classificação binária (presença ou ausência de doença cardíaca), que se alinha perfeitamente com o requisito do desafio de realizar um diagnóstico "a pessoa tem ou não uma doença". Isso permite a aplicação direta de diversos algoritmos de Machine Learning focados em classificação.

3 - Variedade de Atributos: O dataset contém uma série de atributos clínicos e demográficos relevantes (como idade, sexo, tipo de dor no peito, pressão arterial, colesterol, entre outros), que são comumente utilizados na prática médica para avaliar o risco cardiovascular. Esta riqueza de informações permitirá explorar a influência de diferentes fatores no diagnóstico.

4 - Disponibilidade e Acessibilidade: Sendo um dataset público e amplamente utilizado na comunidade de Machine Learning, facilita a validação e a comparação de resultados, além de possuir uma estrutura fácil que favorece a aplicação dos conceitos propostos no Tech Challenge.

### O que se Pretende Descobrir com Este Dataset:

Com a utilização do dataset "Heart Disease", este projeto pretende descobrir e validar:

1 - Modelos Preditivos Eficazes: O principal objetivo é desenvolver modelos de Machine Learning capazes de prever com alta acurácia a presença de doença cardíaca em indivíduos, com base em suas características clínicas e resultados de exames.

2 - Fatores de Risco Mais Influentes: Através da análise de feature importance e outras técnicas de interpretabilidade (como SHAP, se aplicável em etapas futuras), busca-se identificar quais atributos do paciente (variáveis) são os mais relevantes e preditivos para o diagnóstico de doença cardíaca. Isso pode oferecer insights valiosos que complementem o conhecimento médico.

3 - Robustez e Viabilidade do Modelo: Avaliar a performance dos modelos utilizando métricas adequadas (como acurácia, precisão, recall e F1-score) para determinar sua robustez e potencial de aplicação prática como ferramenta de suporte ao diagnóstico em um ambiente hospitalar, sempre ressaltando que a decisão final é do profissional médico.


## Análise do Dataset: Heart Diseases (Doença Cadíaca)

Neste notebook, vamos realizar uma análise exploratória e construir um modelo de Machine Learning para prever doenças cardíacas com base em hábitos, estilos de vida, genética, e outras características.

Nesta análise, iremos realizar etapas de machine learning, como:

- Carregamento e exploração dos dados
- Limpeza e pré-processamento
- Modelagem (ML)
- Avaliação dos modelos
- Interpretação dos resultados

## Primeira análise dos dados

Vamos visualizar as primeiras linhas do dataset para entender as colunas disponíveis, seus tipos e possíveis problemas (valores ausentes, inconsistências, etc).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from ydata_profiling import ProfileReport


# Estilo de gráficos
sns.set(style="whitegrid")

# Carregar o dataset
base = pd.read_csv('https://raw.githubusercontent.com/antrafa/fiap-tech-challenge-6IADT/refs/heads/main/data/heart_disease.csv')

# Visualizar as primeiras linhas
base.head()

Unnamed: 0,Age,Gender,Blood Pressure,Cholesterol Level,Exercise Habits,Smoking,Family Heart Disease,Diabetes,BMI,High Blood Pressure,...,High LDL Cholesterol,Alcohol Consumption,Stress Level,Sleep Hours,Sugar Consumption,Triglyceride Level,Fasting Blood Sugar,CRP Level,Homocysteine Level,Heart Disease Status
0,56.0,Male,153.0,155.0,High,Yes,Yes,No,24.991591,Yes,...,No,High,Medium,7.633228,Medium,342.0,,12.969246,12.38725,No
1,69.0,Female,146.0,286.0,High,No,Yes,Yes,25.221799,No,...,No,Medium,High,8.744034,Medium,133.0,157.0,9.355389,19.298875,No
2,46.0,Male,126.0,216.0,Low,No,No,No,29.855447,No,...,Yes,Low,Low,4.44044,Low,393.0,92.0,12.709873,11.230926,No
3,32.0,Female,122.0,293.0,High,Yes,Yes,No,24.130477,Yes,...,Yes,Low,High,5.249405,High,293.0,94.0,12.509046,5.961958,No
4,60.0,Male,166.0,242.0,Low,Yes,Yes,Yes,20.486289,Yes,...,No,Low,High,7.030971,High,263.0,154.0,10.381259,8.153887,No


## Análise preliminar do dataset

Aqui estão as colunas:

| Coluna                   | Descrição                                                                                     |
|--------------------------|-----------------------------------------------------------------------------------------------|
| `Age`                    | A idade do indivíduo.                                                                         |
| `Gender`                 | O sexo do indivíduo (Masculino ou Feminino)                                                   |
| `Blood Pressure`         | A pressão arterial do indivíduo (sistólica)                                                   |
| `Cholesterol Level`      | O nível total de colesterol do indivíduo.                                                     |
| `Exercise Habits`        | Os hábitos de exercício do indivíduo (Baixo, Médio, Alto)                                     |
| `Smoking`                | Se o indivíduo fuma ou não (Sim ou Não)                                                       |
| `Family Heart Disease`   | Se há histórico familiar de doença cardíaca (Sim ou Não)                                      |
| `Diabetes`               | Se o indivíduo tem diabetes (Sim ou Não)                                                      |
| `BMI`                    | O índice de massa corporal do indivíduo.                                                      |
| `High Blood Pressure`    | Se o indivíduo tem pressão alta (Sim ou Não)                                                  |
| `Low HDL Cholesterol`    | Se o indivíduo tem colesterol HDL baixo (Sim ou Não)                                          |
| `High LDL Cholesterol`   | Se o indivíduo tem colesterol LDL alto (Sim ou Não)                                           |
| `Alcohol Consumption`    | O nível de consumo de álcool do indivíduo (Nenhum, Baixo, Médio, Alto)                        |
| `Stress Level`           | O nível de estresse do indivíduo (Baixo, Médio, Alto)                                         |
| `Sleep Hours`            | O número de horas que o indivíduo dorme.                                                      |
| `Sugar Consumption`      | O nível de consumo de açúcar do indivíduo (Baixo, Médio, Alto)                                |
| `Triglyceride Level`     | O nível de triglicerídeos do indivíduo.                                                       |
| `Fasting Blood Sugar`    | O nível de açúcar no sangue em jejum do indivíduo.                                            |
| `CRP Level`              | O nível de proteína C-reativa (um marcador de inflamação)                                     |
| `Homocysteine Level`     | O nível de homocisteína do indivíduo (um aminoácido que afeta a saúde dos vasos sanguíneos)   |
| `Heart Disease Status`   | Alvo da análise: O status de doença cardíaca do indivíduo (Sim ou Não)                         |

In [None]:
base.shape

In [None]:
# Informações sobre o dataset
base.info()

#### Ao analizar as informações do dataset, podemos ver:

- Ele possui 10000 linhas. Isso é um bom volume de dados para treinamento do nosso modelo;

- Temos 21 colunas no total, como havíamos identificado anteriormente;

- 9 colunas são do tipo `float64` (números decimais). Isso inclui `Age`, `Blood Pressure`, `Cholesterol Level`, `BMI`, `Sleep Hours`, `Triglyceride Level`, `Fasting Blood Sugar`, `CRP Level`, `Homocysteine Level`. São boas para cálculos numéricos.

- 12 colunas são do tipo `object`. Isso geralmente indica que a coluna contém `strings` ou `dados mistos`. Essas colunas são: `Gender`, `Exercise Habits`, `Smoking`, `Family Heart Disease`, `Diabetes`, `High Blood Pressure`, `Low HDL Cholesterol`, `High LDL Cholesterol`, `Alcohol Consumption`, `Stress Level`, `Sugar Consumption`, e `Heart Disease Status`.

    - Muitas dessas colunas (`Gender`, `Smoking`, `Diabetes`, `Heart Disease Status`, ...) são categóricas, e precisarão ser convertidas para um formato numérico antes de usarmos em algoritmos de Machine Learning.

- Ao analizar a contagem de valores não-nulos das colunas, vemos que muitas possuem valores abaixo de 10000, nos dizendo que existem valores ausentes em várias colunas.

    - A coluna `Alcohol Consumption` se destaca por ter apenas 7414 non-null valores, indicando que ela tem um número significativo de valores ausentes (10000 - 7414 = 2586 valores nulos).

- A única coluna que tem 10000 non-null valores é `Heart Disease Status`. Isso é excelente, pois significa que nossa variável alvo não tem dados ausentes, o que simplifica o pré-processamento para ela.


#### Conclusões e Próximos Passos (Pré-processamento de Dados):

Com base nesta análise, já podemos identificar algumas tarefas de pré-processamento que precisaremos realizar:

1 - Tratamento de Valores Ausentes:

Precisamos decidir como lidar com os valores nulos em colunas como `Age`, `Blood Pressure`, `Cholesterol Level`, `Alcohol Consumption`,... As estratégias comuns incluem:

 - Remover linhas com valores nulos (se forem poucas e não impactarem muito o tamanho do dataset).

- Imputar valores (substituir nulos pela média, mediana, moda ou um valor constante, dependendo do tipo de dado e da distribuição).

2 - Conversão de Variáveis Categóricas:

Todas as 12 colunas do tipo object que representam categorias (como `Gender`, `Exercise Habits`, `Smoking`, `Heart Disease Status`,...) precisarão ser convertidas para representações numéricas.

- Para variáveis binárias (Yes/No, Male/Female), podemos usar mapeamento manual (0/1).

- Para variáveis com mais de duas categorias (Low/Medium/High, None/Low/Medium/High), podemos usar LabelEncoder (se a ordem importar, como em níveis de estresse) ou One-Hot Encoding (se não houver uma ordem intrínseca e para evitar que o modelo interprete como ordem).

- A coluna `Heart Disease Status` contém 'Yes'/'No' e precisaremos converte-la para 0/1.


In [None]:
print(base.isnull().sum())

Na saída acima podemos ver o número exato de valores nulos para cada coluna

In [None]:
# Estatísticas básicas
base.describe()

### Análise estatística com `.describe()`

O comando `describe` exibe estatísticas descritivas básicas para cada coluna numérica do dataset:

| Estatística    | Significado                                                    |
| -------------- | -------------------------------------------------------------- |
| `count`        | Quantidade de valores não nulos                                |
| `mean`         | Média (valor médio)                                            |
| `std`          | Desvio padrão (dispersão dos dados)                            |
| `min`          | Valor mínimo                                                   |
| `25%`          | Primeiro quartil (Q1) – 25% dos dados estão abaixo desse valor |
| `50%` (median) | Mediana – metade dos dados está abaixo                         |
| `75%`          | Terceiro quartil (Q3) – 75% dos dados estão abaixo desse valor |
| `max`          | Valor máximo                                                   |

---

**Pontos chave a serem observados para o pré-processamento:**

- Valores Ausentes: Todas as colunas numéricas (e também as categóricas, como vimos com `base.info()`) possuem um pequeno número de valores ausentes. Precimsamos decidir a melhor estratégia para imputá-los.

- Distribuição dos Dados: As médias e medianas estão geralmente próximas, sugerindo que as distribuições não são extremamente assimétricas para a maioria das colunas numéricas. Na sequencia, iremos visualizar com histogramas para confirmar.

- Escala dos Dados: As colunas numéricas estão em escalas diferentes (e.g., Idade vai de 18-80, Colesterol de 150-300, etc.). Isso significa que, para muitos algoritmos de Machine Learning, será necessário realizar o escalonamento dos dados (padronização ou normalização) após a imputação de nulos.

---

## Tratamento de dados

---

## Análise gráfica

In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(x='Heart Disease Status', data=base)
plt.title('Distribuição do Status de Doença Cardíaca')
plt.xlabel('Doença Cardíaca (Sim/Não)')
plt.ylabel('Contagem de Indivíduos')
plt.show()

In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(x='Gender', data=base)
plt.title('Distribuição por Gênero')
plt.xlabel('Gênero')
plt.ylabel('Contagem')
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(x='Exercise Habits', data=base, order=['Low', 'Medium', 'High']) # Ordem para variáveis ordinais
plt.title('Distribuição de Hábitos de Exercício')
plt.xlabel('Hábitos de Exercício')
plt.ylabel('Contagem')
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(x='Alcohol Consumption', data=base)
plt.title('Distribuição do Consumo de Álcool')
plt.xlabel('Consumo de Álcool')
plt.ylabel('Contagem')
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.histplot(base['Age'].dropna(), kde=True, bins=20) # .dropna() para ignorar nulos ao plotar
plt.title('Distribuição da Idade')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.boxplot(y='Cholesterol Level', data=base)
plt.title('Boxplot do Nível de Colesterol')
plt.ylabel('Nível de Colesterol')
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.boxplot(x='Heart Disease Status', y='Age', data=base)
plt.title('Distribuição da Idade por Status de Doença Cardíaca')
plt.xlabel('Doença Cardíaca (Sim/Não)')
plt.ylabel('Idade')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(data=base, x='Blood Pressure', hue='Heart Disease Status', kde=True, bins=20)
plt.title('Distribuição da Pressão Arterial por Status de Doença Cardíaca')
plt.xlabel('Pressão Arterial')
plt.ylabel('Frequência')
plt.show()

In [None]:
sns.pairplot(base,hue='Heart Disease Status')

In [None]:
sns.heatmap(base.corr())

---

## Análise detalhada utilizando Pandas Profiling

In [None]:
profile = ProfileReport(base, title="Relatório de Análise de Doença Cardíaca")
profile.to_notebook_iframe()
profile.to_file("../../docs/heart_disease_report.html")
