# MVP Analytics – Machine Learning & Analytics

**Nome:** Luis Cláudio da Paixão Lobato

**Matrícula:** 4052025001146

**Dataset:** [Heart Disease Cleveland UCI] (https://www.kaggle.com/datasets/cherngs/heart-disease-cleveland-uci/data)

# 1. Definição do Problema


O conjunto de dados Heart Disease Cleveland da UCI contém informações anônimas sobre pacientes, incluindo características clínicas e resultados de exames. Uma das colunas, chamada CONDITION, indica a presença ou ausência de doença cardíaca nesses pacientes.

### 1.1 Hipóteses sobre o problema e tipo de Machine Leaming a ser Empregado

Hipótese a ser empregado no problema:

- Dado um conjunto de características clínicas (indica presença ou não de doença cardíaca em pacientes anônimos), o objetivo é prever, com 95% de precisão, se um paciente tem ou não doença cardíaca.

Tipo de Machine Leaming traçada:

- Este é um problema de **classificação supervisionada**. Serão criadas algumas variáveis categóricas com labels para auxiliar na análise das informações e formação do modelo.



### 1.2 Restrições na Seleção dos dados

- As variáveis categóricas, não tinham os labels criado, foi necessário a criação desses labels para o entendimento das informações;
- O total de registros de pacientes foram 297, que fere o mínimo de registros necessários para uma análise mais acurada do objeto em estudo.

### 1.3 Atributos do Dataset

O dataset Heart Disease Cleveland da UCI contém 297 amostras, com 137 pacientes na condição de doença cardíaca e 160 pacientes sem ter essa doença. Abaixo seguem os atributos:

- ***age***  (Idade em anos)

- ***sex***  (Sexo  ***[1 = masculino; 0 = feminino]***)

- ***cp***  (Tipo de dor toraxica  ***[0: angina típica (dor no peito tipica)
1: angina atípica (dor no peito, não relacionada ao coração)
2: dor não anginosa (espasmos, não relacionados ao coração)
3: assintomático (dor toraxica, sem sinais da doença)]***)

- ***trestbps***  (Pressão arterial em repouso em bps )

- ***chol***  (Colesterol total em mg/dl)

- ***fbs***  (Glicemia em jejum > 120 mg/dl ***[1 = verdadeiro; 0 = falso)***)

- ***restecg***  (Resultados eletrocardiográficos em repouso  ***[ 0: normal
 1: com anormalidade da onda ST-T (inversões da onda T e/ou supradesnivelamento ou infradesnivelamento do segmento ST > 0,05 mV)
 2: apresentando hipertrofia ventricular esquerda provável ou definitiva pelos critérios de Estes]***)

- ***thalach*** (Frequência cardíaca máxima atingida em bps)

- ***exang***  (Dor induzida pelo exercício físico  ***[1 = sim; 0 = não]***)

- ***oldpeak*** (Depressão induzida pelo exercicio físico (observa o stress do coração durante o exercicio físico))

- ***slope***  (Inclinação do pico do segmento do exercício físico  ***[0: ascendente, 1: plano, 2: descida]***)

- ***ca***  (Número de vasos principais comprometidos (0-3) coloridos por fluorosopia )

- ***thal***  (Resultado do estresse de tálio  ***[0: normal, 1: defeito corrigido 2: defeito reversível]***)

- ***condition***  (Condição Cardíaca  ***[0 = sem doença,  1 = doença]***)






# 2. Análise de Dados - EDA

Nesta etapa de Análise de Dados Exploratória (EDA) sobre o dataset eart Disease Cleveland UCI, visamos entender a distribuição, as relações e as características das variáveis, o que é crucial para as etapas subsequentes de pré-processamento e modelagem.

### 2.1 Importação das Bibliotecas Necessárias e Carga de Dados

Esta seção consolida todas as importações de bibliotecas necessárias para a análise, visualização e pré-processamento dos dados, bem como o carregamento inicial do dataset Heart Disease Cleveland UCI.

In [None]:
#%pip install pandas
#%pip install numpy
#%pip install matplotlib
#%pip install seaborn
#%pip install -U scikit-learn
#%pip install scipy

import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import requests
from scipy.stats import boxcox

In [None]:
#baixando o dataset e carregando no pandas
# O dataset é sobre doenças cardíacas e foi baixado do Kaggle
url = 'https://github.com/luiscpl/PUC_MVP/blob/main/heart_cleveland_upload.csv?raw=true'
response = requests.get(url)
decoded_content = response.content.decode('utf-8')
df = pd.read_csv(url)

In [None]:
#exibindo as primeiras linhas do dataset
df.head()

- Realizando uma análise inicial dos dados do dataset, nenhuma anormalidade foi encontrada;
- Algumas variáveis que, de acordo com a definição no dicionário de dados, são categóricas foram excluídas do dataset original. Em seu lugar, foram criadas novas variáveis categóricas com identificação de rótulos (labels), com o objetivo de não influenciar a análise descritiva do conjunto de dados;
- A seguir, apresenta-se a rotina de criação das variáveis categóricas com seus respectivos rótulos (labels), bem como a exclusão de algumas variáveis originais que, por sua natureza, não contribuem significativamente para a análise descritiva nem para a construção do modelo preditivo.

In [None]:
###criando variaveis categóricas com labels das variáveis originais

##labels da coluna Sex
df['sex_label'] = df['sex'].map({1: 'masculino', 0: 'feminino'})
df[['sex', 'sex_label']].head()

# Cria os labels para a coluna 'cp'
cp_labels = {
    0: "angina típica (dor no peito tipica)",
    1: "angina atípica (dor no peito, não relacionada ao coração)",
    2: "dor não anginosa (espasmos, não relacionados ao coração)",
    3: "assintomático (dor toraxica, sem sinais da doença)"
}

df['cp_label'] = df['cp'].map(cp_labels)
df[['cp', 'cp_label']].head()


# Cria a coluna de labels para a variável 'fbs'
df['fbs_label'] = df['fbs'].map({1: 'verdadeiro', 0: 'falso'})
df[['fbs', 'fbs_label']].head()

# Cria a coluna de labels para a variável 'restecg'
restecg_labels = {
    0: "normal",
    1: "com anormalidade da onda ST-T (inversões da onda T e/ou supradesnivelamento ou infradesnivelamento do segmento ST > 0,05 mV)",
    2: "apresentando hipertrofia ventricular esquerda provável ou definitiva pelos critérios de Estes"
}

df['restecg_label'] = df['restecg'].map(restecg_labels)
df[['restecg', 'restecg_label']].head()



# Cria a coluna de labels para a variável 'exang'
df['exang_label'] = df['exang'].map({1: 'sim', 0: 'não'})
df[['exang', 'exang_label']].head()


# Cria os labels para a coluna 'slope'
slope_labels = {
    0: "ascendente",
    1: "plano",
    2: "descida"
}

df['slope_label'] = df['slope'].map(slope_labels)
df[['slope', 'slope_label']].head()



# Cria os labels para a coluna 'thal'
thal_labels = {
    0: "normal",
    1: "defeito corrigido",
    2: "defeito reversível"
}

df['thal_label'] = df['thal'].map(thal_labels)
df[['thal', 'thal_label']].head()



# Cria os labels para a coluna 'condition'
condition_labels = {0: 'sem doença', 1: 'doença'}
df['condition_label'] = df['condition'].map(condition_labels)
df[['condition', 'condition_label']].head()


####excluindo as colunas originais
df = df.drop(columns=['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'thal', 'condition'])

### 2.2 Estatística Descritivas

In [None]:
# dimensão do dataset
print("dimensão do dataset:", df.shape)

# Informações sobre tipos de dados e valores ausentes
df.info()
print("-" * 40)
# Resumo estatístico de variáveis ​​numéricas
df.describe()

*Tabela 1: Estatísticas Descritivas*

Principais pontos da análise descritiva:
- Nenhuma variável do dataset analisado apresenta valores ausentes (missing ou NAs);
- O dataset Disease Cleveland UCI contém 297 observações, com seis variáveis numéricas inteiras, uma variável numérica do tipo float e oito variáveis categóricas;
- A idade média (variável age) dos indivíduos é de 54,5 anos, com a maioria concentrada na faixa entre 48 e 61 anos;
- A pressão arterial de repouso (trestbps) apresenta valores típicos entre 120 e 140 bps, porém com registros extremos chegando a 200 bps — podendo indicar a presença de outliers;
- Tanto a idade quanto a pressão arterial apresentam baixa dispersão, com desvios relativamente pequenos;
- O colesterol total (chol) possui ampla variabilidade, variando de 126 a 564 mg/dl, com mediana de 243 mg/dl — sugerindo valores potencialmente elevados, como o 564 mg/dl, que pode ser um outlier;
- A variável oldpeak, que mede o grau de depressão induzida pelo exercicio físico, apresenta distribuição assimétrica: média de 1,06 e valor máximo de 6,2 — este último, possivelmente um outliers;
- A variável ca, possivelmente indicando o número de vasos principais, tem distribuição concentrada em valores baixos, com mediana em 0. O valor máximo (3) também pode ser considerado um outliers.

Para uma avaliação mais precisa desses valores atípicos (Outliers), valores extremos e da distribuição, tendência central e dispersão das variáveis clínicas, será realizada uma análise visual por meio de boxplots.


### 2.3 Análise Gráfica

##### 2.3.1 Boxplot das características clínicas

In [None]:
# Seleciona apenas as variáveis numéricas do DataFrame
numericas = df.select_dtypes(include=['int64', 'float64'])

# Cria um boxplot separado para cada variável numérica
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(15, 8))
axes = axes.flatten()

for i, col in enumerate(numericas.columns):
    sns.boxplot(y=numericas[col], ax=axes[i], color='green')
    axes[i].set_title(f'Boxplot de {col}', fontweight='bold')

plt.tight_layout()
plt.show()

*Gráfico 1 - Boxplot das condições clínicas*

Ao analizar o gráfico 1 dos boxplot das características clínicas, pode-se concluir:
- A variável age apresenta distribuição aproximadamente simétrica, sem ocorrência de valores atípicos (outliers), indicando uma dispersão equilibrada dos dados em torno da mediana;
- As variáveis trestbps, chol, thalach, oldpeak e ca revelam distribuições assimétricas das informações nas figuras. Além disso, nota-se a presença de valores atípicos (Outliers), o que pode indicar variabilidade elevada ou possíveis anomalias nas observações;
- Com base na Tabela 1, verifica-se, pelos boxplots, que a variável thalach possui outliers nos limites inferiores, enquanto as variáveis trestbps, chol, oldpeak e ca apresentam outliers nos limites superiores.


##### 2.3.2 Proporção de pessoas pela condição cardíaca

In [None]:
# Conta os valores da coluna 'condition_label' e adiciona o total
contagem = df["condition_label"].value_counts()
contagem['Total'] = contagem.sum()
print(contagem)

print("-" * 40)
###calculando a propoção de cada condição cardíaca
(df["condition_label"].value_counts(normalize=True) * 100).map("{:.2f}%".format)

*Tabela 2:  Condição Cardíaca dos pacientes*

In [None]:
# Gráfico de colunas mostrando a proporção (%) de cada condição cardíaca com eixo y de 0 a 100%
proporcao = df['condition_label'].value_counts(normalize=True).sort_index() * 100

plt.figure(figsize=(8, 5))
ax = proporcao.plot(
    kind='bar',
    color=['#8B0000', 'green']
)
ax.set_xticklabels(['Doença', 'Sem doença'], rotation=0)
ax.set_xlabel('Condição Cardíaca', fontweight='bold')
ax.set_ylabel('Proporção (%)', fontweight='bold')
ax.set_title('Proporção das Condições Cardíacas dos Pacientes', fontweight='bold')
ax.set_ylim(0, 100)

# Adiciona os valores percentuais nas barras
for i, v in enumerate(proporcao):
    ax.text(i, v + 2, f"{v:.2f}%", ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

*Gráfico 2: Proporção das informações das Condições Cardíacas dos Pacientes*

Ao analisar o Tabela 2 com Gráfico 2, pode-se concluir que:

- A Tabela 2 revela que o conjunto de dados é composto por 137 pacientes (53,87%) com diagnóstico de doença cardíaca e 160 pacientes (46,13%) sem a condição cardíaca.
- Já o Gráfico 2 ilustra de forma visual a distribuição das classes, evidenciando um leve desbalanceamento entre os grupos, com uma proporção ligeiramente maior de indivíduos sem diagnóstico de doença cardíaca.

##### 2.3.3 Proporção da Condição Cardíaca por sexo

In [None]:
# Tabela cruzada entre sexo e condição cardíaca com totais
sexo_condicao_abs = pd.crosstab(df['sex_label'], df['condition_label'], margins=True, margins_name='Total')
print(sexo_condicao_abs)
print("-" * 40)
# Proporção entre sexo (linhas) e condição cardíaca (colunas) com totais, normalizando por coluna
sexo_condicao_prop_col = pd.crosstab(df['sex_label'], df['condition_label'], margins=True, margins_name='Total', normalize='index')
print((sexo_condicao_prop_col * 100).round(2))

*Tabela3: Proporção de sexo pela condição cardíaca*

In [None]:
# Gráfico de barras agrupadas: proporção da condição cardíaca por sexo
condicao_sexo = pd.crosstab(df['sex_label'], df['condition_label'], normalize='index') * 100

ax = condicao_sexo[['sem doença', 'doença']].plot(
    kind='bar',
    color=['green', '#8B0000'],
    figsize=(8, 6)
)
ax.set_xlabel('Sexo', fontweight='bold')
ax.set_ylabel('Proporção (%)', fontweight='bold')
ax.set_title('Proporção da condição cardíaca por sexo', fontweight='bold')
ax.set_xticklabels(['Feminino', 'Masculino'], rotation=0)
ax.set_ylim(0, 100)
ax.legend(['Sem doença', 'Doença'])

# Adiciona os valores percentuais nas barras
for p in ax.patches:
    height = p.get_height()
    if height > 0:
        ax.annotate(f'{height:.1f}%', (p.get_x() + p.get_width() / 2, height),
                    ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()


*Gráfico 3: Proporção de sexo pela condição cardíaca*

Ao analisar o Tabela 3 com a Gráfico 3, pode-se concluir que:

- No grupo de pacientes com doença cardíaca, temos cerca de 26,0% pacientes do sexo feminino (25) que salta para 55,7% dos pacientes do sexo masculino (112);
- No grupo de pacientes sem doenças cardíaca, temos 74,0% dos pacientes do sexo masculino (89) que decai para 44,3% dos pacientes do sexo feminino (71).  

##### 2.3.4 Pressão Arterial em Repouso em função da idade e condição cardíaca

In [None]:
# Gráfico de dispersão: idade (age) vs pressão arterial em repouso (trestbps), colorido por condição cardíaca
cores = {'doença': '#8B0000', 'sem doença': 'green'}

plt.figure(figsize=(10, 6))
for cond in df['condition_label'].unique():
    subset = df[df['condition_label'] == cond]
    plt.scatter(
        subset['age'],
        subset['trestbps'],
        color=cores[cond],
        label=cond.capitalize(),
        alpha=0.7
    )

plt.xlabel('Idade', fontweight='bold')
plt.ylabel('Pressão Arterial em Repouso (trestbps)', fontweight='bold')
plt.title('Pressão Arterial em Repouso em função da idade e Condição Cardíaca', fontweight='bold')
plt.legend()
plt.grid(True, linestyle='--', alpha=0.3)
plt.show()

*Gráfico 4: Pressão Arterial em Repouso em função da idade e Condição Cardíaca*

Análise do Gráfico 4 das pessoas com pressão arterial em repouso:

- Pacientes com doença cardíaca (em vermelho) estão distribuídos de forma ampla tanto nas idades quanto nos níveis de pressão arterial em repouso, mas há uma leve concentração entre 50 e 70 anos com pressões acima de 130 bps.
- Pacientes sem doença cardíaca (verde) estão igualmente espalhados, mas um número considerável aparece com pressão arterial entre 120–140 bps, especialmente entre 40 e 60 anos.
- Identificam-se dois pacientes sem diagnóstico de doença cardíaca com pressão arterial inferior a 100 bps e três pacientes apresentam pressão arterial em repouso entre 180 e 200 bps com diagnóstico de doença cardíaca, estes quais podem ser considerados valores atípicos (outliers).


##### 2.3.5 Doença cardíaca em função da idade e da frequência cardíaca máxima

In [None]:
# Plotando age vs thalach para cada condição cardíaca com cores diferentes
plt.figure(figsize=(10, 6))
plt.scatter(
    df[df['condition_label'] == 'doença']['age'],
    df[df['condition_label'] == 'doença']['thalach'],
    color='#8B0000', label='Doença', alpha=0.7  # vermelho escuro
)
plt.scatter(
    df[df['condition_label'] == 'sem doença']['age'],
    df[df['condition_label'] == 'sem doença']['thalach'],
    color='green', label='Sem doença', alpha=0.7  # verde
)
plt.xlabel('Idade', fontweight='bold')
plt.ylabel('Frequência Cardíaca Máxima (thalach)', fontweight='bold')
plt.title('Doença cardíaca em função da idade e da frequência cardíaca máxima', fontweight='bold')
plt.legend()
plt.grid(True, linestyle='--', alpha=0.3)
plt.show()

*Gráfico 5: Doença cardíaca em função da idade e da frequência cardíaca máxima*

Análise do Gráfico 5 das pessoas com pressão arterial máxima:
- Pacientes com doença cardíaca (vermelho) tendem a estar mais concentrados nas faixas etárias intermediárias a avançadas (acima de 50 anos) e se concentram com frequência cardíaca máxima entre 80 até 180 bps;
- Pacientes sem doença cardíaca (verde) se distribuem de maneira mais homogênea entre as faixas etárias, embora também predominem em idades médias.
- Indivíduos sem doença cardíaca parecem apresentar, em média, frequência cardíaca máxima mais alta, especialmente entre os mais jovens;
- Observam-se alguns pontos isolados em ambos os extremos do gráfico, tanto em termos de idade (entre 60 até 70 anos paciente com doença cardíaca) quanto de frequência cardíaca (abaixo de 30 anos, paciente sem doença cardíaca), que podem representar casos atípicos (Outiliers).


##### 2.3.6 Condição Cardíaca em função da idade e do colesterol total

In [None]:
# Gráfico de dispersão: colesterol (chol) vs idade (age), colorido por condição cardíaca
plt.figure(figsize=(10, 6))
for cond in df['condition_label'].unique():
    subset = df[df['condition_label'] == cond]
    plt.scatter(
        subset['age'],
        subset['chol'],
        color=cores[cond],
        label=cond.capitalize(),
        alpha=0.7
    )

plt.xlabel('Idade', fontweight='bold')
plt.ylabel('Colesterol (chol)', fontweight='bold')
plt.title('Condição Cardíaca em função da idade e do colesterol total', fontweight='bold')
plt.legend()
plt.grid(True, linestyle='--', alpha=0.3)
plt.show()

*Gráfico 6: Condição Cardíaca em função da idade e do colesterol total*

De acordo com Análise do Gráfico 6, pode-se concluir:

- Os níveis de colesterol variam amplamente, concentrando-se entre 200 e 400 mg/dl, com alguns pacientes atingindo valores acima de 400 mg/dl;
- Pacientes com doença cardíaca (vermelhos) estão distribuídos por toda a faixa de idade, mas nota-se uma maior concentração em idades entre 50 e 70 anos, muitas vezes com níveis de colesterol acima de 200 mg/dl;
- Já os sem a condição (verdes) também estão presentes em todas as faixas etárias, porém tendem a ter valores mais concentrados entre 200 e 300 mg/dl, com alguns casos com colesterol elevado, mas menos frequentes;
- Acima da faixa de 500 mg/dl, existe um ponto atípico (Outliers) de paciente com colesterol elevado mas sem doença cardíaca, e mais dois pontos atípicos (Outliers) abaixo de 100 mg/dl de pacientes com e sem doença cardíaca.

##### 2.3.7 Proporção de condição cardíaca pela dor induzida pelo exercício físico

In [None]:
# Tabela de barras agrupadas: exang_label vs condition_label (valores absolutos)
exang_condition = pd.crosstab(df['exang_label'], df['condition_label'])
print("Tabela de valores absolutos:")
display(exang_condition)
print("-" * 40)
# Tabela de proporções por linha
exang_condition_prop = pd.crosstab(df['exang_label'], df['condition_label'], normalize='index')
print("\nTabela de proporções por linha (%):")
display(exang_condition_prop.applymap(lambda x: f"{x:.2%}"))

*Tabela 4: Distribuição da condição cardíaca pela dor induzida pelo exercício físico*

In [None]:
# Gráfico de proporção de barras agrupadas: exang_label vs condition_label com eixo y de 0 a 100%
exang_condition_prop = pd.crosstab(df['exang_label'], df['condition_label'], normalize='index') * 100

ax = exang_condition_prop[['sem doença', 'doença']].plot(
    kind='bar',
    color=['green', '#8B0000'],
    figsize=(8, 6)
)
ax.set_xlabel('Dor induzida pelo exercício físico', fontweight='bold')
ax.set_ylabel('Proporção (%)', fontweight='bold')
ax.set_title('Proporção da condição cardíaca pela dor induzida pelo exercício físico', fontweight='bold')
ax.set_ylim(0, 100)
ax.legend(['Sem doença', 'Doença'])

# Adiciona os valores percentuais nas barras
for p in ax.patches:
    ax.annotate(
        f"{p.get_height():.2f}%",
        (p.get_x() + p.get_width() / 2, p.get_height()),
        ha='center', va='bottom', fontweight='bold'
    )

plt.tight_layout()
plt.show()

*Gráfico 7: Distribuição de Condição Cardíaca pela dor induzida pelo exercício físico*

- De acordo com a tabela 4 e o Gráfico 7, os pacientes que não relataram dor induzida pelo exercício físico constituem o maior grupo: 137 (68,5%) sem doença cardíaca e 63 (31,5%) com a doença cardíaca;
- Pacientes que relataram dor induzida pelo exercício físico, a maioria apresenta diagnóstico de doença cardíaca: 74 (76,29%) pacientes com a doença cardíaca versus 23 (23,71%) pacientes sem a doença cardíaca.

##### 2.3.8 Média da condição cardíaca induzida pela depresão ocasionada pelo exercício físico

In [None]:
# Gráfico de barras: média de oldpeak por condição cardíaca com eixo y até 2
oldpeak_means = df.groupby('condition_label')['oldpeak'].mean().reindex(['doença', 'sem doença'])

ax = oldpeak_means.plot(
    kind='bar',
    color=[cores['doença'], cores['sem doença']],
    figsize=(8, 6)
)
ax.set_xlabel('Condição Cardíaca', fontweight='bold')
ax.set_ylabel('Média de Oldpeak', fontweight='bold')
ax.set_title('Média da Condição Cardíaca induzida pela depressão ocasionada pelo exercício físico', fontweight='bold')
ax.set_xticklabels(['Doença', 'Sem doença'], rotation=0)
ax.set_ylim(0, 2)

# Adiciona os valores nas barras
for i, v in enumerate(oldpeak_means):
    ax.text(i, v + 0.05, f"{v:.2f}", ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

*Gráfico 8: Média da Condição Cardíaca induzida pela depresão ocasionada pelo exercício físico*

Analisando o Gráfico 8, temos:
- Uma diferença marcante nos níveis médios de depressão induzida por exercício físico (Oldpeak) entre indivíduos com e sem doença cardíaca;
- Pessoas com doença cardíaca apresentaram uma média de 1,59, significativamente mais alta, e as pessoas sem doença cardíaca tiveram média de 0,60, o que sugere menor alteração na condição cardíaca durante o esforço físico.


##### 2.3.9 Proporção do tipo de dor torácica pela condição cardíaca

In [None]:
# Tabela cruzada entre cp_label e condition_label
tabela_cp_condition = pd.crosstab(df['cp_label'], df['condition_label'])
tabela_cp_condition

*Tabela 5: Distribuição do tipo de dor torácica pela condição cardíaca*

In [None]:
# Calcula a proporção (%) de cada valor de 'cp_label' por 'condition_label'
cp_condition_prop = pd.crosstab(df['cp_label'], df['condition_label'], normalize='index') * 100

# Garante a ordem das colunas para o gráfico
colunas_ordem = ['doença', 'sem doença'] if 'doença' in cp_condition_prop.columns else cp_condition_prop.columns

# Cores para as barras
cores = ['#8B0000', 'green']

# Plota o gráfico de barras empilhadas horizontal
ax = cp_condition_prop[colunas_ordem].plot(
    kind='barh',
    stacked=True,
    color=cores,
    figsize=(10, 6)
)
plt.xlabel('Proporção (%)', fontweight='bold')
plt.ylabel('Tipo de Dor Torácica', fontweight='bold')
plt.title('Proporção do tipo de dor torácica pela condição cardíaca', fontweight='bold')
plt.legend(['Doença', 'Sem doença'])

# Adiciona os valores percentuais nas barras
for i, (idx, row) in enumerate(cp_condition_prop[colunas_ordem].iterrows()):
    left = 0
    for j, val in enumerate(row):
        if val > 0:
            ax.text(left + val / 2, i, f"{val:.1f}%", va='center', ha='center', color='white', fontweight='bold')
        left += val

plt.tight_layout()
plt.show()

##### 2.3.10 Distribuição de vasos principais comprometidos por condição cardíaca

In [None]:
plt.figure(figsize=(8, 6))
ax = sns.countplot(data=df, x='ca', hue='condition_label', palette=['green','#8B0000'])
plt.xlabel('Número de Vasos Principais (ca)', fontweight='bold')
plt.ylabel('Contagem', fontweight='bold')
plt.title('Distribuição de vasos principais comprometidos por condição cardíaca', fontweight='bold')
plt.legend(title='Condição Cardíaca')

# Adiciona os valores nas barras
for p in ax.patches:
    height = p.get_height()
    if height > 0:
        ax.annotate(f'{int(height)}', (p.get_x() + p.get_width() / 2, height),
                    ha='center', va='bottom', fontweight='bold', color='black')

plt.tight_layout()
plt.show()

*Gráfico 10: Distribuição de vasos principais comprometidos por condição cardíaca*

In [None]:
# Calcula a proporção (%) de cada valor de 'ca' por 'condition_label'
ca_condition_prop = pd.crosstab(df['ca'], df['condition_label'], normalize='index') * 100

# Plota o gráfico de barras empilhadas
ax = ca_condition_prop[['sem doença', 'doença']].plot(
    kind='bar',
    stacked=True,
    color=['green','#8B0000'],
    figsize=(8, 6)
)
ax.set_xlabel('Número de Vasos Principais (ca)', fontweight='bold')
ax.set_ylabel('Proporção (%)', fontweight='bold')
ax.set_title('Proporção de vasos principais comprometidos por condição cardíaca*', fontweight='bold')
ax.set_ylim(0, 100)
ax.legend(['Sem doença', 'Doença'])

# Adiciona os valores percentuais nas barras
for i, row in enumerate(ca_condition_prop[['sem doença', 'doença']].values):
    bottom = 0
    for j, val in enumerate(row):
        if val > 0:
            ax.text(i, bottom + val / 2, f"{val:.1f}%", ha='center', va='center', color='white', fontweight='bold')
        bottom += val

plt.tight_layout()
plt.show()

*Gráfico 11: Proporção de vasos principais comprometidos por condição cardíaca*

Analisando o Gráfico 10 e o Gráfico 11, pode-se concluir que:

- As pessoas que não tem doença cardíaca, com zero vazos tem maior proporção (129 casos; 74,1%) do que em relação as pessoas com doença cardíaca (45 casos; 25,9%);
- A medida que o número de vasos principais comprometidos aumenta (1 até 3 vasos comprometidos), temos um aumento vertiginoso de pessoas com doença cardíaca (de 67,7% (44 casos) com 1 vaso comprometido até 85% (17 casos), em 3 vasos comprometidos) do que em relação as pessoas sem doença cardíaca que decai a proporção (de 32,3% (21 casos) com 1 vaso comprometido até 15,0% (3 casos), em 3 vasos comprometidos), e isso, reforça o comprometimento de muúltiplos vasos comprometidos de pessosas com problemas cardíacos;


##### 2.3.11 Matriz de correlação das condições clínicas


In [None]:
# Matriz de correlação apenas para variáveis numéricas
corr = df.corr(numeric_only=True)

plt.figure(figsize=(10, 8))
sns.heatmap(
    corr,
    annot=True,
    fmt=".2f",
    cmap=["green", "lightgreen", "#FF6347", "red"],
    cbar_kws={'label': 'Correlação'}
)
plt.title('Matriz de Correlação', fontweight='bold')
plt.show()

*Gráfico 12: Matriz de Correlação das condições clínicas*

Analisando o Gráfico 12 referente a matriz de correlação das condições clínicas, têm-se:
- Não existe uma correlação forte e fraca entre as variáveis clínicas;

*Idade (age)*

- Possui uma correlação fraca positiva com número de vasos principais (ca = 0,36) e pressão arterial em repouso (trestbps = 0,29),depressão induzida pelo exercício (Oldpeak = 0,20) e colesterol alto (chol = 0,20);
- Correlação fraca negativa com frequência cardíaca máxima (thalach = -0,39);

*Pressão arterial em repouso (trestbps)*
- Correlaciona fracamente com age (0,29), mas pouco com outros fatores.

*Colesterol total (chol)*
- Com a variável age (0,20) tem correlação fraca positiva e o restante das condições clínicas tem discretas correlações;

*Máxima frequência cardíaca (thalach)*
- Fraca correlação negativa com age (-0,39) e oldpeak (-0,35) e ca (-0,27) e o restante das condições clínicas tem discretas correlações;

*Depressão induzida pelo exercicio (oldpeak)*
- Fraca correlação negativa entre age (0,20) e ca (0,29) e o restante das condições clínicas tem discretas correlações;

*Número de vasos principais (ca)*
- Fraca correlação positiva age (0,36) e oldpeak (0,29) e negativa thalach (-0,27) e o restante das condições clínicas tem discretas correlações;

Com as análises de cada variável:
- Variáveis centrais para modelos de predição de doença cardíaca são: *age, thalach, oldpeak e ca*;
- Variável age se correlaciona com todas as outras variáveis clínicas;
- As variáveis *chol e trestbps* possuem correlações menos brandas, então podem ter pouca preditivade com as outras variáveis clínicas com menos iteraçoes.

*O próximo passo é realizar o processo de limpeza para a etapa de pré-processamento de dados.*

# 3. Pré-Processamento de Dados E Preparação dos Dados

- Nesta etapa, será a limpeza e organização dos dados antes da etapa de modelagem dos dados. Ela é essencial para realizar o desenvolvimento dos possíveis modelos de predição;
- Como as informações das colunas do dataset Heart Disease Cleveland UCI não possui missing, não foi necessário aplicação de técnicas de preenchimento desses valores faltantes, e nem normalização e padronização dessas informações;
- Com base na análise descritiva, iremos verificar se o dataset possui valores nulos, logo depois o treino e teste, e por último. será empregado a técnica de tratamento dos Ouliers, com o objetivo de não afetar futuras inferências do modelo a ser realizado na próxima etapa.

##### 3.1 Tratamento de valores nulos

Nesta etapa, iremos verificar, se as condições clínica do dataset Heart Disease Cleveland UCI possui valores nulos, pois é importante na definição de exclusão de linhas, e influi no preenchimento média/mediana/moda.

In [None]:
# Verificar a presença de valores nulos no dataset original
print("Valores nulos no dataset Iris:")
df.isnull().sum()

*Tabela 6: Valores nulos das condições clínicas*


De acordo com a tabela 6, o dataset Heart Disease Cleveland UCI não possui valores nulos.

##### 3.2 Treino e Teste

In [None]:
# Separar features (X) e target (y)
X = df.drop('condition_label', axis=1)
y = df['condition_label']

# Dividir em treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

#Imprimir as dimensões dos conjuntos para verificar
print(f"Tamanho do treino: {X_train.shape}")
print(f"Tamanho do teste: {X_test.shape}")
print("-" * 40)
print(f"Dimensão total do Dataset: {df.shape}")
print(f"Dimensão de X (features): {X.shape}")
print(f"Dimensão de y (target): {y.shape}")
print("-" * 40)
print(f"Dimensão do conjunto de treino (X_train): {X_train.shape}")
print(f"Dimensão do conjunto de teste (X_test): {X_test.shape}")
print(f"Dimensão do target de treino (y_train): {y_train.shape}")
print(f"Dimensão do target de teste (y_test): {y_test.shape}")
print("-" * 40)
print("Distribuição do Nivel_Risco no Dataset original:")
print(y.value_counts(normalize=True))
print("\nDistribuição do Nivel_Risco no conjunto de treino:")
print(y_train.value_counts(normalize=True))
print("\nDistribuição do Nivel_Risco no conjunto de teste:")
print(y_test.value_counts(normalize=True))


**Análise do Resultado de Treino e Teste do dataset Heart Disease Cleveland da UCI**

1. Dimensões do Dataset (Total e Separado):

- Dimensão total do Dataset: (297, 13)
Confirma que, ao separar as variáveis independentes (features), você ficou com 297 linhas e 12 colunas de características, o que é consistente (13 colunas totais - 1 coluna alvo = 12 features).


2. Dimensões do Conjunto de Treino e Teste:

- Conjunto de Treino (X_train, y_train): (237 linhas) - Representa aproximadamente 70% (237/297 ≈ 0.7979 = 80%) dos seus dados, que serão usados para treinar o modelo.
- Conjunto de Teste (X_test, y_test): (60 linhas) - Representa aproximadamente 30% (60/297 ≈ 0.202 = 20%) dos seus dados, que serão usados para avaliar o desempenho do modelo em dados "novos" (não vistos durante o treino).
- Consistência: As dimensões de X_train e X_test (12 colunas) e y_train e y_test (séries unidimensionais) estão corretas e são consistentes com a separação inicial de features e target.


3. Distribuição do Nivel_Risco (Nivel_Risco_Numerico) nos Conjuntos:

- Dataset original: sem doença: aproximadamente 53.87%, com doença: aproximadamente 46,13%


- Conjunto de treino: sem doença: aproximadamente 54,01%, com doença: aproximadamente 45,99%


- Conjunto de teste: sem doença: aproximadamente 53,33%, com doença: aproximadamente 46,67%

- Qualidade da Divisão (Estratificação):
As proporções do tipo de doença cardíaca (nos níveis com doença e sem doença) são razoavelmente semelhantes entre o dataset original,o conjunto de treino e o conjunto de teste. Há pequenas variações (por exemplo, no grupo sem doença dataset original para o treino aumenta e para o teste diminui), mas não são grandes o suficiente para serem alarmantes.
Isso indica que a divisão foi realizada de forma estratificada, o que é fundamental para garantir que cada subconjunto (treino e teste) tenha uma representação proporcional das classes da variável alvo. Isso é especialmente importante aqui, pois as classes não são uniformemente distribuídas. Uma boa estratificação ajuda a garantir que o modelo seja treinado e avaliado em uma amostra representativa de todas as categorias de risco.


Esta etapa é importante para a preparação dos dados e aplicação dos modelos de Machine Learning.

##### 3.3 Tratamento dos Outliers

Abaixo será feito o tratamento dos Outliers observados nas variáveis clínicas. Para esse tratamento, foi feito:

- Normalização pela Média;
- Normalização pela Mediana;
- Transformação de Box-Cox;
- Remoção de Outliers.

In [None]:
###### tipos de tratamento para Outliers

# Selecionando apenas colunas numéricas das variaveis clinicas para as transformações
numeric_cols = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'ca']

#normalização pela media
df_mean = X_train[numeric_cols].apply(lambda x: (x - x.mean()) / x.std())

#normalização pela mediana
df_median = X_train[numeric_cols].apply(lambda x: (x - x.median()) / x.std())

#Transformação box-cox
df_boxcox = pd.DataFrame()

for col in numeric_cols:
    # Evita valores zero ou negativos
    data = X_train[col].copy()
    if (data <= 0).any():
        data = data + 1  # Ajusta para evitar zeros
    transformed, _ = boxcox(data)
    df_boxcox[col] = transformed


# Removendo Outliers pelo com base no IQR
def remove_outliers_iqr(df, cols):
    df_clean = X_train.copy()
    for col in cols:
        Q1 = df_clean[col].quantile(0.25)
        Q3 = df_clean[col].quantile(0.75)
        IQR = Q3 - Q1
        mask = (df_clean[col] >= Q1 - 1.5 * IQR) & (df_clean[col] <= Q3 + 1.5 * IQR)
        df_clean = df_clean[mask]
    return df_clean

df_outlier_free = remove_outliers_iqr(df, numeric_cols)


#################################plotando os resultados por boxplot
plt.figure(figsize=(16, 10))

# Original
plt.subplot(2, 3, 1)
sns.boxplot(data=X_train[numeric_cols], color='green')
plt.title('Original')

# Pela média
plt.subplot(2, 3, 2)
sns.boxplot(data=df_mean, color='green')
plt.title('Normalizado pela Média')

# Pela mediana
plt.subplot(2, 3, 3)
sns.boxplot(data=df_median, color='green')
plt.title('Normalizado pela Mediana')

# Box-Cox
plt.subplot(2, 3, 4)
sns.boxplot(data=df_boxcox, color='green')
plt.title('Transformação Box-Cox')

# retirada de outliers
plt.subplot(2, 3, 5)
sns.boxplot(data=df_outlier_free, color='green' )
plt.title('Retirada de Outliers')

plt.tight_layout()
plt.show()


####escolhido (transformação box-cox)
plt.figure(figsize=(14, 8))
for i, col in enumerate(df_boxcox.columns):
    plt.subplot(2, 3, i + 1)
    sns.boxplot(y=df_boxcox[col], color='green')
    plt.title(f'{col} (Box-Cox)')
plt.tight_layout()
plt.show()



*Gráfico 13: Boxplot dos tratamentos de Outliers das condições clínicas*


In [None]:
# dimensão do dataset
print("dimensão do dataset:", df_boxcox.shape)

# Informações sobre tipos de dados e valores ausentes
df_boxcox.info()

# Resumo estatístico de variáveis ​​numéricas
df_boxcox.describe()

In [None]:
# Calculando o intervalo interquartílico (IQR), limite inferior e limite superior para variáveis numéricas
q1 = df_boxcox.select_dtypes(include=['int64', 'float64']).quantile(0.25)
q3 = df_boxcox.select_dtypes(include=['int64', 'float64']).quantile(0.75)
iqr = q3 - q1
limite_inferior = q1 - 1.5 * iqr
limite_superior = q3 + 1.5 * iqr

print("Intervalo Interquartílico (IQR):")
print(iqr)
print("-" * 40)
print("\nLimite Inferior:")
print(limite_inferior)
print("-" * 40)
print("\nLimite Superior:")
print(limite_superior)

*Tabela 7: Estatísticas Descritivas das condições clínicas sem outliers*


Análise dos Boxplots das Transformações das Variáveis Clínicas no Gráfico 13:
- *Normalização pela Média/Mediana*: As transformações utilizando a média não foram eficazes na suavização dos efeitos dos outliers. Isso pode ser atribuído à influência significativa dos valores extremos, além de a normalização pela mediana não ter proporcionado melhorias relevantes em relação aos dados originais.
- *Remoção de Outliers via ICS*: Embora a técnica tenha conseguido eliminar as observações discrepantes, a amostra foi reduzida de 237 para 206 observações, resultando em perda de informação. Por esse motivo, optou-se por descartar essa abordagem, uma vez que pode impactar negativamente os resultados na etapa de modelagem.
- *Transformação Box-Cox*: Essa técnica demonstrou ser a mais eficaz, promovendo uma simetrização das variáveis com distribuições originalmente assimétricas, aproximando-as de uma distribuição normal. Além disso, contribui para a redução dos efeitos dos outliers — embora as variáveis trestbps e chol ainda apresentem algumas observações discrepantes e as variáveis age, thalach, oldpeak e ca estão com os valores sem outliers e distribuição simétrica.
- Depois de aplicada a técnica de Box-cox, pela tabela 7, verificamos que a média e a mediana das condições clinicas estão no mesmo alinhamento dos valores;

Na próxima etapa, será feita a a técnica de one-not-encoding, para transformar as variáveis categóricas em variáveis numéricas, para que seja possível aplicar os modelos de machine learning e também será feita a separação do dataset em treino e teste, para que seja possível aplicar os modelos de machine learning.