# Projeto de Análise de Dados de Saúde Cardíaca 📊❤️

Bem-vindo ao projeto de análise de dados de saúde cardíaca! Este repositório contém análises e visualizações de dados relacionados à saúde do coração. Aproveitados através de dados extraidos do Kaggle. Vamos explorar insights valiosos e padrões ocultos nos dados para melhorar a compreensão da saúde cardiovascular.

## Visão Geral 📋

Neste projeto, você encontrará:

- Análises estatísticas detalhadas sobre dados de pacientes.
- Visualizações informativas, incluindo gráficos e tabelas.
- Respostas para perguntas fundamentais sobre saúde cardíaca.
- Insights sobre a relação entre diferentes variáveis.

## Passo 1: Dando Vida aos Códigos 🚀
Agora que nosso notebook está aberto, é hora de fazer a mágica acontecer! Imagine que cada célula de código é como um feitiço que transformará nossos dados. 🧙‍♂️

Execute as Células: Para ativar os feitiços, pressione Shift + Enter ou clique no botão de reprodução mágica (▶️) à esquerda de cada célula.

Siga as Instruções: Não se esqueça de ler as instruções nas células. Elas são como varinhas mágicas que guiarão você pelas análises.

Tenha Paciência: Após executar um feitiço, aguarde um pouco. Às vezes, a mágica demora um pouco para acontecer.

## Passo 2: Descobrindo os Segredos 🔍
Enquanto nossos feitiços são lançados, observe o que aparece nas células. Você verá gráficos, números e análises que revelam os segredos escondidos em nossos dados. 🧐

Leia com Atenção: As análises são como histórias encantadas. Leia-as atentamente e descubra os segredos que os números estão contando.

Desbrave os Gráficos: Os gráficos são como mapas do tesouro. Navegue por eles para encontrar os padrões e tendências.

Divirta-se: A magia da análise de dados é explorar e fazer descobertas. Divirta-se no mundo dos números!

Explicando os itens:
Os cabeçalhos da base de dados utilizados no código do "EDA Desafio" são os seguintes:

- age: Idade do paciente.
- sex: Sexo do paciente (1 para masculino, 0 para feminino).
- cp: Tipo de dor no peito (0, 1, 2, 3, 4).
-trtbps: Pressão arterial em repouso.
-chol: Nível de colesterol sérico.
-fbs: Açúcar no sangue em jejum (1 para verdadeiro, 0 para falso).
-restecg: Resultados do eletrocardiograma em repouso (0, 1, 2).
-thalachh: Frequência cardíaca máxima alcançada.
-exng: Angina induzida pelo exercício (1 para sim, 0 para não).
-oldpeak: Depressão do segmento ST induzida pelo exercício em relação ao repouso.
-slp: Inclinação do segmento ST do pico do exercício.
-caa: Número de vasos principais coloridos por fluoroscopia.
-thall: Resultado do teste de estresse cardíaco thallium (0, 1, 2, 3).
-output: Presença de doença cardíaca (1 para sim, 0 para não).

Agora você está pronto para lançar seus próprios feitiços e desvendar os mistérios dos dados. Continue a jornada e aproveite! 🌟

In [None]:
import pandas as pd
# Inicio da Exportação dos dados:


# Vamos carregar o arquivo com os dados necessários,
file_path = '/content/heart.csv'

# Carregar os dados em um DataFrame,
df = pd.read_csv(file_path, delimiter=";")

# Exibir as primeiras linhas do DataFrame para verificar se os dados foram carregados corretamente.
print(df.head(11))

#Fim da Exportação dos dados


In [None]:
# Inicio da Transformação dos dados:

# Vamos lidar com Valores Ausentes e caso seja verdade, verificar a contagem de valores ausentes em cada coluna.
print("Contagem de Valores Ausentes:")
print(df.isnull().sum())

In [None]:
# Ao longo do tratamento dos dados, vamos validando a disposição dos nossos dados.

# Fim da Transformação dos dados

print(df.columns)


## Agora vamos iniciar as análises Estatísticas das Variáveis Numéricas

No trecho de código a seguir, estamos realizando uma análise estatística das informações numéricas contidas no nosso conjunto de dados. Isso é feito para entendermos melhor como esses números estão distribuídos e quais padrões podem ser observados.

In [None]:
# Calcular estatísticas descritivas das variáveis numéricas

numeric_columns = ['age', 'trtbps', 'chol', 'thalachh', 'oldpeak']
numeric_stats = df[numeric_columns].describe()
print("\nEstatísticas Descritivas das Variáveis Numéricas:")
print(numeric_stats)


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import chi2_contingency, pearsonr, ttest_ind


# Visualizar as primeiras linhas do conjunto de dados
print(df.head(11))


In [None]:
#Qual é a distribuição da idade dos pacientes em relação a sua frequência cardíaca média?

#Vamos começar gerando um histograma da idade dos pacientes para visualizar a distribuição.

import matplotlib.pyplot as plt

# Histograma da idade
plt.figure(figsize=(8, 6))
plt.hist(df['age'], bins=20, color='skyblue', edgecolor='black')
plt.title('Distribuição da Idade dos Pacientes')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()


In [None]:
#Qual é a relação entre o sexo dos pacientes e a probabilidade de ataque cardíaco?

#Vamos criar uma tabela de contingência e realizar um teste de qui-quadrado para analisar essa relação.

import pandas as pd
from scipy.stats import chi2_contingency

# Criar a tabela de contingência
contingency_table = pd.crosstab(df['sex'], df['output'])

# Realizar o teste de qui-quadrado
chi2, p, _, _ = chi2_contingency(contingency_table)

# Interpretar o resultado do teste de qui-quadrado
if p < 0.05:
    resultado_teste = "Há uma relação significativa entre o sexo e a probabilidade de ataque cardíaco."
else:
    resultado_teste = "Não há uma relação significativa entre o sexo e a probabilidade de ataque cardíaco."

# Calcular a proporção de ataque cardíaco por sexo
proporcao_por_sexo = contingency_table.loc[:, 1] / (contingency_table.loc[:, 0] + contingency_table.loc[:, 1])

# Determinar o sexo com a maior proporção de ataque cardíaco
sexo_maior_probabilidade = "Masculino" if proporcao_por_sexo[1] > proporcao_por_sexo[0] else "Feminino"

print(f"Qui-Quadrado: {chi2}")
print(f"Valor-p: {p}")
print(resultado_teste)
print(f"Sexo com maior probabilidade de ataque cardíaco: {sexo_maior_probabilidade}")


In [None]:
#Será que existe uma correlação entre a pressão arterial em repouso (TRTBPS) e a frequência cardíaca máxima alcançada (Thalachh)?

#Vamos calcular a correlação de Pearson entre essas duas variáveis.

# Calcular a correlação de Pearson
correlation = df['trtbps'].corr(df['thalachh'])

print(f"Correlação entre TRTBPS e Thalachh: {correlation}")

In [None]:
# Calcular a correlação de Pearson entre TRTBPS (pressão arterial em repouso) e Thalachh (frequência cardíaca máxima alcançada)
correlation = df['trtbps'].corr(df['thalachh'])

# Imprimir o resultado da correlação e sua interpretação
print(f"Correlação entre TRTBPS (pressão arterial em repouso) e Thalachh (frequência cardíaca máxima alcançada): {correlation}")

# Interpretar o resultado da correlação
if correlation < -0.5:
    interpretation = "Correlação muito forte negativa."
elif correlation < -0.3:
    interpretation = "Correlação moderada negativa."
elif correlation < -0.1:
    interpretation = "Correlação fraca negativa."
elif correlation > 0.5:
    interpretation = "Correlação muito forte positiva."
elif correlation > 0.3:
    interpretation = "Correlação moderada positiva."
elif correlation > 0.1:
    interpretation = "Correlação fraca positiva."
else:
    interpretation = "Correlação muito fraca ou inexistente."

print(f"Interpretação da correlação: {interpretation}")


Essa correlação é próxima de zero, o que sugere uma correlação muito fraca ou quase inexistente entre essas duas variáveis no conjunto de dados. Isso significa que as variações na pressão arterial em repouso não estão fortemente relacionadas às variações na frequência cardíaca máxima alcançada.


## E por fim:

A média estimada para o perfil mais propenso a ter ataques cardíacos, conforme nossa base de dados.

In [None]:
# Função para determinar o perfil mais propenso a um ataque cardíaco e explicar as variáveis
def encontrar_perfil_e_explicar_variaveis(df):
    # Idade média dos pacientes com ataque cardíaco (aproximada)
    idade_media = int(round(df[df['output'] == 1]['age'].mean()))

    # Proporção de homens entre os pacientes com ataque cardíaco (em porcentagem)
    proporcao_homens = int(round((df[(df['output'] == 1) & (df['sex'] == 1)]['sex'].count() / df[df['output'] == 1]['sex'].count()) * 100))

    # Pressão arterial média dos pacientes com ataque cardíaco (aproximada)
    pressao_arterial_media = int(round(df[df['output'] == 1]['trtbps'].mean()))

    # Nível médio de colesterol entre os pacientes com ataque cardíaco (aproximado)
    colesterol_medio = int(round(df[df['output'] == 1]['chol'].mean()))

    # Frequência cardíaca máxima média dos pacientes com ataque cardíaco (aproximada)
    frequencia_cardiaca_media = int(round(df[df['output'] == 1]['thalachh'].mean()))

    # Média da depressão do segmento ST entre os pacientes com ataque cardíaco (aproximada)
    depressao_st_media = int(round(df[df['output'] == 1]['oldpeak'].mean()))

    # Probabilidade estimada de um paciente ter um ataque cardíaco (em porcentagem)
    probabilidade_ataque_cardiaco = int(round((idade_media * 0.2) + (proporcao_homens * 0.1) + (pressao_arterial_media * 0.1) + (colesterol_medio * 0.2) + (frequencia_cardiaca_media * 0.2) + (depressao_st_media * 0.2)))

    # Determinar o perfil mais propenso com base na probabilidade
    perfil = "Perfil com Menor Probabilidade"
    if probabilidade_ataque_cardiaco > 50:
        perfil = "Perfil com Maior Probabilidade"

    # Explicação das variáveis
    explicacao_variaveis = {
        "Idade Média": idade_media,
        "Chance do perfil ser Homem em %": proporcao_homens,
        "Pressão Arterial Média": pressao_arterial_media,
        "Nível Médio de Colesterol": colesterol_medio,
        "Frequência Cardíaca Máxima Média": frequencia_cardiaca_media,
        "Média da Depressão do Segmento ST": depressao_st_media,
    }

    return perfil, explicacao_variaveis

# Chamar a função com o DataFrame EDA Desafio
perfil_propenso, explicacao_variaveis = encontrar_perfil_e_explicar_variaveis(df)

# Imprimir o perfil mais propenso
print(f"Perfil Mais Propenso a um Ataque Cardíaco: {perfil_propenso}")

# Imprimir a explicação das variáveis
print("\nExplicação das Variáveis:")
for variavel, valor in explicacao_variaveis.items():
    print(f"- {variavel}: {valor}")


In [None]:
# Código de análise estatística concluído
print("Análise estatística concluída com sucesso!")
