<a href="https://colab.research.google.com/github/JoseGoulartt/An-lise_ataque_card-aco/blob/main/An%C3%A1lise_ataque_card%C3%ADaco.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análise Base Ataque Cardíaco**

A base de dados é um conjunto de dados relacionados a pacientes com problemas cardíacos, com várias variáveis ​​de entrada (ou recursos) e uma variável de saída (ou rótulo) indicando se o paciente possui ou não uma doença cardíaca. As colunas na base de dados representam as seguintes informações:


*   **age**: idade do paciente em anos (variável numérica)
*   **sex**: gênero do paciente (1 para masculino, 0 para feminino) (variável categórica)
*   **cp**: tipo de dor no peito relatada pelo paciente (variável categórica)
*   **trtbps**: pressão arterial em repouso (em mm Hg) (variável numérica)
*   **chol**: nível de colesterol sérico (em mg/dL) (variável numérica)
*   **fbs**: nível de açúcar no sangue em jejum (> 120 mg/dL representa verdadeiro, 0 representa falso) (variável categórica)
*   **restecg**: resultado do eletrocardiograma em repouso (variável categórica)
*   **thalachh**: frequência cardíaca máxima alcançada (variável numérica)
*   **exng**: angina induzida por exercício (1 representa verdadeiro, 0 representa falso) (variável categórica)
*   **oldpeak**: depressão do segmento ST induzida por exercício em relação ao repouso (variável numérica)
*  **slp**: inclinação do segmento ST de pico do exercício (variável categórica)
*  **caa**: número de vasos principais coloridos por fluoroscopia (variável numérica)
*   **thall**: resultado do teste de estresse com tálio (variável categórica)
*   **output**: presença de doença cardíaca (1 representa verdadeiro, 0 representa falso) (variável categórica)


# **Dados**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('/content/heart.csv')
df.head()

FileNotFoundError: [Errno 2] No such file or directory: '/content/heart.csv'

In [None]:
tipos = df.dtypes
tipos

In [None]:
resumo_estatistico = df.describe()
resumo_estatistico

# **Análise Univariada**

In [None]:
# Separar variáveis numéricas manualmente
vars_numericas = ['age', 'trtbps', 'chol', 'thalachh', 'oldpeak', 'caa']

In [None]:
# Plotar histograma para as variáveis numéricas
for var in vars_numericas:
    plt.hist(df[var], bins=10)
    plt.title('Histograma de ' + var)
    plt.xlabel(var)
    plt.ylabel('Frequência')
    plt.show()

In [None]:
# Variáveis categóricas
variaveis_categoricas = ['sex', 'cp', 'fbs', 'restecg', 'exng', 'slp', 'caa', 'thall', 'output']
# Plotar gráficos de frequência para as variáveis categóricas
for var in variaveis_categoricas:
    plt.figure(figsize=(8, 6))
    df[var].value_counts().sort_index().plot(kind='bar', rot=0)
    plt.title(f'Frequência de Valores para {var}')
    plt.xlabel(var)
    plt.ylabel('Frequência')
    plt.show()

# **Análise Bivariada**

In [None]:
# Variáveis numéricas
variaveis_numericas = ['age', 'trtbps', 'chol', 'thalachh', 'oldpeak', 'caa']

# Plotar gráfico de frequência para cada variável numérica, considerando o output como divisor
for var in variaveis_numericas:
    plt.figure(figsize=(8, 6))
    df[df['output'] == 0][var].plot(kind='hist', alpha=0.5, label='F = 0')
    df[df['output'] == 1][var].plot(kind='hist', alpha=0.5, label='M = 1')
    plt.xlabel(var)
    plt.ylabel('Frequência')
    plt.title(f'Gráfico de Frequência para {var}')
    plt.legend()
    plt.show()

In [None]:
# Variáveis categóricas
categorical_vars = ['sex', 'cp', 'fbs', 'restecg', 'exng', 'slp', 'caa', 'thall']

# Plotar gráficos de frequência para as variáveis categóricas
for var in categorical_vars:
    plt.figure(figsize=(8, 6))
    df.groupby([var, 'output']).size().unstack().plot(kind='bar', stacked=False)
    plt.title(f'Frequência de {var} por output')
    plt.xlabel(var)
    plt.ylabel('Frequência')
    plt.legend(['No Disease', 'Disease'])
    plt.show()


In [None]:
# Cria o heatmap de correlação
corr = df.corr() # Substitua "df" pelo nome do seu dataframe
plt.figure(figsize=(10, 8)) # Define o tamanho da figura
sns.heatmap(corr, annot=True, cmap='coolwarm') # Configura o heatmap
plt.title('Heatmap de Correlação') # Define o título do gráfico
plt.show() # Exibe o gráfico

# **Perguntas/Respostas**
**A)** Qual é a distribuição de idade dos pacientes que sofreram ataque cardíaco?

**B)** Existe alguma diferença na distribuição de idade entre pacientes do sexo masculino e feminino que sofreram ataque cardíaco?

**C)** Quais são os fatores de risco mais comuns para ataques cardíacos, com base nas variáveis disponíveis?

**D)** Existe uma correlação entre a pressão arterial sistólica (trtbps) e o colesterol (chol) dos pacientes?

**E)** Como a frequência cardíaca máxima alcançada (thalachh) está relacionada com a presença de dor no peito (cp)?

**F)** É possível identificar um padrão de comportamento de exercício induzido por angina (exng) em relação à presença de doença cardíaca (output)?

**G)** Como os níveis de depressão do segmento ST induzida pelo exercício (oldpeak) estão relacionados com a presença de doença cardíaca?

**H)** Qual é a distribuição da presença de doença cardíaca (output) em relação aos diferentes tipos de dor no peito (cp)?

**I)** Existe alguma diferença na distribuição da presença de doença cardíaca em pacientes com e sem histórico de açúcar elevado no sangue (fbs)?

**J)** Como as variáveis categóricas, como sexo, número de vasos principais coloridos (caa), e tipo de deficiência thalassemia (thall), estão relacionadas com a presença de doença cardíaca?