# Introdução #
Neste notebook esta sendo abordado a a construção de um modele logistico a fim de prever a probabilidade de obito decorrido de paradas cardiacas, baseado em um dataset que simula riscos cardiacos para diferentes individuos, baseado em seus habitos e histórico de saude. São levados com consideração dados como sexo, idade, diabetes, anemia e etc. 

**Etapa de importação do dataset e importação das bibliotecas que serão usadas.**

In [None]:
#Importação do dataset
import kagglehub

# Download latest version
path = kagglehub.dataset_download("andrewmvd/heart-failure-clinical-data")

print("Path to dataset files:", path)

In [None]:
#Importação das bibliotecas

import sklearn
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
from sklearn.model_selection import train_test_split

In [None]:
heart_failure_df=pd.read_csv('/kaggle/input/heart-failure-clinical-data/heart_failure_clinical_records_dataset.csv')

In [None]:
heart_failure_df.head()

In [None]:
heart_failure_df.columns

**No código abaixo estou pré tratando algumas columas e retirando os valores nulos.**

In [None]:
heart_failure_df['CPK']=heart_failure_df['creatinine_phosphokinase']
heart_failure_df['FE']=heart_failure_df['ejection_fraction']
heart_failure_df['pressure']=heart_failure_df['high_blood_pressure']
heart_failure_df['DEATH']=heart_failure_df['DEATH_EVENT']
heart_failure_df=heart_failure_df.drop(['creatinine_phosphokinase','ejection_fraction','high_blood_pressure','DEATH_EVENT'], axis=1)
heart_failure_df=heart_failure_df.dropna(axis=0)


## Pré analise
Com auxilio da bibliotéca Seaborn é foi possivel montar este gráfico de mapa de calor para obter uma matriz de correlação das variáveis para que fosse possivel obter uma overview das variáveis. 


In [None]:
corr = heart_failure_df.corr()
plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlação das Variáveis")
plt.show()

**Normalizando as variáveis.**

In [None]:
media_1 = heart_failure_df['age'].mean()
desvio_padrao_1 = heart_failure_df['age'].std()
heart_failure_df['age'] = heart_failure_df['age'].apply(lambda x: (x - media_1) / desvio_padrao_1)

media_2 = heart_failure_df['CPK'].mean()
desvio_padrao_2 = heart_failure_df['CPK'].std()
heart_failure_df['CPK'] = heart_failure_df['CPK'].apply(lambda x: (x - media_2) / desvio_padrao_2)

media_3 = heart_failure_df['FE'].mean()
desvio_padrao_3 = heart_failure_df['FE'].std()
heart_failure_df['FE'] = heart_failure_df['FE'].apply(lambda x: (x - media_3) / desvio_padrao_3)

media_4 = heart_failure_df['platelets'].mean()
desvio_padrao_4 = heart_failure_df['platelets'].std()
heart_failure_df['platelets'] = heart_failure_df['platelets'].apply(lambda x: (x - media_4) / desvio_padrao_4)

media_5 = heart_failure_df['serum_creatinine'].mean()
desvio_padrao_5 = heart_failure_df['serum_creatinine'].std()
heart_failure_df['serum_creatinine'] = heart_failure_df['serum_creatinine'].apply(lambda x: (x - media_5) / desvio_padrao_5)

media_6 = heart_failure_df['serum_sodium'].mean()
desvio_padrao_6 = heart_failure_df['serum_sodium'].std()
heart_failure_df['serum_sodium'] = heart_failure_df['serum_sodium'].apply(lambda x: (x - media_6) / desvio_padrao_6)

media_7 = heart_failure_df['time'].mean()
desvio_padrao_7 = heart_failure_df['time'].std()
heart_failure_df['time'] = heart_failure_df['time'].apply(lambda x: (x - media_7) / desvio_padrao_7)


In [None]:
heart_failure_df['male'] = heart_failure_df['sex'].apply(lambda x: 1 if x == 1 else 0)
heart_failure_df['female'] = heart_failure_df['sex'].apply(lambda x: 1 if x == 0 else 0)

heart_failure_df['c_anaemia'] = heart_failure_df['anaemia'].apply(lambda x: 1 if x == 1 else 0)
heart_failure_df['s_anaemia'] = heart_failure_df['anaemia'].apply(lambda x: 0 if x == 1 else 1)

heart_failure_df['c_diabetes'] = heart_failure_df['diabetes'].apply(lambda x: 1 if x == 1 else 0)
heart_failure_df['s_diabetes'] = heart_failure_df['diabetes'].apply(lambda x: 0 if x == 1 else 1)

heart_failure_df['c_smoking'] = heart_failure_df['smoking'].apply(lambda x: 1 if x == 1 else 0)
heart_failure_df['s_smoking'] = heart_failure_df['smoking'].apply(lambda x: 0 if x == 1 else 1)

heart_failure_df['c_pressure'] = heart_failure_df['pressure'].apply(lambda x: 1 if x == 1 else 0)
heart_failure_df['s_pressure'] = heart_failure_df['pressure'].apply(lambda x: 0 if x == 1 else 1)
heart_failure_df=heart_failure_df.drop(['sex', 'pressure','anaemia', 'diabetes','smoking'], axis=1)

In [None]:
heart_failure_df

In [None]:
heart_failure_df

**Treinando o modelo como 0.3 da base.**

In [None]:
predictors_train, predictors_test, target_train, target_test = train_test_split(
    heart_failure_df.drop(['DEATH'], axis=1),
    heart_failure_df['DEATH'],
    test_size=0.3,  
    random_state=123
)

**Alimentando o modelo com dados de treino.**

In [None]:
model = LogisticRegression()
model_v2=model.fit(predictors_train, target_train)
target_predicted = model.predict(predictors_test)
model.__dict__

**Validando a acurácia do modelo.**

In [None]:
print("Accuracy:", accuracy_score(target_test, target_predicted))
print("F1 Score:", f1_score(target_test, target_predicted))
print("AUC-ROC:", roc_auc_score(target_test, target_predicted))

In [None]:
 heart_failure_df.columns

In [None]:
novo_dado = [60, 250000, 1.0, 130, 4, 120, 20, 1, 0, 0, 1, 0, 1, 1, 0,1,0]

novo_dado[0] = (novo_dado[0] - media_1) / desvio_padrao_1  # age
novo_dado[1] = (novo_dado[1] - media_2) / desvio_padrao_2  # CPK
novo_dado[2] = (novo_dado[2] - media_3) / desvio_padrao_3  # FE
novo_dado[3] = (novo_dado[3] - media_4) / desvio_padrao_4  # platelets
novo_dado[4] = (novo_dado[4] - media_5) / desvio_padrao_5  # serum_creatinine
novo_dado[5] = (novo_dado[5] - media_6) / desvio_padrao_6  # serum_sodium
novo_dado[6] = (novo_dado[6] - media_7) / desvio_padrao_7  # time

In [None]:
individuo = np.array([novo_dado])

In [None]:
print(predictors_train.columns)

In [None]:
individuo_df = pd.DataFrame([novo_dado], columns=predictors_train.columns)

# Previsão do risco de morte
risco = model_v2.predict(individuo_df)
probabilidade = model_v2.predict_proba(individuo_df)

print("Classe prevista (risco):", risco[0])
print("Probabilidade por classe:", probabilidade[0])

## Conclusão

Com base nos resultados, o modelo prevê que o paciente não tem risco de falência cardíaca. A probabilidade de que ele tenha algum risco é praticamente zero, de acordo com as características fornecidas. 
No entanto, é importante lembrar que, embora a previsão seja clara, ela depende de muitos fatores, como a qualidade e quantidade dos dados além da eficácia do modelo.