Um grupo de pesquisa na área médica deseja criar um modelo de Machine Learning que consiga classificar se pacientes têm ou não doença cardíaca, com base em alguns dados demográficos e também resultados de exames médicos que essas pessoas fizeram.
O objetivo deste projeto é desenvolver um modelo de classificação, aprimorando o desempenho com XGBoost.
Os dados foram obtidos no Kaggle, tendo como sua fonte primária UCI Machine Learning Repository. Esses dados foram doados em 1988 e provêm dos resultados clínicos e de testes não invasivos realizados em pacientes submetidos a exames na Cleveland Clinic em Cleveland (Ohio), no Instituto Húngaro de Cardiologia em Budapeste, em um Centro Médico em Long Beach (Califórnia), e também em pacientes de Hospitais universitários em Zurique e Basel (Suíça).
Para acessar e executar o projeto, seguir os seguintes passos:
-
Faça download do arquivo modelo_pipeline.pkl
-
Importe biblioteca joblib para carregar o modelo salvo da seguinte forma junto com arquivo onde contém os dados dos pacientes para realizar a previsão:
# Carregando o modelo
modelo = joblib.load('modelo_pipeline.pkl')
# Carregando os novos pacientes
novos_pacientes = pd.read_csv('Dados/pacientes_novos.csv')
# Fazendo previsões
pred = modelo.predict(novos_pacientes)
pred
As previsões realizadas podem ser agrupadas em um DataFrame para facilitar a visualização e análise dos resultados.
- Linguagem: Python 3.11.5
- Bibliotecas:
- Pandas: 2.1.1
- Seaborn: 0.12.2
- Scikit-learn: 1.3.0
- Xgboost: 2.0.3