Skip to content

Limpeza de dados, análise exploratória, pré-processamento, treinamento e validação de um modelo de classificação com o objetivo de prever AVC.

License

Notifications You must be signed in to change notification settings

lukasoares/Model_to_predict_stroke

Repository files navigation

Model to Predict Stroke

Limpeza de dados, análise exploratória, pré-processamento, treinamento e validação de um modelo de classificação com o objetivo de prever AVC. A base de dados esta disponibilizada no Kaggle.

ObjetivoNotebook 1Notebook 2Conclusão

Objetivo

Este projeto teve como objetivo realizar uma análise exploratória para investigar a relação da variável dependente "stroke" com as demais variáveis presentes no banco de dados. Com base nessa análise, construir um modelo de machine learning de classificação capaz de prever a ocorrência de um AVC com base em informações pré-informadas, como idade, taxa de glicose no sangue e se o paciente é hipertenso, entre outras características e em seguida, avaliar as variáveis que tiveram maior influência na decisão do modelo, ou seja, aquelas que tem maior peso na previsão de ocorrência de AVC.

Neste notebook, está contida toda a limpeza dos dados, incluindo o preenchimento de valores nulos, bem como a análise exploratória, com foco na variável "stroke" e sua relação ou comportamento em conjunto com as outras variáveis. O objetivo dessa análise é avaliar as diferenças entre pessoas que tiveram AVC e as que não tiveram com a sustentação de testes estatísticos.

Como parte do pré-processamento, foi realizada a vetorização do banco de dados, bem como o teste de correlação de Pearson e a aplicação do método "SMOTE" para balancear a variável dependente "stroke" por meio da criação de dados sintéticos, a fim de evitar o overfitting em uma das categorias (teve ou não teve AVC).

Para a construção do modelo, foi utilizado o método "nested cross-validation" para separar o conjunto de dados entre treinamento e teste, sendo que este último foi utilizado apenas para a validação dos modelos. Após essa divisão, os hiperparâmetros de cada modelo foram otimizados e, em seguida, cada modelo foi avaliado utilizando a métrica "F1 Score" e uma matriz de confusão.

Por fim, após a seleção do melhor modelo, foram realizadas análises para identificar as variáveis que tiveram maior peso na classificação do modelo.

Conclusão

O modelo SVC (Support Vector Classification) foi o que obteve a maior taxa de acerto na previsão de pessoas que sofreram AVC (86%), com um F1 Score global de 80%. Entretanto, é necessário destacar que a base de dados original apresenta um desequilíbrio considerável, o que pode ter afetado o desempenho do modelo. Assim, o aumento da amostra de pessoas que sofreram AVC poderia contribuir para aprimorar a performance do modelo.

Ao examinar os dois melhores modelos, observou-se que ambos concederam grande importância às variáveis "age", "hypertension", "avg_glucose_level" e "heart_disease". Além disso, surpreendentemente, a variável "work_type_Govt_job" também exerceu uma influência significativa na probabilidade de ocorrência de AVC.

Por outro lado, é relevante destacar a pequena influência da variável "bmi" na probabilidade de uma pessoa sofrer AVC. Tal constatação sugere que o índice de massa corporal pode não ser um fator determinante para prever o risco de AVC em comparação com outras variáveis, como idade, hipertensão, nível médio de glicose e doença cardíaca.

About

Limpeza de dados, análise exploratória, pré-processamento, treinamento e validação de um modelo de classificação com o objetivo de prever AVC.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published