GitHub - pablinw/StudyMachineLearning: During this semester I learned about Machine learning and IA, this repositories from studies about this subject.

🩺 Pima Indians Diabetes — Machine Learning Notebook 📌 Descrição do Projeto Este projeto desenvolve um modelo de Machine Learning para prever a presença de diabetes em pacientes, utilizando o dataset Pima Indians Diabetes Database.

O classificador principal é o Support Vector Machine (SVM), com foco em:

Otimização de hiperparâmetros via GridSearchCV Comparação entre KFold (10) e StratifiedKFold (3) O objetivo é mostrar como a escolha da validação cruzada pode impactar o desempenho, especialmente em datasets desbalanceados, garantindo estimativas mais confiáveis e um modelo final mais robusto.

⚙️ Metodologia ✔️ Carga e Divisão dos Dados

Dataset dividido em 80% treino / 20% teste, de forma estratificada. ✔️ Pipeline de Pré-processamento

Imputação de valores ausentes com SimpleImputer (mediana). Padronização das features com StandardScaler. ✔️ Otimização com GridSearchCV

Busca exaustiva pelos melhores hiperparâmetros (kernel, C, gamma). Comparação entre: KFold (10) → validação padrão StratifiedKFold (3) → mantém proporção de classes em cada fold ✔️ Treinamento e Avaliação

Melhor configuração encontrada: {'clf__kernel': 'rbf', 'clf__C': 10, 'clf__gamma': 0.01} Avaliação com métricas como acurácia, matriz de confusão, precisão, recall e F1-score. ✔️ Visualização

Fronteira de decisão gerada a partir de duas features relevantes (Glucose e BMI), destacando os vetores de suporte. 🔧 Pré-requisitos 📍 Recomendado rodar no Google Colab (ambiente já pronto).

Requirements pandas numpy scikit-learn matplotlib

📊 Resultados Melhor configuração: rbf, C=10, gamma=0.01 Acurácia no teste: ~75,32% Bom equilíbrio entre precisão e recall Recall da classe diabético é destaque (importância clínica). Matriz de Confusão matriz de confusao

Curvas ROC e Precision-Recall Comparação entre SVM Linear (KFold=10) e SVM RBF (StratifiedKFold=3):

ROC AUC: 0.83 (ambos) AP (Precision-Recall): RBF levemente superior (0.72 vs 0.71) 🛠️ Ferramentas Utilizadas Linguagem: Python 3 Bibliotecas: pandas, numpy, scikit-learn, matplotlib 📌 Projeto feito para estudo de Machine Learning aplicado a dados biomédicos.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
README.md		README.md
SVC_DIABETES_CLASSIFICATION.ipynb		SVC_DIABETES_CLASSIFICATION.ipynb
matriz_confusao.png		matriz_confusao.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

About

Uh oh!

Releases

Packages

Languages

pablinw/StudyMachineLearning

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages