Skip to content

During this semester I learned about Machine learning and IA, this repositories from studies about this subject.

Notifications You must be signed in to change notification settings

pablinw/StudyMachineLearning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 

Repository files navigation

🩺 Pima Indians Diabetes — Machine Learning Notebook 📌 Descrição do Projeto Este projeto desenvolve um modelo de Machine Learning para prever a presença de diabetes em pacientes, utilizando o dataset Pima Indians Diabetes Database.

O classificador principal é o Support Vector Machine (SVM), com foco em:

Otimização de hiperparâmetros via GridSearchCV Comparação entre KFold (10) e StratifiedKFold (3) O objetivo é mostrar como a escolha da validação cruzada pode impactar o desempenho, especialmente em datasets desbalanceados, garantindo estimativas mais confiáveis e um modelo final mais robusto.

⚙️ Metodologia ✔️ Carga e Divisão dos Dados

Dataset dividido em 80% treino / 20% teste, de forma estratificada. ✔️ Pipeline de Pré-processamento

Imputação de valores ausentes com SimpleImputer (mediana). Padronização das features com StandardScaler. ✔️ Otimização com GridSearchCV

Busca exaustiva pelos melhores hiperparâmetros (kernel, C, gamma). Comparação entre: KFold (10) → validação padrão StratifiedKFold (3) → mantém proporção de classes em cada fold ✔️ Treinamento e Avaliação

Melhor configuração encontrada: {'clf__kernel': 'rbf', 'clf__C': 10, 'clf__gamma': 0.01} Avaliação com métricas como acurácia, matriz de confusão, precisão, recall e F1-score. ✔️ Visualização

Fronteira de decisão gerada a partir de duas features relevantes (Glucose e BMI), destacando os vetores de suporte. 🔧 Pré-requisitos 📍 Recomendado rodar no Google Colab (ambiente já pronto).

Requirements pandas numpy scikit-learn matplotlib

📊 Resultados Melhor configuração: rbf, C=10, gamma=0.01 Acurácia no teste: ~75,32% Bom equilíbrio entre precisão e recall Recall da classe diabético é destaque (importância clínica). Matriz de Confusão matriz de confusao

TMatriz de confusção

Curvas ROC e Precision-Recall Comparação entre SVM Linear (KFold=10) e SVM RBF (StratifiedKFold=3):

ROC AUC: 0.83 (ambos) AP (Precision-Recall): RBF levemente superior (0.72 vs 0.71) 🛠️ Ferramentas Utilizadas Linguagem: Python 3 Bibliotecas: pandas, numpy, scikit-learn, matplotlib 📌 Projeto feito para estudo de Machine Learning aplicado a dados biomédicos.

About

During this semester I learned about Machine learning and IA, this repositories from studies about this subject.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published