<a href="https://colab.research.google.com/github/DaviFerreira0106/notebooks-inteligenciaArtificial/blob/main/diabetes_classification_svm_gridsearch_(1).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Classificação de Diabetes com SVM

Este notebook demonstra a implementação de um modelo de Support Vector Machine (SVM) para prever a presença de diabetes em pacientes com base em dados clínicos. Utilizamos o conjunto de dados "Pima Indians Diabetes Database" da UCI. Agora, vamos testar diferentes kernels e usar GridSearchCV para otimizar os hiperparâmetros C e gamma.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix

## 2. Carregamento e Exploração dos Dados

Vamos carregar o conjunto de dados e fazer uma exploração inicial para entender suas características.

In [None]:
data_url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv'
column_names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
df = pd.read_csv(data_url, names=column_names)

df.head()

## 3. Pré-processamento dos Dados
Precisamos preparar os dados para alimentar o modelo SVM. Isso inclui a normalização dos dados e a separação em conjunto de treino e teste.

In [None]:
X = df.drop('Outcome', axis=1)
y = df['Outcome']

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Padronização dos dados
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## 4. Treinamento do Modelo SVM
Vamos treinar o modelo SVM com kernel linear para tentar prever o resultado com base nas variáveis padronizadas.

In [None]:
model = SVC(kernel='linear')
model.fit(X_train_scaled, y_train)

## 5. Avaliação do Modelo
Após treinar o modelo, vamos avaliá-lo usando a matriz de confusão e o relatório de classificação.

In [None]:
y_pred = model.predict(X_test_scaled)
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', cbar=False)
plt.title('Matriz de Confusão - SVM Linear')
plt.xlabel('Predito')
plt.ylabel('Real')
plt.show()
print(classification_report(y_test, y_pred))

## 6. Testando Diferentes Kernels e Ajustando C e Gamma com GridSearchCV
Agora, vamos testar diferentes kernels, como o RBF e o polinomial, e ajustar os hiperparâmetros C e gamma usando o GridSearchCV.

In [None]:
# Definir os parâmetros para o GridSearchCV
param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': [1, 0.1, 0.01, 0.001],
    'kernel': ['rbf', 'poly']
}

# Instanciar o modelo SVM
grid = GridSearchCV(SVC(), param_grid, refit=True, verbose=2)
grid.fit(X_train_scaled, y_train)

### Melhores parâmetros encontrados pelo GridSearchCV

In [None]:
# Exibir os melhores parâmetros
print('Melhores parâmetros: ', grid.best_params_)
print('Melhor estimador: ', grid.best_estimator_)

### Avaliação do Modelo Otimizado
Agora vamos usar o melhor modelo encontrado para avaliar o desempenho nos dados de teste.

In [None]:
# Previsões com o modelo otimizado
grid_predictions = grid.predict(X_test_scaled)

# Matriz de confusão e relatório de classificação
conf_matrix_grid = confusion_matrix(y_test, grid_predictions)
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix_grid, annot=True, fmt='d', cmap='Greens', cbar=False)
plt.title('Matriz de Confusão - Modelo Otimizado')
plt.xlabel('Predito')
plt.ylabel('Real')
plt.show()
print(classification_report(y_test, grid_predictions))

### Conclusão
Com a utilização do GridSearchCV, conseguimos otimizar os hiperparâmetros do modelo SVM e obter uma melhoria no desempenho da classificação. Testamos diferentes kernels e os hiperparâmetros C e gamma, sendo o kernel RBF o melhor entre os testados.