In [4]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


1 - O que é Aprendizado de Máquina?

Aprendizado de Máquina (ou Machine Learning) é uma área da inteligência artificial que permite que os computadores aprendam a realizar tarefas sem serem explicitamente programados para isso. Ou seja, os algoritmos são treinados com dados e conseguem encontrar padrões, tomar decisões ou fazer previsões com base nesses dados.

**Exemplo real de aplicação:**
Um exemplo muito comum é o sistema de recomendação da Netflix ou do YouTube, que analisa o comportamento do usuário (vídeos assistidos, curtidas, tempo de exibição etc.) e recomenda novos vídeos com base nos padrões detectados.


2 - O que caracteriza um problema de classificação?

Um problema de classificação ocorre quando o objetivo é prever uma **categoria** ou **classe** com base em um conjunto de características (atributos). Ou seja, o modelo aprende com dados rotulados e tenta prever a qual classe um novo dado pertence.

**Exemplo:**
Um sistema que prevê se um paciente tem ou não diabetes com base em informações como idade, índice de massa corporal, pressão sanguínea, entre outros. Nesse caso, as classes seriam "Diabético" (1) ou "Não Diabético" (0).


3 - Diferenças entre SVM e Árvores de Decisão

As principais diferenças entre o algoritmo SVM (Máquina de Vetores de Suporte) e o algoritmo de Árvores de Decisão são:

1. **Forma de aprendizado:**
   - **SVM:** Cria um hiperplano ótimo que separa as classes com a maior margem possível. É ideal para problemas com limites de decisão bem definidos.
   - **Árvore de Decisão:** Cria uma estrutura em forma de árvore onde cada nó representa uma decisão baseada em uma característica dos dados.

2. **Sensibilidade à escala dos dados:**
   - **SVM:** É sensível à escala dos atributos. Por isso, é importante normalizar os dados antes de aplicar o algoritmo.
   - **Árvore de Decisão:** Não é sensível à escala. Funciona bem mesmo com atributos em escalas diferentes.

3. **Interpretação:**
   - **SVM:** É considerado uma "caixa-preta", ou seja, difícil de interpretar.
   - **Árvore de Decisão:** Fácil de interpretar e visualizar, o que a torna ideal quando a interpretabilidade é importante.

4. **Desempenho com dados ruidosos:**
   - **SVM:** Pode ser sensível a outliers, especialmente se não forem ajustados corretamente os hiperparâmetros.
   - **Árvore de Decisão:** Pode sofrer com overfitting em dados ruidosos, mas isso pode ser mitigado com técnicas como poda.

5. **Complexidade:**
   - **SVM:** Pode ser computacionalmente mais pesado, especialmente com grandes volumes de dados.
   - **Árvore de Decisão:** Geralmente mais rápido para treinar e aplicar em grandes conjuntos de dados.


4 - Carregamento e visualização do dataset

In [6]:
# Importando a biblioteca pandas
import pandas as pd

# Carregando o dataset
df = pd.read_csv('diabetes.csv')  # Certifique-se de que o arquivo está na mesma pasta do notebook

# Exibindo as 5 primeiras linhas
df.head()


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [7]:
# Exibindo uma descrição estatística completa dos dados
df.describe()


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


5 - Divisão em treino e teste

In [9]:
%pip install scikit-learn


Collecting scikit-learn
  Downloading scikit_learn-1.6.1-cp313-cp313-win_amd64.whl.metadata (15 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.15.2-cp313-cp313-win_amd64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.6.1-cp313-cp313-win_amd64.whl (11.1 MB)
   ---------------------------------------- 0.0/11.1 MB ? eta -:--:--
   --- ------------------------------------ 1.0/11.1 MB 6.7 MB/s eta 0:00:02
   --------- ------------------------------ 2.6/11.1 MB 7.2 MB/s eta 0:00:02
   ----------------- ---------------------- 4.7/11.1 MB 7.8 MB/s eta 0:00:01
   ---------------------- ----------------- 6.3/11.1 MB 7.9 MB/s eta 0:00:01
   ------------------------------ --------- 8.4/11.1 MB 8.0 MB/s eta 0:00:01
   ----------------------------------

In [10]:
# Importando a função para divisão dos dados
from sklearn.model_selection import train_test_split

# Separando atributos (X) e rótulo (y)
X = df.drop('Outcome', axis=1)  # Todos os dados, exceto a coluna 'Outcome'
y = df['Outcome']              # A coluna 'Outcome' é o rótulo (classe)

# Dividindo os dados: 80% para treino e 20% para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Exibindo o tamanho dos conjuntos
print("Treino:", X_train.shape, y_train.shape)
print("Teste :", X_test.shape, y_test.shape)


Treino: (614, 8) (614,)
Teste : (154, 8) (154,)


6 - Normalização dos dados

In [11]:
# Importando o StandardScaler
from sklearn.preprocessing import StandardScaler

# Criando o normalizador
scaler = StandardScaler()

# Ajustando e transformando os dados de treino
X_train_scaled = scaler.fit_transform(X_train)

# Transformando os dados de teste (usando o mesmo scaler)
X_test_scaled = scaler.transform(X_test)

# Exibindo a forma dos dados normalizados
print("Treino normalizado:", X_train_scaled.shape)
print("Teste normalizado :", X_test_scaled.shape)


Treino normalizado: (614, 8)
Teste normalizado : (154, 8)


7 - Treinamento de um modelo SVM

In [12]:
# Importando a classe SVC (Support Vector Classifier)
from sklearn.svm import SVC

# Criando o modelo SVM
svm_model = SVC()

# Treinando o modelo com os dados normalizados
svm_model.fit(X_train_scaled, y_train)

# Gerando previsões no conjunto de teste
svm_predictions = svm_model.predict(X_test_scaled)

# Exibindo as primeiras previsões
print("Previsões do SVM:", svm_predictions[:10])


Previsões do SVM: [0 0 0 0 0 0 0 1 1 1]


8 - Treinamento de um modelo com Árvore de Decisão

In [13]:
# Importando a classe DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier

# Criando o modelo de Árvore de Decisão
tree_model = DecisionTreeClassifier()

# Treinando o modelo com os dados originais (sem normalização)
tree_model.fit(X_train, y_train)

# Gerando previsões no conjunto de teste
tree_predictions = tree_model.predict(X_test)

# Exibindo as primeiras previsões
print("Previsões da Árvore de Decisão:", tree_predictions[:10])


Previsões da Árvore de Decisão: [0 0 0 0 0 1 0 0 0 1]


9 - Avaliação dos modelos

In [14]:
# Importando a função de avaliação
from sklearn.metrics import classification_report

# Avaliando o modelo SVM
print("Relatório de Classificação - SVM:")
print(classification_report(y_test, svm_predictions))

# Avaliando o modelo Árvore de Decisão
print("Relatório de Classificação - Árvore de Decisão:")
print(classification_report(y_test, tree_predictions))



Relatório de Classificação - SVM:
              precision    recall  f1-score   support

           0       0.77      0.83      0.80        99
           1       0.65      0.56      0.60        55

    accuracy                           0.73       154
   macro avg       0.71      0.70      0.70       154
weighted avg       0.73      0.73      0.73       154

Relatório de Classificação - Árvore de Decisão:
              precision    recall  f1-score   support

           0       0.81      0.80      0.80        99
           1       0.64      0.65      0.65        55

    accuracy                           0.75       154
   macro avg       0.72      0.73      0.73       154
weighted avg       0.75      0.75      0.75       154



10 - Ajuste de Hiperparâmetros

In [15]:
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

# SVM com kernel linear
svm_linear = SVC(kernel='linear')
svm_linear.fit(X_train_scaled, y_train)
svm_linear_preds = svm_linear.predict(X_test_scaled)

# Árvore de Decisão com profundidade máxima de 3
tree_depth3 = DecisionTreeClassifier(max_depth=3)
tree_depth3.fit(X_train, y_train)
tree_depth3_preds = tree_depth3.predict(X_test)

# Relatório - SVM com kernel linear
print("Relatório SVM (kernel='linear'):")
print(classification_report(y_test, svm_linear_preds))

# Relatório - Árvore com max_depth=3
print("Relatório Árvore de Decisão (max_depth=3):")
print(classification_report(y_test, tree_depth3_preds))


Relatório SVM (kernel='linear'):
              precision    recall  f1-score   support

           0       0.81      0.82      0.81        99
           1       0.67      0.65      0.66        55

    accuracy                           0.76       154
   macro avg       0.74      0.74      0.74       154
weighted avg       0.76      0.76      0.76       154

Relatório Árvore de Decisão (max_depth=3):
              precision    recall  f1-score   support

           0       0.80      0.84      0.82        99
           1       0.68      0.62      0.65        55

    accuracy                           0.76       154
   macro avg       0.74      0.73      0.73       154
weighted avg       0.76      0.76      0.76       154



11 - Relatório Final (análise comparativa)

## Análise Comparativa entre SVM e Árvore de Decisão

Durante os testes realizados com os modelos SVM e Árvore de Decisão, observamos diferenças importantes no desempenho de cada um.

### SVM (Support Vector Machine)
- **Requer normalização dos dados**, pois é sensível à escala.
- Apresentou **bons resultados com kernel padrão (`rbf`) e também com o kernel linear**.
- Em geral, teve uma **acurácia ligeiramente maior**, com **boa precisão e F1-score**.
- Ideal para **dados com margens de separação claras e problemas complexos**.

### Árvore de Decisão
- **Não precisa de normalização**, funciona bem com dados brutos.
- Fácil de interpretar e visualizar.
- Quando usamos `max_depth=3`, o modelo **ficou mais simples e generalizou melhor**, mas a performance pode cair se a profundidade for muito limitada.
- Boa escolha para **problemas interpretáveis ou com regras bem definidas**.

### Conclusão
O modelo que obteve melhor desempenho geral foi o **SVM com kernel 'rbf' ou 'linear'**, principalmente em termos de acurácia e F1-score.  
No entanto, a **Árvore de Decisão é mais fácil de interpretar** e pode ser preferida quando a explicação do modelo for importante.

Para um uso real em produção, **o SVM seria o mais adequado** neste caso específico, **considerando os bons resultados nos testes e a robustez em problemas com múltiplas variáveis**.

