# ‚úèÔ∏è EXERC√çCIOS: Introdu√ß√£o aos principais modelos de classifica√ß√£o.

---

## üìã √çndice

1. [Exerc√≠cio 1: Compara√ß√£o de KNN e Regress√£o Log√≠stica](#exercicio1)
2. [Exerc√≠cio 2: Compara√ß√£o de SVC com Diferentes Kernels](#exercicio2)

---

## üéØ Objetivos de Aprendizagem

Ao completar estes exerc√≠cios, serei capaz de:

1. **Implementar** fun√ß√µes auxiliares para treino e avalia√ß√£o de modelos
2. **Comparar** diferentes algoritmos (KNN, Regress√£o Log√≠stica, SVC) no mesmo dataset
3. **Analisar** o impacto de hiperpar√¢metros (K, C, gamma) na performance
4. **Identificar** sinais de overfitting e underfitting atrav√©s de compara√ß√µes
5. **Interpretar** m√©tricas de classifica√ß√£o (accuracy, precision, recall) em contexto

---

## üìö Pr√©-requisitos

Antes de come√ßar, certifico-me de que:
- ‚úÖ Completou os notebooks da **Aula 1** (Walkthrough e Exerc√≠cios)
- ‚úÖ Entende os conceitos de KNN, Regress√£o Log√≠stica e SVC
- ‚úÖ Compreende overfitting, underfitting e bias-variance tradeoff
- ‚úÖ Sabe interpretar matriz de confus√£o e classification report

---

## üí° Como Usar Este Notebook

1. **Implemento as fun√ß√µes auxiliares** primeiro (Exerc√≠cio 1, Parte 1)
2. **Uso essas fun√ß√µes** para treinar e comparar modelos
3. **Analiso criticamente** os resultados - n√£o apenas executo o c√≥digo!
4. **Comparo** performance em treino vs. teste para detectar problemas

> **üíæ Lembrete:** Salvo meu trabalho frequentemente! No Colab: File ‚Üí Save ou Ctrl+S

---

# <a name="exercicio1"></a> üìä Exerc√≠cio 1: Compara√ß√£o de KNN e Regress√£o Log√≠stica

## Objetivo do Exerc√≠cio

Treinar e comparar m√∫ltiplos modelos de classifica√ß√£o (KNN e Regress√£o Log√≠stica) com diferentes hiperpar√¢metros, analisando como eles se comportam em rela√ß√£o a overfitting e underfitting.

### üéØ Objetivos Espec√≠ficos:
- Implementar fun√ß√µes auxiliares para treino e avalia√ß√£o
- Treinar modelos com diferentes configura√ß√µes
- Comparar performance em treino vs. teste
- Analisar m√©tricas por classe (precision, recall)

### ‚è±Ô∏è Tempo Estimado: 60-75 minutos

### üü° N√≠vel: Intermedi√°rio a Desafio

In [None]:
# ============================================================================
# IMPORTA√á√ÉO DE BIBLIOTECAS
# ============================================================================
import pandas as pd
import numpy as np
from google.colab import files
import io
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report, accuracy_score
from sklearn.svm import SVC, LinearSVC
import matplotlib.pyplot as plt

print("‚úÖ Todas as bibliotecas importadas com sucesso!")


In [None]:
# ============================================================================
# CARREGAMENTO DO DATASET
# ============================================================================
# Op√ß√£o 1: Upload do ficheiro (descomente se necess√°rio)
uploaded = files.upload()
df = pd.read_csv(io.BytesIO(uploaded['diabetes.csv']))

# Op√ß√£o 2: Se o ficheiro j√° estiver no Colab, use:
# df = pd.read_csv('diabetes.csv')

# Verifica√ß√£o
print("‚úÖ Dataset carregado!")
print(f"   Dimens√µes: {df.shape[0]} linhas √ó {df.shape[1]} colunas")
print(f"   Colunas: {list(df.columns)}")
print(f"\nPrimeiras linhas:")
print(df.head())


In [None]:
# ============================================================================
# EXERC√çCIO 1.1: IMPLEMENTA√á√ÉO DE FUN√á√ïES AUXILIARES
# ============================================================================

def process_data(X, num_vars, cat_vars):
    """
    Processa dados: normaliza num√©ricas e codifica categ√≥ricas.
    (J√° implementada - pode reutilizar da Aula 1)
    """
    scaler = StandardScaler()
    enc = OneHotEncoder(sparse_output=False, drop='first')
    
    if len(num_vars) > 0:
        X_num = scaler.fit_transform(X[num_vars])
    else:
        X_num = np.array([]).reshape(X.shape[0], 0)
    
    if len(cat_vars) > 0:
        X_cat = enc.fit_transform(X[cat_vars])
    else:
        X_cat = np.array([]).reshape(X.shape[0], 0)
    
    if X_num.shape[1] > 0 and X_cat.shape[1] > 0:
        X_processed = np.concatenate([X_num, X_cat], axis=1)
    elif X_num.shape[1] > 0:
        X_processed = X_num
    else:
        X_processed = X_cat
    
    return X_processed


def split_data(X, y, test_portion):
    """
    Divide dados em conjuntos de treino e teste.
    
    Par√¢metros:
    -----------
    X : array-like
        Vari√°veis independentes
    y : array-like
        Vari√°vel target
    test_portion : float
        Propor√ß√£o dos dados para teste (ex: 0.2 = 20%)
    
    Retorna:
    --------
    X_train, X_test, y_train, y_test
    """
    # TODO: Implemente usando train_test_split
    # YOUR CODE HERE
    X_train, X_test, y_train, y_test = train_test_split(
        X, y,
        test_size=test_portion,
        random_state=42,
        stratify=y
    )
    return X_train, X_test, y_train, y_test


def apply_model(algorithm, X_train, X_test, y_train, y_test, labels, parameter_value):
    """
    Treina um modelo e avalia em treino e teste.
    
    Par√¢metros:
    -----------
    algorithm : str
        'KNN', 'LR', 'linear_SVC', 'rbf_SVC'
    parameter_value : int, float, or list
        - 'KNN': n√∫mero de vizinhos (int)
        - 'LR' e 'linear_SVC': valor de C (float)
        - 'rbf_SVC': lista [C, gamma]
    """
    # TODO: Crie o modelo apropriado baseado no algoritmo
    # YOUR CODE HERE
    if algorithm == 'KNN':
        model = KNeighborsClassifier(n_neighbors=parameter_value)
    elif algorithm == 'LR':
        model = LogisticRegression(C=parameter_value, max_iter=1000, random_state=42)
    elif algorithm == 'linear_SVC':
        model = LinearSVC(C=parameter_value, max_iter=1000, random_state=42)
    elif algorithm == 'rbf_SVC':
        model = SVC(kernel='rbf', C=parameter_value[0], gamma=parameter_value[1], random_state=42)
    else:
        raise ValueError(f"Algoritmo desconhecido: {algorithm}")
    
    # Treinar modelo
    model.fit(X_train, y_train)
    
    # TODO: Fazer previs√µes em treino e teste
    # YOUR CODE HERE
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    
    # Avaliar
    print('='*60)
    print(f'MODELO: {algorithm} | Par√¢metro: {parameter_value}')
    print('='*60)
    print('\nüìä Performance no TREINO:')
    model_evaluation(y_train, y_pred_train, labels)
    print('\nüìä Performance no TESTE:')
    model_evaluation(y_test, y_pred_test, labels)
    
    return model, y_pred_train, y_pred_test


def model_evaluation(y_true, y_pred, labels):
    """
    Avalia modelo: matriz de confus√£o e classification report.
    
    Par√¢metros:
    -----------
    y_true : array
        Valores verdadeiros
    y_pred : array
        Valores previstos
    labels : array
        Classes √∫nicas
    """
    # TODO: Implemente matriz de confus√£o e classification report
    # YOUR CODE HERE
    cm = confusion_matrix(y_true, y_pred, labels=labels)
    disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=labels)
    disp.plot(cmap='Blues', values_format='d')
    plt.title('Matriz de Confus√£o', fontsize=12, fontweight='bold')
    plt.tight_layout()
    plt.show()
    
    print("\nClassification Report:")
    print(classification_report(y_true, y_pred, target_names=[f'Classe {l}' for l in labels]))
    
    # Calcular accuracy
    acc = accuracy_score(y_true, y_pred)
    print(f"Accuracy: {acc:.3f} ({acc*100:.1f}%)")

print("‚úÖ Fun√ß√µes definidas! Complete as implementa√ß√µes acima.")


In [None]:
# ============================================================================
# PREPARA√á√ÉO DOS DADOS
# ============================================================================
target = 'Outcome'
independent_vars = df.columns.difference([target])
X, y = df[independent_vars], df[target]

# Identificar vari√°veis num√©ricas e categ√≥ricas
num_vars = df.select_dtypes(include=['int64', 'float64']).columns.difference([target]).tolist()
cat_vars = df.select_dtypes(include='object').columns.tolist()

print("Configura√ß√£o dos dados:")
print(f"  Target: {target}")
print(f"  Vari√°veis num√©ricas: {len(num_vars)}")
print(f"  Vari√°veis categ√≥ricas: {len(cat_vars)}")
print()

# Pr√©-processar dados
X = process_data(X, num_vars, cat_vars)
print(f"‚úÖ Dados processados. Forma: {X.shape}")

# Dividir em treino/teste (20% para teste)
X_train, X_test, y_train, y_test = split_data(X, y, 0.2)
print(f"‚úÖ Dados divididos. Treino: {X_train.shape[0]}, Teste: {X_test.shape[0]}")


In [None]:
# Identificar classes √∫nicas
labels = np.unique(y)
print(f"Classes do problema: {labels}")
print(f"Distribui√ß√£o de classes:")
for label in labels:
    count = np.sum(y == label)
    print(f"  Classe {label}: {count} amostras ({count/len(y)*100:.1f}%)")


In [None]:
# ============================================================================
# EXERC√çCIO 1.4: AN√ÅLISE COMPARATIVA
# ============================================================================
# TODO: Crie uma tabela comparativa e analise os resultados

# Calcular accuracies
results_data = {
    'Modelo': ['KNN K=1', 'KNN K=18', 'KNN K=200', 'LR C=0.001', 'LR C=0.05'],
    'Accuracy Treino': [
        accuracy_score(y_train, knn1_pred_train),
        accuracy_score(y_train, knn18_pred_train),
        accuracy_score(y_train, knn200_pred_train),
        accuracy_score(y_train, lr001_pred_train),
        accuracy_score(y_train, lr005_pred_train)
    ],
    'Accuracy Teste': [
        accuracy_score(y_test, knn1_pred_test),
        accuracy_score(y_test, knn18_pred_test),
        accuracy_score(y_test, knn200_pred_test),
        accuracy_score(y_test, lr001_pred_test),
        accuracy_score(y_test, lr005_pred_test)
    ]
}

df_results = pd.DataFrame(results_data)
df_results['Gap (Treino - Teste)'] = df_results['Accuracy Treino'] - df_results['Accuracy Teste']

print("="*70)
print("TABELA COMPARATIVA DE RESULTADOS")
print("="*70)
print(df_results.to_string(index=False))
print()

# An√°lise
print("="*70)
print("AN√ÅLISE DOS RESULTADOS")
print("="*70)
best_test = df_results.loc[df_results['Accuracy Teste'].idxmax()]
print(f"\n‚úÖ Melhor performance no TESTE:")
print(f"   Modelo: {best_test['Modelo']}")
print(f"   Accuracy Teste: {best_test['Accuracy Teste']:.3f}")

smallest_gap = df_results.loc[df_results['Gap (Treino - Teste)'].idxmin()]
print(f"\n‚úÖ Menor gap (menos overfitting):")
print(f"   Modelo: {smallest_gap['Modelo']}")
print(f"   Gap: {smallest_gap['Gap (Treino - Teste)']:.3f}")

largest_gap = df_results.loc[df_results['Gap (Treino - Teste)'].idxmax()]
print(f"\n‚ö†Ô∏è  Maior gap (poss√≠vel overfitting):")
print(f"   Modelo: {largest_gap['Modelo']}")
print(f"   Gap: {largest_gap['Gap (Treino - Teste)']:.3f}")

# Visualiza√ß√£o
plt.figure(figsize=(12, 6))
x = np.arange(len(df_results))
width = 0.35

plt.bar(x - width/2, df_results['Accuracy Treino'], width, label='Treino', alpha=0.8)
plt.bar(x + width/2, df_results['Accuracy Teste'], width, label='Teste', alpha=0.8)

plt.xlabel('Modelo', fontsize=12)
plt.ylabel('Accuracy', fontsize=12)
plt.title('Compara√ß√£o de Accuracy: Treino vs. Teste', fontsize=14, fontweight='bold')
plt.xticks(x, df_results['Modelo'], rotation=45, ha='right')
plt.legend()
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

print("\nü§î Perguntas para reflex√£o:")
print("1. Qual modelo tem melhor equil√≠brio entre performance e generaliza√ß√£o?")
print("2. Por que K=1 tem gap maior? O que isso indica?")
print("3. Qual o impacto de C na Regress√£o Log√≠stica?")
print("4. Se eu tivesse que escolher um modelo para produ√ß√£o, qual escolheria? Por qu√™?")


---

## üéì Resumo e Autoavalia√ß√£o

### ‚úÖ Checklist Final

Antes de considerar os exerc√≠cios conclu√≠dos, verifique:

**Exerc√≠cio 1 (KNN e Regress√£o Log√≠stica):**
- [ ] Implementei todas as fun√ß√µes auxiliares corretamente
- [ ] Treinei modelos KNN com K=1, 18 e 200
- [ ] Treinei modelos de Regress√£o Log√≠stica com C=0.001 e 0.05
- [ ] Criei tabela comparativa de resultados
- [ ] Identifiquei sinais de overfitting e underfitting
- [ ] Analisei m√©tricas por classe (precision, recall)

**Exerc√≠cio 2 (SVC):**
- [ ] Comparei SVC com kernel linear vs. RBF
- [ ] Analisei impacto de gamma (0.1 vs. 10)
- [ ] Entendi diferen√ßas entre kernels
- [ ] Identifiquei quando usar cada kernel

### ü§î Perguntas para Reflex√£o

1. **Overfitting vs. Underfitting:**
   - Qual modelo mostrou mais overfitting? Por qu√™?
   - Qual modelo mostrou poss√≠vel underfitting? O que voc√™ faria para melhorar?

2. **Hiperpar√¢metros:**
   - Como K afeta a complexidade do KNN?
   - Como C afeta a regulariza√ß√£o na Regress√£o Log√≠stica?
   - Como gamma afeta a complexidade do SVC RBF?

3. **Escolha de Modelo:**
   - Se voc√™ tivesse que escolher um modelo para produ√ß√£o, qual escolheria?
   - Que crit√©rios voc√™ usaria para essa escolha?

4. **M√©tricas:**
   - Por que √© importante olhar precision e recall por classe, n√£o apenas accuracy?
   - Em um problema m√©dico (diabetes), qual m√©trica √© mais importante: precision ou recall?

### üìö Pr√≥ximos Passos

- Experimente outros valores de hiperpar√¢metros
- Tente usar GridSearchCV para encontrar melhores hiperpar√¢metros automaticamente
- Explore visualiza√ß√µes de fronteiras de decis√£o (se tiver 2 features)
- Considere balanceamento de classes se houver desequil√≠brio

---

> **üíæ Lembrete Final:** Salve seu trabalho! No Colab: File ‚Üí Save ou Ctrl+S

### üîó Links √öteis

- **Notebook Walkthrough Aula 1:** `exemplos/Aula1.ipynb`
- **Documenta√ß√£o scikit-learn:** https://scikit-learn.org/stable/
- **SVC Documentation:** https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

---

## üí¨ Precisa de Ajuda?

Se ficou preso em algum exerc√≠cio:

1. **Revise os conceitos** de overfitting/underfitting
2. **Use as dicas progressivas** - comece pela Dica 1
3. **Verifique mensagens de erro** - elas geralmente indicam o problema
4. **Compare com solu√ß√µes** (se dispon√≠veis) apenas ap√≥s tentar resolver

**Bom trabalho! üéâ**


In [None]:
# ============================================================================
# EXERC√çCIO 2.3: AN√ÅLISE COMPARATIVA SVC
# ============================================================================
# TODO: Crie uma tabela comparativa e analise os resultados

svc_results_data = {
    'Modelo': ['SVC Linear', 'SVC RBF (Œ≥=0.1)', 'SVC RBF (Œ≥=10)'],
    'Accuracy Treino': [
        accuracy_score(y_train, svc_linear_pred_train),
        accuracy_score(y_train, svc_rbf_01_pred_train),
        accuracy_score(y_train, svc_rbf_10_pred_train)
    ],
    'Accuracy Teste': [
        accuracy_score(y_test, svc_linear_pred_test),
        accuracy_score(y_test, svc_rbf_01_pred_test),
        accuracy_score(y_test, svc_rbf_10_pred_test)
    ]
}

df_svc_results = pd.DataFrame(svc_results_data)
df_svc_results['Gap (Treino - Teste)'] = df_svc_results['Accuracy Treino'] - df_svc_results['Accuracy Teste']

print("="*70)
print("TABELA COMPARATIVA: SVC")
print("="*70)
print(df_svc_results.to_string(index=False))
print()

# An√°lise
print("="*70)
print("AN√ÅLISE: IMPACTO DO KERNEL E GAMMA")
print("="*70)

print("\nüìä Compara√ß√£o Linear vs. RBF (gamma=0.1):")
linear_test = df_svc_results.loc[0, 'Accuracy Teste']
rbf_01_test = df_svc_results.loc[1, 'Accuracy Teste']
if rbf_01_test > linear_test:
    print(f"   RBF (Œ≥=0.1) tem melhor performance: {rbf_01_test:.3f} vs. {linear_test:.3f}")
    print("   ‚Üí RBF consegue capturar padr√µes n√£o-lineares!")
else:
    print(f"   Linear tem melhor performance: {linear_test:.3f} vs. {rbf_01_test:.3f}")
    print("   ‚Üí Dados podem ser aproximadamente linearmente separ√°veis")

print("\nüìä Impacto de gamma:")
rbf_01_gap = df_svc_results.loc[1, 'Gap (Treino - Teste)']
rbf_10_gap = df_svc_results.loc[2, 'Gap (Treino - Teste)']
if rbf_10_gap > rbf_01_gap:
    print(f"   Gamma=10 tem gap maior ({rbf_10_gap:.3f}) que gamma=0.1 ({rbf_01_gap:.3f})")
    print("   ‚ö†Ô∏è  Gamma alto pode levar a overfitting!")
else:
    print(f"   Gamma=0.1 tem gap maior - verifique outros fatores")

# Visualiza√ß√£o
plt.figure(figsize=(10, 6))
x = np.arange(len(df_svc_results))
width = 0.35

plt.bar(x - width/2, df_svc_results['Accuracy Treino'], width, label='Treino', alpha=0.8)
plt.bar(x + width/2, df_svc_results['Accuracy Teste'], width, label='Teste', alpha=0.8)

plt.xlabel('Modelo', fontsize=12)
plt.ylabel('Accuracy', fontsize=12)
plt.title('Compara√ß√£o SVC: Linear vs. RBF (diferentes gamma)', fontsize=14, fontweight='bold')
plt.xticks(x, df_svc_results['Modelo'], rotation=15, ha='right')
plt.legend()
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

print("\nü§î Perguntas para reflex√£o:")
print("1. Qual kernel funciona melhor para este dataset? Por qu√™?")
print("2. Qual o impacto de aumentar gamma de 0.1 para 10?")
print("3. Se gamma=10 tem alta accuracy no treino mas baixa no teste, o que isso indica?")
print("4. Em que situa√ß√µes eu escolheria kernel linear vs. RBF?")


In [None]:
# ============================================================================
# EXERC√çCIO 2.2: COMPARAR DIFERENTES VALORES DE GAMMA
# ============================================================================
# TODO: Treine SVC RBF com gamma=0.1 e gamma=10 (C=1)
# Analise o impacto de gamma na performance

print("\n" + "="*70)
print("COMPARA√á√ÉO DE GAMMA NO KERNEL RBF")
print("="*70)

# SVC RBF com gamma=10 (mais complexo, pode overfit)
print("\n" + "="*70)
print("1. SVC com kernel RBF (C=1, gamma=10) - Mais complexo")
print("="*70)
svc_rbf_10_model, svc_rbf_10_pred_train, svc_rbf_10_pred_test = apply_model(
    'rbf_SVC', X_train, X_test, y_train, y_test, labels, [1.0, 10.0]
)


In [None]:
# ============================================================================
# EXERC√çCIO 2.1: COMPARAR KERNELS LINEAR vs. RBF
# ============================================================================
# TODO: Treine SVC com kernel linear e RBF (C=1, gamma=0.1)
# Compare as performances

print("="*70)
print("COMPARA√á√ÉO DE KERNELS: LINEAR vs. RBF")
print("="*70)

# SVC com kernel linear
print("\n" + "="*70)
print("1. SVC com kernel LINEAR (C=1)")
print("="*70)
svc_linear_model, svc_linear_pred_train, svc_linear_pred_test = apply_model(
    'linear_SVC', X_train, X_test, y_train, y_test, labels, 1.0
)

# SVC com kernel RBF (gamma=0.1)
print("\n" + "="*70)
print("2. SVC com kernel RBF (C=1, gamma=0.1)")
print("="*70)
svc_rbf_01_model, svc_rbf_01_pred_train, svc_rbf_01_pred_test = apply_model(
    'rbf_SVC', X_train, X_test, y_train, y_test, labels, [1.0, 0.1]
)


### üî¥ Desafio: An√°lise Comparativa

Agora voc√™ vai criar uma tabela comparativa e analisar criticamente os resultados.

**Tarefa:**
1. Crie uma tabela comparando accuracy em treino e teste para todos os modelos
2. Calcule a diferen√ßa entre treino e teste (gap)
3. Identifique qual modelo tem:
   - Melhor performance no teste
   - Menor gap (menos overfitting)
   - Maior gap (mais overfitting)
   - Pior performance geral (poss√≠vel underfitting)

<details>
<summary>üí° Dica: Criar tabela comparativa</summary>

```python
results = {
    'Modelo': ['KNN K=1', 'KNN K=18', 'KNN K=200', 'LR C=0.001', 'LR C=0.05'],
    'Accuracy Treino': [...],
    'Accuracy Teste': [...],
    'Gap': [...]  # diferen√ßa entre treino e teste
}
df_results = pd.DataFrame(results)
```
</details>


In [None]:
# ============================================================================
# EXERC√çCIO 1.3: TREINAR MODELOS DE REGRESS√ÉO LOG√çSTICA
# ============================================================================
# TODO: Treine modelos de Regress√£o Log√≠stica com C = 0.001 e 0.05
# Compare as performances e identifique o impacto da regulariza√ß√£o

print("\n" + "="*70)
print("COMPARA√á√ÉO DE MODELOS DE REGRESS√ÉO LOG√çSTICA")
print("="*70)

# Regress√£o Log√≠stica com C=0.001 (alta regulariza√ß√£o)
print("\n" + "="*70)
print("1. Regress√£o Log√≠stica com C=0.001 (alta regulariza√ß√£o)")
print("="*70)
lr001_model, lr001_pred_train, lr001_pred_test = apply_model(
    'LR', X_train, X_test, y_train, y_test, labels, 0.001
)

# Regress√£o Log√≠stica com C=0.05 (regulariza√ß√£o moderada)
print("\n" + "="*70)
print("2. Regress√£o Log√≠stica com C=0.05 (regulariza√ß√£o moderada)")
print("="*70)
lr005_model, lr005_pred_train, lr005_pred_test = apply_model(
    'LR', X_train, X_test, y_train, y_test, labels, 0.05
)


In [None]:
# ============================================================================
# EXERC√çCIO 1.2: TREINAR MODELOS KNN
# ============================================================================
# TODO: Treine modelos KNN com K = 1, 18 e 200
# Compare as performances e identifique overfitting/underfitting

print("="*70)
print("COMPARA√á√ÉO DE MODELOS KNN")
print("="*70)

# KNN com K=1
print("\n" + "="*70)
print("1. KNN com K=1 (muito sens√≠vel, pode overfit)")
print("="*70)
knn1_model, knn1_pred_train, knn1_pred_test = apply_model(
    'KNN', X_train, X_test, y_train, y_test, labels, 1
)

# KNN com K=18
print("\n" + "="*70)
print("2. KNN com K=18 (valor intermedi√°rio)")
print("="*70)
knn18_model, knn18_pred_train, knn18_pred_test = apply_model(
    'KNN', X_train, X_test, y_train, y_test, labels, 18
)

# KNN com K=200
print("\n" + "="*70)
print("3. KNN com K=200 (muito grande, pode underfit)")
print("="*70)
knn200_model, knn200_pred_train, knn200_pred_test = apply_model(
    'KNN', X_train, X_test, y_train, y_test, labels, 200
)


In [None]:
## Passo 0: Configura√ß√£o Inicial

Execute as c√©lulas abaixo para configurar o ambiente e carregar as ferramentas necess√°rias.

In [None]:
# Correr os dois  comandos apenas se o dataset n√£o estiver os ficheiros do colab
uploaded = files.upload()
df = pd.read_csv(io.BytesIO(uploaded['diabetes.csv']))
# Este comando s√≥ √© corrido se o dataset j√° estiver carregado no colab
#df = pd.read_csv('diabetes.csv')

Saving diabetes.csv to diabetes.csv


In [None]:
def process_data(X, num_vars, cat_vars):
  scaler = StandardScaler()
  enc = OneHotEncoder(sparse_output=False)

  X_num = scaler.fit_transform(X[num_vars])
  X_cat = enc.fit_transform(X[cat_vars])
  X_processed = np.concatenate([X_num, X_cat], axis=1)

  return X_processed


def split_data(X, y, test_portion):
   #AQUI   Fazer fun√ß√£o que divide os dados em treino e teste com os argumentos j√° passados


# O argumento parameter_value, no caso do:
#- 'KNN' √© o n¬∫ de vizinhos
#- 'LR' e 'linear_SVC' √© o C
#-  'poly_SVC', 'rbf_SVC' e 'sigmoid_SVC' √© uma lista [C, gamma]
def apply_model(algorithm, X_test, X_train, y_train, y_test, labels, parameter_value):
  if 'KNN' == algorithm:
    model = XXX
  elif 'LR' == algorithm:
    model = XXX
  else:
    if 'linear_SVC' == algorithm:
      model = XXX
    elif 'rbf_SVC'== algorithm:
      model = XXX


  model.fit(X_train, y_train)
  y_pred_train = XXXXX
  y_pred_test = XXXX
  print('Training error')
  model_evaluation(XXX, XXX, XXX)
  print('Test error')
  model_evaluation(XXX, XXXX, XXX)


def model_evaluation(y_test, y_pred, labels):
  # Fazer matriz de confus√£o + report de classifica√ß√£o

In [None]:
target = 'Outcome' # Identificar a vari√°vel a prever
independent_vars = df.columns.difference([target]) # Identificar as vari√°veis explicativas/independentes
X, y = df[independent_vars], df[target] # Dividir o target das vari√°veis explicativas
num_vars = df.columns.difference([target]).tolist() # Identificar as vari√°veis num√©ricas
cat_vars = [] # Identificar as vari√°veis categ√≥ricas, que s√£o todas as vari√°veis menos as num√©ricas e a vari√°vel target
X = process_data(X, num_vars, cat_vars) # Processar os dados, este passo √© comum a todos os algoritmos, logo podemos s√≥ fazer de uma vez
X_train, X_test, y_train, y_test = split_data(X, y, 0.2) #Dividir o dataset em treino e test

In [None]:
labels = np.unique(y) # Identificar as classes
labels

array([0, 1])

Resolu√ß√£o do Exerc√≠cio 1

Resolu√ß√£o do Exerc√≠cio 2