
# Aula de Machine Learning - Classificação e Regressão

Este notebook cobre tópicos introdutórios em Machine Learning, incluindo algoritmos de classificação e regressão.
Demonstra o uso de diferentes algoritmos de aprendizado supervisionado com foco em suas implementações e avaliação.

## Conteúdos:
1. Pré-processamento de Dados
2. Algoritmos de Classificação e Regressão
3. Avaliação de Modelos e Interpretação de Resultados


# Projeto de Aula: Explorando Diferentes Modelos de Machine Learning
Neste notebook, vamos ensinar os alunos a implementar e comparar diferentes modelos de machine learning, como Regressão Linear, Random Forest, XGBoost, KNN, e outros. Também iremos demonstrar técnicas para melhorar o desempenho desses modelos usando a base de dados `Iris` do scikit-learn.

## Objetivo:
1. Implementar e comparar diferentes modelos de machine learning.
2. Demonstrar como melhorar o desempenho dos modelos com técnicas básicas.
3. Avaliar a acurácia e o relatório de classificação de cada modelo.

In [1]:

# Dividir os dados em conjuntos de treino e teste
# Isso ajuda a avaliar a capacidade de generalização dos modelos.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Importando bibliotecas necessárias
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt
import seaborn as sns

## Carregar a base de dados `Iris`
Vamos carregar a base de dados `Iris` do scikit-learn e dividir os dados em conjuntos de treino e teste.

In [2]:

# Dividir os dados em conjuntos de treino e teste
# Isso ajuda a avaliar a capacidade de generalização dos modelos.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Carregar a base de dados Iris
data = load_iris()
X = data.data
y = data.target

# Dividir em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## Função para treinar e avaliar modelos
Vamos criar uma função que treina e avalia os modelos, retornando a acurácia e o relatório de classificação.

In [3]:
# Função para treinar e avaliar modelos
def evaluate_model(model, X_train, X_test, y_train, y_test):
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    report = classification_report(y_test, y_pred)
    return accuracy, report

## Modelos a serem testados
Vamos testar diferentes modelos de machine learning: Regressão Linear, Random Forest, XGBoost, e KNN.

In [4]:

# Modelo de Regressão Logística
# Treinamento e avaliação do modelo de Regressão Logística no conjunto de dados escalado.
logreg = LogisticRegression(random_state=42)
logreg.fit(X_train, y_train)
y_pred_logreg = logreg.predict(X_test)

# Avaliação do modelo
print("Acurácia Regressão Logística:", accuracy_score(y_test, y_pred_logreg))
print("Relatório de Classificação para Regressão Logística:\n", classification_report(y_test, y_pred_logreg))
# Modelos a serem testados
models = {
    "Logistic Regression": LogisticRegression(max_iter=200),
    "Random Forest": RandomForestClassifier(),
    "XGBoost": XGBClassifier(),
    "KNN": KNeighborsClassifier()
}

# Avaliar cada modelo
results = {}
for name, model in models.items():
    accuracy, report = evaluate_model(model, X_train, X_test, y_train, y_test)
    results[name] = (accuracy, report)

## Exibir Resultados
Vamos exibir os resultados da acurácia e do relatório de classificação para cada modelo.

In [5]:
# Exibir resultados
for name, (accuracy, report) in results.items():
    print(f"Modelo: {name}")
    print(f"Acurácia: {accuracy:.2f}")
    print("Relatório de Classificação:")
    print(report)
    print("-" * 50)

Modelo: Logistic Regression
Acurácia: 1.00
Relatório de Classificação:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

--------------------------------------------------
Modelo: Random Forest
Acurácia: 1.00
Relatório de Classificação:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

--------------------------------------------------


## Melhorando o Desempenho: Ajuste de Hiperparâmetros Manual
Vamos testar diferentes configurações do modelo Random Forest e diferentes valores de `k` para o modelo KNN.

In [6]:
# Melhorando o Desempenho: Ajuste de Hiperparâmetros Manual
# Exemplo com Random Forest
configurations_rf = [
    {'n_estimators': 50, 'max_depth': None},
    {'n_estimators': 100, 'max_depth': 10},
    {'n_estimators': 200, 'max_depth': 20},
    {'n_estimators': 100, 'max_depth': 30, 'min_samples_split': 5},
]

# Testar diferentes configurações do Random Forest
for config in configurations_rf:
    model = RandomForestClassifier(**config)
    accuracy, report = evaluate_model(model, X_train, X_test, y_train, y_test)
    print(f"Configuração: {config}")
    print(f"Acurácia: {accuracy:.2f}")
    print("Relatório de Classificação:")
    print(report)
    print("-" * 50)

Configuração: {'n_estimators': 50, 'max_depth': None}
Acurácia: 1.00
Relatório de Classificação:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

--------------------------------------------------
Configuração: {'n_estimators': 100, 'max_depth': 10}
Acurácia: 1.00
Relatório de Classificação:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00      

In [7]:
# Testando diferentes valores de k para KNN
k_values = [3, 5, 7, 9]
for k in k_values:
    model = KNeighborsClassifier(n_neighbors=k)
    accuracy, report = evaluate_model(model, X_train, X_test, y_train, y_test)
    print(f"KNN com k={k}")
    print(f"Acurácia: {accuracy:.2f}")
    print("Relatório de Classificação:")
    print(report)
    print("-" * 50)

KNN com k=3
Acurácia: 1.00
Relatório de Classificação:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

--------------------------------------------------
KNN com k=5
Acurácia: 1.00
Relatório de Classificação:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

--------------------------------------------------
KNN com k=7
Acurácia: 1.00

## Melhorando o Desempenho: Normalização dos Dados
Vamos demonstrar como a normalização dos dados pode afetar o desempenho dos modelos, reavaliando-os com dados normalizados.

In [8]:

# Normalizar os dados para melhorar a performance dos algoritmos que dependem da escala das variáveis.
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# Melhorando o Desempenho: Normalização dos Dados
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Avaliar modelos com dados normalizados
for name, model in models.items():
    accuracy, report = evaluate_model(model, X_train_scaled, X_test_scaled, y_train, y_test)
    results[name + " (Scaled)"] = (accuracy, report)

## Exibir Resultados com Dados Normalizados
Vamos exibir os resultados da acurácia e do relatório de classificação para cada modelo com dados normalizados.

In [9]:
# Exibir resultados com dados normalizados
for name, (accuracy, report) in results.items():
    if "Scaled" in name:
        print(f"Modelo: {name}")
        print(f"Acurácia: {accuracy:.2f}")
        print("Relatório de Classificação:")
        print(report)
        print("-" * 50)

Modelo: Logistic Regression (Scaled)
Acurácia: 1.00
Relatório de Classificação:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

--------------------------------------------------
Modelo: Random Forest (Scaled)
Acurácia: 1.00
Relatório de Classificação:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        19
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        45
   macro avg       1.00      1.00      1.00        45
weighted avg       1.00      1.00      1.00        45

---------------------------------