# Exemplo Backward Selection

A busca começa com todos os atributos disponíveis no conjunto de dados.
Gradualmente, atributos são removidos um a um.
Em cada passo, avaliamos o desempenho do modelo para decidir qual atributo remover.

## Conjunto de Dados

Criamos um conjunto artificial com 4 atributos A, B, C e D e uma variável de saída binária.

## Backward Selection

A função backward_selection começa com todos os atributos e, em cada iteração, remove aquele que resulta na menor perda, ou maior ganho, de acurácia.

## Modelo de Classificação

Usamos uma regressão logística para avaliar o desempenho em cada subconjunto de atributos.

## Acurácia

Acurácia é uma métrica de avaliação amplamente utilizada em aprendizado de máquina e estatística para medir o desempenho de um modelo, especialmente em problemas de classificação. Ela indica a proporção de previsões corretas realizadas pelo modelo em relação ao número total de previsões.

A acurácia é uma métrica adequada quando:

As classes estão balanceadas (ou seja, possuem aproximadamente o mesmo número de exemplos) ou todos os tipos de erro têm o mesmo custo ou impacto no problema.

In [101]:
import pandas as pd
import numpy as np

In [102]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [103]:
# Conjunto de dados


def generate_data():
    np.random.seed(42)

    X = pd.DataFrame(
        {
            "A": np.random.rand(100),
            "B": np.random.rand(100),
            "C": np.random.rand(100),
            "D": np.random.rand(100),
        }
    )

    # Alvo

    y = (X["A"] + X["B"] > 1).astype(int)

    return X, y

In [104]:
# Função para executar a busca backward


def backward_selection(X, y):

    features = list(X.columns)
    best_features = features.copy()
    best_score = 0

    print("---------------------------")
    print("Iniciando busca backward...")
    print("---------------------------")

    while len(features) > 1:

        scores = {}

        for feature in features:

            # Criar subconjunto de atributos removendo o atual

            subset = [f for f in features if f != feature]

            # Dividir os dados

            X_train, X_test, y_train, y_test = train_test_split(
                X[subset], y, test_size=0.3, random_state=42
            )

            # Treinar o modelo

            model = LogisticRegression()
            model.fit(X_train, y_train)

            # Avaliar o desempenho

            y_pred = model.predict(X_test)

            score = accuracy_score(y_test, y_pred)
            scores[feature] = score

        # Encontrar a melhor pontuação removendo 1 atributo

        worst_feature = min(scores, key=scores.get)
        features.remove(worst_feature)

        print("---------------------------")
        print(
            f"Removendo atributo: {worst_feature}, Acurácia: {scores[worst_feature]:.4f}"
        )
        print("---------------------------")

        # Atualizar o melhor conjunto de atributos

        if scores[worst_feature] > best_score:
            best_score = scores[worst_feature]
            best_features = features.copy()

    print("---------------------------")
    print("Busca concluída!")
    print("---------------------------")
    print(f"Melhores atributos: {best_features}, Melhor acurácia: {best_score:.4f}")

    return best_features

In [105]:
# Gerando os dados

X, y = generate_data()

In [106]:
# Executando a busca backward

selected_features = backward_selection(X, y)

---------------------------
Iniciando busca backward...
---------------------------
---------------------------
Removendo atributo: A, Acurácia: 0.6333
---------------------------
---------------------------
Removendo atributo: B, Acurácia: 0.4667
---------------------------
---------------------------
Removendo atributo: D, Acurácia: 0.4000
---------------------------
---------------------------
Busca concluída!
---------------------------
Melhores atributos: ['B', 'C', 'D'], Melhor acurácia: 0.6333
