In [1]:
import numpy as np

# Classe Stump

- Um Stump, ou Decision Stump, é um modelo de classificação fraco que consiste em ser basicamente uma Árvore de Decisão contendo apenas altura igual à 1 e 2 folhas. Com isso, conseguimos deduzir de onde veio esse nome, visto que Stump é uma tradução literal de tronco de árvore.<br><br>

- Modelei um Stump como uma classe para facilitar o uso do mesmo ao longo do algoritmo do AdaBoost. Nela, teremos 3 parâmetros onde 2 podem ser opcionais:
    - feature: representa sobre qual feature estaremos aplicando o Stump.
    - value: representa o valor daquela feature. No caso do dataset poderá ser x, o ou b.
    - pred: representa qual predição será dada caso o valor da feature seja value.<br><br>
    
- Por exemplo, ao instanciarmos um Stump(0, x, 1) todos os valores iguais à x da feature 0 serão classificados como da classe 1 e classificados como a classe -1 caso contrário.<br><br>

- Além das features podemos passar TRUE e FALSE, como strings, para um Stump. Nesse caso, as predições serão sempre 1 caso o Stump seja inicializado com TRUE e -1 caso seja inicializado com FALSE. Por exemplo: Stump("TRUE") e Stump("FALSE"), respectivamente.

In [2]:
class Stump:
    """
        Implementation of Stump Model - weak classifier
        A Stump is a decision tree with 1 node and 2 leafs only
    """
    
    def __init__(self, feature, value=None, pred=None):
        """
            Constructor of class
            Needs a feature, value and prediction associated with that feature
            
            Feature can also be TRUE or FALSE, in that case value=None and pred=None by default
        """
        self._pred = pred
        self._value = value
        self._feature = feature
        
        
    def __str__(self):
        """
            For printing a Stump
        """
        return "(%s, %s, %s)" % (self._feature, self._value, self._pred)
        
    def predict(self, X):
        """
            Class prediction by model (feature, value, pred)
            Returns a numpy.ndarray with values -pred and pred
        """
        n_samples = X.shape[0]
        
        if self._feature == "TRUE": # all classes are 1
            return np.ones(n_samples).astype(int)
        
        if self._feature == "FALSE": # all classes are -1
            return (-1) * np.ones(n_samples).astype(int)
        
        preds = np.empty(n_samples).astype(int)
        for i in range(n_samples):
            if X[i, self._feature] == self._value:
                preds[i] = self._pred
            else:
                preds[i] = (-1) * self._pred
                
        return preds