In [5]:
import numpy as np
import pandas as pd
from sklearn.feature_selection import f_regression #Usado como alternativa uma vez que está a dar para importar f_regression(data) de f_regression.ipynb


class SelectKBest:
    def __init__(self, score_func, k):
        """
        Classe para selecionar as k melhores features com base na pontuação 
        F e no valor p de uma determinada métrica de pontuação (score_func).

        """
        self.score_func = score_func
        self.k = k
        self.scores_ = None
        self.pvalues_ = None
        self.selected_features_ = None

    def fit(self, X, y):
        """
        Estima o valor F e o valor p de cada feature usando a função de 
        pontuação fornecida (score_func).

        """
        self.scores_, self.pvalues_ = self.score_func(X, y)
        # Seleciona as k features com valor de p mais baixo
        self.selected_features_ = np.argsort(self.pvalues_)[:self.k]
        return self

    def transform(self, X):
        """
        Seleciona as k features com valor de p mais baixo e retorna as
        features correspondentes.

        """
        return X[:, self.selected_features_]

    def fit_transform(self, X, y):
        """
        Estima o valor F e o valor p de cada feature usando a função de 
        pontuação fornecida (score_func) e seleciona as k features com valor 
        de p mais baixo, retornando as features correspondentes.

        """
        self.fit(X, y)
        return self.transform(X)

In [None]:
# Carregua os dados.
data = pd.read_csv('titanic.csv')

# Remove linhas com missing values.
data = data.dropna()

# Converte a feature 'Sexo' numa variável binária.
data['Sex'] = np.where(data['Sex'] == 'female', 1, 0)

# Define as features e o target
X = data[['Pclass', 'Age', 'Sex']].values.astype(float)
Y = data['Survived'].values.reshape(-1, 1).astype(float)

# Cria um objeto SelectKBest e fit_transform os dados.
selector = SelectKBest(score_func=f_regression, k=2)
X_new = selector.fit_transform(X, Y)

# Mostra as features selecionadas
print(X_new)