# **Selecionando as melhores features ou colunas para utilizar no nosso modelo**

### A seleção de features é uma das fases mais importantes na criação de um modelo de machine learning, ele ajuda a melhorar e aperfeiçoar os modelos que estivermos criando, aumentando assim o desempenho deles, diminuindo as chances de overfitting ou underfitting. Por isso, eu escolhi algums algoritmos de seleção de features ou colunas que serão usados nos modelos, entre estes algoritmos estão: SelectKBest, SelectFromModel, VarianceThreshold e o algoritmo criado em aula RemoveCorrVarr.

## **Selecionando as melhores features/colunas dos nossos dados com SelectKBest**

### O SelectKBest calcula as melhores features através de testes estatítisticos univariados (univariate statistical test). A função calcula quais são as K maiores features do seu dataset com base em um teste estatístico, onde K é o número máximo de features que você quiser utilizar.

In [12]:
def selecao_features_selectkbest(n_features):

  # Número de features 
  n = n_features


  # features/colunas
  x = dados_finais.drop(['ICU', 'WINDOW', 'PATIENT_VISIT_IDENTIFIER'], axis=1)
  y = dados_finais['ICU']

  # Seleção das features
  seletor = SelectKBest(k=n)
  x2 = seletor.fit_transform(x, y)
  
  # Imprimindo os resultados
  mask = seletor.get_support()
  best_features = x.columns[mask]
  print(f'----- As melhores {n} features SelectKBest --------')
  print('\n')
  print(best_features)

In [13]:
selecao_features_selectkbest(100)

----- As melhores 100 features SelectKBest --------


Index(['AGE_ABOVE65', 'AGE_PERCENTIL', 'GENDER', 'DISEASE GROUPING 3',
       'DISEASE GROUPING 4', 'DISEASE GROUPING 5', 'HTN', 'ALBUMIN_MEDIAN',
       'ALBUMIN_MEAN', 'ALBUMIN_MIN', 'ALBUMIN_MAX', 'BE_ARTERIAL_MIN',
       'BE_ARTERIAL_MAX', 'BE_VENOUS_MEDIAN', 'BE_VENOUS_MEAN',
       'BE_VENOUS_MIN', 'BE_VENOUS_MAX', 'CALCIUM_MEDIAN', 'CALCIUM_MEAN',
       'CALCIUM_MIN', 'CALCIUM_MAX', 'CREATININ_MEDIAN', 'CREATININ_MEAN',
       'CREATININ_MIN', 'CREATININ_MAX', 'GLUCOSE_MEDIAN', 'GLUCOSE_MEAN',
       'GLUCOSE_MIN', 'GLUCOSE_MAX', 'HEMATOCRITE_MEDIAN', 'HEMATOCRITE_MEAN',
       'HEMATOCRITE_MIN', 'HEMATOCRITE_MAX', 'HEMOGLOBIN_MEDIAN',
       'HEMOGLOBIN_MEAN', 'HEMOGLOBIN_MIN', 'HEMOGLOBIN_MAX', 'INR_MEDIAN',
       'INR_MEAN', 'INR_MIN', 'INR_MAX', 'LACTATE_MEDIAN', 'LACTATE_MEAN',
       'LACTATE_MIN', 'LACTATE_MAX', 'LEUKOCYTES_MEDIAN', 'LEUKOCYTES_MEAN',
       'LEUKOCYTES_MIN', 'LEUKOCYTES_MAX', 'LINFOCITOS_MEDIAN',
 

## **Selecionando as melhores features/colunas dos nossos dados com SelectFromModel**

### É uma função que, a partir de um modelo (com fit ou não), irá remover todas as features que não passem do threshold que você informar em seus argumentos. O funcionamento do SelectFromModel é parecido com o RFE, porém, o SFM é mais leve e rápido, já que ele baseia sua seleção apenas no threshold informado, enquanto que o RFE remove as features através de iterações (loops).

In [14]:
def selecao_features_selectfrommodel(n_features, nome_modelo, modelo):

  # Número de features 
  n = n_features


  # features/colunas
  x = dados_finais.drop(['ICU', 'WINDOW', 'PATIENT_VISIT_IDENTIFIER'], axis=1)
  y = dados_finais['ICU']
 
  # Modelo 
  x_treino, x_teste, y_treino, y_teste = train_test_split(x,y, test_size=0.30, random_state=3165) 
  m = modelo
  m.fit(x_treino, y_treino)
  y_pred = m.predict(x_teste)
  y_proba = m.predict_proba(x_teste)


  # Seleção das features
  seletor = SelectFromModel(estimator=modelo, max_features = n)
  x_treino2 = seletor.fit_transform(x_treino, y_treino)
  x_teste2 = seletor.transform(x_teste)

  # Imprimindo os resultados
  mask = seletor.get_support()
  best_features = x.columns[mask]
  print(f'----- As melhores {n} features {nome_modelo} --------')
  print('\n')
  print(best_features)
  print(f'Número de features: {len(best_features)}')

In [15]:
selecao_features_selectfrommodel(100, 'XGBoost', XGBClassifier(random_state=3165))

----- As melhores 100 features XGBoost --------


Index(['AGE_ABOVE65', 'AGE_PERCENTIL', 'GENDER', 'DISEASE GROUPING 1',
       'DISEASE GROUPING 3', 'HTN', 'BE_VENOUS_MEDIAN', 'BILLIRUBIN_MEDIAN',
       'CALCIUM_MEDIAN', 'CREATININ_MEDIAN', 'FFA_MEDIAN', 'GGT_MEDIAN',
       'GLUCOSE_MEDIAN', 'HEMATOCRITE_MEDIAN', 'HEMOGLOBIN_MEDIAN',
       'LACTATE_MEDIAN', 'LEUKOCYTES_MEDIAN', 'LINFOCITOS_MEDIAN',
       'NEUTROPHILES_MEDIAN', 'PC02_VENOUS_MEDIAN', 'PCR_MEDIAN',
       'PLATELETS_MEDIAN', 'POTASSIUM_MEDIAN', 'SAT02_VENOUS_MEDIAN',
       'SODIUM_MEDIAN', 'TGO_MEDIAN', 'TGP_MEDIAN', 'TTPA_MEDIAN',
       'UREA_MEDIAN', 'DIMER_MEDIAN', 'BLOODPRESSURE_DIASTOLIC_MEAN',
       'BLOODPRESSURE_SISTOLIC_MEAN', 'HEART_RATE_MEAN',
       'RESPIRATORY_RATE_MEAN', 'TEMPERATURE_MEAN', 'OXYGEN_SATURATION_MEAN',
       'BLOODPRESSURE_DIASTOLIC_MEDIAN', 'HEART_RATE_MEDIAN',
       'RESPIRATORY_RATE_MEDIAN', 'BLOODPRESSURE_DIASTOLIC_MIN',
       'BLOODPRESSURE_SISTOLIC_MIN', 'HEART_RATE_MIN', 'RES

In [16]:
selecao_features_selectfrommodel(100, 'RandomForest', RandomForestClassifier(random_state=3165))

----- As melhores 100 features RandomForest --------


Index(['AGE_ABOVE65', 'AGE_PERCENTIL', 'HTN', 'BIC_VENOUS_MEAN',
       'BILLIRUBIN_MEAN', 'BILLIRUBIN_MIN', 'BILLIRUBIN_MAX', 'CALCIUM_MIN',
       'CALCIUM_MAX', 'CREATININ_MEDIAN', 'CREATININ_MEAN', 'CREATININ_MIN',
       'CREATININ_MAX', 'GLUCOSE_MIN', 'GLUCOSE_MAX', 'HEMATOCRITE_MEDIAN',
       'HEMATOCRITE_MEAN', 'HEMATOCRITE_MIN', 'HEMATOCRITE_MAX',
       'HEMOGLOBIN_MEDIAN', 'HEMOGLOBIN_MEAN', 'HEMOGLOBIN_MIN',
       'HEMOGLOBIN_MAX', 'LACTATE_MEAN', 'LEUKOCYTES_MEDIAN',
       'LEUKOCYTES_MEAN', 'LEUKOCYTES_MIN', 'LEUKOCYTES_MAX',
       'LINFOCITOS_MEDIAN', 'LINFOCITOS_MEAN', 'LINFOCITOS_MIN',
       'LINFOCITOS_MAX', 'NEUTROPHILES_MEDIAN', 'NEUTROPHILES_MEAN',
       'NEUTROPHILES_MIN', 'NEUTROPHILES_MAX', 'PC02_VENOUS_MIN', 'PCR_MEDIAN',
       'PCR_MEAN', 'PCR_MIN', 'PCR_MAX', 'PLATELETS_MIN', 'PLATELETS_MAX',
       'POTASSIUM_MEDIAN', 'POTASSIUM_MEAN', 'POTASSIUM_MIN', 'POTASSIUM_MAX',
       'SAT02_VENOUS_MIN', '

In [17]:
selecao_features_selectfrommodel(100, 'LGBM', LGBMClassifier(random_state=3165))

----- As melhores 100 features LGBM --------


Index(['AGE_ABOVE65', 'AGE_PERCENTIL', 'DISEASE GROUPING 3', 'HTN',
       'IMMUNOCOMPROMISED', 'BILLIRUBIN_MEDIAN', 'CALCIUM_MEDIAN',
       'CREATININ_MEDIAN', 'GGT_MEDIAN', 'GLUCOSE_MEDIAN',
       'HEMATOCRITE_MEDIAN', 'HEMOGLOBIN_MEDIAN', 'LACTATE_MEDIAN',
       'LEUKOCYTES_MEDIAN', 'LINFOCITOS_MEDIAN', 'NEUTROPHILES_MEDIAN',
       'P02_VENOUS_MEDIAN', 'PC02_VENOUS_MEDIAN', 'PCR_MEDIAN',
       'PLATELETS_MEDIAN', 'POTASSIUM_MEDIAN', 'SAT02_VENOUS_MEDIAN',
       'SODIUM_MEDIAN', 'TGO_MEDIAN', 'TGP_MEDIAN', 'TTPA_MEDIAN',
       'UREA_MEDIAN', 'DIMER_MEDIAN', 'BLOODPRESSURE_DIASTOLIC_MEAN',
       'BLOODPRESSURE_SISTOLIC_MEAN', 'HEART_RATE_MEAN',
       'RESPIRATORY_RATE_MEAN', 'TEMPERATURE_MEAN', 'OXYGEN_SATURATION_MEAN',
       'BLOODPRESSURE_DIASTOLIC_MEDIAN', 'BLOODPRESSURE_SISTOLIC_MEDIAN',
       'HEART_RATE_MEDIAN', 'RESPIRATORY_RATE_MEDIAN',
       'BLOODPRESSURE_DIASTOLIC_MIN', 'BLOODPRESSURE_SISTOLIC_MIN',
       'HEART_RA

In [18]:
selecao_features_selectfrommodel(100, 'LogisticRegression', LogisticRegression(max_iter = 200, random_state=3165))

----- As melhores 100 features LogisticRegression --------


Index(['AGE_PERCENTIL', 'DISEASE GROUPING 1', 'DISEASE GROUPING 2',
       'DISEASE GROUPING 3', 'DISEASE GROUPING 4', 'DISEASE GROUPING 5', 'HTN',
       'IMMUNOCOMPROMISED', 'ALBUMIN_MEDIAN', 'ALBUMIN_MEAN', 'ALBUMIN_MIN',
       'ALBUMIN_MAX', 'BIC_VENOUS_MEDIAN', 'BIC_VENOUS_MEAN', 'BIC_VENOUS_MIN',
       'BIC_VENOUS_MAX', 'BLAST_MEDIAN', 'BLAST_MEAN', 'BLAST_MIN',
       'BLAST_MAX', 'CALCIUM_MEDIAN', 'CALCIUM_MEAN', 'CALCIUM_MIN',
       'CALCIUM_MAX', 'CREATININ_MEDIAN', 'CREATININ_MEAN', 'CREATININ_MIN',
       'CREATININ_MAX', 'GLUCOSE_MEDIAN', 'GLUCOSE_MEAN', 'LINFOCITOS_MEDIAN',
       'LINFOCITOS_MEAN', 'LINFOCITOS_MIN', 'LINFOCITOS_MAX',
       'NEUTROPHILES_MEDIAN', 'NEUTROPHILES_MEAN', 'NEUTROPHILES_MIN',
       'NEUTROPHILES_MAX', 'P02_VENOUS_MEDIAN', 'P02_VENOUS_MEAN',
       'P02_VENOUS_MIN', 'P02_VENOUS_MAX', 'PC02_VENOUS_MEDIAN',
       'PC02_VENOUS_MEAN', 'PC02_VENOUS_MIN', 'PC02_VENOUS_MAX', 'PCR_MEDIAN

## **Selecionando as melhores features/colunas dos nossos dados com VarianceThreshold**

### Este algoritmo elimina todas as features com baixa variância nos valores, como mostrado no exemplo abaixo:

**dist_1 = [2, 2, 2, 2, 2, 2, 2, 2]**

### Numa coluna como a mostrada acima que contém o mesmo valor em todas as linhas a variância é zero. Mas se a coluna for como a lista a abaixo:

**dist_2 = [5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6]**

### A taxa seria muito baixa, próximo de zero, o que também é ruim e desnecessário para ser usado na construção do modelo.

### Então é basicamente isso que o VarianceThreshold faz, ele elimina as features que possuem variância zero ou quase zero.

In [19]:
def selecao_features_variancethreshold():

  # features/colunas
  x = dados_finais.drop(['ICU', 'WINDOW', 'PATIENT_VISIT_IDENTIFIER'], axis=1)
  y = dados_finais['ICU']
 
  # Seleção das features 
  x_treino, x_teste, y_treino, y_teste = train_test_split(x,y, test_size=0.30, random_state=3165)
  seletor = VarianceThreshold()
  x_treino2 = seletor.fit_transform(x_treino, y_treino)
  x_teste2 = seletor.transform(x_teste)
  mask = seletor.get_support()
  best_features = x.columns[mask]
  
  # Imprimindo os resultados
  print('\n')
  print(f'----- As melhores features VarianceThreshold --------')
  print('\n')
  print(best_features)

In [20]:
selecao_features_variancethreshold()



----- As melhores features VarianceThreshold --------


Index(['AGE_ABOVE65', 'AGE_PERCENTIL', 'GENDER', 'DISEASE GROUPING 1',
       'DISEASE GROUPING 2', 'DISEASE GROUPING 3', 'DISEASE GROUPING 4',
       'DISEASE GROUPING 5', 'DISEASE GROUPING 6', 'HTN',
       ...
       'HEART_RATE_DIFF', 'RESPIRATORY_RATE_DIFF', 'TEMPERATURE_DIFF',
       'OXYGEN_SATURATION_DIFF', 'BLOODPRESSURE_DIASTOLIC_DIFF_REL',
       'BLOODPRESSURE_SISTOLIC_DIFF_REL', 'HEART_RATE_DIFF_REL',
       'RESPIRATORY_RATE_DIFF_REL', 'TEMPERATURE_DIFF_REL',
       'OXYGEN_SATURATION_DIFF_REL'],
      dtype='object', length=192)


## **Selecionando as melhores features/colunas dos nossos dados com RemoveCorrVar (função criada em aula)**

### Esta função elimina todas as features que possuem uma forte correlação entre si, ela também elimina percentualmente os dados de algumas colunas ao invés de eliminar a coluna completamente.

In [None]:
class RemoveCorrVar(BaseEstimator, TransformerMixin):
    def __init__( self, valor_corte = 0.95):
        self.valor_corte = valor_corte
        
    def fit( self, X, y = None ):
        #matrix_corr = X.iloc[:,4:].corr().abs()
        matrix_corr = X.iloc[:,4:-2].corr().abs()
        matrix_upper = matrix_corr.where(np.triu(np.ones(matrix_corr.shape), k=1).astype(np.bool))
        self.excluir = [coluna for coluna in matrix_upper.columns if any(matrix_upper[coluna] > self.valor_corte)]
        return self 
    
    def transform(self, X, y = None):
        X = X.drop(self.excluir, axis=1)
        return X

In [None]:
def selecao_features_removecorrvar(dados):

  # Seleção das features
  seletor = RemoveCorrVar()
  x_treino1 = seletor.fit(dados)
  x_treino2 = seletor.transform(dados)
  
  # Imprimindo os resultados
  best_features = x_treino2.columns
  print(f'----- As melhores features RemoveCorrVar --------')
  print('\n')
  print(best_features)
  print(f'Número de features: {len(best_features)}')

In [None]:
selecao_features_removecorrvar(dados_finais)

----- As melhores features RemoveCorrVar --------


Index(['PATIENT_VISIT_IDENTIFIER', 'AGE_ABOVE65', 'AGE_PERCENTIL', 'GENDER',
       'DISEASE GROUPING 1', 'DISEASE GROUPING 2', 'DISEASE GROUPING 3',
       'DISEASE GROUPING 4', 'DISEASE GROUPING 5', 'DISEASE GROUPING 6', 'HTN',
       'IMMUNOCOMPROMISED', 'OTHER', 'ALBUMIN_MEDIAN', 'ALBUMIN_DIFF',
       'BE_ARTERIAL_MEDIAN', 'BE_ARTERIAL_DIFF', 'BE_VENOUS_MEDIAN',
       'BE_VENOUS_DIFF', 'BIC_ARTERIAL_MEDIAN', 'BIC_ARTERIAL_DIFF',
       'BIC_VENOUS_MEDIAN', 'BIC_VENOUS_DIFF', 'BILLIRUBIN_MEDIAN',
       'BILLIRUBIN_DIFF', 'BLAST_MEDIAN', 'BLAST_DIFF', 'CALCIUM_MEDIAN',
       'CALCIUM_DIFF', 'CREATININ_MEDIAN', 'CREATININ_DIFF', 'FFA_MEDIAN',
       'FFA_DIFF', 'GGT_MEDIAN', 'GGT_DIFF', 'GLUCOSE_MEDIAN', 'GLUCOSE_DIFF',
       'HEMATOCRITE_MEDIAN', 'HEMATOCRITE_DIFF', 'HEMOGLOBIN_DIFF',
       'INR_MEDIAN', 'INR_DIFF', 'LACTATE_MEDIAN', 'LACTATE_DIFF',
       'LEUKOCYTES_MEDIAN', 'LEUKOCYTES_DIFF', 'LINFOCITOS_MEDIAN',
       'LI