# Pré seleção - Experimento

Remove atributos de acordo com os seguintes critérios: 
- Variabilidade próximo de 0
- Alta correlação entre si
- Lida com NaN e valores faltantes

Este notebook apresenta:
- como usar o [SDK](https://platiagro.github.io/sdk/) para carregar datasets, salvar modelos e outros artefatos.
- como declarar parâmetros e usá-los para criar componentes reutilizáveis.

## Declaração de parâmetros e hiperparâmetros

Declare parâmetros com o botão  na barra de ferramentas.<br>
O parâmetro `dataset` identifica os conjuntos de dados. Você pode importar arquivos de dataset com o botão  na barra de ferramentas.

In [None]:
dataset = "iris" #@param {type:"string"}
target = "Species" #@param {type:"feature", label:"Atributo alvo", description: "Seu modelo será treinado para prever os valores do alvo."}
cutoff = 0.9 #@param {type:"number", label:"Limiar de correlação", description:"Atributos com correlação maior que o limiar serão removidos."}
threshold = 0.0 #@param {type:"number", label:"Limiar de threshold", description:"Atributos com variância menor que o limiar serão removidos."}

## Acesso ao conjunto de dados

O conjunto de dados utilizado nesta etapa será o mesmo carregado através da plataforma.<br>
O tipo da variável retornada depende do arquivo de origem:
- [pandas.DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) para CSV e compressed CSV: .csv .csv.zip .csv.gz .csv.bz2 .csv.xz
- [Binary IO stream](https://docs.python.org/3/library/io.html#binary-i-o) para outros tipos de arquivo: .jpg .wav .zip .h5 .parquet etc

In [None]:
import pandas as pd

df = pd.read_csv(f'/tmp/data/{dataset}')
X = df.drop(target, axis=1).to_numpy()
y = df[target].to_numpy()

## Acesso aos metadados do conjunto de dados

Utiliza a função `stat_dataset` do [SDK da PlatIAgro](https://platiagro.github.io/sdk/) para carregar metadados. <br>
Por exemplo, arquivos CSV possuem `metadata['featuretypes']` para cada coluna no conjunto de dados (ex: categorical, numerical, or datetime).

In [None]:
import numpy as np
from platiagro import stat_dataset

metadata = stat_dataset(name=dataset)
featuretypes = metadata["featuretypes"]

columns = df.columns.to_numpy()
featuretypes = np.array(featuretypes)
target_index = np.argwhere(columns == target)
columns = np.delete(columns, target_index)
featuretypes = np.delete(featuretypes, target_index)

## Chamada do transformer personalizado

In [None]:
!wget https://raw.githubusercontent.com/platiagro/projects/master/samples/pre-selection/preselection.py

## Configuração dos atributos

In [None]:
from platiagro.featuretypes import NUMERICAL

# Selects the indexes of numerical and non-numerical features
numerical_indexes = np.where(featuretypes == NUMERICAL)[0]
non_numerical_indexes = np.where(~(featuretypes == NUMERICAL))[0]

# After the step handle_missing_values, 
# numerical features are grouped in the beggining of the array
numerical_indexes_after_first_step = \
    np.arange(len(numerical_indexes))
non_numerical_indexes_after_first_step = \
    np.arange(len(numerical_indexes), len(featuretypes))

# Get non numerical indexes columns names
numerical_columns = np.take(columns, numerical_indexes)
non_numerical_columns = np.take(columns, non_numerical_indexes)

## Treina um modelo de Pre seleção

In [None]:
from sklearn.compose import make_column_transformer
from sklearn.impute import SimpleImputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.pipeline import Pipeline
from preselection import Correlation

pipeline = Pipeline(steps=[
    ('handle_missing_values', 
     make_column_transformer((SimpleImputer(strategy='mean'), numerical_indexes),
                             (SimpleImputer(strategy='most_frequent'), non_numerical_indexes),
                             remainder='passthrough')),
    ('handle_low_variance',
     make_column_transformer((VarianceThreshold(threshold=threshold),
                              numerical_indexes_after_first_step),
                             remainder='passthrough')),
    ('handle_correlated_features',
     Correlation(categorical_indexes=non_numerical_indexes_after_first_step,
                 cutoff=cutoff))
])

# Train model and transform dataset 
X = pipeline.fit_transform(X)

if len(numerical_indexes) > 0:
    # Get columns name that was not removed by VarianceThreshold
    remainder_numerical_indexes = \
        np.take(numerical_columns,
                numerical_indexes_after_first_step[
                    pipeline.named_steps.handle_low_variance.named_transformers_.variancethreshold.get_support()])

    # Removes highly correlated features from the features selected by VarianceThreshold
    remainder_numerical_indexes = \
        np.delete(remainder_numerical_indexes,
                  pipeline.named_steps.handle_correlated_features.get_support())

    # The pipeline changes features order, and it's necessary to save the changes for inference step.
    # numerical features are in the beggining, and non numerical in the end
    features_after_pipeline = np.concatenate((remainder_numerical_indexes,
                                              non_numerical_columns))
else:
    features_after_pipeline = columns

# Convert back to DataFrame
df = pd.DataFrame(X, columns=features_after_pipeline)
df[target] = y

## Salva alterações no conjunto de dados

O conjunto de dados será salvo (e sobrescrito com as respectivas mudanças) localmente, no container da experimentação, utilizando a função `pandas.DataFrame.to_csv`.<br>

In [None]:
# save dataset changes
df.to_csv(f'/tmp/data/{dataset}', index=False)

## Salva modelo e outros artefatos

Utiliza a função `save_model` do [SDK da PlatIAgro](https://platiagro.github.io/sdk/) para salvar modelos e outros artefatos.<br>
Essa função torna estes artefatos disponíveis para o notebook de implantação.

In [None]:
from platiagro import save_model

save_model(pipeline=pipeline,
           columns=columns,
           features_after_pipeline=features_after_pipeline)