# Seleção de filtro - Experimento

Este componente realiza a remoção de atributos específicos do dataset.

## Declaração de parâmetros e hiperparâmetros

Declare parâmetros com o botão  na barra de ferramentas.<br>
A variável `dataset` possui o caminho para leitura do arquivos importados na tarefa de "Upload de dados".<br>
Você também pode importar arquivos com o botão  na barra de ferramentas.

In [None]:
# parâmetros
dataset = "/tmp/data/Iris-3.csv" #@param {type:"string"}
features_to_filter = ["SepalLengthCm"] #@param {type:"feature", multiple:true, label:"Features Para Filtragem", description:"Remove features selecionadas do dataset."}

## Acesso ao conjunto de dados

O conjunto de dados utilizado nesta etapa será o mesmo carregado através da plataforma.<br>
O tipo da variável retornada depende do arquivo de origem:
- [pandas.DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) para CSV e compressed CSV: .csv .csv.zip .csv.gz .csv.bz2 .csv.xz
- [Binary IO stream](https://docs.python.org/3/library/io.html#binary-i-o) para outros tipos de arquivo: .jpg .wav .zip .h5 .parquet etc

In [None]:
import pandas as pd

df = pd.read_csv(dataset)

## Pega colunas

Obtêm as colunas antes da seleção de filtro.

In [None]:
import numpy as np

columns = df.columns.to_numpy()

## Filtra conjunto de dados

In [None]:
df = df.drop(features_to_filter, axis=1)

## Cria visualização do resultado

Cria visualização do resultado como uma planilha.

In [None]:
import matplotlib.pyplot as plt
from platiagro.plotting import plot_data_table

ax = plot_data_table(df)
plt.show()

In [None]:
def description():
    
    new_df = pd.DataFrame({'Columns':[], 'Removed':[], 'Type':[]})
    dtypes = dict(pd.read_csv(dataset).dtypes)
    
    for column in columns:
        if column in features_to_filter:
            new_df.loc[len(new_df)] = [column, 'Yes', dtypes[column]]
        
        else:
            new_df.loc[len(new_df)] = [column, 'No', dtypes[column]]
    
    return new_df

In [None]:
ax = plot_data_table(description())
plt.show()

## Salva alterações no conjunto de dados

O conjunto de dados será salvo (e sobrescrito com as respectivas mudanças) localmente, no container da experimentação, utilizando a função `pandas.DataFrame.to_csv`.<br>

In [None]:
# save dataset changes
df.to_csv(dataset, index=False)

## Salva resultados da tarefa 

A plataforma guarda o conteúdo de `/tmp/data/` para as tarefas subsequentes.

In [None]:
from joblib import dump

artifacts = {
    "columns": columns,
    "features_filtered": df.columns,
}

dump(artifacts, "/tmp/data/filter-selection.joblib")