# Remoção condicional de linhas de um dataset - Experimento

A partir de uma condição, remove as linhas que satisfazem uma condição fornecida.<br>
### **Em caso de dúvidas, consulte os [tutoriais da PlatIAgro](https://platiagro.github.io/tutorials/).**

## Declaração de parâmetros e hiperparâmetros

Declare parâmetros com o botão  na barra de ferramentas.<br>
A variável `dataset` possui o caminho para leitura do arquivos importados na tarefa de "Upload de dados".<br>
Você também pode importar arquivos com o botão  na barra de ferramentas.

In [None]:
# parameters
dataset = "/tmp/data/iris.csv" #@param {type:"string"}
target = "" #@param {type:"feature", label:"Nome do atributo", description: "Você utilizará este atributo (coluna da tabela) para aplicar a condição de seleção de dados."}

# marginal visualization method
condition = "Maior que" #@param ["Maior que", "Maior ou igual a", "Igual a", "Menor ou igual a", "Menor que"] {type:"string", label:"Condição", description:"A condição aplicada no atributo escolhido para excluir as linhas da tabela de dados."}
value = "" #@param {type:"number", label:"Valor", description:"O valor para utilizar na condição selecionada"}

In [None]:
# Parameters
target = "Age"
value = 70
dataset = "/tmp/data/test.csv"
condition = "Maior que"


## Leitura do conjunto de dados

O exemplo abaixo faz a leitura de dados tabulares (ex: .csv).<br>
Modifique o código de acordo com o tipo de dado que desejar ler.

In [None]:
import pandas as pd

df = pd.read_csv(dataset)
df

In [None]:
linhas_antes = df.shape[0]

## Conteúdo da tarefa

In [None]:
# Garantindo que o valor é um float
value = float(value)

# Mapa de condições para operadores
condition_to_operator_map = {
    'Maior que': '>',
    'Maior ou igual a': '>=',
    'Igual a': '==',
    'Menor ou igual a': '<=',
    'Menor que': '<'
}

# Obtendo o operador de condição
operator = condition_to_operator_map[condition]

# Definindo a query
filter_query = f'{target} {operator} {value}'

# Aplicando a query condicional
df = df.query(filter_query)

In [None]:
linhas_depois = df.shape[0]

In [None]:
linhas_remov = linhas_antes - linhas_depois

In [None]:
import matplotlib.pyplot as plt
from platiagro.plotting import plot_data_table

infos = pd.DataFrame(data = [[linhas_antes, linhas_depois, linhas_remov]],
                     columns = ['Antes', 'Depois', 'Total Removidas'], 
                     index = ['Numero de Linhas'])


ax = plot_data_table(infos)
plt.title("Dados da Remoção de Linhas")
plt.show()

## Salva resultados da tarefa

A plataforma guarda o conteúdo de `/tmp/data/` para as tarefas subsequentes.<br>
Use essa pasta para salvar modelos, metadados e outros resultados.

In [None]:
# save dataset changes
df.to_csv(dataset, index=False)

In [None]:
from joblib import dump

artifacts = {
    "filter_query": filter_query,
    "columns": list(df.columns),
    "colum_types": list(df.dtypes)
}

dump(artifacts, "/tmp/data/remove-rows.joblib")