Pré-processamento de dataset gerado #13

SteffanoP · 2021-12-07T16:44:25Z

Descrição Rápida

Esta Pull Request visa criar um novo módulo para o pré-processamento do dataset gerado, visando o mínimo possível para que o dataset gerado seja semelhante ao dataset original.

Essa PR também visa solucionar os problemas em #12, do qual havia a necessidade de manter o dataset escalado, seguindo as mesmas escalas de máximo e mínimo do dataset original.

Fixes #12

Objetivos

Gerar instâncias que obedeçam o valores de mínimo e máximo do dataset original;
Continuar Garantindo o RandomState para cada atributo;
- Mantido pelo método de escala (MinMaxScaler).
Observar a eficiência da normalização;
Garantir a normalização e concordância do dataset sintético.

It Scales the values from a base dataframe to a new dataframe based on its max and min values.

SteffanoP · 2021-12-11T01:20:56Z

src/cbdgen-framework.py

+    # Scaling to original Dataset
+    df = preprocess.scaleColumnsFrom(base_df, df)
+


Durante alguns testes realizados, foi observado que o algoritmo genético não se comporta muito bem com escalas diferente das originais, muito provavelmente devido as configurações de peso e pontos de referência, logo não é interessante realizar o Scale antes do processo geracional.

A sugestão aqui é o seguinte, para evitar interferências de geração e rotulação do dataset pelo algoritmo genético, é importante realizar o Scale após a geração do dataset sintético, ou estabelecer a escala como uma opção ao usuário; pois, quando escalamos os atributos do dataset, em tese, nós não alteramos sua complexidade (isso foi observado após a geração de um dataset no formato anterior a esta PR e escalando seus valores após a rotulação, e o resultado das complexidades obtidas foram as mesmas.

SteffanoP · 2021-12-14T16:11:15Z

Normalizar e Escalar os valores de um novo dataset

SteffanoP

Mesmo após novas implementações, não foi possível constatar a eficiência do escalamento dos valores de complexidade, ainda será necessário verificar a real eficiência dessa implementação, mesmo que temporária.

SteffanoP added 2 commits December 7, 2021 12:49

feat: Scaler to min and max values from a dataset

6eaa56b

It Scales the values from a base dataframe to a new dataframe based on its max and min values.

feat: copy columns names from original dataset

74a26ee

SteffanoP self-assigned this Dec 7, 2021

SteffanoP changed the title ~~Feature/preprocess dataset~~ Pré-processamento de dataset gerado Dec 9, 2021

SteffanoP marked this pull request as ready for review December 9, 2021 20:59

SteffanoP commented Dec 11, 2021

View reviewed changes

SteffanoP added 2 commits December 14, 2021 14:10

refactor: rename function for better understanding

be43daf

feat: scale columns of features only

97cad80

SteffanoP commented Dec 17, 2021

View reviewed changes

SteffanoP merged commit cd23335 into main Dec 17, 2021

SteffanoP mentioned this pull request Dec 17, 2021

Não foi possível constatar a eficiência do escalamento (MinMaxScaler) nos valores de complexidade #16

Open

SteffanoP deleted the feature/preprocess-dataset branch May 9, 2022 03:03

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Pré-processamento de dataset gerado #13

Pré-processamento de dataset gerado #13

SteffanoP commented Dec 7, 2021 •

edited

Loading

SteffanoP Dec 11, 2021

SteffanoP commented Dec 14, 2021

SteffanoP left a comment

		# Scaling to original Dataset
		df = preprocess.scaleColumnsFrom(base_df, df)

Pré-processamento de dataset gerado #13

Pré-processamento de dataset gerado #13

Conversation

SteffanoP commented Dec 7, 2021 • edited Loading

Descrição Rápida

Objetivos

SteffanoP Dec 11, 2021

Choose a reason for hiding this comment

SteffanoP commented Dec 14, 2021

SteffanoP left a comment

Choose a reason for hiding this comment

SteffanoP commented Dec 7, 2021 •

edited

Loading