Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Pré-processamento de dataset gerado #13

Merged
merged 4 commits into from
Dec 17, 2021
Merged

Conversation

SteffanoP
Copy link
Owner

@SteffanoP SteffanoP commented Dec 7, 2021

Descrição Rápida

Esta Pull Request visa criar um novo módulo para o pré-processamento do dataset gerado, visando o mínimo possível para que o dataset gerado seja semelhante ao dataset original.

Essa PR também visa solucionar os problemas em #12, do qual havia a necessidade de manter o dataset escalado, seguindo as mesmas escalas de máximo e mínimo do dataset original.

Fixes #12

Objetivos

  • Gerar instâncias que obedeçam o valores de mínimo e máximo do dataset original;
  • Continuar Garantindo o RandomState para cada atributo;
  • Observar a eficiência da normalização;
  • Garantir a normalização e concordância do dataset sintético.

It Scales the values from a base dataframe to a new dataframe based on its max and min values.
@SteffanoP SteffanoP self-assigned this Dec 7, 2021
@SteffanoP SteffanoP changed the title Feature/preprocess dataset Pré-processamento de dataset gerado Dec 9, 2021
@SteffanoP SteffanoP marked this pull request as ready for review December 9, 2021 20:59
Comment on lines 98 to 100
# Scaling to original Dataset
df = preprocess.scaleColumnsFrom(base_df, df)

Copy link
Owner Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Durante alguns testes realizados, foi observado que o algoritmo genético não se comporta muito bem com escalas diferente das originais, muito provavelmente devido as configurações de peso e pontos de referência, logo não é interessante realizar o Scale antes do processo geracional.

A sugestão aqui é o seguinte, para evitar interferências de geração e rotulação do dataset pelo algoritmo genético, é importante realizar o Scale após a geração do dataset sintético, ou estabelecer a escala como uma opção ao usuário; pois, quando escalamos os atributos do dataset, em tese, nós não alteramos sua complexidade (isso foi observado após a geração de um dataset no formato anterior a esta PR e escalando seus valores após a rotulação, e o resultado das complexidades obtidas foram as mesmas.

@SteffanoP
Copy link
Owner Author

Copy link
Owner Author

@SteffanoP SteffanoP left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Mesmo após novas implementações, não foi possível constatar a eficiência do escalamento dos valores de complexidade, ainda será necessário verificar a real eficiência dessa implementação, mesmo que temporária.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

Normalizar e Escalar os valores de um novo dataset
1 participant