-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Pré-processamento de dataset gerado #13
Conversation
It Scales the values from a base dataframe to a new dataframe based on its max and min values.
src/cbdgen-framework.py
Outdated
# Scaling to original Dataset | ||
df = preprocess.scaleColumnsFrom(base_df, df) | ||
|
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Durante alguns testes realizados, foi observado que o algoritmo genético não se comporta muito bem com escalas diferente das originais, muito provavelmente devido as configurações de peso e pontos de referência, logo não é interessante realizar o Scale antes do processo geracional.
A sugestão aqui é o seguinte, para evitar interferências de geração e rotulação do dataset pelo algoritmo genético, é importante realizar o Scale após a geração do dataset sintético, ou estabelecer a escala como uma opção ao usuário; pois, quando escalamos os atributos do dataset, em tese, nós não alteramos sua complexidade (isso foi observado após a geração de um dataset no formato anterior a esta PR e escalando seus valores após a rotulação, e o resultado das complexidades obtidas foram as mesmas.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Mesmo após novas implementações, não foi possível constatar a eficiência do escalamento dos valores de complexidade, ainda será necessário verificar a real eficiência dessa implementação, mesmo que temporária.
Descrição Rápida
Esta Pull Request visa criar um novo módulo para o pré-processamento do dataset gerado, visando o mínimo possível para que o dataset gerado seja semelhante ao dataset original.
Essa PR também visa solucionar os problemas em #12, do qual havia a necessidade de manter o dataset escalado, seguindo as mesmas escalas de máximo e mínimo do dataset original.
Fixes #12
Objetivos
MinMaxScaler
).