New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Imprecisión en la metodología #2

Open
gerardobort opened this Issue Apr 12, 2018 · 3 comments

Comments

Projects
None yet
4 participants
@gerardobort

gerardobort commented Apr 12, 2018

Buenas,

Estuve leyendo el documento, y me llamó mucho la atención los resultados de la prueba del modelo, precisión y exhaustividad en particular, teniendo en cuenta los features que se eligieron y el volumen de datos que se relata.

Más allá del paso a paso y la ejemplificación con Azure, que me parece está muy bien explicado, entiendo que hay un error en la metodología que se usó para crear el modelo. Comprendo también que este es el resultado de un trabajo de solo dos semanas, pero dado que excede el ámbito privado me parece importante plantearlo.

En el pipeline de datos se aplica SMOTE para amplificar la minoría, y se lo hace previo a la validación cruzada. Esta es la clave del problema. Al hacer el desdoblado de datos para Cross Validation después de la generación sintética de datos se incurre en utilizar datos (o copias casi idénticas con algo de ruido) del training set, como parte del validation set.

Esto produce que los indicadores de exactitud del modelo sean sobre-estimados, no por un error de cálculo sino de metodología. El modelo se sobre-ajusta a los datos de entrenamiento.

Desde un punto de vista personal, técnico y también social, me parece desacertado intentar predecir embarazos en mujeres adolescentes solo por características (features) asociadas a ellas, donde para concebir, la intervención un masculino es condición necesaria.

Dejo el siguiente enlace como referencia y sustento a este planteo https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4634915/

Saludos,

@verquepasa

This comment has been minimized.

Show comment
Hide comment

verquepasa commented Apr 13, 2018

@rquiroga7

This comment has been minimized.

Show comment
Hide comment
@rquiroga7

rquiroga7 Apr 13, 2018

Si tuviera que estimar, en general para un set de datos de este tamaño, un recall de aprox 90% aplicando SMOTE antes de separar los sets de entrenamiento y testeo se transformará en 20-30% de recall cuando se proceda cómo es debido, con SMOTE posterior a la division de los datasets y/o con undersampling.

rquiroga7 commented Apr 13, 2018

Si tuviera que estimar, en general para un set de datos de este tamaño, un recall de aprox 90% aplicando SMOTE antes de separar los sets de entrenamiento y testeo se transformará en 20-30% de recall cuando se proceda cómo es debido, con SMOTE posterior a la division de los datasets y/o con undersampling.

@rdledesma

This comment has been minimized.

Show comment
Hide comment
@rdledesma

rdledesma Aug 5, 2018

Buenas!

Leí muy atentamente tu trabajo y la verdad me parece algo muy bueno.
Serías tan amable de facilitarme el dataset? Tengo pensado en hacer algo similar aplicando algo de bayes.
Te lo agraderecería mucho.
Un saludo desde Salta

rdledesma commented Aug 5, 2018

Buenas!

Leí muy atentamente tu trabajo y la verdad me parece algo muy bueno.
Serías tan amable de facilitarme el dataset? Tengo pensado en hacer algo similar aplicando algo de bayes.
Te lo agraderecería mucho.
Un saludo desde Salta

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment