DL4J: Weight initialization for embedding layers needs review #8663

AlexDBlack · 2020-02-03T12:49:18Z

Currently users can use standard Xavier etc initialization, which as it stands seems to use fanIn == vocabSize, which results in very small initializations.

This should be checked, and a better scheme implemented (maybe treat fanIn as 1, or warn the user or something)

…n vocab size Signed-off-by: Alex Black <blacka101@gmail.com>

* deeplearning4j#8565 Normalizer toString/hashcode Signed-off-by: Alex Black <blacka101@gmail.com> * deeplearning4j#8731 ImagePreProcessingScaler lables/segmentation fix Signed-off-by: Alex Black <blacka101@gmail.com> * deeplearning4j#8691 Fix SameDiffLayer/Vertx finetuning and parameter setting support Signed-off-by: Alex Black <blacka101@gmail.com> * deeplearning4j#8663 DL4J embedding layer weight init - don't depend on vocab size Signed-off-by: Alex Black <blacka101@gmail.com> * EmbeddingLayer test tweak Signed-off-by: Alex Black <blacka101@gmail.com>

AlexDBlack added DL4J General DeepLearning4j issues UX Issues related to User Experience labels Feb 3, 2020

AlexDBlack self-assigned this Feb 28, 2020

AlexDBlack added a commit to KonduitAI/deeplearning4j that referenced this issue Feb 28, 2020

deeplearning4j#8663 DL4J embedding layer weight init - don't depend o…

d82650c

…n vocab size Signed-off-by: Alex Black <blacka101@gmail.com>

AlexDBlack mentioned this issue Feb 28, 2020

Assorted SameDiff/DL4J fixes KonduitAI/deeplearning4j#279

Merged

AlexDBlack closed this as completed in KonduitAI/deeplearning4j#279 Mar 2, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DL4J: Weight initialization for embedding layers needs review #8663

DL4J: Weight initialization for embedding layers needs review #8663

AlexDBlack commented Feb 3, 2020

DL4J: Weight initialization for embedding layers needs review #8663

DL4J: Weight initialization for embedding layers needs review #8663

Comments

AlexDBlack commented Feb 3, 2020