deeppavlov/configs/morpho_tagger/UD2.0/morpho_de.json

{
  "dataset_reader": {
    "class_name": "morphotagger_dataset_reader",
    "data_path": "{DOWNLOADS_PATH}/UD2.0_source",
    "language": "de",
    "data_types": [
      "train",
      "dev",
      "test"
    ]
  },
  "dataset_iterator": {
    "class_name": "morphotagger_dataset"
  },
  "chainer": {
    "in": [
      "x"
    ],
    "in_y": [
      "y"
    ],
    "pipe": [
      {
        "in": [
          "x"
        ],
        "class_name": "lazy_tokenizer",
        "out": [
          "x_tokens"
        ]
      },
      {
        "id": "char_splitting_lowercase_preprocessor",
        "class_name": "char_splitting_lowercase_preprocessor",
        "in": [
          "x_tokens"
        ],
        "out": [
          "x_chars_lowered_marked"
        ]
      },
      {
        "id": "tag_vocab",
        "class_name": "simple_vocab",
        "fit_on": [
          "y"
        ],
        "special_tokens": [
          "PAD",
          "BEGIN",
          "END"
        ],
        "save_path": "{MODELS_PATH}/morpho_tagger/UD2.0/de/tag.dict",
        "load_path": "{MODELS_PATH}/morpho_tagger/UD2.0/de/tag.dict"
      },
      {
        "id": "char_vocab",
        "class_name": "simple_vocab",
        "min_freq": 3,
        "fit_on": [
          "x_chars_lowered_marked"
        ],
        "special_tokens": [
          "PAD",
          "BEGIN",
          "END"
        ],
        "save_path": "{MODELS_PATH}/morpho_tagger/UD2.0/de/char.dict",
        "load_path": "{MODELS_PATH}/morpho_tagger/UD2.0/de/char.dict"
      },
      {
        "in": [
          "x_chars_lowered_marked"
        ],
        "in_y": [
          "y"
        ],
        "out": [
          "y_predicted"
        ],
        "class_name": "morpho_tagger",
        "main": true,
        "save_path": "{MODELS_PATH}/morpho_tagger/UD2.0/de/model.hdf5",
        "load_path": "{MODELS_PATH}/morpho_tagger/UD2.0/de/model.hdf5",
        "tags": "#tag_vocab",
        "symbols": "#char_vocab",
        "verbose": 1,
        "char_embeddings_size": 32,
        "char_window_size": [
          1,
          2,
          3,
          4,
          5,
          6,
          7
        ],
        "word_lstm_units": 128,
        "conv_dropout": 0.0,
        "char_conv_layers": 1,
        "char_highway_layers": 1,
        "highway_dropout": 0.0,
        "word_lstm_layers": 1,
        "char_filter_multiple": 50,
        "intermediate_dropout": 0.0,
        "word_dropout": 0.2,
        "lstm_dropout": 0.2,
        "regularizer": 0.01
      },
      {
        "in": [
          "x_tokens",
          "y_predicted"
        ],
        "out": [
          "y_prettified"
        ],
        "id": "prettifier",
        "class_name": "tag_output_prettifier",
        "end": "\n"
      }
    ],
    "out": [
      "y_prettified"
    ]
  },
  "train": {
    "epochs": 50,
    "batch_size": 32,
    "metrics": [
      {
        "name": "per_token_accuracy",
        "inputs": [
          "y",
          "y_predicted"
        ]
      },
      {
        "name": "accuracy",
        "inputs": [
          "y",
          "y_predicted"
        ]
      }
    ],
    "validation_patience": 10,
    "val_every_n_epochs": 1,
    "log_every_n_epochs": 1,
    "class_name": "nn_trainer",
    "evaluation_targets": [
      "valid",
      "test"
    ]
  },
  "metadata": {
    "variables": {
      "ROOT_PATH": "~/.deeppavlov",
      "DOWNLOADS_PATH": "{ROOT_PATH}/downloads",
      "MODELS_PATH": "{ROOT_PATH}/models",
      "RESULTS_PATH": "{ROOT_PATH}/results"
    },
    "requirements": [
      "{DEEPPAVLOV_PATH}/requirements/tf.txt"
    ],
    "download": [
      {
        "url": "http://files.deeppavlov.ai/deeppavlov_data/morpho_tagger/UD2.0/de.tar.gz",
        "subdir": "{MODELS_PATH}/morpho_tagger/UD2.0/de"
      },
      {
        "url": "http://files.deeppavlov.ai/datasets/UD2.0_source/de.tar.gz",
        "subdir": "{DOWNLOADS_PATH}/UD2.0_source/de"
      }
    ]
  }
}