configs/rec/rare/rare_resnet34_ch.yaml

system:
  mode: 0 # 0 for graph mode, 1 for pynative mode in MindSpore
  distribute: True
  amp_level: O2
  amp_level_infer: O2 # running inference in O2 mode
  seed: 42
  log_interval: 100
  val_while_train: True
  drop_overflow_update: False
  ckpt_max_keep: 5

common:
  character_dict_path: &character_dict_path mindocr/utils/dict/ch_dict.txt
  num_classes: &num_classes 6625 # num_chars_in_dict + 2
  max_text_len: &max_text_len 40
  infer_mode: &infer_mode False
  use_space_char: &use_space_char False
  batch_size: &batch_size 256

model:
  type: rec
  transform: null
  backbone:
    name: rec_resnet34
    pretrained: False
  neck:
    name: RNNEncoder
    hidden_size: 64
  head:
    name: AttentionHead
    hidden_size: 256
    out_channels: *num_classes
    batch_max_length: *max_text_len

postprocess:
  name: RecAttnLabelDecode
  character_dict_path: *character_dict_path
  use_space_char: *use_space_char

metric:
  name: RecMetric
  main_indicator: acc
  lower: False
  character_dict_path: *character_dict_path
  ignore_space: True
  print_flag: False

loss:
  name: AttentionLoss

scheduler:
  scheduler: warmup_cosine_decay
  min_lr: 0.00001
  lr: 0.001
  num_epochs: 60
  warmup_epochs: 6
  decay_epochs: 54

optimizer:
  opt: adamw
  filter_bias_and_bn: True
  weight_decay: 0.05

loss_scaler:
  type: dynamic
  loss_scale: 512
  scale_factor: 2.0
  scale_window: 1000

train:
  ckpt_save_dir: ./tmp_rec
  dataset_sink_mode: False
  clip_grad: True
  clip_norm: 0.1
  dataset:
    type: LMDBDataset
    dataset_root: path/to/chinese_text_recognition/
    data_dir: training/
    label_file: null
    sample_ratio: 1.0
    shuffle: True
    filter_max_len: True
    max_text_len: *max_text_len
    transform_pipeline:
      - DecodeImage:
          img_mode: BGR
          to_float32: False
      - RecAttnLabelEncode:
          max_text_len: *max_text_len
          character_dict_path: *character_dict_path
          use_space_char: *use_space_char
          lower: False
      - Rotate90IfVertical:
          threshold: 2.0
          direction: counterclockwise
      - RecResizeImg:
          image_shape: [32, 320]
          infer_mode: *infer_mode
          character_dict_path: *character_dict_path
          padding: True
      - NormalizeImage:
          bgr_to_rgb: True
          is_hwc: True
          mean: [127.0, 127.0, 127.0]
          std: [127.0, 127.0, 127.0]
      - ToCHWImage:
    output_columns: ["image", "text_seq"]
    net_input_column_index: [0, 1]
    label_column_index: [1]

  loader:
    shuffle: True
    batch_size: *batch_size
    drop_remainder: True
    max_rowsize: 12
    num_workers: 1

eval:
  ckpt_load_path: ./tmp_rec/best.ckpt
  dataset_sink_mode: False
  dataset:
    type: LMDBDataset
    dataset_root: path/to/chinese_text_recognition/
    data_dir: validation/
    label_file: null
    sample_ratio: 1.0
    shuffle: False
    transform_pipeline:
      - DecodeImage:
          img_mode: RGB
          to_float32: False
      - RecAttnLabelEncode:
          max_text_len: *max_text_len
          character_dict_path: *character_dict_path
          use_space_char: *use_space_char
          lower: False
      - Rotate90IfVertical:
          threshold: 2.0
          direction: counterclockwise
      - RecResizeNormForInfer:
          target_height: 32
          target_width: 320
          keep_ratio: True
          padding: True
          norm_before_pad: False
      - ToCHWImage:
    output_columns: ["image", "text_padded", "text_length"]
    net_input_column_index: [0]
    label_column_index: [1, 2]

  loader:
    shuffle: False
    batch_size: 64
    drop_remainder: False
    max_rowsize: 12
    num_workers: 1