feat: add MNIST-like characters dataset generator #408

charlesmindee · 2021-08-11T08:28:20Z

This PR implements a generate_character function to generate random single character images from a vocabulary to train our recognition backbones.

Linked to #255

Any feedback is welcome!

Samples:

codecov · 2021-08-11T08:35:59Z

Codecov Report

Merging #408 (e598a50) into main (bb611f5) will decrease coverage by 0.00%.
The diff coverage is 100.00%.

❗ Current head e598a50 differs from pull request most recent head e478b52. Consider uploading reports for the commit e478b52 to get more accurate results

@@            Coverage Diff             @@
##             main     #408      +/-   ##
==========================================
- Coverage   95.83%   95.82%   -0.01%     
==========================================
  Files          91       92       +1     
  Lines        3815     3833      +18     
==========================================
+ Hits         3656     3673      +17     
- Misses        159      160       +1

Flag	Coverage Δ
unittests	`95.82% <100.00%> (-0.01%)`	⬇️

Flags with carried forward coverage won't be shown. Click here to find out more.

Impacted Files	Coverage Δ
doctr/datasets/__init__.py	`100.00% <100.00%> (ø)`
doctr/datasets/character_generator.py	`100.00% <100.00%> (ø)`
...dels/detection/differentiable_binarization/base.py	`91.35% <0.00%> (-0.62%)`	⬇️

Continue to review full report at Codecov.

Legend - Click here to learn more
Δ = absolute <relative> (impact), ø = not affected, ? = missing data
Powered by Codecov. Last update bb611f5...e478b52. Read the comment docs.

fg-mindee

Thanks for the PR!
To make it more modular, could you turn your function into something deterministic please?

one to generate an image for a given character
(if later on, we use this for random generation, we'll just have to randomly pick within a vocab)

fg-mindee · 2021-08-11T09:02:50Z

Also we need some unittests, and mypy isn't happy 😅

fg-mindee

A few improvement suggestions in comments!

doctr/datasets/character_generator.py

fg-mindee · 2021-08-11T15:39:49Z

Also quick suggestion: let's produce straight characters (we'll be able to use transforms afterwards to rotate the characters if needed)

charlesmindee added 12 commits July 17, 2021 11:14

feat: add notebooks

9a26cdc

fix: unused files

79c8d62

Merge branch 'main' of https://github.com/mindee/doctr into main

433fac6

Merge branch 'main' of https://github.com/mindee/doctr into main

472b559

Merge branch 'main' of https://github.com/mindee/doctr into main

40eee3b

Merge branch 'main' of https://github.com/mindee/doctr into main

3e1d18e

Merge branch 'main' of https://github.com/mindee/doctr into main

8595d45

Merge branch 'main' of https://github.com/mindee/doctr into main

ebd1d1e

Merge branch 'main' of https://github.com/mindee/doctr into main

90365ca

Merge branch 'main' of https://github.com/mindee/doctr into main

2159644

Merge branch 'main' of https://github.com/mindee/doctr into main

5f7c0a0

feat: add character generator

0a846c4

charlesmindee requested a review from fg-mindee August 11, 2021 08:28

charlesmindee self-assigned this Aug 11, 2021

charlesmindee added type: enhancement Improvement module: datasets Related to doctr.datasets labels Aug 11, 2021

charlesmindee added this to the 0.4.0 milestone Aug 11, 2021

fg-mindee reviewed Aug 11, 2021

View reviewed changes

charlesmindee added 2 commits August 11, 2021 11:25

fix: pytest

c13ebaa

fix: merging

1a7468b

fg-mindee reviewed Aug 11, 2021

View reviewed changes

doctr/datasets/character_generator.py Outdated Show resolved Hide resolved

doctr/datasets/character_generator.py Outdated Show resolved Hide resolved

charlesmindee added 3 commits August 11, 2021 11:39

Merge branch 'main' of https://github.com/mindee/doctr into main

2e88400

merging

e598a50

fix: mypy

e478b52

fg-mindee mentioned this pull request Aug 13, 2021

feat: Added character generator dataset #412

Merged

charlesmindee closed this Aug 18, 2021

charlesmindee deleted the mnist branch August 18, 2021 09:54

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: add MNIST-like characters dataset generator #408

feat: add MNIST-like characters dataset generator #408

charlesmindee commented Aug 11, 2021 •

edited

Loading

codecov bot commented Aug 11, 2021 •

edited

Loading

fg-mindee left a comment

fg-mindee commented Aug 11, 2021

fg-mindee left a comment

fg-mindee commented Aug 11, 2021

feat: add MNIST-like characters dataset generator #408

feat: add MNIST-like characters dataset generator #408

Conversation

charlesmindee commented Aug 11, 2021 • edited Loading

codecov bot commented Aug 11, 2021 • edited Loading

Codecov Report

fg-mindee left a comment

Choose a reason for hiding this comment

fg-mindee commented Aug 11, 2021

fg-mindee left a comment

Choose a reason for hiding this comment

fg-mindee commented Aug 11, 2021

charlesmindee commented Aug 11, 2021 •

edited

Loading

codecov bot commented Aug 11, 2021 •

edited

Loading