# Generate synthetic english dataset

In here we will generate dataset of images along with their transictions using the font "Arial". The texts are between 0 and 10 characters. 

Image modes: https://pillow.readthedocs.io/en/stable/handbook/concepts.html#concept-modes
    

In [10]:
# check all fonts in the system
import matplotlib.font_manager
matplotlib.font_manager.findSystemFonts(fontpaths=None, fontext='ttf')


['/Library/Fonts/Courier New Bold.ttf',
 '/Library/Fonts/Raanana.ttc',
 '/System/Library/Fonts/SFCompactDisplay-Black.otf',
 '/System/Library/Fonts/SFNSTextCondensed-Medium.otf',
 '/Library/Fonts/DecoTypeNaskh.ttc',
 '/Library/Fonts/Skia.ttf',
 '/System/Library/Fonts/AquaKana.ttc',
 '/Library/Fonts/Gujarati Sangam MN.ttc',
 '/System/Library/Fonts/AppleSDGothicNeo.ttc',
 '/System/Library/Fonts/SFNSTextCondensed-Heavy.otf',
 '/Library/Fonts/Managed/BentonSans-Black_2673179157.ttf',
 '/System/Library/Fonts/SFCompactText-Bold.otf',
 '/Library/Fonts/Kannada Sangam MN.ttc',
 '/Library/Fonts/Cochin.ttc',
 '/Library/Fonts/Managed/BentonSans-Light_4104759856.ttf',
 '/Library/Fonts/Kefa.ttc',
 '/Library/Fonts/Bradley Hand Bold.ttf',
 '/System/Library/Fonts/SFNSDisplay-RegularItalic.otf',
 '/Library/Fonts/Arial.ttf',
 '/Library/Fonts/Tamil Sangam MN.ttc',
 '/Library/Fonts/Managed/72-Regular_43188850.ttf',
 '/Library/Fonts/KufiStandardGK.ttc',
 '/System/Library/Fonts/SFNSDisplayCondensed-Light.otf

In [33]:

def generate_dataset(dataset_dir, font_dir, fonts, sample_w, sample_h):
    if not os.path.exists(dataset_dir):
        os.makedirs(dataset_dir)
        
    sample_counter = 1
    for font_name in fonts:
        for char in string.ascii_letters:
            font = ImageFont.truetype(font_dir + font_name + '.ttf', 16)
            img = Image.new("RGBA", (sample_w,sample_h), (255,255,255))

            draw = ImageDraw.Draw(img)
            draw.text((7, 30), char,(0,0,0),font=font)
            draw = ImageDraw.Draw(img)

            img.save(f'{dataset_dir}{char}_{sample_counter}.png')
            sample_counter+=1


In [46]:
DATASET_TRAIN_DIR='../synthetic/train/'
DATASET_TEST_DIR='../synthetic/test/'

FONT_DIR = '/Library/Fonts/'
FONTS = ['Arial', 'Arial Narrow Italic', 'Arial Narrow', 'Arial Bold', 'Arial Narrow Bold Italic',
         'Times New Roman Bold', 'Times New Roman Bold Italic', 'Georgia Bold Italic',
         'Georgia Bold', 'BentonSans-Bold', 'Courier New Bold', 'Courier New', 'BentonSans-Medium',
         'Arial Black', 'Impact', 'Tahoma', 'Comic Sans MS Bold','Courier New Italic',
         '72-Regular_43188850', 'Verdana']

SAMPLE_HEIGHT=70
SAMPLE_WIDTH=25

generate_dataset(DATASET_TRAIN_DIR, FONT_DIR, FONTS[0:-2], SAMPLE_WIDTH, SAMPLE_HEIGHT)

generate_dataset(DATASET_TEST_DIR, FONT_DIR, FONTS[-2:], SAMPLE_WIDTH, SAMPLE_HEIGHT)

# Custome Dataset 

In [161]:
import glob
import torch
from torchvision import transforms

class OcrTrainingDataset(torch.utils.data.Dataset):

    def __init__(self,dataset_dir, transform=None):
        """
        Args:
            root_dir(string): directory with all train images
        """
        self.images = glob.glob(f'{dataset_dir}/*.png')
        self.dataset_dir = dataset_dir
        self.transform = transform

    def __len__(self):
        return len(self.images)

    def __getitem__(self, idx):
        
        image = Image.open(self.images[idx])
        image_tensor = self.transform(image)

        label = self._get_label(self.images[idx])
        
        sample = {'images': image_tensor, 
                  'labels': label, 
                  'labels_rep': self._get_label_rep(label)}

        return sample

    def _get_label(self, file_path):
        return os.path.basename(file_path)[0]
    
    def _get_label_rep(self, label):
        rep = ord(label) - ord('A')
        if label.islower():
            rep -= 6 ## ord('a') - ord('Z')
        return rep


# Data Loading

In [167]:

ocrTrainSet = OcrTrainingDataset(dataset_dir=DATASET_TRAIN_DIR,transform=transforms.ToTensor())
ocrTrainLoader = torch.utils.data.DataLoader(ocrTrainSet, batch_size=16, shuffle=True, num_workers=2)

for i_batch,sample_batched in enumerate(ocrTrainLoader,0):
    print("training sample for OCR")
    print(i_batch,sample_batched['images'], sample_batched['labels'], sample_batched['labels_rep'])


training sample for OCR
0 tensor([[[[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..

9 tensor([[[[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
        

17 tensor([[[[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
       

27 tensor([[[[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.]],

         [[1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          [1., 1., 1.,  ..., 1., 1., 1.],
          ...,
          [1., 1., 1.,  ..., 1., 1., 1.],
       