# OCR on InfographicVQA dataset via MICROSOFT READ API
#### Results saved as json files. Resizing is performed on images with widht or height greater than 10000 px.

In [1]:
from azure.cognitiveservices.vision.computervision import ComputerVisionClient
from azure.cognitiveservices.vision.computervision.models import OperationStatusCodes
from azure.cognitiveservices.vision.computervision.models import VisualFeatureTypes
from msrest.authentication import CognitiveServicesCredentials

from array import array
import os
from PIL import Image
import sys
import time
import requests
import json
from pdf2image import convert_from_path
import io

In [15]:
### Authenticates your credentials and creates a client.

subscription_key = ""
endpoint = ""

computervision_client = ComputerVisionClient(endpoint, CognitiveServicesCredentials(subscription_key))

headers = {
    'Ocp-Apim-Subscription-Key': subscription_key, 
    'Content-Type': 'application/octet-stream'
}

In [19]:
for split in ["train", "val", "test"]:
    # Create OCR folder if necessary
    new_ocr_path = f"{split}/{split}_msr_ocr_results"
    if not os.path.exists(new_ocr_path):
        os.makedirs(new_ocr_path)
        
    resized_image_folder = f"{split}/resized_images/"
    if not os.path.exists(resized_image_folder):
        os.makedirs(resized_image_folder)
    
    # Iterate over every infographic
    image_folder = f"{split}/infographicVQA_{split}_v1.0_images"

    for n, image_file in enumerate(sorted(os.listdir(image_folder))):
    #for n, image_file in enumerate(sorted(failed_images[split])):
        image_path = os.path.join(image_folder, image_file)
        is_resized = False
        data = open(image_path, "rb")
        
        image = Image.open(image_path)
        if image.width >= 10000 or image.height >= 10000:
            print(f"{image_file} {split} too large ({image.width}x{image.height}). Resizing")
            
            # The image is too large for the API, resizing is needed
            resized_image = image.resize((min(image.width, 10000), min(image.height, 10000)))
            is_resized = True
            
            # Save the resized image and load its data for the API
            image_path = os.path.join(resized_image_folder, image_file)
            resized_image.save(image_path)
            data = open(image_path, "rb")
            
        # Wait so the request limit is not exceeded
        time.sleep(5)
        # Call to the API
        response = computervision_client.read_in_stream(data, raw=True)
        # Holds the URL used to retrieve the recognized text.
        operation_url = response.headers["Operation-Location"]
        # Take the ID off and use to get results
        operation_id = operation_url.split("/")[-1]

        # The recognized text isn't immediately available, so poll to wait for completion.
        while(True):
            read_result = computervision_client.get_read_result(operation_id)

            if read_result.status.lower () not in ['notstarted', 'running']:
                break
            time.sleep(1)
                
        result_ocr = {}
        result_ocr["status"] = read_result.status
        result_ocr["is_resized"] = is_resized
        result_ocr["recognitionResults"] = []
        
        for text_result in read_result.analyze_result.read_results:
            recognitionResult = {
                "page": text_result.page,
                "clockwiseOrientation": text_result.angle,
                "width": text_result.width,
                "height": text_result.height,
                "unit": text_result.unit.name,
                "lines": []
            }
            result_ocr["recognitionResults"].append(recognitionResult)
            for line in text_result.lines:
                lineResult = {
                    "boundingBox": line.bounding_box,
                    "text": line.text,
                    "words": []
                }
                recognitionResult["lines"].append(lineResult)
                for word in line.words:
                    wordResult = {
                        "boundingBox": word.bounding_box,
                        "text": word.text
                    }
                    lineResult["words"].append(wordResult)
        
        # Write down the ocr results json for the current infographic
        print(f"{n+1}/{len(sorted(os.listdir(image_folder)))}", split, image_file)
        with open(f"{new_ocr_path}/{image_file[:-5]}.json", "w+") as write_file:
            json.dump(result_ocr, write_file)

0/4406 train 10003.jpeg
1/4406 train 10005.jpeg
2/4406 train 10006.jpeg
3/4406 train 10009.jpeg
4/4406 train 10011.jpeg
5/4406 train 10012.jpeg
6/4406 train 10017.jpeg
7/4406 train 10019.jpeg
8/4406 train 10020.jpeg
9/4406 train 10024.jpeg
10/4406 train 10026.jpeg
11/4406 train 10031.jpeg
12/4406 train 10032.jpeg
13/4406 train 10034.jpeg
14/4406 train 10035.jpeg
15/4406 train 10037.jpeg
16/4406 train 10040.jpeg
17/4406 train 10048.jpeg
18/4406 train 10050.jpeg
19/4406 train 10054.jpeg
20/4406 train 10058.jpeg
21/4406 train 10059.jpeg
22/4406 train 10063.jpeg
23/4406 train 10064.jpeg
24/4406 train 10066.jpeg
25/4406 train 10067.jpeg
26/4406 train 10069.jpeg
27/4406 train 10074.jpeg
28/4406 train 10075.jpeg
29/4406 train 10076.jpeg
30/4406 train 10081.jpeg
31/4406 train 10083.jpeg
32/4406 train 10084.jpeg
33/4406 train 10085.jpeg
34/4406 train 10086.jpeg
35/4406 train 10090.jpeg
36/4406 train 10091.jpeg
37/4406 train 10092.jpeg
38/4406 train 10094.jpeg
39/4406 train 10095.jpeg
40/4406 tr

316/4406 train 10696.jpeg
317/4406 train 10697.jpeg
318/4406 train 10699.jpeg
319/4406 train 10700.jpeg
320/4406 train 10701.jpeg
321/4406 train 10704.jpeg
322/4406 train 10705.jpeg
323/4406 train 10706.jpeg
324/4406 train 10712.jpeg
325/4406 train 10715.jpeg
326/4406 train 10719.jpeg
327/4406 train 10722.jpeg
328/4406 train 10725.jpeg
329/4406 train 10726.jpeg
330/4406 train 10729.jpeg
331/4406 train 10732.jpeg
332/4406 train 10738.jpeg
333/4406 train 10740.jpeg
334/4406 train 10741.jpeg
335/4406 train 10744.jpeg
336/4406 train 10747.jpeg
337/4406 train 10748.jpeg
338/4406 train 10749.jpeg
339/4406 train 10750.jpeg
340/4406 train 10751.jpeg
341/4406 train 10753.jpeg
342/4406 train 10756.jpeg
343/4406 train 10757.jpeg
344/4406 train 10759.jpeg
345/4406 train 10763.jpeg
346/4406 train 10764.jpeg
347/4406 train 10766.jpeg
348/4406 train 10767.jpeg
349/4406 train 10772.jpeg
350/4406 train 10775.jpeg
351/4406 train 10777.jpeg
352/4406 train 10778.jpeg
353/4406 train 10779.jpeg
354/4406 tra

630/4406 train 11522.jpeg
631/4406 train 11523.jpeg
632/4406 train 11529.jpeg
633/4406 train 11530.jpeg
634/4406 train 11532.jpeg
635/4406 train 11533.jpeg
636/4406 train 11534.jpeg
637/4406 train 11536.jpeg
638/4406 train 11538.jpeg
639/4406 train 11541.jpeg
640/4406 train 11544.jpeg
641/4406 train 11548.jpeg
642/4406 train 11549.jpeg
643/4406 train 11550.jpeg
644/4406 train 11555.jpeg
645/4406 train 11560.jpeg
646/4406 train 11561.jpeg
647/4406 train 11563.jpeg
648/4406 train 11565.jpeg
649/4406 train 11566.jpeg
650/4406 train 11567.jpeg
651/4406 train 11568.jpeg
652/4406 train 20288.jpeg
653/4406 train 20391.jpeg
654/4406 train 20392.jpeg
655/4406 train 20393.jpeg
656/4406 train 20396.jpeg
657/4406 train 20398.jpeg
658/4406 train 20399.jpeg
659/4406 train 20401.jpeg
660/4406 train 20402.jpeg
20403.jpeg train too large (818x10457). Resizing
661/4406 train 20403.jpeg
662/4406 train 20404.jpeg
663/4406 train 20405.jpeg
664/4406 train 20406.jpeg
665/4406 train 20407.jpeg
666/4406 train 

932/4406 train 30383.jpeg
933/4406 train 30384.jpeg
934/4406 train 30385.jpeg
935/4406 train 30386.jpeg
936/4406 train 30387.jpeg
937/4406 train 30389.jpeg
938/4406 train 30390.jpeg
939/4406 train 30391.jpeg
940/4406 train 30392.jpeg
941/4406 train 30397.jpeg
942/4406 train 30398.jpeg
943/4406 train 30399.jpeg
944/4406 train 30400.jpeg
945/4406 train 30401.jpeg
946/4406 train 30405.jpeg
947/4406 train 30408.jpeg
948/4406 train 30412.jpeg
949/4406 train 30413.jpeg
950/4406 train 30414.jpeg
951/4406 train 30417.jpeg
952/4406 train 30418.jpeg
953/4406 train 30419.jpeg
954/4406 train 30420.jpeg
955/4406 train 30421.jpeg
956/4406 train 30423.jpeg
957/4406 train 30424.jpeg
958/4406 train 30425.jpeg
959/4406 train 30427.jpeg
30428.jpeg train too large (2500x10056). Resizing
960/4406 train 30428.jpeg
961/4406 train 30431.jpeg
962/4406 train 30435.jpeg
963/4406 train 30437.jpeg
964/4406 train 30441.jpeg
965/4406 train 30442.jpeg
966/4406 train 30447.jpeg
967/4406 train 30448.jpeg
968/4406 train

1235/4406 train 30921.jpeg
1236/4406 train 30923.jpeg
1237/4406 train 30924.jpeg
1238/4406 train 30926.jpeg
1239/4406 train 30927.jpeg
1240/4406 train 30929.jpeg
1241/4406 train 30932.jpeg
1242/4406 train 30934.jpeg
1243/4406 train 30937.jpeg
1244/4406 train 30938.jpeg
1245/4406 train 30939.jpeg
1246/4406 train 30940.jpeg
1247/4406 train 30941.jpeg
1248/4406 train 30944.jpeg
1249/4406 train 30947.jpeg
1250/4406 train 30948.jpeg
1251/4406 train 30950.jpeg
1252/4406 train 30951.jpeg
1253/4406 train 30952.jpeg
1254/4406 train 30955.jpeg
1255/4406 train 30956.jpeg
1256/4406 train 30957.jpeg
1257/4406 train 30958.jpeg
1258/4406 train 30962.jpeg
1259/4406 train 30966.jpeg
1260/4406 train 30968.jpeg
1261/4406 train 30969.jpeg
1262/4406 train 30970.jpeg
1263/4406 train 30972.jpeg
1264/4406 train 30974.jpeg
1265/4406 train 30975.jpeg
1266/4406 train 30976.jpeg
1267/4406 train 30978.jpeg
1268/4406 train 30979.jpeg
1269/4406 train 30981.jpeg
1270/4406 train 30982.jpeg
1271/4406 train 30983.jpeg
1

1535/4406 train 31479.jpeg
1536/4406 train 31481.jpeg
1537/4406 train 31482.jpeg
1538/4406 train 31485.jpeg
1539/4406 train 31486.jpeg
1540/4406 train 31487.jpeg
1541/4406 train 31489.jpeg
1542/4406 train 31490.jpeg
1543/4406 train 31491.jpeg
1544/4406 train 31494.jpeg
1545/4406 train 31497.jpeg
1546/4406 train 31501.jpeg
1547/4406 train 31502.jpeg
1548/4406 train 31503.jpeg
1549/4406 train 31504.jpeg
1550/4406 train 31505.jpeg
1551/4406 train 31507.jpeg
1552/4406 train 31509.jpeg
1553/4406 train 31512.jpeg
1554/4406 train 31513.jpeg
1555/4406 train 31517.jpeg
1556/4406 train 31518.jpeg
1557/4406 train 31519.jpeg
1558/4406 train 31520.jpeg
1559/4406 train 31525.jpeg
1560/4406 train 31528.jpeg
1561/4406 train 31530.jpeg
1562/4406 train 31531.jpeg
1563/4406 train 31532.jpeg
1564/4406 train 31534.jpeg
1565/4406 train 31535.jpeg
1566/4406 train 31536.jpeg
1567/4406 train 31537.jpeg
1568/4406 train 31540.jpeg
1569/4406 train 31541.jpeg
1570/4406 train 31542.jpeg
1571/4406 train 31543.jpeg
1

1833/4406 train 32270.jpeg
1834/4406 train 32299.jpeg
1835/4406 train 32304.jpeg
1836/4406 train 32307.jpeg
1837/4406 train 32309.jpeg
1838/4406 train 32314.jpeg
1839/4406 train 32315.jpeg
1840/4406 train 32322.jpeg
1841/4406 train 32323.jpeg
1842/4406 train 32327.jpeg
1843/4406 train 32337.jpeg
1844/4406 train 32342.jpeg
1845/4406 train 32343.jpeg
1846/4406 train 32346.jpeg
1847/4406 train 32347.jpeg
1848/4406 train 32382.jpeg
1849/4406 train 32403.jpeg
1850/4406 train 32405.jpeg
1851/4406 train 32409.jpeg
1852/4406 train 32420.jpeg
1853/4406 train 32429.jpeg
1854/4406 train 32432.jpeg
1855/4406 train 32443.jpeg
1856/4406 train 32444.jpeg
1857/4406 train 32452.jpeg
1858/4406 train 32461.jpeg
1859/4406 train 32467.jpeg
1860/4406 train 32468.jpeg
1861/4406 train 32469.jpeg
1862/4406 train 32471.jpeg
1863/4406 train 32477.jpeg
1864/4406 train 32481.jpeg
1865/4406 train 32482.jpeg
1866/4406 train 32484.jpeg
1867/4406 train 32486.jpeg
1868/4406 train 32487.jpeg
1869/4406 train 32488.jpeg
1

2128/4406 train 34032.jpeg
2129/4406 train 34033.jpeg
2130/4406 train 34038.jpeg
2131/4406 train 34039.jpeg
2132/4406 train 34042.jpeg
2133/4406 train 34044.jpeg
2134/4406 train 34049.jpeg
2135/4406 train 34054.jpeg
2136/4406 train 34056.jpeg
2137/4406 train 34069.jpeg
2138/4406 train 34072.jpeg
2139/4406 train 34089.jpeg
2140/4406 train 34096.jpeg
2141/4406 train 34102.jpeg
2142/4406 train 34116.jpeg
2143/4406 train 34124.jpeg
2144/4406 train 34129.jpeg
2145/4406 train 34153.jpeg
2146/4406 train 34168.jpeg
2147/4406 train 34171.jpeg
2148/4406 train 34175.jpeg
2149/4406 train 34181.jpeg
2150/4406 train 34183.jpeg
2151/4406 train 34186.jpeg
2152/4406 train 34194.jpeg
2153/4406 train 34206.jpeg
2154/4406 train 34207.jpeg
2155/4406 train 34213.jpeg
2156/4406 train 34226.jpeg
2157/4406 train 34238.jpeg
2158/4406 train 34239.jpeg
2159/4406 train 34241.jpeg
2160/4406 train 34242.jpeg
2161/4406 train 34243.jpeg
2162/4406 train 34247.jpeg
2163/4406 train 34249.jpeg
2164/4406 train 34255.jpeg
2

2426/4406 train 35791.jpeg
2427/4406 train 35792.jpeg
2428/4406 train 35794.jpeg
2429/4406 train 35796.jpeg
2430/4406 train 35797.jpeg
2431/4406 train 35800.jpeg
2432/4406 train 35803.jpeg
2433/4406 train 35804.jpeg
2434/4406 train 35810.jpeg
2435/4406 train 35813.jpeg
2436/4406 train 35815.jpeg
2437/4406 train 35816.jpeg
2438/4406 train 35820.jpeg
2439/4406 train 35825.jpeg
2440/4406 train 35828.jpeg
2441/4406 train 35829.jpeg
2442/4406 train 35830.jpeg
2443/4406 train 35831.jpeg
2444/4406 train 35833.jpeg
2445/4406 train 35838.jpeg
2446/4406 train 35841.jpeg
2447/4406 train 35846.jpeg
2448/4406 train 35847.jpeg
2449/4406 train 35849.jpeg
2450/4406 train 35851.jpeg
2451/4406 train 35853.jpeg
2452/4406 train 35854.jpeg
2453/4406 train 35859.jpeg
2454/4406 train 35863.jpeg
2455/4406 train 35867.jpeg
2456/4406 train 35870.jpeg
2457/4406 train 35873.jpeg
2458/4406 train 35875.jpeg
2459/4406 train 35876.jpeg
2460/4406 train 35877.jpeg
2461/4406 train 35881.jpeg
2462/4406 train 35883.jpeg
2

2724/4406 train 38149.jpeg
2725/4406 train 38151.jpeg
2726/4406 train 38152.jpeg
2727/4406 train 38153.jpeg
2728/4406 train 38154.jpeg
2729/4406 train 38155.jpeg
2730/4406 train 38157.jpeg
2731/4406 train 38161.jpeg
2732/4406 train 38162.jpeg
2733/4406 train 38163.jpeg
2734/4406 train 38165.jpeg
2735/4406 train 38166.jpeg
2736/4406 train 38167.jpeg
2737/4406 train 38168.jpeg
2738/4406 train 38169.jpeg
2739/4406 train 38170.jpeg
2740/4406 train 38171.jpeg
2741/4406 train 38174.jpeg
2742/4406 train 38175.jpeg
2743/4406 train 38176.jpeg
2744/4406 train 38177.jpeg
2745/4406 train 38180.jpeg
2746/4406 train 38184.jpeg
2747/4406 train 38186.jpeg
2748/4406 train 38187.jpeg
2749/4406 train 38189.jpeg
2750/4406 train 38191.jpeg
2751/4406 train 38193.jpeg
2752/4406 train 38195.jpeg
2753/4406 train 38196.jpeg
2754/4406 train 38198.jpeg
2755/4406 train 38199.jpeg
2756/4406 train 38201.jpeg
2757/4406 train 38203.jpeg
2758/4406 train 38204.jpeg
2759/4406 train 38206.jpeg
2760/4406 train 38209.jpeg
2

3022/4406 train 38770.jpeg
3023/4406 train 38772.jpeg
3024/4406 train 38774.jpeg
3025/4406 train 38775.jpeg
3026/4406 train 38777.jpeg
3027/4406 train 38779.jpeg
3028/4406 train 38781.jpeg
3029/4406 train 38782.jpeg
3030/4406 train 38784.jpeg
3031/4406 train 38788.jpeg
3032/4406 train 38790.jpeg
3033/4406 train 38792.jpeg
3034/4406 train 38794.jpeg
3035/4406 train 38795.jpeg
3036/4406 train 38796.jpeg
3037/4406 train 38801.jpeg
3038/4406 train 38808.jpeg
3039/4406 train 38811.jpeg
3040/4406 train 38812.jpeg
3041/4406 train 38813.jpeg
3042/4406 train 38814.jpeg
3043/4406 train 38815.jpeg
3044/4406 train 38818.jpeg
3045/4406 train 38819.jpeg
3046/4406 train 38822.jpeg
3047/4406 train 38825.jpeg
3048/4406 train 38826.jpeg
3049/4406 train 38829.jpeg
3050/4406 train 38831.jpeg
3051/4406 train 38833.jpeg
3052/4406 train 38834.jpeg
3053/4406 train 38835.jpeg
3054/4406 train 38836.jpeg
3055/4406 train 38837.jpeg
3056/4406 train 38838.jpeg
3057/4406 train 38840.jpeg
3058/4406 train 38841.jpeg
3

3326/4406 train 40231.jpeg
3327/4406 train 40232.jpeg
3328/4406 train 40234.jpeg
3329/4406 train 40237.jpeg
3330/4406 train 40238.jpeg
3331/4406 train 40239.jpeg
3332/4406 train 40242.jpeg
3333/4406 train 40243.jpeg
3334/4406 train 40244.jpeg
3335/4406 train 40245.jpeg
3336/4406 train 40249.jpeg
3337/4406 train 40252.jpeg
40253.jpeg train too large (1500x10982). Resizing
3338/4406 train 40253.jpeg
3339/4406 train 40254.jpeg
3340/4406 train 40255.jpeg
3341/4406 train 40260.jpeg
3342/4406 train 40261.jpeg
3343/4406 train 40264.jpeg
3344/4406 train 40266.jpeg
3345/4406 train 40270.jpeg
3346/4406 train 40272.jpeg
3347/4406 train 40284.jpeg
3348/4406 train 40285.jpeg
3349/4406 train 40287.jpeg
3350/4406 train 40290.jpeg
3351/4406 train 40292.jpeg
3352/4406 train 40296.jpeg
3353/4406 train 40298.jpeg
3354/4406 train 40300.jpeg
3355/4406 train 40302.jpeg
3356/4406 train 40303.jpeg
3357/4406 train 40304.jpeg
3358/4406 train 40308.jpeg
3359/4406 train 40310.jpeg
3360/4406 train 40312.jpeg
3361/

3621/4406 train 41671.jpeg
3622/4406 train 41673.jpeg
3623/4406 train 41676.jpeg
3624/4406 train 41677.jpeg
3625/4406 train 41680.jpeg
3626/4406 train 41684.jpeg
3627/4406 train 41685.jpeg
3628/4406 train 41688.jpeg
3629/4406 train 41689.jpeg
3630/4406 train 41692.jpeg
3631/4406 train 41695.jpeg
3632/4406 train 41698.jpeg
3633/4406 train 41701.jpeg
3634/4406 train 41703.jpeg
3635/4406 train 41704.jpeg
3636/4406 train 41706.jpeg
3637/4406 train 41718.jpeg
3638/4406 train 41719.jpeg
3639/4406 train 41723.jpeg
3640/4406 train 41729.jpeg
3641/4406 train 41732.jpeg
3642/4406 train 41739.jpeg
3643/4406 train 41740.jpeg
3644/4406 train 41741.jpeg
3645/4406 train 41742.jpeg
3646/4406 train 41744.jpeg
3647/4406 train 41747.jpeg
3648/4406 train 41748.jpeg
3649/4406 train 41758.jpeg
3650/4406 train 41763.jpeg
3651/4406 train 41764.jpeg
3652/4406 train 41767.jpeg
3653/4406 train 41776.jpeg
3654/4406 train 41778.jpeg
3655/4406 train 41784.jpeg
3656/4406 train 41788.jpeg
3657/4406 train 41794.jpeg
3

3921/4406 train 43410.jpeg
3922/4406 train 43414.jpeg
3923/4406 train 43441.jpeg
3924/4406 train 43451.jpeg
3925/4406 train 43463.jpeg
3926/4406 train 43466.jpeg
3927/4406 train 43484.jpeg
3928/4406 train 43492.jpeg
3929/4406 train 43502.jpeg
3930/4406 train 43504.jpeg
3931/4406 train 43519.jpeg
3932/4406 train 43534.jpeg
3933/4406 train 43536.jpeg
3934/4406 train 43538.jpeg
3935/4406 train 43544.jpeg
3936/4406 train 43547.jpeg
3937/4406 train 43559.jpeg
3938/4406 train 43571.jpeg
3939/4406 train 43572.jpeg
3940/4406 train 43577.jpeg
3941/4406 train 43580.jpeg
3942/4406 train 43584.jpeg
3943/4406 train 43585.jpeg
3944/4406 train 43594.jpeg
3945/4406 train 43599.jpeg
3946/4406 train 43604.jpeg
3947/4406 train 43607.jpeg
3948/4406 train 43608.jpeg
3949/4406 train 43609.jpeg
3950/4406 train 43614.jpeg
3951/4406 train 43622.jpeg
3952/4406 train 43627.jpeg
3953/4406 train 43630.jpeg
3954/4406 train 43633.jpeg
3955/4406 train 43640.jpeg
3956/4406 train 43650.jpeg
3957/4406 train 43652.jpeg
3

4221/4406 train 70056.jpeg
4222/4406 train 70060.jpeg
4223/4406 train 70062.jpeg
4224/4406 train 70067.jpeg
4225/4406 train 70070.jpeg
4226/4406 train 70074.jpeg
4227/4406 train 70076.jpeg
4228/4406 train 70080.jpeg
4229/4406 train 70083.jpeg
4230/4406 train 70089.jpeg
4231/4406 train 70094.jpeg
4232/4406 train 70096.jpeg
4233/4406 train 70097.jpeg
4234/4406 train 70098.jpeg
4235/4406 train 70100.jpeg
4236/4406 train 70103.jpeg
4237/4406 train 70107.jpeg
4238/4406 train 70109.jpeg
4239/4406 train 70111.jpeg
4240/4406 train 70116.jpeg
4241/4406 train 70118.jpeg
4242/4406 train 70136.jpeg
4243/4406 train 70137.jpeg
4244/4406 train 70139.jpeg
4245/4406 train 70140.jpeg
4246/4406 train 70141.jpeg
4247/4406 train 70145.jpeg
4248/4406 train 70149.jpeg
4249/4406 train 70152.jpeg
4250/4406 train 70155.jpeg
4251/4406 train 70159.jpeg
4252/4406 train 70160.jpeg
4253/4406 train 70167.jpeg
4254/4406 train 70169.jpeg
4255/4406 train 70170.jpeg
4256/4406 train 70172.jpeg
4257/4406 train 70178.jpeg
4

140/500 val 20388.jpeg
141/500 val 30076.jpeg
142/500 val 30139.jpeg
143/500 val 30318.jpeg
144/500 val 30341.jpeg
145/500 val 30374.jpeg
146/500 val 30411.jpeg
147/500 val 31122.jpeg
148/500 val 31257.jpeg
149/500 val 31342.jpeg
150/500 val 31539.jpeg
151/500 val 31595.jpeg
152/500 val 31642.jpeg
153/500 val 31963.jpeg
154/500 val 32308.jpeg
155/500 val 32369.jpeg
156/500 val 32433.jpeg
157/500 val 32556.jpeg
158/500 val 32567.jpeg
159/500 val 32807.jpeg
160/500 val 32937.jpeg
161/500 val 33006.jpeg
162/500 val 33088.jpeg
163/500 val 33136.jpeg
164/500 val 33159.jpeg
165/500 val 33364.jpeg
166/500 val 33415.jpeg
167/500 val 33499.jpeg
168/500 val 33505.jpeg
169/500 val 33509.jpeg
170/500 val 33527.jpeg
171/500 val 33555.jpeg
172/500 val 33649.jpeg
173/500 val 33748.jpeg
174/500 val 33877.jpeg
175/500 val 33897.jpeg
176/500 val 33934.jpeg
177/500 val 33961.jpeg
178/500 val 34498.jpeg
179/500 val 34510.jpeg
180/500 val 34642.jpeg
181/500 val 34992.jpeg
182/500 val 35010.jpeg
183/500 val

482/500 val 70138.jpeg
483/500 val 70151.jpeg
484/500 val 70200.jpeg
485/500 val 70206.jpeg
486/500 val 70280.jpeg
487/500 val 70317.jpeg
488/500 val 70344.jpeg
489/500 val 70362.jpeg
490/500 val 70386.jpeg
491/500 val 70405.jpeg
492/500 val 70454.jpeg
493/500 val 70456.jpeg
494/500 val 70504.jpeg
495/500 val 70509.jpeg
496/500 val 70529.jpeg
497/500 val 70539.jpeg
498/500 val 70572.jpeg
499/500 val 70574.jpeg
0/579 test 10002.jpeg
1/579 test 10028.jpeg
2/579 test 10041.jpeg
3/579 test 10045.jpeg
4/579 test 10062.jpeg
5/579 test 10068.jpeg
6/579 test 10070.jpeg
7/579 test 10082.jpeg
8/579 test 10093.jpeg
9/579 test 10111.jpeg
10/579 test 10231.jpeg
11/579 test 10293.jpeg
12/579 test 10297.jpeg
13/579 test 10310.jpeg
14/579 test 10319.jpeg
15/579 test 10323.jpeg
16/579 test 10325.jpeg
17/579 test 10360.jpeg
18/579 test 10372.jpeg
19/579 test 10402.jpeg
20/579 test 10403.jpeg
21/579 test 10410.jpeg
22/579 test 10412.jpeg
23/579 test 10437.jpeg
24/579 test 10454.jpeg
25/579 test 10473.jpe

327/579 test 37354.jpeg
328/579 test 37355.jpeg
329/579 test 37359.jpeg
330/579 test 37365.jpeg
331/579 test 37378.jpeg
332/579 test 37382.jpeg
333/579 test 37383.jpeg
334/579 test 37387.jpeg
335/579 test 37390.jpeg
336/579 test 37393.jpeg
337/579 test 37398.jpeg
338/579 test 37459.jpeg
339/579 test 37544.jpeg
340/579 test 37545.jpeg
341/579 test 39282.jpeg
342/579 test 39284.jpeg
39327.jpeg test too large (2500x14669). Resizing
343/579 test 39327.jpeg
344/579 test 39340.jpeg
345/579 test 39365.jpeg
346/579 test 39381.jpeg
347/579 test 39464.jpeg
348/579 test 39510.jpeg
349/579 test 39511.jpeg
350/579 test 39545.jpeg
351/579 test 39551.jpeg
352/579 test 39554.jpeg
353/579 test 39556.jpeg
354/579 test 39592.jpeg
355/579 test 39628.jpeg
356/579 test 39632.jpeg
357/579 test 39633.jpeg
358/579 test 39635.jpeg
359/579 test 39638.jpeg
360/579 test 39679.jpeg
361/579 test 39681.jpeg
362/579 test 39685.jpeg
363/579 test 39687.jpeg
364/579 test 39727.jpeg
365/579 test 39753.jpeg
366/579 test 39

In [5]:
# Infographics with width or height >= 10000
large_images = {
    'train': [
        '10133.jpeg',
        '10611.jpeg',
        '10868.jpeg',
        '20403.jpeg',
        '20411.jpeg',
        '20464.jpeg',
        '20467.jpeg',
        '30032.jpeg',
        '30124.jpeg',
        '30361.jpeg',
        '30428.jpeg',
        '30616.jpeg',
        '31166.jpeg',
        '31416.jpeg',
        '31748.jpeg',
        '31912.jpeg',
        '32199.jpeg',
        '32494.jpeg',
        '33681.jpeg',
        '33838.jpeg',
        '33840.jpeg',
        '33909.jpeg',
        '35333.jpeg',
        '35443.jpeg',
        '35471.jpeg',
        '37949.jpeg',
        '38019.jpeg',
        '38040.jpeg',
        '38238.jpeg',
        '38361.jpeg',
        '38377.jpeg',
        '40253.jpeg',
        '40315.jpeg',
        '40617.jpeg',
        '41454.jpeg',
        '41567.jpeg',
        '41997.jpeg',
        '42051.jpeg',
        '44048.jpeg',
        '44804.jpeg',
        '70201.jpeg'
     ],
     'test': [
         '11159.jpeg',
         '39327.jpeg',
         '40353.jpeg'
     ],
     'val': [
        '20369.jpeg',
        '37212.jpeg',
        '37324.jpeg',
        '37395.jpeg',
        '39522.jpeg',
        '39695.jpeg',
        '44728.jpeg',
        '44787.jpeg'
     ]
}