# Исследование по распознаванию штрих-кодов на фото документов
- Автор: Кирилл Киселев
- Дата начала: 14.04.2022
- Описание исследования: в наборе данных имеется 21 фото документов ТОРГ-12 разного качества. На каждом фото имеется штрих-код, который необходимо детектировать и распознать. Целью исследования является попытка распознавания штрих-кодов на документах с применением различных трансформаций.

## 1. Загрузка библиотек

In [1]:
import cv2
import numpy as np
import matplotlib as plt
import os
import math
from PIL import Image
from pyzbar import pyzbar

## 2. Глобальные переменные

In [2]:
!pwd

/home/kirillk/PycharmProjects/useful_notebooks


In [51]:
FILE_PATH = '/home/kirillk/datasets/OCR/ocr_test_cases_2/'

## 3. Необходимые функции

In [4]:
def draw_barcode(decoded, image):
    image = cv2.rectangle(image, (decoded.rect.left, decoded.rect.top),
                          (decoded.rect.left + decoded.rect.width, decoded.rect.top + decoded.rect.height),
                          color=(0, 255, 0),
                          thickness=5)
    return image

In [5]:
def decode(image):
    # decodes all barcodes from an image
    decoded_objects = pyzbar.decode(image)
    
    for obj in decoded_objects:
        # draw the barcode
        print(f"Обнаружен штрих-код:\n{obj}")
        image = draw_barcode(obj, image)
        # print barcode type & data
        # print("Тип:", obj.type)
        print("Данные:", obj.data)
        print()

    return len(decoded_objects), image

## 4. Состваление списка файлов

In [17]:
photo_list = sorted([photo for photo in os.listdir(FILE_PATH) if photo.endswith('.jpg')])

In [18]:
photo_list

['001.jpg',
 '002.jpg',
 '003.jpg',
 '004.jpg',
 '005.jpg',
 '006.jpg',
 '007.jpg',
 '008.jpg',
 '009.jpg',
 '010.jpg',
 '011.jpg',
 '012.jpg',
 '013.jpg',
 '014.jpg',
 '015.jpg',
 '016.jpg',
 '017.jpg',
 '018.jpg',
 '019.jpg',
 '020.jpg',
 '021.jpg']

## 5. Попытка распознавания

In [31]:
bad_barcodes_list = []

In [32]:
for file in photo_list:
    print(f'----------------{file}----------------')
    image = cv2.imread(FILE_PATH + file)
    
    bar_code_qty, img = decode(image)
    if bar_code_qty == 0:
        bad_barcodes_list.append(file)

----------------001.jpg----------------
----------------002.jpg----------------
----------------003.jpg----------------
----------------004.jpg----------------
----------------005.jpg----------------
----------------006.jpg----------------
----------------007.jpg----------------
----------------008.jpg----------------
----------------009.jpg----------------
----------------010.jpg----------------
----------------011.jpg----------------
----------------012.jpg----------------
Обнаружен штрих-код:
Decoded(data=b'2810142821818', type='EAN13', rect=Rect(left=76, top=70, width=157, height=16), polygon=[Point(x=76, y=77), Point(x=76, y=81), Point(x=233, y=86), Point(x=233, y=70), Point(x=77, y=71)], quality=15, orientation='UP')
Данные: b'2810142821818'

----------------013.jpg----------------
Обнаружен штрих-код:
Decoded(data=b'2810142821825', type='EAN13', rect=Rect(left=88, top=48, width=157, height=12), polygon=[Point(x=88, y=49), Point(x=88, y=55), Point(x=165, y=59), Point(x=245, y=60)

In [33]:
print(len(bad_barcodes_list))

bad_barcodes_list

14


['001.jpg',
 '002.jpg',
 '003.jpg',
 '004.jpg',
 '005.jpg',
 '006.jpg',
 '007.jpg',
 '008.jpg',
 '009.jpg',
 '010.jpg',
 '011.jpg',
 '017.jpg',
 '018.jpg',
 '019.jpg']

In [43]:
for photo in bad_barcodes_list:
    image = cv2.imread(FILE_PATH + photo)

    cv2.imshow("Image", image)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

### Вывод: 
на 14 фото без обработки не удалось распознать штрих-код.

## 5. Применение Гауссовского блюра на нераспознанные документы

In [41]:
for i in range(1, 19, 2):
    for file in bad_barcodes_list:
        print(f'blur_kernel_size_{i}----------------{file}----------------')
        image = cv2.imread(FILE_PATH + file)
        image = cv2.GaussianBlur(image, (i, i), 0)

        bar_code_qty, img = decode(image)

blur_kernel_size_1----------------001.jpg----------------
blur_kernel_size_1----------------002.jpg----------------
blur_kernel_size_1----------------003.jpg----------------
blur_kernel_size_1----------------004.jpg----------------
blur_kernel_size_1----------------005.jpg----------------
blur_kernel_size_1----------------006.jpg----------------
blur_kernel_size_1----------------007.jpg----------------
blur_kernel_size_1----------------008.jpg----------------
blur_kernel_size_1----------------009.jpg----------------
blur_kernel_size_1----------------010.jpg----------------
blur_kernel_size_1----------------011.jpg----------------
blur_kernel_size_1----------------017.jpg----------------
blur_kernel_size_1----------------018.jpg----------------
blur_kernel_size_1----------------019.jpg----------------
blur_kernel_size_3----------------001.jpg----------------
blur_kernel_size_3----------------002.jpg----------------
blur_kernel_size_3----------------003.jpg----------------
blur_kernel_si

### Вывод
Гауссовский блюр с разным размером ядра не помог в распознавании.

## 6. Применение обычного блюра на нераспознанные документы

In [42]:
for i in range(1, 19, 2):
    for file in bad_barcodes_list:
        print(f'blur_kernel_size_{i}----------------{file}----------------')
        image = cv2.imread(FILE_PATH + file)
        image = cv2.blur(image, (i, i), 0)

        bar_code_qty, img = decode(image)

blur_kernel_size_1----------------001.jpg----------------
blur_kernel_size_1----------------002.jpg----------------
blur_kernel_size_1----------------003.jpg----------------
blur_kernel_size_1----------------004.jpg----------------
blur_kernel_size_1----------------005.jpg----------------
blur_kernel_size_1----------------006.jpg----------------
blur_kernel_size_1----------------007.jpg----------------
blur_kernel_size_1----------------008.jpg----------------
blur_kernel_size_1----------------009.jpg----------------
blur_kernel_size_1----------------010.jpg----------------
blur_kernel_size_1----------------011.jpg----------------
blur_kernel_size_1----------------017.jpg----------------
blur_kernel_size_1----------------018.jpg----------------
blur_kernel_size_1----------------019.jpg----------------
blur_kernel_size_3----------------001.jpg----------------
blur_kernel_size_3----------------002.jpg----------------
blur_kernel_size_3----------------003.jpg----------------
blur_kernel_si

## 7. Применение комбинации Гауссовского блюра и комбинации по порогу

In [44]:
recognized_photo_list = []

In [46]:
%%time
for photo in bad_barcodes_list:
    for kernel in range(1, 19, 2):
        for thresh in range (100, 230):
            image = cv2.imread(FILE_PATH + photo)
            image = cv2.GaussianBlur(image, (kernel, kernel), 0)
            image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
            _, image = cv2.threshold(image, thresh, 255, cv2.THRESH_BINARY)

            barcode_qty, img = decode(image)
            if barcode_qty > 0:
                recognized_photo_list.append(photo)
                print(kernel, thresh)

Обнаружен штрих-код:
Decoded(data=b'1810534074601', type='EAN13', rect=Rect(left=90, top=351, width=3, height=4), polygon=[Point(x=90, y=351), Point(x=90, y=355), Point(x=93, y=352)], quality=4, orientation='UP')
Данные: b'1810534074601'

1 131
Обнаружен штрих-код:
Decoded(data=b'574462', type='I25', rect=Rect(left=532, top=428, width=0, height=0), polygon=[Point(x=532, y=428)], quality=1, orientation='DOWN')
Данные: b'574462'

1 178
Обнаружен штрих-код:
Decoded(data=b'574462', type='I25', rect=Rect(left=532, top=428, width=0, height=0), polygon=[Point(x=532, y=428)], quality=1, orientation='DOWN')
Данные: b'574462'

1 179
CPU times: user 8min 25s, sys: 33.3 s, total: 8min 59s
Wall time: 5min 25s


In [47]:
recognized_photo_list

['008.jpg', '011.jpg', '011.jpg']

### Вывод
Не смотря на то, что удалоь распознать несколько штрих-кодов, они распознаны неверно. Следовательно эти фото можно считать непригодными для распознавания. Итого из 21 фото удалось распознать штрих-коды только на 7.