# Model Pipeline

`roboflow` : 객체 탐지 -> `predict2crop()` : 이미지 크롭 -> `CLOVA_api()`: OCR_api -> 텍스트 추출

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


- packages

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision.transforms as transforms
from torchvision.datasets import CIFAR10
from torch.utils.data import DataLoader
import numpy as np
import platform
from PIL import ImageFont, ImageDraw, Image
from matplotlib import pyplot as plt
import requests
import base64
import uuid
import json
import time
import cv2
import requests
import platform
from google.colab.patches import cv2_imshow
import numpy as np
import os

## 데이터 경로지정

> 해당 파일은 다량의 이미지를 Object Detection 모델과 OCR 모델에 넣어봄으로 오류가 없는지 테스트하는 용도입니다.

- `image_folder` : 데이터가 있는 폴더 경로

In [None]:
image_folder = '/content/drive/MyDrive/Datas/train/' # 데이터가 존재하는 폴더 경로
files = os.listdir(image_folder)
image_files = [file for file in files] # 데이터 접근 : 다중 파일로 테스트 시, 파일 순회

## Modules

> 이미지에 대한 입력 -> 객체 탐지 -> OCR -> 텍스트 전처리

- 해당 과정에 필요한 모듈들 입니다.

In [None]:
def CLOVA_api(secret_key, api_url, image : np.array):
    """
    Usage : CLOVA api 호출

    Parameters
    ----------
    secret_key : api key
    api_url : api_url
    image : 크롭된 image

    Returns
    -------

    response : api 호출 결과 (ex. 200,400,404, ...)

    """
    # Convert np.ndarray to bytes
    if image is not None:
        _, buffer = cv2.imencode('.jpg', image)
        file_data = buffer.tobytes()

    request_json = {
        'images': [
            {
                'format': 'jpg',
                'name': 'demo',
                'data': base64.b64encode(file_data).decode()
                #'url': image_url
            }
        ],
        'requestId': str(uuid.uuid4()),
        'version': 'V2',
        'timestamp': int(round(time.time() * 1000))
    }
    payload = json.dumps(request_json).encode('UTF-8')
    headers = {
      'X-OCR-SECRET': secret_key,
      'Content-Type': 'application/json'
    }
    response = requests.request("POST", api_url, headers=headers, data = payload)

    return response




def imageOCR(response, img : np.array):
    """
    Usage : api 적용 결과 (OCR 결과) 시각화

    Parameters
    ----------
    response : api 호출 결과
    img : 크롭된 이미지

    Returns
    -------
    temp : 추출된 text
    image : 크롭된 이미지 내 OCR 적용 결과

    """
    try : result = response.json()
    except :
        print(response, 'AttributeError: Responsed \'int\' object' )

    with open('result.json', 'w', encoding='utf-8') as make_file:
        json.dump(result, make_file, indent="\t", ensure_ascii=False)

    # Error 처리
    try : print(result['images'][0]['message'])
    except : return None, None

    # respone.json()에서 띄어쓰기 처리
    texts = connectWord(result)


    # 이미지 시각화
    bBs = [b['boundingPoly'] for b in result['images'][0]['fields']]

    # bounding box 표시
    for box in bBs:
        vertices = np.array([(int(point['x']), int(point['y'])) for point in box['vertices']], np.int32)
        vertices = vertices.reshape((-1, 1, 2))
        img = cv2.polylines(img, [vertices], isClosed=True, color=(255, 0, 0), thickness=2)

    # 이미지 보여주기
    cv2_imshow(img) # only colab
    # print(text)

    return texts, img


def textPreprocessing(input_str : str):
    """
    Usage : OCR 박스 별로 텍스트 전처리 적용

    Parameters
    ----------
    response : api 호출 결과
    img : 크롭된 이미지

    Returns
    -------
    temp : 추출된 text
    image : 크롭된 이미지 내 OCR 적용 결과

    """
    import re
    # print(input_str)

    pt1 = re.compile(r'[\s@#$%^&*()_+{}\[\]:;<>.?\/|`~-]') # 특수 기호 처리
    pt2 = re.compile(r'(\d+)\s*([gGmMlL당]+)') # 10g당과 같은 무게 단위 처리
    # pt3 = re.compile(r'(\d+)\s*([원]+)') # 780원과 같은 무게별 가격 처리
    pt3 = re.compile(r'(\d+)\s*([개입]+)') # 10개와 같은 개수 단위 처리
    result_str = pt1.sub('', input_str)
    result_str = pt2.sub(' ', result_str)
    result_str = pt3.sub(' ', result_str)
    # result_str = pt4.sub(' ', result_str)
    # print(result_str)

    return result_str



def connectWord(ocr_json):
    """
    Usage : OCR 결과 내 띄어쓰기 처리

    Parameters
    ----------
    ocr_json : api 호출 결과

    Returns -> str
    -------
    detected_texts : 최종 결과

    """
    detected_texts = ''

    # 필드 정보 추출
    fields = ocr_json['images'][0].get('fields', [])

    # 각 필드에 대해 y좌표 계산
    word_list = []
    for field in fields:
        bounding_poly = field.get('boundingPoly')
        infer_text = field.get('inferText')

        if bounding_poly and infer_text:
            vertices = bounding_poly['vertices']

            left_y_coord = vertices[0]['y']  # 첫 번째 꼭짓점의 y좌표를 사용
            right_y_coord = vertices[1]['y']
            word = infer_text
            word_list.append({'word': word, 'left_y': left_y_coord, 'right_y':right_y_coord})

    # y좌표가 유사한 단어를 그룹화
    grouped_words = []
    if word_list:  # word_list가 비어있지 않은 경우에만 처리
        current_group = [word_list[0]]

        for i in range(1, len(word_list)):
            if abs(word_list[i]['left_y'] - word_list[i-1]['right_y']) < 5:
                current_group.append(word_list[i])
            else:
                grouped_words.append(current_group)
                current_group = [word_list[i]]

        if current_group:
            grouped_words.append(current_group)

    for group in grouped_words:

        # 그룹 내의 단어들을 하나의 문자열로 합침
        group = list(map(lambda word_info : textPreprocessing(word_info['word']), group))

        # 문자열이 정수로만 이루어져 있지 않은 경우에만 추가
        group_text = ' '.join([word for word in group if not word.isdigit()])
        print(group_text)
        # if not group_text.isdigit():

        detected_texts += group_text
        detected_texts += '\t'

    return detected_texts



def modelPredict(model, input_Data):
    try : predictions_data = model.predict(input_Data, confidence=50, overlap=50).json()
    except :
        print('Predict Error')
        return None
    # image_path = predictions_data['predictions'][0]['image_path']  # Assuming all predictions have the same image path

    return predictions_data



def predict2crop(model, folder_path, image_file, resize = 256):
    """
    Usage : 객체 탐지 및 원본 및 크롭 이미지 return

    Parameters
    ----------
    model : Object Detection Model
    folder_path : 데이터 폴더 경로
    image_file : 데이터 파일 경로

    Returns : (original_image, cropped_image)
    -------
    type : tuple
    original_image : 원본 이미지
    cropped_image : 크롭된 이미지

    """
    image_path = folder_path + image_file
    img_size = resize # img_size * img_size

    org_img = cv2.imread(image_path)
    if org_img is None:
        print(f"Error: Unable to read the image file {image_path}")
        return None, None

    rsz_img = cv2.resize(org_img, (img_size, img_size), interpolation= cv2.INTER_AREA)
    adc_img = auto_adjust_contrast(rsz_img)


    predictions_data = modelPredict(model, input_Data = adc_img) # resize된 img속에서 찾은 bbox 좌표

    print('Detected Obj : ', len(predictions_data['predictions']))

    if predictions_data is None :
        print('Detect Nothing. It\'s Too Close')
        return org_img, org_img

    if len(predictions_data['predictions']) > 1:
        print('! Error : Multiple detection Error. Take more closer')
        return None, None

    orgBBcoor = predBBcoor(org_img, predictions_data)
    cropped_img = imgCrop(org_img, orgBBcoor) #원본이미지에서 crop

    return org_img, cropped_img



def imgCrop(img, bbCoor):
    """
    Usage : resize된 이미지에서의 바운딩 박스 좌표를 원본 이미지의 바운딩 박스 좌표로 변환

    Parameters
    ----------
    img : 원본 이미지(no resize)
    bbCoor : (x, y, width, height) -> 원본 이미지에서의 bbox 좌표

    Returns : np.array
    -------
    cropped_img

    """
    if None in bbCoor : return img

    x, y, width, height = bbCoor # real coordinate

    half_w, half_h = round(width/2), round(height/2)

    cropped_img = img[abs(y-half_h) : y+half_h, abs(x-half_w ): x+half_w] # img crop

    # # 결과 시각화
    # cv2.rectangle(img, (x - half_w, y - half_h), (x + half_w, y + half_h), (0, 255, 0), 2)
    # print('\n Original')
    # cv2_imshow(img) # only colab
    # print('\n Cropped')
    # cv2_imshow(cropped_img) # only colab

    return cropped_img



def predBBcoor(org_img : np.array, pred_data : list, resize=256):
    """
    Usage : resize된 이미지에서의 바운딩 박스 좌표를 원본 이미지의 바운딩 박스 좌표로 변환

    Parameters
    ----------
    org_img : 원본 이미지(no resize)
    pred_data : list

    Returns : tuple
    -------
    x, y, width, height

    """
    try : prediction = pred_data['predictions'][0] # dict
    except : return None, None, None, None # 탐지 되지 않을 시

    # resized bbox coordinate
    rx, ry, rwidth, rheight = int(prediction['x']), int(prediction['y']), int(prediction['width']), int(prediction['height'])
    half_w, half_h = round(rwidth/2), round(rheight/2)

    # real h, w
    h, w, _ = org_img.shape
    # real bbox coordinate
    x, y, width, height = round((w*rx)/resize), round((h*ry)/resize), round((rwidth*w)/256), round((rheight*h)/256)

    return x, y, width, height



# preprocessing : auto_adjust_contrast
def auto_adjust_contrast(image : np.array):
    # Flatten the image to 1D array
    try : flat_image = image.flatten()
    except : return None

    # Compute the histogram
    histogram, bins = np.histogram(flat_image, bins=256, range=(0, 256))

    # Compute the cumulative distribution function (CDF)
    cdf = histogram.cumsum()

    # Normalize the CDF
    cdf_normalized = cdf / cdf.max()

    # Perform histogram equalization
    equalized_image = np.interp(flat_image, bins[:-1], cdf_normalized * 255).reshape(image.shape)

    return equalized_image.astype(np.uint8) # np.array

- model load

In [None]:
!pip install roboflow
from roboflow import Roboflow
rf = Roboflow(api_key="eyKD4VJQ4nRqtosRytMg")
project = rf.workspace().project("price-tag-dxlmv")
model = project.version(15).model

model

Collecting roboflow
  Downloading roboflow-1.1.16-py3-none-any.whl (69 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m69.9/69.9 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting certifi==2023.7.22 (from roboflow)
  Downloading certifi-2023.7.22-py3-none-any.whl (158 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m158.3/158.3 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting chardet==4.0.0 (from roboflow)
  Downloading chardet-4.0.0-py2.py3-none-any.whl (178 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m178.7/178.7 kB[0m [31m9.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting cycler==0.10.0 (from roboflow)
  Downloading cycler-0.10.0-py2.py3-none-any.whl (6.5 kB)
Collecting idna==2.10 (from roboflow)
  Downloading idna-2.10-py2.py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.8/58.8 kB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
Collecting opencv-python-hea

loading Roboflow workspace...
loading Roboflow project...


<roboflow.models.object_detection.ObjectDetectionModel at 0x789fa8cb2e60>

In [None]:
# OCR api
secret_key = "Y0l6ZHF1Um9CSWp3aHpJU3JDeFdpUGp1cG16T3hFQkg="
api_url = 'https://p0fsnflvaw.apigw.ntruss.com/custom/v1/27259/8a921c4c7d4e552c974b102e64c6227f3a2995ca938c066ddeb1442d6bf4b67c/general'

detections = []

# 단일 메세지 넣을 시
# if image:
total_len = len(image_files)
cnt = 1

for image in image_files: # 다량의 이미지 테스트 용
    original_img, cropped_img = predict2crop(model, folder_path = image_folder ,image_file = image)
    print(f'process : {(cnt/total_len*100) : .2f}%')
    cnt += 1

    if cropped_img is None : continue

    # cropped_img = cv2.resize(cropped_img,(128,64)) # 필수

    response = CLOVA_api(secret_key ,api_url ,image = cropped_img)
    texts, img = imageOCR(response, img = cropped_img)

    print(texts)

    detections.append(texts)


Output hidden; open in https://colab.research.google.com to view.

## text preprocessing Example

In [None]:
def remove_pattern(input_string):
    # Define a regex pattern to match amounts in the range of 1,000 to KRW
    pattern = r'\b\d{1,3}(,\d{3})*(?:\.\d{1,2})?\s*(?:원|\)\b'

    # Use re.sub to replace matches with an empty string
    cleaned_string = re.sub(pattern, '', input_string)

    return cleaned_string

# Example usage:
input_str = 'Gyro Drop 100ml당 1000원 ticeiq'
result = remove_pattern(input_str)
result

In [66]:
import re

def extract_grams(input_string):
    # Define a regex pattern to find numeric values followed by 'g'
    pt1 = re.compile(r'(\d+)\s*([gGmMlL당]+)')
    pt2 = re.compile(r'(\d+)\s*([원]+)')
    pt3 = re.compile(r'(\d+)\s*([개입]+)')

    # Use re.findall to find all matches in the input string
    matches = pt1.sub(' ',input_string)#re.sub(pt1, ' ',input_string, )
    matches = pt2.sub(' ', matches) # re.sub(pt2, ' ',matches)
    matches = pt3.sub(' ', matches)
    return matches

# Example usage:
input_str1 = '경주1642블랑123410g523992입1234개cfcgfx'
input_str2 = 'greatforyou100g당1424원기타등등 알지모르겟지 weknxpcpe'
input_str3 = 'mealMeaL100ml당1423원일지라도?'


result1 = extract_grams(input_str1)
result2 = extract_grams(input_str2)
result3 = extract_grams(input_str3)

print(result1)  # Output: ['10']
print(result2)  # Output: ['100']
print(result3)  # Output: []

경주1642블랑   cfcgfx
greatforyou  기타등등 알지모르겟지 weknxpcpe
mealMeaL  일지라도?


## save Result

In [67]:
file_path = '/content/detectedV3.txt'

with open(file_path, 'w') as file :
    for s in detections:
        file.write(s + '\n')


In [None]:
text = ''
for t in detections:
    if t == '': continue
    text += t
    text += '\n'
print(text)

NameError: name 'detections' is not defined

- Text save

## Text preprocessing

In [None]:
' '.join(texts)

'일반냉장고 R-B432GCWP.AKOR LG전자 나노참숯탈취 크기(WxHxD) 멀티냉각방식 755x1777x707 특급냉장 Bar 핸들타입'

In [None]:
for d in detections:
    print(' '.join(d))

adidas SOLAR RIDE M CE449
주간추천상품 신라면멀티팩120g*5 2,490원
성동명 (원전시) 포장 년,월,일 두층 년,월,일 100g(원)중량(g) 100 10 가격(원) 1000 BARCORE DTHER
3238 553568 123 10 1/2 1285cvml ### 28S ### DEVALUAL 86585558 ### 400 Mid NO
삼성 갤럭시 ZFLIP SM-F700NZPAAKOO (0) 자급제폰 1,650,000 1,649,980 기준요금제: 자급제폰 24개월기준 출고가 통신사 지원금 아이마트 지원금 1,650,000 10 10 화면크기 용량 RAM 배터리 256GB (대각선) 12GB 3300mAh 170.2mm
LACARE 610 87 .........
쿠키 사이드 테이블 42 xH870 030 W1196 ₩49,900
푸르밀 비타요구르트 65ml*20입 806371 340163 판매가: 2,700원
빙그레요구르트 65ml+20의 07 672092 판매가: 3,000원
동원/요쿠르트 65ml*5*3 801155 403225 판매가: 3,000원
바이오플레-플레인 150ml*8입 판매가 : 3,400원
2014코카콜라브라질 250ml 1,250 8801094623203 /E 코카콜라음료
동서)맥심모카라이트 20T 801037 067651 판매가: 4,400원
맥심슈프림골드 20입 01037 00304 판매가: 4,900원
맥스웰커피믹스 240g 80103 7 035650 판매가: 2,500원
빙)요플레복숭아 100g*4개 01104 240390 판매가: 3,750원
0 빙그레 기획 닥터캡슐사과 520ml / 10ml당 86원 4,500원
₩ 19,000 SIZE EUR 20/21 자율안전확인신고필증번호 BO44R1466-1170 제조년월: 16.12 03179354904 061 6561/1 H&M KR/S11 0461949 001
켈로그콘푸로스트 600g 801083001425 판매가: 3,950원
유기농 유기농 인증 유기농원