Установка необходимых библиотек

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
!ls

classifier_dataset	dataset      drive     recommendations.csv
classifier_dataset.zip	dataset.zip  __MACOSX  sample_data


In [4]:
!cp /content/drive/MyDrive/project/dataset.zip /content/

In [None]:
!cp /content/drive/MyDrive/project/recommendations.csv /content/

In [None]:
!cp /content/drive/MyDrive/project/classifier_dataset.zip /content/

In [5]:
!pip install pytesseract



In [6]:
!sudo apt install tesseract-ocr

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 30 not upgraded.


In [7]:
!sudo apt install tesseract-ocr-rus

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr-rus is already the newest version (1:4.00~git30-7274cfa-1.1).
0 upgraded, 0 newly installed, 0 to remove and 30 not upgraded.


In [8]:
!pip install datefinder



In [None]:
!unzip dataset.zip

Archive:  dataset.zip
replace __MACOSX/._dataset? [y]es, [n]o, [A]ll, [N]one, [r]ename: 

In [None]:
!unzip classifier_dataset.zip

Archive:  classifier_dataset.zip
replace classifier_dataset/.DS_Store? [y]es, [n]o, [A]ll, [N]one, [r]ename: 

Создание класса датасета.

В данном классе происходят трансформации изображения и поиск всех областей с текстом.

In [9]:
# все трансформации
import cv2

class Dilation(object):
  def __init__(self, kernel_size=20, iterations=1):
    self.kernel_size = kernel_size
    self.iterations = iterations

  def __call__(self, img):
    ret, thresh = cv2.threshold(img, 0, 255, cv2.THRESH_OTSU | cv2.THRESH_BINARY_INV)
    kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (self.kernel_size, self.kernel_size))
    dilation = cv2.dilate(thresh, kernel, iterations = self.iterations)
    return dilation

class ToGrayScale(object):
  def __init__(self):
    pass

  def __call__(self, img):
    grayscale = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    return grayscale

In [10]:
from glob import glob
from torchvision.transforms import Compose

class FoodDataset:
  def __init__(self, root_dir, transformations=None):
    self.root_dir = root_dir
    self.imgs = sorted(glob(self.root_dir + "/*/*"))
    self.transformations = None
    if transformations:
      self.transformations = Compose(transformations)

  def __len__(self):
    return len(self.imgs)

  def __getitem__(self, idx):
    img_path = self.imgs[idx]
    im = cv2.imread(img_path)
    category = img_path.split('/')[-2]

    # сначала трансформируем изображение
    if self.transformations:
      transformed_img = self.transformations(im)

    # затем достаем кусочки изображения с текстом
    imgs, dilations = self._get_single_images(transformed_img, im)

    return img_path, im, imgs, dilations, category

  def _get_single_images(self, dilation, image):
    contours, hierarchy = cv2.findContours(dilation, cv2.RETR_EXTERNAL,
                                                 cv2.CHAIN_APPROX_NONE)
    images = []
    dilations = []

    for contour in contours:
      img = image.copy()
      dil = dilation.copy()
      x, y, w, h = cv2.boundingRect(contour)
      cropped_img = img[y:y + h, x:x + w]
      cropped_dilation = dil[y:y+h, x:x+w]
      dilations.append(cropped_dilation)
      images.append(cropped_img)

    return images, dilations

In [11]:
import pytesseract
import datefinder
from PIL import Image
import datetime

pytesseract.pytesseract.tesseract_cmd = (
    r'/usr/bin/tesseract'
)

def extract_dates(texts):
  dates = []
  for text in texts:
    text = ''.join(text.split())
    found_dates = list(datefinder.find_dates(text))
    dates.extend(found_dates)
  dates = list(set(dates))
  return dates

def get_all_texts(im, imgs, dilations):
  texts = [pytesseract.image_to_string(Image.fromarray(im[0].numpy()), lang="rus")]
  for image in imgs:
    txt = pytesseract.image_to_string(Image.fromarray(image[0].numpy()), lang="rus")
    texts.append(txt)
  for dil in dilations:
    txt = pytesseract.image_to_string(Image.fromarray(dil[0].numpy()), lang="rus")
    texts.append(txt)

  return texts

def make_recommendations(df, dates, category):
  if len(dates) == 0:
    print("Ничего неизвестно о дате выпуска продукта.")
    return
  product_info = df.loc[df['class'] == category]
  current_date = datetime.datetime.now()
  manufac_date = min(dates)
  expire_date = max(dates)
  if manufac_date == expire_date:
    expire_date += datetime.timedelta(days=int(product_info['avg_shelf_life']))
  shelf_life = (expire_date - manufac_date).days
  recommended = float(product_info['recommended'])
  safe_period = float(product_info['safe_period'])
  if shelf_life * recommended < (expire_date - current_date).days:
    print("Продукт свежий, рекомендован к употреблению")
    return
  if recommended < 1:
    if manufac_date + datetime.timedelta(days=shelf_life) > current_date:
      print("Срок годности не истек, но подходит к концу. Не рекомендован людям с индивидуальной непереносимостью")
    elif manufac_date + datetime.timedelta(days=shelf_life) == current_date:
      print("Срок годности истекает сегодня. Не рекомендовано к употреблению людям с индивидуальной непереносимостью")
    else:
      print("Срок годности истек. Употреблять нельзя")
  else:
    if manufac_date + datetime.timedelta(days=shelf_life + safe_period) <= current_date:
      print("Срок годности истек, однако продукт еще возможно употреблять людям без заболеваний")
    else:
      print("Срок годности и запас срока годности истек. Употреблять нельзя")

In [12]:
from torch.utils.data import DataLoader
from tqdm import tqdm
import pandas as pd

transformations = [ToGrayScale(), Dilation()]
classifier_dataset = FoodDataset('classifier_dataset', transformations)
classifier_dataloader = DataLoader(classifier_dataset, batch_size=1, shuffle=False)

texts = []
labels = []

for path, im, imgs, dilations, category in tqdm(classifier_dataloader):
    texts.append(' '.join(get_all_texts(im, imgs, dilations)))
    labels.append(category)

100%|██████████| 47/47 [20:07<00:00, 25.69s/it]


In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

model = make_pipeline(TfidfVectorizer(), MultinomialNB())
model.fit(texts, labels)

  y = column_or_1d(y, warn=True)


In [35]:
from sklearn.metrics import accuracy_score, log_loss

predicted_labels = model.predict(texts)
print("Accuracy: ", accuracy_score(labels, predicted_labels))

ValueError: Found input variables with inconsistent numbers of samples: [47, 71]

In [None]:
print("Logloss: ", log_loss(labels, predicted_labels))

In [33]:
labels

[('cheese',),
 ('cheese',),
 ('cheese',),
 ('cheese',),
 ('milk',),
 ('milk',),
 ('milk',),
 ('milk',),
 ('milk',),
 ('milk',),
 ('milk',),
 ('milk',),
 ('milk',),
 ('milk',),
 ('milk',),
 ('milk',),
 ('pasta',),
 ('pasta',),
 ('pasta',),
 ('pasta',),
 ('pasta',),
 ('pasta',),
 ('pasta',),
 ('pasta',),
 ('pasta',),
 ('proper_nutrition',),
 ('proper_nutrition',),
 ('proper_nutrition',),
 ('proper_nutrition',),
 ('proper_nutrition',),
 ('protein',),
 ('protein',),
 ('protein',),
 ('protein',),
 ('protein',),
 ('protein',),
 ('protein',),
 ('sweets',),
 ('sweets',),
 ('sweets',),
 ('sweets',),
 ('sweets',),
 ('sweets',),
 ('tea',),
 ('tea',),
 ('tea',),
 ('tea',)]

In [None]:
print(predicted_labels)

In [22]:
texts[5]

'     \n\n       \n \n   \n\nой з\nны п о\n\nПОСЛЕ УПОТРЕБЛЕНИЯ Дата производства:\nОСТАВЬ ТРУБОЧКУ ВНУТРИ!\nРР. 2 : — 75\n\n20.03.24 15\n\nУпотребить до:\n\x0c \x0c \x0c  \n\x0c  \n\x0c  \n\x0c  \n\x0c  \n\x0c  \n\x0c  \n\x0c \x0c \x0c  \n\x0c  \n\x0c \x0c \x0c \x0c  \n\x0c \x0c \x0c  \n\x0c \x0c \x0c  \n\x0c \x0c  \n\x0c \x0c \x0c \x0c \x0c  \n\x0c  \n\x0c  \n\x0c  \n\x0c  \n\x0c \x0c  \n\x0c  \n\x0c \x0c  \n\x0c \x0c \x0c \x0c \x0c  \n\x0c \x0c 2:Н .\n20.03.\n\nУпотребить до:\n\x0c \x0c  \n\x0c \x0c ПОСЛЕ УПОТРЕБЛЕНИЯ\nОСТАВЬ ТРУБОЧКУ ВНУТРИ!\n\x0c Дата производства:\n\x0c  \n\x0c \x0c  \n\x0c \x0c \x0c \x0c \x0c \x0c \x0c          \n  \n\n>\n\n \n\nПОСЛЕ УПОТРЕБЛЕНИЯ Дата производства:\n\nОСТАВЬ ТРУБОЧКУ ВНУТРИ!\n21.11.23 08\nЯ\n\n20.03.24 15\n\nУпотребить до:\n\n    \n     \n      \n\x0c \x0c \x0c \x0c \x0c  \n\x0c \x0c \x0c \x0c \x0c \x0c \x0c \x0c \x0c \x0c  \n\x0c  \n\x0c \x0c \x0c \x0c \x0c \x0c \x0c \x0c \x0c \x0c \x0c \x0c  \n\x0c \x0c \x0c \x0c  \n\x0c \x0c \x0c \x0c \x0c \

In [24]:
model.predict([texts[5]])[0]

'milk'

In [25]:
transformations = [ToGrayScale(), Dilation()]
dataset = FoodDataset('dataset', transformations)
dataloader = DataLoader(dataset, batch_size=1, shuffle=False)
recommends = pd.read_csv('recommendations.csv', sep=";")

for path, im, imgs, dilations, _ in tqdm(dataloader):
  test_texts = get_all_texts(im, imgs, dilations)
  category = model.predict([' '.join(test_texts)])[0]
  dates = extract_dates(test_texts)
  print("Изображение: " + path[0])
  make_recommendations(recommends, dates, category)

  2%|▏         | 1/55 [00:20<18:34, 20.63s/it]

Изображение: dataset/cheese/1.JPG
Срок годности не истек, но подходит к концу. Не рекомендован людям с индивидуальной непереносимостью


  4%|▎         | 2/55 [00:42<18:57, 21.47s/it]

Изображение: dataset/cheese/10.JPG
Продукт свежий, рекомендован к употреблению


  5%|▌         | 3/55 [01:09<20:47, 23.99s/it]

Изображение: dataset/cheese/11.JPG
Срок годности не истек, но подходит к концу. Не рекомендован людям с индивидуальной непереносимостью


  7%|▋         | 4/55 [01:42<23:27, 27.60s/it]

Изображение: dataset/cheese/12.JPG
Продукт свежий, рекомендован к употреблению


  9%|▉         | 5/55 [02:18<25:21, 30.43s/it]

Изображение: dataset/cheese/13.JPG
Срок годности не истек, но подходит к концу. Не рекомендован людям с индивидуальной непереносимостью


 11%|█         | 6/55 [02:33<20:32, 25.16s/it]

Изображение: dataset/cheese/2.JPG
Продукт свежий, рекомендован к употреблению


 13%|█▎        | 7/55 [02:57<19:49, 24.79s/it]

Изображение: dataset/cheese/3.JPG
Срок годности не истек, но подходит к концу. Не рекомендован людям с индивидуальной непереносимостью


 15%|█▍        | 8/55 [03:15<17:53, 22.84s/it]

Изображение: dataset/cheese/4.JPG
Ничего неизвестно о дате выпуска продукта.


 16%|█▋        | 9/55 [03:39<17:41, 23.08s/it]

Изображение: dataset/cheese/5.JPG
Продукт свежий, рекомендован к употреблению


 18%|█▊        | 10/55 [04:01<17:09, 22.88s/it]

Изображение: dataset/cheese/6.JPG
Срок годности не истек, но подходит к концу. Не рекомендован людям с индивидуальной непереносимостью


 20%|██        | 11/55 [04:50<22:39, 30.90s/it]

Изображение: dataset/cheese/7.JPG
Срок годности не истек, но подходит к концу. Не рекомендован людям с индивидуальной непереносимостью


 22%|██▏       | 12/55 [05:37<25:32, 35.64s/it]

Изображение: dataset/cheese/8.JPG
Срок годности истек. Употреблять нельзя


 24%|██▎       | 13/55 [06:11<24:33, 35.09s/it]

Изображение: dataset/cheese/9.JPG
Продукт свежий, рекомендован к употреблению


 25%|██▌       | 14/55 [06:32<21:03, 30.81s/it]

Изображение: dataset/milk/1.JPG
Ничего неизвестно о дате выпуска продукта.


 27%|██▋       | 15/55 [06:55<18:59, 28.49s/it]

Изображение: dataset/milk/10.JPG
Продукт свежий, рекомендован к употреблению


 29%|██▉       | 16/55 [07:08<15:35, 23.99s/it]

Изображение: dataset/milk/11.JPG
Срок годности истек. Употреблять нельзя


 31%|███       | 17/55 [07:28<14:21, 22.68s/it]

Изображение: dataset/milk/12.JPG
Продукт свежий, рекомендован к употреблению


 33%|███▎      | 18/55 [07:47<13:15, 21.50s/it]

Изображение: dataset/milk/13.JPG
Ничего неизвестно о дате выпуска продукта.


 35%|███▍      | 19/55 [08:06<12:24, 20.68s/it]

Изображение: dataset/milk/2.JPG
Срок годности истек. Употреблять нельзя


 36%|███▋      | 20/55 [08:25<11:54, 20.42s/it]

Изображение: dataset/milk/3.JPG
Ничего неизвестно о дате выпуска продукта.


 38%|███▊      | 21/55 [08:43<11:04, 19.55s/it]

Изображение: dataset/milk/4.JPG
Ничего неизвестно о дате выпуска продукта.


 40%|████      | 22/55 [09:06<11:25, 20.76s/it]

Изображение: dataset/milk/5.JPG
Ничего неизвестно о дате выпуска продукта.


 42%|████▏     | 23/55 [09:25<10:40, 20.01s/it]

Изображение: dataset/milk/6.JPG
Ничего неизвестно о дате выпуска продукта.


 44%|████▎     | 24/55 [09:45<10:23, 20.11s/it]

Изображение: dataset/milk/7.JPG
Ничего неизвестно о дате выпуска продукта.


 45%|████▌     | 25/55 [10:07<10:18, 20.62s/it]

Изображение: dataset/milk/8.JPG
Срок годности не истек, но подходит к концу. Не рекомендован людям с индивидуальной непереносимостью


 47%|████▋     | 26/55 [10:25<09:35, 19.84s/it]

Изображение: dataset/milk/9.JPG
Ничего неизвестно о дате выпуска продукта.


 49%|████▉     | 27/55 [10:44<09:08, 19.58s/it]

Изображение: dataset/pasta/1.JPG
Продукт свежий, рекомендован к употреблению


 51%|█████     | 28/55 [11:05<08:59, 19.98s/it]

Изображение: dataset/pasta/2.JPG
Срок годности и запас срока годности истек. Употреблять нельзя


 53%|█████▎    | 29/55 [11:31<09:25, 21.74s/it]

Изображение: dataset/pasta/3.JPG
Срок годности и запас срока годности истек. Употреблять нельзя


 55%|█████▍    | 30/55 [11:50<08:44, 20.98s/it]

Изображение: dataset/pasta/4.JPG
Ничего неизвестно о дате выпуска продукта.


 56%|█████▋    | 31/55 [12:26<10:10, 25.46s/it]

Изображение: dataset/pasta/5.JPG
Срок годности и запас срока годности истек. Употреблять нельзя


 58%|█████▊    | 32/55 [13:04<11:14, 29.32s/it]

Изображение: dataset/pasta/6.JPG
Срок годности и запас срока годности истек. Употреблять нельзя


 60%|██████    | 33/55 [13:24<09:42, 26.47s/it]

Изображение: dataset/pasta/7.JPG
Продукт свежий, рекомендован к употреблению


 62%|██████▏   | 34/55 [14:00<10:18, 29.44s/it]

Изображение: dataset/pasta/8.JPG
Срок годности и запас срока годности истек. Употреблять нельзя


 64%|██████▎   | 35/55 [14:19<08:42, 26.12s/it]

Изображение: dataset/pasta/9.JPG
Ничего неизвестно о дате выпуска продукта.


 65%|██████▌   | 36/55 [14:56<09:17, 29.36s/it]

Изображение: dataset/proper_nutrition/1.JPG
Срок годности и запас срока годности истек. Употреблять нельзя


 67%|██████▋   | 37/55 [15:35<09:41, 32.29s/it]

Изображение: dataset/proper_nutrition/2.JPG
Срок годности и запас срока годности истек. Употреблять нельзя


 69%|██████▉   | 38/55 [15:55<08:07, 28.70s/it]

Изображение: dataset/proper_nutrition/3.JPG
Срок годности истек, однако продукт еще возможно употреблять людям без заболеваний


 71%|███████   | 39/55 [16:15<06:55, 25.99s/it]

Изображение: dataset/proper_nutrition/4.JPG
Ничего неизвестно о дате выпуска продукта.


 73%|███████▎  | 40/55 [16:36<06:08, 24.55s/it]

Изображение: dataset/proper_nutrition/5.JPG
Ничего неизвестно о дате выпуска продукта.


 75%|███████▍  | 41/55 [17:26<07:30, 32.21s/it]

Изображение: dataset/protein/1.JPG
Продукт свежий, рекомендован к употреблению


 76%|███████▋  | 42/55 [17:51<06:30, 30.04s/it]

Изображение: dataset/protein/2.JPG
Ничего неизвестно о дате выпуска продукта.


 78%|███████▊  | 43/55 [18:13<05:30, 27.52s/it]

Изображение: dataset/protein/3.JPG
Продукт свежий, рекомендован к употреблению


 80%|████████  | 44/55 [18:42<05:10, 28.21s/it]

Изображение: dataset/protein/4.JPG
Продукт свежий, рекомендован к употреблению


 82%|████████▏ | 45/55 [19:02<04:16, 25.61s/it]

Изображение: dataset/protein/5.JPG
Ничего неизвестно о дате выпуска продукта.


 84%|████████▎ | 46/55 [19:40<04:24, 29.37s/it]

Изображение: dataset/sweets/1.JPG
Продукт свежий, рекомендован к употреблению


 85%|████████▌ | 47/55 [20:17<04:12, 31.52s/it]

Изображение: dataset/sweets/2.JPG
Срок годности и запас срока годности истек. Употреблять нельзя


 87%|████████▋ | 48/55 [21:19<04:46, 40.91s/it]

Изображение: dataset/sweets/3.JPG
Срок годности и запас срока годности истек. Употреблять нельзя


 89%|████████▉ | 49/55 [22:12<04:27, 44.53s/it]

Изображение: dataset/sweets/4.JPG
Срок годности и запас срока годности истек. Употреблять нельзя


 91%|█████████ | 50/55 [22:46<03:26, 41.37s/it]

Изображение: dataset/sweets/5.JPG
Срок годности истек. Употреблять нельзя


 93%|█████████▎| 51/55 [23:08<02:22, 35.57s/it]

Изображение: dataset/sweets/6.JPG
Ничего неизвестно о дате выпуска продукта.


 95%|█████████▍| 52/55 [23:58<01:59, 39.81s/it]

Изображение: dataset/tea/1.JPG
Ничего неизвестно о дате выпуска продукта.


 96%|█████████▋| 53/55 [24:43<01:22, 41.21s/it]

Изображение: dataset/tea/2.JPG
Ничего неизвестно о дате выпуска продукта.


 98%|█████████▊| 54/55 [25:01<00:34, 34.30s/it]

Изображение: dataset/tea/3.JPG
Продукт свежий, рекомендован к употреблению


100%|██████████| 55/55 [25:36<00:00, 27.94s/it]

Изображение: dataset/tea/4.JPG
Срок годности истек. Употреблять нельзя



