In [1]:
from paddleocr import PaddleOCR, draw_ocr
import os,glob,csv,math,json,re,math,cv2,slideio,logging
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from IPython.display import display, HTML
from fuzzywuzzy import fuzz
from tqdm import tqdm

# Setup model
ocr_model = PaddleOCR(lang='en',use_angle_cls = False,show_log=False)

import logging
from ppocr.utils.logging import get_logger as ppocr_get_logger
ppocr_get_logger().setLevel(logging.ERROR)

# Open our folder and list the number of files inside
folder_name,type = 'A20-131','svs' # Specify the folder name (first param) and file type (second param)
folder = glob.glob(f"{folder_name}/*.{type}")
print(f"{len(folder)} {type} files identified.")
# Create the 'failed' folder if it doesn't exist
failed_folder = os.path.join(os.path.dirname(os.path.abspath(folder_name)), folder_name, 'failed')
os.makedirs(failed_folder, exist_ok=True)

def move_to_failed_folder(file, folder):
    failed_file = os.path.join(failed_folder, os.path.basename(file))
    os.rename(file, failed_file)

columns = ['participant_id', 'stain_id', 'brain_region','label']
csv_filename = f"{folder_name}.csv"  # Change this to your desired file name

with open(csv_filename, 'w', newline='') as csvfile:
    csv_writer = csv.writer(csvfile)
    csv_writer.writerow(columns)

label_count = 0
failed_count = 0
good = True

while good == True:
    for file in tqdm(folder):
        slide = slideio.open_slide(file)
        scene = slide.get_scene(0)
        # print(scene)
        # This part gets the image per slide
        image_names = slide.get_aux_image_names()
        images = []

        for name in image_names:

            if name == 'Label':
                image = slide.get_aux_image_raster(name)
                images.append(image)
                rotated_image = np.rot90(image, k=-1) # Capture a rotated image of the label
                result = ocr_model.ocr(rotated_image) # Process rotated image with Paddle
                good = True
                # Build a list containing all chunks identified by Paddle
                text_list = []

                for result_group in result:

                    for text_region in result_group:
                        text, confidence = text_region[1]  # Extract text and confidence
                        # print("Text:", text); print("Confidence:", confidence)
                        text_list.append(text)
                        # Coordinates are stored in text_region[0] if needed

                garbage = ['starfrost', 'adrc']  # Clean the result a little
                text_list = [thing for thing in text_list if thing.lower() not in garbage]
                logging.info(f"The current text list is: {text_list}. If empty, this will fail later.")

                try:
                    # Phase 1: Gather the Participant ID:
                    logging.info("Starting Phase 1")
                    participant_pattern = r'([A-Z0-9]{3})-([A-Z0-9]{3})'
                    participant_matches = [re.search(participant_pattern, i) for i in text_list if re.search(participant_pattern, i)]
                    participant_id = [match[0] for match in participant_matches]
                    participant_id = participant_id[0]; print(f"Participant ID: {participant_id}")
                except Exception as e:
                    logging.critical("Error in phase 1")
                    logging.error(f"An exception occurred while processing file: {file}")
                    logging.error(f"Exception details: {e} Participant ID")
                    good = False
                    move_to_failed_folder(file, failed_folder); failed_count += 1
                    continue

                try:
                    # Phase 2: Gather the Stain ID:
                    logging.info("Starting Phase 2")
                    predefined_choices = ['LB509', 'HE', 'PHF-1', 'TDP-43', '10D5'] # Stain Choices
                    stain_id = None
                    best_similarity = 0
                    for i in text_list:
                        for choice in predefined_choices:
                            similarity = fuzz.ratio(i, choice)  # Calculate Lebenshtein distance
                            if similarity > best_similarity:
                                best_similarity = similarity
                                stain_id = choice
                    print(f"Stain ID: {stain_id}")
                except Exception as e:
                    logging.critical("Error in phase 2")
                    logging.error(f"An exception occurred while processing file: {file}")
                    logging.error(f"Exception details: {e} (Stain ID)")
                    good = False
                    move_to_failed_folder(file, failed_folder); failed_count += 1
                    continue

                try:
                    # Phase 3: Gather the Brain Region ID:
                    logging.info("Starting Phase 3")
                    brain_region_pattern = r'\bL\d+[A-Z]?\b'
                    brain_region_matchs = [re.search(brain_region_pattern, i) for i in text_list if re.search(brain_region_pattern, i)]
                    brain_region = [match[0] for match in brain_region_matchs]
                    brain_region = brain_region[0]; print(f"Brain region match: {brain_region}")
                except Exception as e:
                    logging.critical("Error in phase 3")
                    logging.error(f"An exception occurred while processing file: {file}")
                    logging.error(f"Exception details: {e} (Brain Region)")
                    good = False
                    move_to_failed_folder(file, failed_folder); failed_count += 1
                    continue

                # Phase 4 Print Results:
                logging.info("Starting Phase 4")
                if good == True:
                    label_count += 1
                    # Write the rows to the CSV file
                    with open(f'{folder_name}.csv', mode='a', newline='') as csv_file:
                        csv_writer = csv.writer(csv_file)
                        label = f"{participant_id}_{brain_region}_{stain_id}"
                        csv_writer.writerow([participant_id, stain_id, brain_region, label])
                    # Phase 5 Rename Each File:
                    new_name = os.path.join(os.path.dirname(file), label + ".svs")
                    os.rename(file, new_name)
                    logging.info("Finished Phase 4. Beginning new loop.")
                    
    break # Kill the loop after 1 file.
# Print Summary
print(f"Successfully processed {label_count} files. Moved {failed_count} files to the 'failed' folder.")

82 svs files identified.


  0%|                                                                                                                                             | 0/82 [00:00<?, ?it/s]CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005821.svs
ERROR:root:Exception details: list index out of range (Brain Region)
  1%|█▌                                                                                                                                   | 1/82 [00:00<01:19,  1.01it/s]

Participant ID: A20-131
Stain ID: HE


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005846.svs
ERROR:root:Exception details: list index out of range (Brain Region)
  2%|███▏                                                                                                                                 | 2/82 [00:01<01:11,  1.12it/s]

Participant ID: A20-131
Stain ID: HE


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005856.svs
ERROR:root:Exception details: list index out of range (Brain Region)
  4%|████▊                                                                                                                                | 3/82 [00:02<01:06,  1.18it/s]

Participant ID: A20-131
Stain ID: HE


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005859.svs
ERROR:root:Exception details: list index out of range (Brain Region)
  5%|██████▍                                                                                                                              | 4/82 [00:03<01:18,  1.00s/it]

Participant ID: A20-131
Stain ID: PHF-1


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005860.svs
ERROR:root:Exception details: list index out of range (Brain Region)
  6%|████████                                                                                                                             | 5/82 [00:04<01:19,  1.03s/it]

Participant ID: A20-131
Stain ID: TDP-43


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005871.svs
ERROR:root:Exception details: list index out of range (Brain Region)
  7%|█████████▋                                                                                                                           | 6/82 [00:05<01:12,  1.04it/s]

Participant ID: A20-131
Stain ID: HE


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005872.svs
ERROR:root:Exception details: list index out of range (Brain Region)
  9%|███████████▎                                                                                                                         | 7/82 [00:06<01:10,  1.06it/s]

Participant ID: A20-131
Stain ID: HE


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005875.svs
ERROR:root:Exception details: list index out of range (Brain Region)
 10%|████████████▉                                                                                                                        | 8/82 [00:07<01:13,  1.01it/s]

Participant ID: A20-131
Stain ID: 10D5


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005876.svs
ERROR:root:Exception details: list index out of range (Brain Region)
 11%|██████████████▌                                                                                                                      | 9/82 [00:09<01:18,  1.08s/it]

Participant ID: A20-131
Stain ID: 10D5


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005877.svs
ERROR:root:Exception details: list index out of range (Brain Region)
 12%|████████████████                                                                                                                    | 10/82 [00:10<01:18,  1.10s/it]

Participant ID: A20-131
Stain ID: PHF-1


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005878.svs
ERROR:root:Exception details: list index out of range (Brain Region)
 13%|█████████████████▋                                                                                                                  | 11/82 [00:11<01:19,  1.12s/it]

Participant ID: A20-131
Stain ID: PHF-1


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005879.svs
ERROR:root:Exception details: list index out of range (Brain Region)
 15%|███████████████████▎                                                                                                                | 12/82 [00:12<01:17,  1.11s/it]

Participant ID: A20-131
Stain ID: PHF-1


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005880.svs
ERROR:root:Exception details: list index out of range (Brain Region)
 16%|████████████████████▉                                                                                                               | 13/82 [00:13<01:17,  1.13s/it]

Participant ID: A20-131
Stain ID: PHF-1


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005881.svs
ERROR:root:Exception details: list index out of range (Brain Region)
 17%|██████████████████████▌                                                                                                             | 14/82 [00:14<01:17,  1.14s/it]

Participant ID: A20-131
Stain ID: TDP-43


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005882.svs
ERROR:root:Exception details: list index out of range (Brain Region)
 18%|████████████████████████▏                                                                                                           | 15/82 [00:15<01:16,  1.15s/it]

Participant ID: A20-131
Stain ID: TDP-43
Participant ID: A20-131
Stain ID: TDP-43


CRITICAL:root:Error in phase 3
ERROR:root:An exception occurred while processing file: A20-131/1005883.svs
ERROR:root:Exception details: list index out of range (Brain Region)
 21%|███████████████████████████▎                                                                                                        | 17/82 [00:17<01:08,  1.05s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L11


 22%|████████████████████████████▉                                                                                                       | 18/82 [00:18<01:06,  1.04s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L11


 23%|██████████████████████████████▌                                                                                                     | 19/82 [00:19<01:05,  1.04s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L11


 24%|████████████████████████████████▏                                                                                                   | 20/82 [00:20<01:03,  1.03s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L12


 26%|█████████████████████████████████▊                                                                                                  | 21/82 [00:21<00:59,  1.02it/s]

Participant ID: A20-131
Stain ID: HE
Brain region match: L12


 27%|███████████████████████████████████▍                                                                                                | 22/82 [00:22<00:58,  1.02it/s]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L12


 28%|█████████████████████████████████████                                                                                               | 23/82 [00:23<00:58,  1.00it/s]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L12


 29%|██████████████████████████████████████▋                                                                                             | 24/82 [00:24<00:59,  1.02s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L13


 30%|████████████████████████████████████████▏                                                                                           | 25/82 [00:25<00:58,  1.02s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L13


 32%|█████████████████████████████████████████▊                                                                                          | 26/82 [00:26<00:57,  1.03s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L14


 33%|███████████████████████████████████████████▍                                                                                        | 27/82 [00:27<00:54,  1.02it/s]

Participant ID: A20-131
Stain ID: HE
Brain region match: L14


 34%|█████████████████████████████████████████████                                                                                       | 28/82 [00:28<00:54,  1.01s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L14


 35%|██████████████████████████████████████████████▋                                                                                     | 29/82 [00:29<00:54,  1.03s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L14


 37%|████████████████████████████████████████████████▎                                                                                   | 30/82 [00:30<00:53,  1.03s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L17


 38%|█████████████████████████████████████████████████▉                                                                                  | 31/82 [00:31<00:49,  1.03it/s]

Participant ID: A20-131
Stain ID: HE
Brain region match: L17


 39%|███████████████████████████████████████████████████▌                                                                                | 32/82 [00:32<00:49,  1.01it/s]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L17


 40%|█████████████████████████████████████████████████████                                                                               | 33/82 [00:33<00:48,  1.00it/s]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L17


 41%|██████████████████████████████████████████████████████▋                                                                             | 34/82 [00:34<00:49,  1.03s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L19


 43%|████████████████████████████████████████████████████████▎                                                                           | 35/82 [00:35<00:45,  1.02it/s]

Participant ID: A20-131
Stain ID: HE
Brain region match: L19


 44%|█████████████████████████████████████████████████████████▉                                                                          | 36/82 [00:36<00:46,  1.02s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L19


 45%|███████████████████████████████████████████████████████████▌                                                                        | 37/82 [00:38<00:48,  1.07s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L19


 46%|█████████████████████████████████████████████████████████████▏                                                                      | 38/82 [00:39<00:47,  1.08s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L1


 48%|██████████████████████████████████████████████████████████████▊                                                                     | 39/82 [00:40<00:43,  1.02s/it]

Participant ID: A20-131
Stain ID: HE
Brain region match: L1


 49%|████████████████████████████████████████████████████████████████▍                                                                   | 40/82 [00:41<00:43,  1.04s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L1


 50%|██████████████████████████████████████████████████████████████████                                                                  | 41/82 [00:42<00:42,  1.03s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L1


 51%|███████████████████████████████████████████████████████████████████▌                                                                | 42/82 [00:43<00:42,  1.06s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L21


 52%|█████████████████████████████████████████████████████████████████████▏                                                              | 43/82 [00:44<00:39,  1.01s/it]

Participant ID: A20-131
Stain ID: HE
Brain region match: L21


 54%|██████████████████████████████████████████████████████████████████████▊                                                             | 44/82 [00:45<00:39,  1.03s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L21


 55%|████████████████████████████████████████████████████████████████████████▍                                                           | 45/82 [00:46<00:39,  1.06s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L21


 56%|██████████████████████████████████████████████████████████████████████████                                                          | 46/82 [00:47<00:37,  1.06s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L23


 57%|███████████████████████████████████████████████████████████████████████████▋                                                        | 47/82 [00:48<00:36,  1.05s/it]

Participant ID: A20-131
Stain ID: HE
Brain region match: L23


 59%|█████████████████████████████████████████████████████████████████████████████▎                                                      | 48/82 [00:49<00:35,  1.06s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L23


 60%|██████████████████████████████████████████████████████████████████████████████▉                                                     | 49/82 [00:50<00:35,  1.07s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L23


 61%|████████████████████████████████████████████████████████████████████████████████▍                                                   | 50/82 [00:51<00:32,  1.02s/it]

Participant ID: A20-131
Stain ID: HE
Brain region match: L24A


 62%|██████████████████████████████████████████████████████████████████████████████████                                                  | 51/82 [00:52<00:31,  1.02s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L24A


 63%|███████████████████████████████████████████████████████████████████████████████████▋                                                | 52/82 [00:53<00:31,  1.05s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L2


 65%|█████████████████████████████████████████████████████████████████████████████████████▎                                              | 53/82 [00:54<00:28,  1.01it/s]

Participant ID: A20-131
Stain ID: HE
Brain region match: L2


 66%|██████████████████████████████████████████████████████████████████████████████████████▉                                             | 54/82 [00:55<00:29,  1.05s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L2


 67%|████████████████████████████████████████████████████████████████████████████████████████▌                                           | 55/82 [00:56<00:28,  1.07s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L2


 68%|██████████████████████████████████████████████████████████████████████████████████████████▏                                         | 56/82 [00:57<00:27,  1.06s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L30


 70%|███████████████████████████████████████████████████████████████████████████████████████████▊                                        | 57/82 [00:58<00:25,  1.03s/it]

Participant ID: A20-131
Stain ID: HE
Brain region match: L30


 71%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 58/82 [00:59<00:24,  1.04s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L30


 72%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 59/82 [01:01<00:24,  1.07s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L30


 73%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 60/82 [01:02<00:24,  1.11s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L3


 74%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 61/82 [01:03<00:21,  1.03s/it]

Participant ID: A20-131
Stain ID: HE
Brain region match: L3


 76%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 62/82 [01:04<00:21,  1.07s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L3


 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 63/82 [01:05<00:20,  1.06s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L3


 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████                             | 64/82 [01:06<00:19,  1.09s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L4


 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 65/82 [01:07<00:17,  1.04s/it]

Participant ID: A20-131
Stain ID: HE
Brain region match: L4


 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 66/82 [01:08<00:17,  1.07s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L4


 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 67/82 [01:09<00:15,  1.06s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L4


 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 68/82 [01:10<00:15,  1.07s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L5


 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 69/82 [01:11<00:14,  1.09s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L5


 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 70/82 [01:12<00:12,  1.08s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L5


 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 71/82 [01:13<00:11,  1.07s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L6


 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 72/82 [01:14<00:10,  1.01s/it]

Participant ID: A20-131
Stain ID: HE
Brain region match: L6


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 73/82 [01:15<00:09,  1.05s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L6


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 74/82 [01:16<00:08,  1.05s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L6


 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 75/82 [01:18<00:07,  1.10s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L8


 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 76/82 [01:19<00:06,  1.02s/it]

Participant ID: A20-131
Stain ID: HE
Brain region match: L8


 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 77/82 [01:20<00:05,  1.04s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L8


 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 78/82 [01:21<00:04,  1.10s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L8


 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 79/82 [01:22<00:03,  1.09s/it]

Participant ID: A20-131
Stain ID: 10D5
Brain region match: L9


 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 80/82 [01:23<00:02,  1.03s/it]

Participant ID: A20-131
Stain ID: HE
Brain region match: L9


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 81/82 [01:24<00:01,  1.04s/it]

Participant ID: A20-131
Stain ID: PHF-1
Brain region match: L9


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 82/82 [01:25<00:00,  1.04s/it]

Participant ID: A20-131
Stain ID: TDP-43
Brain region match: L9
Successfully processed 66 files. Moved 16 files to the 'failed' folder.



