# Script de generacion de la estructura de archivos para Perceptron2
---
- Input: La carpeta enviada por el dentista
- Output:
    - Archivo COCO llamado "labels.json"
    - Serie de archivos en la carpeta ./data
---
## 1. Limpieza de datos
La idea es descartar aquellas imagnes incompletas (pone NO en la carpeta) o que no han sido segmentadas (no tienen alguno de los json)

## 2. Carga automatica
Hay que realizar el menor trabajo a mano, por ello se queremos usar la carpeta que nos ha dado el dentista y haciendo el menor numero de cambios, cargar los datos en un direcotrio nuevo y estructurado

In [1]:
import json
import numpy as np
import skimage.io as io
import random
import os
import cv2
import matplotlib as mpl
import numpy as np
from datetime import datetime
import re
import shutil

In [2]:
coco_file = r'./Dataset/labels_init.json'  # Aqui esta el json COCO creado
org_folder = r'./Dataset/data'  
img_folder = r'./Dataset/data/'  # Directorio de imagenes procesadads en el json
raw_folder = r'./CasosOrigen'

In [3]:
def lee_trio(carpeta_actual):
    r""" Lee un direcorio de una radiografia y devuelve las partes utiles 
            en un diccionario {"imagen":,"json_diente":,"json_raiz":}
        - Una imagen tal que: ([0-9]+)a.jpg (Que es la sin medidor)
        - Dos archivos JSON: (CASO)([\ 0-9]+)\.(ROOT CANAL|TOOTH)\.json
    """
    with os.scandir(carpeta_actual) as dirs:
        REG_IMG = r"([0-9]+)[aA]?.jpg"
        REG_DIENTE = r"(CASO)([\ 0-9]+)\.[\ ]*TOOTH\.json"
        REG_RAIZ = r"(CASO)([\ 0-9]+)\.[\ ]*ROOT CANAL\.json"
        trio = {}
        print(f"-> Accediendo a la capeta {carpeta_actual.name} ")
        for elemento in dirs:
            if elemento.is_file():
                print(f"\t -> Analizando el elemento {elemento.name} ")
                if re.search(REG_IMG, elemento.name):
                    trio["imagen"] = elemento
                    print(f"\t\t -> introduciendo imagen {elemento.name} ")
                elif re.search(REG_DIENTE, elemento.name):
                    trio["json_diente"] = elemento
                    print(f"\t\t -> introduciendo datos diente {elemento.name} ")
                elif re.search(REG_RAIZ, elemento.name):
                    trio["json_raiz"] = elemento
                    print(f"\t\t -> introduciendo datos raiz {elemento.name} ")
        print(f"\t #En el directorio {carpeta_actual.name} hay {len(trio)} elementos")
        if (len(trio) != 3):
            print("\t!!! Faltan archivos")
        return trio


def lee_subcarpetas(raiz="./Casos"):
    """ La idea es leer una estructura tal que
        - Contenedor
            - Caso1
                - Imagen.jpg
                - Dienete.json
                - Raiz.json
            - Caso2
                - Imagen.jpg
                - Dienete.json
                - Raiz.json
        Y devolver una lista de trios [{"imagen":,"json_diente":,"json_raiz":}],
            que luego procesar

        Se ignoran las carpetas que ponga NO detras de la imagen
    """
    REG_INVALIDO = r"CASO[\ ]*[0-9]+[\ ]*NO"
    lista = []
    dirs_leidos = 0
    with os.scandir(raiz) as dirs:
        for carpeta in dirs:
            if carpeta.is_dir() and not re.search(REG_INVALIDO, carpeta.name):
                trio = lee_trio(carpeta)
                if len(trio) == 3:
                    lista.append(trio)
                    dirs_leidos = dirs_leidos + 1
        print(f"# Se han analizado {dirs_leidos} diretorios validos ")
        return lista

In [4]:
def gen_segmentation(x_vals, y_vals):
    """ Convierte 2 sets de valores en uno solo con X e Y intercaladas
        como es COCO viene una lista dentro de otra
    """
    seg = [[]]
    for i in range(len(x_vals)):
        seg[0].append(x_vals[i])
        seg[0].append(y_vals[i])
    return seg


def gen_bbox(x_vals, y_vals):
    """ Genera el BoundayBox de la segmentacion
    """
    return [
        min(x_vals),
        min(y_vals),
        max(x_vals),
        max(y_vals)
    ]


def gen_area(x, y):
    """ Se usa el teorema de los cordones para obtener el area de un poligono
        irregular
    """
    return 0.5 * np.abs(np.dot(x, np.roll(y, 1)) - np.dot(y, np.roll(x, 1)))


def create_anotation(json_file, img_id, categoria):
    """ A partir de un JSON con formato de origen se obtiene una anotacion para
        insertar en el archivo general
    """
    anotation = dict()
    # Harcodeada la busqueda de los atributos, se puede flexibilizar
    for elem in json_file.items():
        x_vals = elem[1]["regions"][0]["shape_attributes"]["all_points_x"]
        y_vals = elem[1]["regions"][0]["shape_attributes"]["all_points_y"]
    anotation["segmentation"] = gen_segmentation(x_vals, y_vals)
    anotation["bbox"] = gen_bbox(x_vals, y_vals)
    anotation["area"] = gen_area(x_vals, y_vals)
    # Id como timestamp para no tener que tener en cuenta la anterior
    anotation["id"] = str(img_id)+"_"+str(categoria)
    # Nunca se va a fragmentar un diente / raiz en una radigrafia
    anotation["iscrowd"] = 0
    anotation["image_id"] = img_id
    # 0 es diente, 1 es raiz TODO: corregir
    anotation["category_id"] = categoria
    return anotation

In [5]:
def create_image(img_path, img_id, license=0):
    """ Crea una entrada de imgen para introducir en el json COCO
    """
    img = dict()
    img_load = cv2.imread(img_path)
    img["id"] = img_id
    img["license"] = license
    img["file_name"] = img_path.split("/")[-1]
    img["height"] = img_load.shape[0]
    img["width"] = img_load.shape[1]
    return img


def copy_image(img_path, destination):
    shutil.copyfile(img_path, destination)

In [6]:
def generar_COCOjson(lista_trios, COCOjson):
    """ A partir de una lista de trios (diccionario) tal que
        {"imagen":,"json_diente":,"json_raiz":}
        genera entradas de imagen y anotacion para el cocoo
    """
    index = 0
    for trio in lista_trios:
        entrada_imagen = create_image(
            img_path=trio["imagen"].path,
            img_id=index,
            license=0
        )
        copy_image(trio["imagen"].path, (img_folder+trio["imagen"].name))

        with open(trio["json_diente"].path) as diente:
            j_diente = json.load(diente)
            anot_diente = create_anotation(
                json_file=j_diente,
                img_id=index,
                categoria=0
            )

        with open(trio["json_raiz"].path) as raiz:
            j_raiz = json.load(raiz)
            anot_raiz = create_anotation(
                json_file=j_raiz,
                img_id=index,
                categoria=1
            )

        COCOjson["images"].append(entrada_imagen)
        COCOjson["annotations"].append(anot_diente)
        COCOjson["annotations"].append(anot_raiz)
        index += 1
    return COCOjson

In [7]:
# Se eliminan las imagenes previas
shutil.rmtree(org_folder)
os.mkdir(org_folder)

# Se abre el archivo COCO de plantilla
with open(coco_file) as file:
    data = json.load(file)
    final = generar_COCOjson(
        lista_trios=lee_subcarpetas(raw_folder), 
        COCOjson=data
    )

# Se escribe el json nuevo
with open("./Dataset/labels.json", "w+") as outfile:
    outfile.write(json.dumps(final, indent=5))


-> Accediendo a la capeta CASO 1 
	 -> Analizando el elemento CASO1.TOOTH.json 
		 -> introduciendo datos diente CASO1.TOOTH.json 
	 -> Analizando el elemento 1A.jpg 
		 -> introduciendo imagen 1A.jpg 
	 -> Analizando el elemento 1B.jpg 
	 -> Analizando el elemento CASO 1.ROOT CANAL.json 
		 -> introduciendo datos raiz CASO 1.ROOT CANAL.json 
	 #En el directorio CASO 1 hay 3 elementos
-> Accediendo a la capeta CASO 16 
	 -> Analizando el elemento 16b.jpg 
	 -> Analizando el elemento CASO 16. ROOT CANAL.json 
		 -> introduciendo datos raiz CASO 16. ROOT CANAL.json 
	 -> Analizando el elemento 16a.jpg 
		 -> introduciendo imagen 16a.jpg 
	 -> Analizando el elemento CASO 16. TOOTH.json 
		 -> introduciendo datos diente CASO 16. TOOTH.json 
	 #En el directorio CASO 16 hay 3 elementos
-> Accediendo a la capeta CASO 30 
	 -> Analizando el elemento CASO 30. ROOT CANAL.json 
		 -> introduciendo datos raiz CASO 30. ROOT CANAL.json 
	 -> Analizando el elemento CASO 30. TOOTH.json 
		 -> introduc