## 手順
zipファイルのpathをすべて取得\
zipのpathの数だけ下記を繰り返す\
for
zipファイルを展開し，ファイル名の4ケタを控えておく\
別のフォルダに展開したzipを4ケタ名で保存し直す
\
\
dataset/PAS_extracted内のフォルダパスをリストで取得し，そのリストを用いて下記を繰り返す\
for
1. "dataset/PAS_imgs/positive(negative)/"に4ケタ名のフォルダを作成．さらにその下にrawとlabelフォルダを作成
2. 5つのフォルダがあるので，それらのpathを取得
3. 2で取得した5つのパスを順に巡って，以下を繰り返す．
\
for\
 dcmファイルを見つけ，4ケタ_i.dcmをrawの中に保存する
\
 jsonファイルを見つけ，ラベル画像を生成し，4ケタ_i.jpgとしてlabelの中に保存する

In [1]:
import json
import glob

import cv2

from PIL import Image

import numpy as np

import pydicom

# 点のペアを辞書から作成する関数
def dict_to_points(json_path):
    json_open = open(json_path)
    json_load = json.load(json_open)
    
    x_list = []
    y_list = []

    for i in range(len(json_load[0]["cgPoints"])):
        x = int(json_load[0]["cgPoints"][i]["x"])
        y = int(json_load[0]["cgPoints"][i]["y"])
        x_list.append(x)
        y_list.append(y)

    x_arr = np.array(x_list)
    y_arr = np.array(y_list)

    points = np.stack([x_arr, y_arr], axis=1)
    
    return points

def fulfill(img):
    contours, _ = cv2.findContours(img, 1, 2)
    #point:opencvの関数で扱えるように型をuint8で指定！
    fulfilled = np.zeros([img.shape[0], img.shape[1]], dtype="uint8")

    #全ての輪郭座標配列を使って塗りつぶし多角形を描写
    for p in contours:
        cv2.fillPoly(fulfilled, [p], (255, 255, 255))
    return fulfilled

# 点のペアから塗りつぶし画像を作り出す関数
def points_to_mask(points, size, save_path):
    # 真っ黒の画像を用意
    img = np.zeros((size, size), np.uint8)
    # 点の集合をarrayにする
    points = dict_to_points(json_path)

    # 塗りつぶす
    cv2.fillConvexPoly(img, points, (255, 255, 0))
    
    # さらに塗りつぶす
    img = fulfill(img)
    
    cv2.imwrite(save_path, img)
    print("saved at " + save_path)
    

# dcmファイルの中にある画像のサイズを調べる関数
def check_size(dcm_path):
    dcm = pydicom.read_file(dcm_path)
    size = dcm.pixel_array.shape
    return size

In [2]:
# zipファイルのリストを取得する
import glob
import zipfile

zip_list = glob.glob("Annotated/*")

for zip_path in zip_list:
    # 4ケタのファイル名を控えておく
    patient_id = zip_path.split("/")[1].split(".")[0]
    # zipファイルを展開してpatient_idというフォルダ名でPAS_extractedに保存する
    zip_f = zipfile.ZipFile(zip_path)
    zip_f.extractall("dataset/PAS_extracted/" + str(patient_id))
    zip_f.close()
    
    #print(patient_id)

In [4]:
import os
import shutil

# フォルダのリストを取得する
folder_list = glob.glob("dataset/PAS_extracted/*")

for folder in folder_list:
    # PAS_imgs/positive(negative)/に4ケタ名のフォルダを作成
    patient_id = folder.split("/")[-1]
    # 1000番台だったらpositive, 7000番台だったらnegative
    if int(patient_id) < 2000:
        posinega = "positive"
    else:
        posinega = "negative"
    
    os.makedirs("dataset/PAS_imgs/" + posinega + "/" + str(patient_id) + "/raw", exist_ok=True)
    os.makedirs("dataset/PAS_imgs/" + posinega + "/" + str(patient_id) + "/label", exist_ok=True)
    
    # folderの中を掘っていくと5つのフォルダがあるので，そのリストを取得
    slice_list = glob.glob(folder + "/*/*/*")
    
    # slice_listの中を探して，dcmとjpgを5枚ずつrawとlabelに保存する．(patient_id_i.dcm, patient_id_i.jpg)
    for i in range(5):
        # とりあえずファイルリストを取得
        file_list = glob.glob(slice_list[i] + "/*")
        # パスの必要な部分だけ取得しておき，AnnotationFile.JsonとDicomFile.dcmを結合
        partial_path = file_list[0].split("/")
        partial_path.pop(-1)
        partial_path = "/".join(partial_path)
        dcm_path = partial_path + "/DicomFile.dcm"
        json_path = partial_path + "/AnnotationFile.Json"
        jpg_path = partial_path + "/DicomImage.jpg"
        
        # dcmファイルをrawにコピー
        shutil.copyfile(dcm_path, "dataset/PAS_imgs/" + posinega + "/" + str(patient_id) + "/raw/" + str(i) +  ".dcm")
        shutil.copyfile(jpg_path, "dataset/PAS_imgs/" + posinega + "/" + str(patient_id) + "/raw/" + str(i) + ".jpg")
        
        # ラベルを作成し，jpgファイルをlabelに保存
        size = check_size(dcm_path)[0]
        print(json_path)
        points = dict_to_points(json_path)
        points_to_mask(points, size, "dataset/PAS_imgs/" + posinega + "/" + str(patient_id) + "/label/" + str(i) + ".png")

dataset/PAS_extracted/7060/1.2.392.200036.9132.1.155.14232484320200514/1.2.392.200036.9142.10002202.1020330996.2.20200520172629.61142/1.2.392.200036.9142.10002202.1020330996.3.20200520172629.67091/AnnotationFile.Json
saved at dataset/PAS_imgs/negative/7060/label/0.png
dataset/PAS_extracted/7060/1.2.392.200036.9132.1.155.14232484320200514/1.2.392.200036.9142.10002202.1020330996.2.20200520172629.61142/1.2.392.200036.9142.10002202.1020330996.3.20200520172629.67092/AnnotationFile.Json
saved at dataset/PAS_imgs/negative/7060/label/1.png
dataset/PAS_extracted/7060/1.2.392.200036.9132.1.155.14232484320200514/1.2.392.200036.9142.10002202.1020330996.2.20200520172629.61142/1.2.392.200036.9142.10002202.1020330996.3.20200520172629.67093/AnnotationFile.Json
saved at dataset/PAS_imgs/negative/7060/label/2.png
dataset/PAS_extracted/7060/1.2.392.200036.9132.1.155.14232484320200514/1.2.392.200036.9142.10002202.1020330996.2.20200520172629.61142/1.2.392.200036.9142.10002202.1020330996.3.20200520172629.67

In [61]:
"dataset/PAS_imgs/" + posinega + "/" + str(patient_id) + "/label/" + str(i) + ".png"

'dataset/PAS_imgs/negative/7045/label/4.png'

In [32]:
a = glob.glob(slice_list[0]+"/*")

In [36]:
partial_path.pop(-1)

'AnnotationFile.Json'

In [45]:
import pydicom
dcm = pydicom.read_file('dataset/PAS_extracted/1020/1.2.392.200036.9132.1.155.12494968620171027/1.2.392.200036.9142.10002202.1020330991.2.20171219171016.34148/1.2.392.200036.9142.10002202.1020330991.3.20171219171016.81532/DicomFile.dcm')

In [48]:
dcm.pixel_array.shape

(560, 560)

In [53]:
json.loads("")

JSONDecodeError: Expecting value: line 1 column 1 (char 0)