### 肺部分割代码


LUNA16数据集附带了一个seg-lungs-LUNA16的文件夹，里面是所有case（此处case指一个病例，也就是一张CT图像，由好多张切片组成）的mask，用来剔除与肺部无关的区域，但是通常来讲拿过来一个case，是不会有mask的，在DSB2017中就没有mask，选手需要自行生成mask。

以下是DSB2017第一名的方案：阈值化。这里阈值采取的是-600。这样水，空气基本就被过滤掉了，剩下的部分，进行一下膨胀处理，将肺部内部的小孔洞填上，这样，一张mask就完成了，简洁高效。

#### 提取肺部组织

1、每张slice单独分析

skimage.measure.label函数是用来实现将bool值进行连通区域标记。

regionprops函数对每一个连通区域进行属性获取和操作，比如计算面积、外接矩形、凸包面积等等。计算结果返回为所有连通区域的属性列表，列表长度为连通区域个数。

这一步主要就是去边角、肺部组织附近的脂肪、水、肾等background。

函数对每张slice生成了一个mask。

In [None]:
def binarize_per_slice(image, spacing, intensity_th=-600, sigma=1, area_th=30, eccen_th=0.99, bg_patch_size=10):
    # bw存储的就是二值True或False
    bw = np.zeros(image.shape, dtype=bool)
    
    # 准备一个mask。也就是正方形中有个内接圆，值为1，其余为nan
    # prepare a mask, with all corner values set to nan
    image_size = image.shape[1]
    grid_axis = np.linspace(-image_size/2+0.5, image_size/2-0.5, image_size)
    x, y = np.meshgrid(grid_axis, grid_axis)
    # d是所有像素到这个slice中心点的距离
    d = (x**2+y**2)**0.5
    # 将距离大于等于image_size/2的设为nan。
    nan_mask = (d<image_size/2).astype(float)
    nan_mask[nan_mask == 0] = np.nan  
    
    # bw开始赋值
    for i in range(image.shape[0]):
        # 对于每一张slice，如果左上角10 * 10de 区域里，HU值都是一样的即都是空气或水，就将整张图的非中心区域设为nan。否则就保留原值。
        # 然后再用size= 1 pixel的高斯滤波器先进行滤波，然后用"HU>=-600"将图像二值化，因为肺部组织的HU值是-500.
        if len(np.unique(image[i, 0:bg_patch_size, 0:bg_patch_size])) == 1:
            current_bw = scipy.ndimage.filters.gaussian_filter(np.multiply(image[i].astype('float32'), nan_mask), sigma, truncate=2.0) < intensity_th
        else:
            current_bw = scipy.ndimage.filters.gaussian_filter(image[i].astype('float32'), sigma, truncate=2.0) < intensity_th
        
        # 选择连通区域，对连通区域分析移除background成分。
        label = measure.label(current_bw) # label函数返回二值图中的连通区的label矩阵，每一个连通区由一个值定义
        properties = measure.regionprops(label) # regionprops()获取label中每一个连通区的属性。
        valid_label = set()   # valid_lable是一个有效label值集合
        for prop in properties:
            # 如果连通区域面积大于area_th(30)，并且连通区域的离心率小于阈值（eccentricity<0.99)，就认为这个区域是ROI
            if prop.area * spacing[1] * spacing[2] > area_th and prop.eccentricity < eccen_th:
                valid_label.add(prop.label)
        # current_bw为符合条件的二值图，利用np.in1d()函数。
        current_bw = np.in1d(label, list(valid_label)).reshape(label.shape)
        bw[i] = current_bw
        
    return bw

2、所有slice立体分析

> 在某一些例子中，需要把最上面的几张slice去掉.

> bg_label是第一张slice的四个角以及第一条和最后一条的中点处、除去被cut掉的slice后的最后一张的四个角以及第一条和最后一条的中点处的label。将这些label都设为0.这里将这些部分的区域都当成了背景，设为0，其实也就是设成label[0,0,0]。

> 上一步将所有slice的背景部分都设成了同样的label值，这里算出的prop.area就是立体的，乘以spacing的三个数相乘就得到了物理意义上的体积。这里设定体积小于0.68L，大于7.5L的都去掉（vol_limit是[0.68L,8.2L]）。这里是认为大于7.5L的是背景，小于0.68L的是杂质之类的。

> 与之前每张slice单独进行分析时候一样，计算一张map，map上的每个位置是该位置到slice中心位置的几何距离，不同的是此时的几何距离不是简单的图像上的距离，而是物理世界里的几何距离。

> 我们认为这个病人的所有面积大于阈值（area_th）是有效slice，而这些有效slice距离各自中心点的平均距离如果小于阈值（dist_th： 62mm）则认为这个label是属于肺部组织的label。

> 最后要将第一步去除掉的几张slice还原回来。


以上的这些步骤在某种情况下会迭代进行。这是因为，在某些case中，肺部组织会和外部空间连在一起，这就导致这些区域是联通的、超过阈值的，会被当成背景，此时valid_label可能是空的，因此就需要把top的几张slice先去除。这里使用cut_num=2的速度来进行筛选。

这一步是将一些仪器背景形成的联通区域去掉。

以下是整体分析的代码

In [None]:
# cut_num每次以cut_step（这里设为2）的速度递增，也就是每两张判断一次的意思。
bw = binarize_per_slice(case_pixels, spacing)
flag = 0
cut_num = 0
cut_step = 2
bw0 = np.copy(bw)
while flag == 0 and cut_num < bw.shape[0]:
    bw = np.copy(bw0)

    bw, flag = all_slice_analysis(bw, spacing, cut_num=cut_num, vol_limit=[0.68,7.5])
    cut_num = cut_num + cut_step

In [None]:
def all_slice_analysis(bw, spacing, cut_num=0, vol_limit=[0.68, 8.2], area_th=6e3, dist_th=62):
    # 在某些case下，首先需要删除最上面的几个层（这几个层都不是肺部）
    if cut_num > 0:
        bw0 = np.copy(bw)
        # bw[-cut_num]后cut_num张
        bw[-cut_num:] = False
    # bw是3维的
    label = measure.label(bw, connectivity=1)
    
    # remove components access to corners
    mid = int(label.shape[2] / 2)
    # bg_label为以下几个位置的值，set用于去掉重复值
    bg_label = set([label[0, 0, 0], label[0, 0, -1], label[0, -1, 0], label[0, -1, -1], \
                    label[-1-cut_num, 0, 0], label[-1-cut_num, 0, -1], label[-1-cut_num, -1, 0], label[-1-cut_num, -1, -1], \
                    label[0, 0, mid], label[0, -1, mid], label[-1-cut_num, 0, mid], label[-1-cut_num, -1, mid]])
    # label的值已将背景设为0了。
    for l in bg_label:
        label[label == l] = 0
        
    # 通过volume寻找连通区
    properties = measure.regionprops(label)
    for prop in properties:
        if prop.area * spacing.prod() < vol_limit[0] * 1e6 or prop.area * spacing.prod() > vol_limit[1] * 1e6:
            label[label == prop.label] = 0
            
    # 准备一个distance map用作未来的分析
    x_axis = np.linspace(-label.shape[1]/2+0.5, label.shape[1]/2-0.5, label.shape[1]) * spacing[1]
    y_axis = np.linspace(-label.shape[2]/2+0.5, label.shape[2]/2-0.5, label.shape[2]) * spacing[2]
    x, y = np.meshgrid(x_axis, y_axis)
    d = (x**2+y**2)**0.5

    # vols表示目前3D slices中所有的有效的label。
    vols = measure.regionprops(label)
    valid_label = set()
    # 对于每一种label， 计算每张slice上这种label的有效面积slice_area，
    for vol in vols:
        single_vol = label == vol.label
        slice_area = np.zeros(label.shape[0])
        # min_distance记录的是每张slice上这种label的区域距离该slice中心最近的距离。
        min_distance = np.zeros(label.shape[0])
        for i in range(label.shape[0]):
            slice_area[i] = np.sum(single_vol[i]) * np.prod(spacing[1:3])
            min_distance[i] = np.min(single_vol[i] * d + (1 - single_vol[i]) * np.max(d))
        
        if np.average([min_distance[i] for i in range(label.shape[0]) if slice_area[i] > area_th]) < dist_th:
            valid_label.add(vol.label)
    # 3维图像中符合条件的二值图。        
    bw = np.in1d(label, list(valid_label)).reshape(label.shape)
    
    # 将第一步去除掉的几张slice还原回来
    if cut_num > 0:
        # bw1是处理过但保留原cut_num张slice的图像，bw2是不还原并且进行过膨胀处理的mask。最终的mask：bw3，是bw1和bw2的交集。
        bw1 = np.copy(bw)
        bw1[-cut_num:] = bw0[-cut_num:]
        bw2 = np.copy(bw)
        bw2 = scipy.ndimage.binary_dilation(bw2, iterations=cut_num)
        bw3 = bw1 & bw2
        label = measure.label(bw, connectivity=1)
        label3 = measure.label(bw3, connectivity=1)
        l_list = list(set(np.unique(label)) - {0})
        valid_l3 = set()
        # valid_l3中的元素表示的就是bw1中有并且bw2中也有的。
        for l in l_list:
            indices = np.nonzero(label==l)
            l3 = label3[indices[0][0], indices[1][0], indices[2][0]]
            if l3 > 0:
                valid_l3.add(l3)
        bw = np.in1d(label3, list(valid_l3)).reshape(label3.shape)
    
    # 返回bw,以及其中包含的label值的数量。
    return bw, len(valid_label)

3、 孔洞填充

实际上我们希望提取ROI是整个肺部组织，而不是挖洞的。因此，我们再次进行联通区域分析，并且只将label和边角的一样的部分移除，其余的保留。并不能完全填充所有的洞，因为有的洞很可能是和外部空间相连接的，因此没有被填上。

In [None]:
def fill_hole(bw):
    # fill 3d holes
    label = measure.label(bw)
    # idendify corner components
    bg_label = set([label[0, 0, 0], label[0, 0, -1], label[0, -1, 0], label[0, -1, -1], \
                    label[-1, 0, 0], label[-1, 0, -1], label[-1, -1, 0], label[-1, -1, -1]])
    bw = np.in1d(label, list(bg_label)).reshape(label.shape)
    
    return bw

4、单独生成左右肺Mask

不断进行腐蚀操作直到最大的两个区域（左肺和右肺）有同样的体积。在腐蚀膨胀的过程中，分别为两片肺生成mask。



In [None]:
def two_lung_only(bw, spacing, max_iter=22, max_ratio=4.8):
    """
    max_iter:设定的是迭代寻找肺部组织的次数，程序中用的是22
    max_ratio:最大面积不能超过第二面积的max_ratio(这里设为4.8)倍。
    """
    def extract_main(bw, cover=0.95):
        # 首先还是进行联通区域分析，选择占当前slice 95% 面积的区域，并计算他们的凸包convex_image的并集。
        # 通过这种方式可以将肺部的主要面积给截取出来。但最后返回的bw是面积最大的那一个。
        for i in range(bw.shape[0]):
            current_slice = bw[i]
            label = measure.label(current_slice)
            properties = measure.regionprops(label)
            properties.sort(key=lambda x: x.area, reverse=True)
            area = [prop.area for prop in properties]
            count = 0
            sum = 0
            while sum < np.sum(area)*cover:
                sum = sum+area[count]
                count = count+1
            filter = np.zeros(current_slice.shape, dtype=bool)
            for j in range(count):
                bb = properties[j].bbox
                filter[bb[0]:bb[2], bb[1]:bb[3]] = filter[bb[0]:bb[2], bb[1]:bb[3]] | properties[j].convex_image
            bw[i] = bw[i] & filter
           
        label = measure.label(bw)
        properties = measure.regionprops(label)
        properties.sort(key=lambda x: x.area, reverse=True)
        bw = label==properties[0].label

        return bw
    
    def fill_2d_hole(bw):
        # 利用联通区域的filled_image进行处理。
        for i in range(bw.shape[0]):
            current_slice = bw[i]
            label = measure.label(current_slice)
            properties = measure.regionprops(label)
            for prop in properties:
                bb = prop.bbox
                current_slice[bb[0]:bb[2], bb[1]:bb[3]] = current_slice[bb[0]:bb[2], bb[1]:bb[3]] | prop.filled_image
            bw[i] = current_slice

        return bw
    
    # 进行腐蚀
    # 找到符合面积要求的联通区域则停止迭代，否则就继续腐蚀操作直到找到符合要求的联通区域。这里可以看到，bw1是最大面积的label，
    # bw2是第二大面积的label，从之后的代码也可以看出，这里的bw1和bw2其实指的就是左右肺。注意这里的联通区域是三维的。
    found_flag = False
    iter_count = 0
    bw0 = np.copy(bw)
    while not found_flag and iter_count < max_iter:
        label = measure.label(bw, connectivity=2)
        properties = measure.regionprops(label)
        properties.sort(key=lambda x: x.area, reverse=True)
        if len(properties) > 1 and properties[0].area/properties[1].area < max_ratio:
            found_flag = True
            bw1 = label == properties[0].label
            bw2 = label == properties[1].label
        else:
            # binary_erosion是腐蚀运算
            bw = scipy.ndimage.binary_erosion(bw)
            iter_count = iter_count + 1
    
    # 如果没有找到左右肺就直接将原本的bw作为bw1,而bw2为空，二者并集为最终的mask。distance_transform_edt的意思是非零点到背景点（零值点）的最近距离。
    # 这一步实际上是将左右肺继续做明确的分割，然后再进行主要成分提取。最后还是进行一些肺部内部区域的填充.
    if found_flag:
        # morphology.distance_transform_edt()求距离
        d1 = scipy.ndimage.morphology.distance_transform_edt(bw1 == False, sampling=spacing)
        d2 = scipy.ndimage.morphology.distance_transform_edt(bw2 == False, sampling=spacing)
        bw1 = bw0 & (d1 < d2)
        bw2 = bw0 & (d1 > d2)
                
        bw1 = extract_main(bw1) # 左肺
        bw2 = extract_main(bw2) # 右肺
        
    else:
        bw1 = bw0
        bw2 = np.zeros(bw.shape).astype('bool')
        
    bw1 = fill_2d_hole(bw1) 
    bw2 = fill_2d_hole(bw2)
    bw = bw1 | bw2

    return bw1, bw2, bw

一些有用的函数

In [None]:
# 读入数据,如果数据是DCM格式的一系列切片
def load_scan(path):
    # 读入slices存储的是一个序列多个dcm内容的列表
    slices = [pydicom.dcmread(path + '/' + s) for s in os.listdir(path)]
    # 排序
    slices.sort(key = lambda x: float(x.ImagePositionPatient[2]))
    # 不懂在检查什么？
    if slices[0].ImagePositionPatient[2] == slices[1].ImagePositionPatient[2]:
        sec_num = 2;
        while slices[0].ImagePositionPatient[2] == slices[sec_num].ImagePositionPatient[2]:
            sec_num = sec_num+1;
        slice_num = int(len(slices) / sec_num)
        slices.sort(key = lambda x:float(x.InstanceNumber))
        slices = slices[0:slice_num]
        slices.sort(key = lambda x:float(x.ImagePositionPatient[2]))
    # 如果z轴的像素间距没有，则通过相邻两幅Dicom切片的Image Position(Patient)相减
    # 得到的结果就是z轴上的像素间距。
    try:
        slice_thickness = np.abs(slices[0].ImagePositionPatient[2] - slices[1].ImagePositionPatient[2])
    except:
        slice_thickness = np.abs(slices[0].SliceLocation - slices[1].SliceLocation)
    # 将像素间距赋值给每一个切片的元数据
    for s in slices:
        s.SliceThickness = slice_thickness
        
    return slices

In [None]:
# 将pixel转为HU
def get_pixels_hu(slices):
    # 2维切片堆叠为3维scan。（矩阵）
    image = np.stack([s.pixel_array for s in slices])

    # 转换为int16类型，有时就是int16类型
    # Convert to int16 (from sometimes int16), 
    # should be possible as values should always be low enough (<32k)
    image = image.astype(np.int16)

    # CT扫描边界之外的灰度值固定为-2000，将这些值设定为0
    image[image==-2000] = 0
    
    # Convert to Hounsfield units (HU)
    for slice_number in range(len(slices)):        
        intercept = slices[slice_number].RescaleIntercept
        slope = slices[slice_number].RescaleSlope
        
        if slope != 1:
            image[slice_number] = slope * image[slice_number].astype(np.float64)
            image[slice_number] = image[slice_number].astype(np.int16)
            
        image[slice_number] += np.int16(intercept)
    
    # 返回image(int16),像素间距（z,x,y)
    return np.array(image, dtype=np.int16), np.array([slices[0].SliceThickness] + list(slices[0].PixelSpacing), dtype=np.float32)

In [None]:
以上是需要调用的函数，主程序中的肺部分割代码为以下代码：


In [None]:
# 1、加载scan
case = load_scan(case_path)

# 2、转换为HU，获取spacing
case_pixels, spacing = get_pixels_hu(case)
# plt.hist(first_patient_pixels.flatten(), bins=80, color='c')
# plt.xlabel("Hounsfield Units (HU)")
# plt.ylabel("Frequency")
# plt.show()
# # 显示一些切片
# h = 80
# plt.imshow(first_patient_pixels[h], cmap=plt.cm.gray)
# plt.show()
    
# 3、对每一张图二值化
bw = binarize_per_slice(case_pixels, spacing)
# plt.imshow(bw[h], cmap=plt.cm.gray)
# plt.show()

# 4、找出顶上要要删除的层，并进行3D 立体分析。
flag = 0
cut_num = 0
cut_step = 2
bw0 = np.copy(bw)
while flag == 0 and cut_num < bw.shape[0]:
    bw = np.copy(bw0)

    bw, flag = all_slice_analysis(bw, spacing, cut_num=cut_num, vol_limit=[0.68,7.5])
    cut_num = cut_num + cut_step
# plt.imshow(bw[h], cmap=plt.cm.gray)
# plt.show()

# 5、 3D孔洞填充
bw = fill_hole(bw)
# plt.imshow(bw[h], cmap=plt.cm.gray)
# plt.show()

# 6、分割出肺部，一般bw1左肺，bw2右肺
bw1, bw2, bw = two_lung_only(bw, spacing)
plt.imshow(bw[h], cmap=plt.cm.gray)
plt.show()