# DAFormer数据处理

语义分割数据的处理比较简单，需要把img处理成带标签的数据，然后主要是稀有类抽样

## Cityscapes数据集

In [14]:
from mmseg.datasets.cityscapes import CityscapesDataset
from mmseg.datasets.builder import build_dataset
from mmseg.datasets.builder import build_dataloader
from mmcv.utils.config import Config

cfg_file = './configs/_base_/datasets/cityscapes_half_512x512.py'
data_cfg = Config.fromfile(cfg_file)
cs_dataset = build_dataset(data_cfg.data.train) # must have 'type'
cs_dataloader = build_dataloader(dataset=cs_dataset,
                                samples_per_gpu=2,
                                workers_per_gpu=1)
for i, data in enumerate(cs_dataloader):
    if i == 0:
        print('data.img_metas:',data['img_metas'].data[0][0]['filename'])
        print('gt',data['gt_semantic_seg'].data[0])
        print('gt.size', data['gt_semantic_seg'].data[0].size())
        break

2022-10-21 19:06:09,039 - mmseg - INFO - Loaded 2975 images from /raid/wzq/data/cityscapes/leftImg8bit/train


data.img_metas: /raid/wzq/data/cityscapes/leftImg8bit/train/tubingen/tubingen_000110_000019_leftImg8bit.png
gt tensor([[[[255, 255, 255,  ..., 255, 255, 255],
          [255, 255, 255,  ..., 255, 255, 255],
          [255, 255, 255,  ..., 255, 255, 255],
          ...,
          [  0,   0,   0,  ..., 255, 255, 255],
          [255, 255, 255,  ..., 255, 255, 255],
          [255, 255, 255,  ..., 255, 255, 255]]],


        [[[255, 255, 255,  ..., 255, 255, 255],
          [255, 255, 255,  ..., 255, 255, 255],
          [255, 255, 255,  ..., 255, 255, 255],
          ...,
          [  0,   0,   0,  ..., 255, 255, 255],
          [255, 255, 255,  ..., 255, 255, 255],
          [255, 255, 255,  ..., 255, 255, 255]]]])
gt.size torch.Size([2, 1, 512, 512])


## 稀有类抽样

In [19]:
from mmseg.datasets.builder import build_dataset
from mmcv.utils.config import Config

cfg = Config.fromfile('/raid/wzq/code/DAFormer-master/configs/_base_/datasets/uda_gta_to_cityscapes_512x512.py')
uda_dataset = build_dataset(cfg.data.train)
print('source.gt:', uda_dataset[0]['gt_semantic_seg'])
# 255的意思是无效标签，这对于我们的处理应该是有借鉴意义的

2022-10-21 19:20:53,563 - mmseg - INFO - Loaded 2500 images from /raid/wzq/data/GTA5/images
2022-10-21 19:20:53,664 - mmseg - INFO - Loaded 2975 images from /raid/wzq/data/cityscapes/leftImg8bit/train


source.gt: DataContainer(tensor([[[ 10,  10,  10,  ...,   2,   2,   2],
         [ 10,  10,  10,  ...,   2,   2,   2],
         [ 10,  10,  10,  ...,   2,   2,   2],
         ...,
         [255, 255, 255,  ..., 255, 255, 255],
         [255, 255, 255,  ..., 255, 255, 255],
         [255, 255, 255,  ..., 255, 255, 255]]]))


### 获取数据出现的频率并计算数据的概率

In [59]:
import os.path as osp
import json
import torch
from pprint import pprint

def get_rcs_class_probs(data_root, temperature):
    with open(osp.join(data_root, 'sample_class_stats.json'), 'r') as of:
        sample_class_stats = json.load(of)
    overall_class_stats = {}
    for s in sample_class_stats:
        s.pop('file')
        for c, n in s.items():
            c = int(c)
            if c not in overall_class_stats:
                overall_class_stats[c] = n
            else:
                overall_class_stats[c] += n
    #  到这一步计算出了所有类别的总像素数：{0：610000,1：3254..}
    overall_class_stats = {
        k: v
        for k, v in sorted(
            overall_class_stats.items(), key=lambda item: item[1])
    }
    print('所有类别的像素数：', overall_class_stats)
    # 计算出频率，加温度后计算为概率
    freq = torch.tensor(list(overall_class_stats.values()))
    freq = freq / torch.sum(freq)
    freq = 1 - freq
    freq = torch.softmax(freq / temperature, dim=-1)
    return list(overall_class_stats.keys()), freq.numpy()

data_root = '/raid/wzq/data/cityscapes/'
rcs_classes, rcs_classprob = get_rcs_class_probs(data_root=data_root,
                         temperature=0.01) # 倾向于更极端的分布
print('rcs类别index:\n',rcs_classes)
print('rcs抽样概率：\n',rcs_classprob)


所有类别的像素数： {17: 5445705, 12: 7444743, 6: 11509768, 16: 12863901, 15: 12995272, 14: 14774826, 18: 22848390, 7: 30521277, 3: 36211593, 4: 48485660, 9: 63964556, 11: 67201112, 5: 67767822, 10: 221461664, 1: 336037810, 13: 386482742, 8: 878719065, 2: 1259785820, 0: 2036071935}
rcs类别index:
 [17, 12, 6, 16, 15, 14, 18, 7, 3, 4, 9, 11, 5, 10, 1, 13, 8, 2, 0]
rcs抽样概率：
 [1.12773545e-01 1.08763158e-01 1.01042517e-01 9.85934958e-02
 9.83590856e-02 9.52391103e-02 8.22818428e-02 7.16045201e-02
 6.45916462e-02 5.17154671e-02 3.90705504e-02 3.68459150e-02
 3.64694707e-02 2.25347024e-03 2.82815512e-04 1.13413160e-04
 1.52171964e-08 1.52951003e-11 1.19580108e-17]


### 完成概率->文件的转换

实际上这里要做的是，抽样只能抽样概率，所有的概率分布都是最后的np.choice来确定的，但是抽样只能抽出c类别来，得从当前这个类当中获取出文件的集合，即：{0：\[file1.png, file2.png.....\]}，然后再以均匀分布抽出1个来

In [65]:
cfg = Config.fromfile('/raid/wzq/code/DAFormer-master/configs/_base_/datasets/uda_gta_to_cityscapes_512x512.py')
with open(
        osp.join(cfg.data.train['source']['data_root'],
                 'samples_with_class.json'), 'r') as of:
    samples_with_class_and_n = json.load(of)
print('标记各个类别在各个图像上的像素数：\n','0类别：\n',
      samples_with_class_and_n['0'][:3],'\n','1类别：\n',
      samples_with_class_and_n['1'][:3])

# 转数字标签
samples_with_class_and_n = {
                int(k): v
                for k, v in samples_with_class_and_n.items()
                if int(k) in rcs_classes
}

# 计算带有class信息的samples信息
samples_with_class = {}
rcs_min_pixels = 3000 
# 设置这个的目的是不希望采样到很少像素的类别图像
# 例如，图像1只有2000个像素是train，那么这个图像就不宜被选为train的训练图像
for c in rcs_classes:
    samples_with_class[c] = []
    for file, pixels in samples_with_class_and_n[c]:
        if pixels > rcs_min_pixels:
            samples_with_class[c].append(file)
    assert len(samples_with_class[c]) > 0 
    # 保证有取到的，不然的话要降低阈值
    # 3000的时候，类18有20个图像，5000的时候，类18只有11个图像了
for c in samples_with_class:
    print('class ', c, 'has ', len(samples_with_class[c]), 'samples')
    
# 完成file2idx的转换
# 这是因为，抽样得到的只能是idx，而不能是直接的filename, 这里是全局的
file_to_idx = {}

for i, dic in enumerate(uda_dataset.source.img_infos):
    file = dic['ann']['seg_map']
    if isinstance(uda_dataset.source, CityscapesDataset):
        # CS->ACDC的原因，gta5的不考虑
        file = file.split('/')[-1]
    file_to_idx[file] = i
for i,key in enumerate(file_to_idx):
    print(key, ':', file_to_idx[key])
    if i == 3:
        break

标记各个类别在各个图像上的像素数：
 0类别：
 [['/raid/wzq/data/GTA5/labels/00001_labelTrainIds.png', 667094], ['/raid/wzq/data/GTA5/labels/00002_labelTrainIds.png', 991166], ['/raid/wzq/data/GTA5/labels/00003_labelTrainIds.png', 784621]] 
 1类别：
 [['/raid/wzq/data/GTA5/labels/00002_labelTrainIds.png', 120392], ['/raid/wzq/data/GTA5/labels/00003_labelTrainIds.png', 103264], ['/raid/wzq/data/GTA5/labels/00004_labelTrainIds.png', 39781]]
class  17 has  106 samples
class  12 has  80 samples
class  6 has  652 samples
class  16 has  116 samples
class  15 has  148 samples
class  14 has  1040 samples
class  18 has  20 samples
class  7 has  404 samples
class  3 has  1695 samples
class  4 has  1134 samples
class  9 has  1878 samples
class  11 has  468 samples
class  5 has  2338 samples
class  10 has  2458 samples
class  1 has  2077 samples
class  13 has  1910 samples
class  8 has  2420 samples
class  2 has  2333 samples
class  0 has  2495 samples
02203_labelTrainIds.png : 0
01989_labelTrainIds.png : 1
01438_labelTra

### 抽样的实现

In [93]:
import numpy as np

# 根据概率抽取类别：param1=[类别]，param2=[类别对应的概率]
c = np.random.choice(rcs_classes, p=rcs_classprob)
print(f'The choiced class is {c}')

# 从当前类别当中抽取idx, 不指定概率，其实这个里面有个做法，让像素多的靠前
f1 = np.random.choice(samples_with_class[c])
print(f1) # 这个图像里包含>3000个像素的当前类
f1 = f1.split('/')[-1] # 保持路径的一直

# 从source中获取idx
i1 = file_to_idx[f1]
print('global index:', i1)
s1 = uda_dataset.source[i1] # 直接取得s1的信息
print(s1['img_metas'].data['filename'])

# 从target中获取idx
i2 = np.rasamples_with_classndom.choice(len(uda_dataset.target))
s2 = uda_dataset.target[i2]

result = {
    **s1,
    'target_img_metas': s2['img_metas'],
    'target_img': s2['img'] # 区分
}

The choiced class is 6
/raid/wzq/data/GTA5/labels/01283_labelTrainIds.png
global index: 1412
/raid/wzq/data/GTA5/images/01283.png


# 训练过程（ema+model+imnet）

训练的时候，调用的是build_train_model构建一个dacs对象，这个对象的父类是一个dacs_decorate，父类自带了model，子类加上了其他训练范式的参数，并且加上了2个model：EMA_model(教师网络)和一个特征距离计算网络imnet

## 构建train_model

In [118]:
from mmseg.models.builder import build_train_model

cfg_path_model = '/raid/wzq/code/DAFormer-master/configs/_base_/models/daformer_aspp_mitb5.py'
cfg_path_uda_paradim = '/raid/wzq/code/DAFormer-master/configs/_base_/uda/dacs_a999_fdthings_for_learn.py'
# 在build_train_model里面，是从整体的cfg里面读取内容，因此学习测试的时候需要往dacs配置文件里面加上model和runner的内容

cfg = Config.fromfile(cfg_path_uda_paradim)

train_model = build_train_model(cfg)
print('train model type is:\n', train_model.__class__) # 发现是DACS

print('ema_model_class:\n', train_model.get_ema_model().__class__)
print('imnet_model_class:\n', train_model.get_imnet_model().__class__)




train model type is:
 <class 'mmseg.models.uda.dacs.DACS'>
ema_model_class:
 <class 'mmseg.models.segmentors.encoder_decoder.EncoderDecoder'>
imnet_model_class:
 <class 'mmseg.models.segmentors.encoder_decoder.EncoderDecoder'>


### 在source上训练

这只需要get_model，传播到model里面，无需传播给其他两个模型，这也算是一个梯度控制吧，因为过get_model模型的数据，反向传播的时候，也只会给model。此外注意，这里的操作全部是在forward_train里面进行的。这个操作我们不希望交给mmcv来完成。

In [116]:
def train_on_source(train_model, img, img_metas, gt_semantic_seg,
                 target_img_metas, target_img):
    clean_losses = train_model.get_model().forward_train(
        img, img_metas, gt_semantic_seg, return_feat=True
    )
    clean_loss, clean_log_vars = train_model._parse_losses(clean_losses)
#     clean_loss.backward(retain_graph=True)
    print(f'clean_loss:{clean_loss}\nclean_log_vars:{clean_log_vars}')

from mmseg.datasets.builder import build_dataloader

uda_dataloader = build_dataloader(dataset=uda_dataset,
                                 samples_per_gpu=2,
                                 workers_per_gpu=2)
for i,result in enumerate(uda_dataloader):
#     print(result)
    train_on_source(train_model,
                   img=result['img'].data[0],
                   img_metas=result['img_metas'],
                   gt_semantic_seg=result['gt_semantic_seg'].data[0],
                   target_img=result['target_img'].data[0],
                   target_img_metas=result['target_img_metas'])
    if i == 0: 
        break

clean_loss:2.7588908672332764
clean_log_vars:OrderedDict([('features', 1.645821701146133e-09), ('decode.loss_seg', 2.7588908672332764), ('decode.acc_seg', 2.486419677734375), ('loss', 2.7588908672332764)])


### 计算ImageNet上的Feature distance loss

这一部分的核心在于使用固定好的imagnet预训练的imnet来前向一个feature，然后用这个feature来对目前的特征正则化。但是，imagenet和cityscapes在一些类别上是不对应的，因此作者采用了一个mask的方法。

In [126]:
imnet_feature_dist_lambda=0.005
imnet_feature_dist_classes=[6, 7, 11, 12, 13, 14, 15, 16, 17, 18]
imnet_feature_dist_scale_min_ratio=0.75
import torch.nn.functional as F

def downscale_label_ratio(gt,
                          scale_factor,
                          min_ratio,
                          n_classes,
                          ignore_index=255):
    assert scale_factor > 1
    bs, orig_c, orig_h, orig_w = gt.shape
    assert orig_c == 1
    trg_h, trg_w = orig_h // scale_factor, orig_w // scale_factor
    ignore_substitute = n_classes

    out = gt.clone()  # otw. next line would modify original gt
    out[out == ignore_index] = ignore_substitute
    out = F.one_hot(
        out.squeeze(1), num_classes=n_classes + 1).permute(0, 3, 1, 2)
    assert list(out.shape) == [bs, n_classes + 1, orig_h, orig_w], out.shape
    out = F.avg_pool2d(out.float(), kernel_size=scale_factor)
    gt_ratio, out = torch.max(out, dim=1, keepdim=True)
    out[out == ignore_substitute] = ignore_index
    out[gt_ratio < min_ratio] = ignore_index # add_prefix如果gt_ratio比最小比值还小的话，就认为是ignore的
    assert list(out.shape) == [bs, 1, trg_h, trg_w], out.shape
    return out

def masked_feat_dist(f1, f2, mask=None):
    # 这个里面非常的简单，就是L2
    feat_diff = f1 - f2
    pw_feat_dist = torch.norm(feat_diff, dim=1, p=2)
    if mask is not None:
        pw_feat_dist = pw_feat_dist[mask.squeeze(1)] # mask[2,1,16,16]->[2,16,16]
    return torch.mean(pw_feat_dist) # 最终算一个mean得到

def cal_feature_distance(img, gt, src_feat):
    """
        这里的src_feat是前面model生成的，img要被投入到imnet中生成特征，
        这样计算出来的loss才能保证接着被只传入到model中反向传播
    """
    with torch.no_grad():
        train_model.get_imnet_model().eval() # 固定imnet的权重
        feat_imnet = train_model.get_imnet_model().extract_feat(img)# 提取预训练下的class特征
        feat_imnet = [f.detach() for f in feat_imnet] # 4层的特征
    lay = -1
    fdist_classes = imnet_feature_dist_classes # 配置文件给到的
    fdclasses = torch.tensor(fdist_classes,device=gt.device)
    scale_factor = gt.shape[-1]//src_feat[lay].shape[-1] # 32
    # 这里是用最后一个尺度的特征做正则化
    # gt的尺寸是最后一个尺度的32倍
    gt_rescaled = downscale_label_ratio(gt,
                                       scale_factor,
                                       imnet_feature_dist_scale_min_ratio,
                                       n_classes=19,
                                       ignore_index=255)
    print(f'gt_rescaled.size()={gt_rescaled.shape}')
    
    # 处理和imagenet不一样的类别了
    # 对于语义分割任务，类别是分布在图像的各个区域的，只要把需要忽视的区域设置为-1就可以了
    fdist_mask = torch.any(gt_rescaled[..., None]==fdclasses, -1)
    """
    这个非常trick
    
    知识点1：torch.any
        torch.any(input, dim)的用法为：
        对于input[dim]上的所有元素判断为true还是false
        只要input[dim]上有一个元素判断为true，则该dim上认定为true，并合并为1个
        例如，[3,3,2]，torch.any(input,dim=-1)，则会合并为一个[3,3]的张量
    
    知识点2：tensor[...,None]->标量化
        此处，gt_rescaled的维度为[2, 1, 16, 16]
        给一个None的意思是，拓展一个维度，变成[2, 1, 16, 16, 1]
        这个时候，gt_rescaled[..., None]的意思就是将维度变成1，也就是进行逐个元素的考虑，这是比较trick的一个做法
    
    知识点3：tensor广播
        gt_rescaled[..., None] == fdclasses
        左边是标量值，将遍历这个tensor，右边是一个tensor列表
        注意，右边一定要是列表，否则无法执行广播操作，同样，左边也要有一个1维度
        例如，当前左边取出的值是16，16==fdclasses得到的结果，将是1个bool的len(fdclasses)的列表（被广播）
        也就是说，如果当前类（如16）在fdclasses里面的话，
        这个列表将出现一个True的值，整个any的值也为True
        当前类（如1），不在fdclasses里面，全部都是False，any过后也是False
    
    整体流程：
        所以，当[2,1,16,16]经过None之后，[2,1,16,16,1]
        得到了1个广播施加上去后，变成了[2,1,16,16,10=len(fdclasses)]
        再在最后一个维度上any，就得到了“当前这个像素是不是在fdclasses里面”了
        并且维度重新回到了[2,1,16,16]的bool，标记着图像的哪些部分是在fdclasses类别中
        实际上，[...,None]的意思，就是要“做广播”了。
    """
    # 在mask的帮助下计算feature distance
    # 进入计算的都是最后一层的高层特征，也就是list[4][-1]
    # [2,512,16,16] 512层的通道中包含了丰富的类别信息
    # 而且通道确实有“类别”的意思在里面
    feat_dist = masked_feat_dist(src_feat[-1], feat_imnet[-1], mask=fdist_mask)
    feat_dist = imnet_feature_dist_lambda * feat_dist # 大费周章结果才0.05的权重
    feat_loss, feat_log = train_model._parse_losses(
                            {'loss_imnet_feat_dist': feat_dist})
    return feat_loss, feat_log
    

def train_by_feature_distance(train_model, img, img_metas, gt_semantic_seg,
                 target_img_metas, target_img):
    # 先生成在src上的特征
    src_feat = train_model.get_model().extract_feat(img)
    feat_loss, feat_log = cal_feature_distance(
        img, gt_semantic_seg, src_feat)
#     feat_loss.backward()
    print(f'feat_loss:{feat_loss}\nfeat_log:{feat_log}')


# 标准测试框架
for i,result in enumerate(uda_dataloader):
#     print(result)
    train_by_feature_distance(train_model,
                   img=result['img'].data[0],
                   img_metas=result['img_metas'],
                   gt_semantic_seg=result['gt_semantic_seg'].data[0],
                   target_img=result['target_img'].data[0],
                   target_img_metas=result['target_img_metas'])
    if i == 0: 
        break
    

gt_rescaled.size()=torch.Size([2, 1, 16, 16])
feat_loss:0.15826842188835144
feat_log:OrderedDict([('loss_imnet_feat_dist', 0.15826842188835144), ('loss', 0.15826842188835144)])


### 生成pseudo label

伪标签是EMA-model也就是教师网络生成的

In [140]:
# 超参数：多少伪标签的概率才可信,很苛刻啊
pesudo_threshold=0.968 

def generate_pesudo_label(train_model, img, img_metas, gt_semantic_seg,
                 target_img_metas, target_img):
    # 冻结ema_model的权重：
    for m in train_model.get_ema_model().modules():
        if isinstance(m, _DropoutNd):
            m.training = False
        if isinstance(m, DropPath):
            m.training = False
    
    # 生成最初的分割结果[2, 19, 512, 512], 是有负数的
    ema_logits = train_model.get_ema_model().encode_decode(target_img, target_img_metas)
    # softmax
    ema_softmax = torch.softmax(ema_logits.detach(), dim=1)
    # 得到置信度和概率,这里的概率是要用到的，因为只有概率比较高的伪标签才可信
    pseudo_prob, pseudo_label = torch.max(ema_softmax, dim=1)
    ps_large_p = pseudo_prob.ge(pseudo_prob).long()==1 # 好苛刻啊，这个调的第一点可不可以
    # long的意思是把True和False转成0还是1，长整型
    
    # 而后计算伪标签的权重
    pseudo_weight = torch.sum(ps_large_p).item()/np.size(np.array(pseudo_label.cpu()))
    print(pseudo_weight)
    pseudo_weight = pseudo_weight * torch.ones(pseudo_prob.shape)
  
    # 不信任在边界上生成的伪标签
    if train_model.psweight_ignore_top > 0:
        # Don't trust pseudo-labels in regions with potential
        # rectification artifacts. This can lead to a pseudo-label
        # drift from sky towards building or traffic light.
        pseudo_weight[:, :train_model.psweight_ignore_top, :] = 0
    if train_model.psweight_ignore_bottom > 0:
        pseudo_weight[:, -train_model.psweight_ignore_bottom:, :] = 0
    gt_pixel_weight = torch.ones((pseudo_weight.shape))
    print(f'pseudo_weight:\n{pseudo_weight}')
    print(f'gt_pixel_weight:\n{gt_pixel_weight}')
    
from torch.nn.modules.dropout import _DropoutNd
from timm.models.layers.drop import DropPath
    
# 标准测试框架
for i,result in enumerate(uda_dataloader):
#     print(result)
    generate_pesudo_label(train_model,
                   img=result['img'].data[0],
                   img_metas=result['img_metas'],
                   gt_semantic_seg=result['gt_semantic_seg'].data[0],
                   target_img=result['target_img'].data[0],
                   target_img_metas=result['target_img_metas'])
    if i == 0: 
        break

1.0
pseudo_weight:
tensor([[[1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         ...,
         [1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.]],

        [[1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         ...,
         [1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.]]])
gt_pixel_weight:
tensor([[[1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         ...,
         [1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.]],

        [[1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         [1., 1., 1.,  ..., 1., 1., 1.],
         ...,
         [1., 1., 1.,  ..., 1., 1., 1.],


### 将标签和图像混合并训练

这个部分将图像，伪标签、真值标签全部混合起来，从而强迫网络学习到两个不一样的特征，使用的是strong_transform

In [150]:
batch_size = 2

strong_parameters = {
    'mix': None,
    'color_jitter': np.random.uniform(0, 1),
    'color_jitter_s': train_model.color_jitter_s,
    'color_jitter_p': train_model.color_jitter_p,
    'blur': np.random.uniform(0, 1) if train_model.blur else 0,
#     'mean': means[0].unsqueeze(0),  # assume same normalization
#     'std': stds[0].unsqueeze(0)
}

def generate_classes_mask(label, classes):
    # 进来的时候，label是[1,512,512]
    # classes 是[....], 即筛选出的一般类别的index
    
    label, classes = torch.broadcast_tensors(label,
                                            classes.unsqueeze(1).unsqueeze(2))
    """
        torch.broadcast_tensors(a, b)的用法为：
        做了若干次广播操作，把两个张量都广播为最大的尺度
        例如a为[1,512,512], b[8,1,1]，在3个维度上全部广播
        得到a为[8,512,512], b[8,512,512]
        
        # label是8个512*512的类别
        # classes是8个512*512的单值矩阵
        相当于问题升了一个维度，eq一下就可以获得各层的掩码了
        而后再将8层进行相加，就得到了标记的class_mask 
    """
    class_mask = label.eq(classes).sum(dim=0, keepdims=True)
    return class_mask # list:[[1,1,512,512],[1,1,512,512]]
    
def get_class_masks(labels):
    class_masks = []
    for label in labels:
        print('label:', label) # [1, 512,512]
        classes = torch.unique(labels)
        # torch.unique的意思是挑出“独立不重复”的元素
        print('after unique opt:', classes) # [0,1,...17]
        nclasses = classes.shape[0]
        
        # 选择一部分元素，这里的意思应该是避免选择天空之类的？
        class_choice = np.random.choice(
            nclasses, int((nclasses + nclasses % 2) / 2), replace=False)
        """
            np.random.choice的用法有：
                1、产生随机数（参数1=int，参数2=int）
                    这里就是从（0，15）中随机产生8个数，replace=False表示不取相同数字
                2、根据概率从列表中抽取（参数1=list，参数2=prob_list）
                    就是在rcs里面的用法
            在每次迭代过程中，class_mix采用的类别是不一样的，
            因此就采用这种随机抽取的方法来实现鲁棒性
        """
        # 抽得8个类别（其实是一半的类别）后，进入generate_class_mask阶段
        # 这一阶段的主要目的是为了得到“对应于当前8个类的bool mask”
        
        classes = classes[torch.Tensor(class_choice).long()] # 15->8
        class_masks.append(generate_classes_mask(label, classes).unsqueeze(dim=0))
    return class_masks # 对应batch中各个图片的cut类别bool

# 下面是混合的步骤
def one_mix(mask, data=None, target=None):
    # 这里要注意的是，对于data而言，进来的都是彩色图像3通道的
    # 对于target而言，进来的都是单通道的，
    # 需要把label_mask先拓展到3通道上，省事也用了broadcast
    # 标签是来自于源域的，因此1的部分只能乘在source上
    # 然后1-mask表示0的部分乘在target上，从而实现了图像混合
    
    if not (data is None):
        stackedMask0, _ = torch.broadcast_tensors(mask[0], 
                                                 data[0])
        data = (stackedMask0 * data[0] + (1 - stackedMask0)*data[1]).unsqueeze(0)
    if not (target is None):
        stackedMask0, _ = torch.broadcast_tensors(mask[0],
                                                 target[0])
        target = (stackedMask0 * target[0] + (1 - stackedMask0)*target[1]).unsqueeze(0)
    return data, target
        
def strong_transform(mix_params, data, target):
    data, target = one_mix(mask=mix_params['mix'],data=data, target=target)
    return data, target
    
def mixing_img_label_and_train(train_model, img, img_metas, gt_semantic_seg,
                 target_img_metas, target_img):
    mixed_img, mixed_lbl = [None] * 2, [None] * 2 # [None,None]
    
    # 根据类别获取到cut的信息，这里是class-Mix论文中写到的
    mix_masks = get_class_masks(gt_semantic_seg) # [2,1,512,512]
    for i in range(batch_size):
        strong_parameters['mix'] = mix_masks[i]
        mixed_img[i], mixed_lbl[i] = strong_transform(
            strong_parameters,
            data=torch.stack((img[i], target_img[i])),
            target=torch.stack((gt_semantic_seg[i][0],torch.randn(2,512,512)[i])))
            # 伪标签占位符， 注意gt的格式是[2,1,512,512]
        print("mixed_img:", mixed_img[i].shape)
        print('mixed_lbl:', mixed_lbl[i].shape)

# 最主要的是这个混合，高斯模糊和色彩扰动后续再调

# 标准测试框架
for i,result in enumerate(uda_dataloader):
#     print(result)
    mixing_img_label_and_train(train_model,
                   img=result['img'].data[0],
                   img_metas=result['img_metas'],
                   gt_semantic_seg=result['gt_semantic_seg'].data[0],
                   target_img=result['target_img'].data[0],
                   target_img_metas=result['target_img_metas'])
    if i == 0: 
        break

label: tensor([[[15, 15, 15,  ..., 15, 15, 15],
         [15, 15, 15,  ..., 15, 15, 15],
         [15, 15, 15,  ..., 15, 15, 15],
         ...,
         [ 0,  0,  0,  ...,  0,  0,  0],
         [ 0,  0,  0,  ...,  0,  0,  0],
         [ 0,  0,  0,  ...,  0,  0,  0]]])
after unique opt: tensor([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  13,  14,
         15, 255])
label: tensor([[[  8,   8,   8,  ...,   2,   2,   2],
         [  8,   8,   8,  ...,   2,   2,   2],
         [  8,   8,   8,  ...,   2,   2,   2],
         ...,
         [255, 255, 255,  ..., 255, 255, 255],
         [255, 255, 255,  ..., 255, 255, 255],
         [255, 255, 255,  ..., 255, 255, 255]]])
after unique opt: tensor([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  13,  14,
         15, 255])
mixed_img: torch.Size([1, 3, 512, 512])
mixed_lbl: torch.Size([1, 1, 512, 512])
mixed_img: torch.Size([1, 3, 512, 512])
mixed_lbl: torch.Size([1, 1, 512, 512])


# 补充知识

In [141]:
import torch

x = torch.tensor([
    [True, False],
    [False, False]
])
print(x.shape)
print(torch.any(x, dim=1))
print(x[...,None]) # 拉成1个值

torch.broadcast_tensors
print(torch.unique(torch.tensor([2,3,2,4])))

torch.Size([2, 2])
tensor([ True, False])
tensor([[[ True],
         [False]],

        [[False],
         [False]]])
tensor([2, 3, 4])
