# MMSegmentation training

In [None]:
import os.path as osp
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
import mmseg
import mmcv

from mmseg.datasets.builder import DATASETS
from mmseg.datasets.custom import CustomDataset

import matplotlib.patches as mpatches

from mmseg.apis import set_random_seed

from mmcv import Config

from mmseg.datasets import build_dataset
from mmseg.models import build_segmentor
from mmseg.apis import train_segmentor
import torch

## Define and Transform dataset
Les variables ci-dessous sont à modifier pour correspondre à ton dataset

In [None]:
data_root = '../../mm_dataset'
img_dir = 'images'
ann_dir = 'labels'

classes = ('frame', 'road_network','water', 'blocks', 'non-built' )
palette = [[0, 0, 0], [255, 255, 255],[0, 0, 255], [255, 0, 255], [0, 255, 255]]

La cellule ci-dessous permet de transformer les labels de format RGB dans le bon format pour MMSegmentation.

Pour que cette transformation ne soit pas "in-place", les labels sont lus dans le dossier qui se trouve à `original_labels_path`. Il faut donc changer cette variable

In [None]:
def rgb_to_str(rgb):
    return str(rgb[0])+str(rgb[1])+str(rgb[2])

palette_str = [rgb_to_str(x) for x in palette]

conversion_dict = {k:v for k,v in zip(palette_str, range(palette))}

original_labels_path = "path/to/original_labels"

for file in mmcv.scandir(osp.join(data_root, original_labels_path), suffix='.png'):
    seg_img = Image.open(osp.join(data_root, original_labels_path, file))
    data = np.asarray(seg_img).astype(np.uint8)
    for x in range(len(data)):
        for y in range(len(data[0])):
            rgb_str = rgb_to_str(data[x][y])
            data[x][y] = conversion_dict[rgb_str]

    data=data[:,:,0]
    seg_img = Image.fromarray(data).convert("P")
    seg_img.putpalette(np.array(palette, dtype=np.uint8))
    seg_img.save(osp.join(data_root, ann_dir, file))

La cellule ci-dessous permet de diviser les données en train et test set. Chez moi, les fichiers de test portaient le nom "\_val", mais pour changer la manière dont on choisit ces 2 ensembles, tu peux changer le code là où je l'ai mis en évidence avec des commentaires

In [None]:
split_dir = 'splits'
mmcv.mkdir_or_exist(osp.join(data_root, split_dir))
filename_list = [osp.splitext(filename)[0] for filename in mmcv.scandir(osp.join(data_root, ann_dir), suffix='.png')]

train_list = []
val_list = []
for filename in filename_list:
    # Code à changer ici suivant la logique de distribution du train et test set
    if "_val" in filename:
        val_list.append(filename)
    else:
        train_list.append(filename)
        
        
print(len(train_list))
print(len(val_list))
with open(osp.join(data_root, split_dir, 'train.txt'), 'w') as f:
    f.writelines(line + '\n' for line in train_list)
with open(osp.join(data_root, split_dir, 'val.txt'), 'w') as f:
    f.writelines(line + '\n' for line in val_list)

Cette cellule-ci permet de calculer la moyenne et la déviation standard des couleurs des images utilisées. Ces valeurs sont demandées par MMSegmentation pour la normalisation des données

In [None]:
a = np.zeros(3)
b = np.zeros(3)
c = 0
for file in mmcv.scandir(osp.join(data_root, img_dir), suffix='.png'):
    seg_img = Image.open(osp.join(data_root, img_dir, file))
    data = np.asarray(seg_img).astype(np.uint8)
    mean = np.mean(data, axis=(0, 1))
    std = np.std(data, axis=(0,1))
    a+=mean
    b+=std
    c+=1
print(f"Mean : {a/c}")
print(f"Std : {b/c}")

Définition de la classe qui représente le Dataset. A priori rien à changer, si ce n'est éventuellement le nom de la classe, et le format des images

In [None]:
@DATASETS.register_module()
class ParisDataset(CustomDataset):
    CLASSES = classes
    PALETTE = palette
    def __init__(self, split, **kwargs):
        super().__init__(img_suffix='.png', seg_map_suffix='.png', split=split, **kwargs)
        assert osp.exists(self.img_dir) and self.split is not None

## Create a config file

Création de la configuration à partir de celle de OCRNet. J'ai essayé de mettre en évidence avec des commentaires les variables à modifier

In [None]:
cfg = Config.fromfile('configs/ocrnet/ocrnet_hr48_512x1024_160k_cityscapes.py')

cfg.norm_cfg = dict(type='BN', requires_grad=True)
cfg.model.backbone.norm_cfg = cfg.norm_cfg
cfg.model.decode_head[0].norm_cfg = cfg.norm_cfg
cfg.model.decode_head[1].norm_cfg = cfg.norm_cfg


cfg.model.decode_head[0].num_classes = len(classes)
cfg.model.decode_head[1].num_classes = len(classes)

cfg.checkpoint_config.meta = dict(
    CLASSES=classes,
    PALETTE=palette)

#Modifier la string suivante pour qu'elle porte le nom de la classe du Dataset défini plus haut
cfg.dataset_type = 'ParisDataset'
cfg.data_root = data_root

cfg.data.samples_per_gpu =4
cfg.data.workers_per_gpu=4

#Le fameux endroit où la moyenne et la déviation standard des images sont demandées
cfg.img_norm_cfg = dict(mean=[197.850,  186.04, 161.41], std=[38.38, 38.34, 36.56], to_rgb=True)

#La pipileline d'entrainement peut être modifiée ci-dessous
cfg.crop_size = (512, 512)
cfg.train_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(type='LoadAnnotations'),
    #dict(type='Resize', img_scale=(1000, 1000), ratio_range=(0.75, 1)),
    dict(type='RandomCrop', crop_size=cfg.crop_size, cat_max_ratio=0.75),
    dict(type='RandomFlip', flip_ratio=0.25),
    #dict(type="RandomRotate", prob=0.25, degree=30),
    dict(type='PhotoMetricDistortion'),
    dict(type='Normalize', **cfg.img_norm_cfg),
    dict(type='Pad', size=cfg.crop_size, pad_val=0, seg_pad_val=255),
    dict(type='DefaultFormatBundle'),
    dict(type='Collect', keys=['img', 'gt_semantic_seg']),
]

#La pipileline de test peut être modifiée ci-dessous
cfg.test_pipeline = [
    dict(type='LoadImageFromFile'),
    dict(
        type='MultiScaleFlipAug',
        img_scale=(1000, 1000),
        # img_ratios=[0.5, 0.75, 1.0, 1.25, 1.5, 1.75],
        flip=False,
        transforms=[
            dict(type='Resize', keep_ratio=True),
            #dict(type='RandomFlip'),
            dict(type='Normalize', **cfg.img_norm_cfg),
            dict(type='ImageToTensor', keys=['img']),
            dict(type='Collect', keys=['img']),
        ])
]


cfg.data.train.type = cfg.dataset_type
cfg.data.train.data_root = cfg.data_root
cfg.data.train.img_dir = img_dir
cfg.data.train.ann_dir = ann_dir
cfg.data.train.pipeline = cfg.train_pipeline
cfg.data.train.split = 'splits/train.txt'

cfg.data.val.type = cfg.dataset_type
cfg.data.val.data_root = cfg.data_root
cfg.data.val.img_dir = img_dir
cfg.data.val.ann_dir = ann_dir
cfg.data.val.pipeline = cfg.test_pipeline
cfg.data.val.split = 'splits/val.txt'

cfg.data.test.type = cfg.dataset_type
cfg.data.test.data_root = cfg.data_root
cfg.data.test.img_dir = img_dir
cfg.data.test.ann_dir = ann_dir
cfg.data.test.pipeline = cfg.test_pipeline
cfg.data.test.split = 'splits/val.txt'


#Changer la string pour pointer vers les poids pré-entrainés. Si jamais, pour cette config, tu peux les trouver ici : https://github.com/open-mmlab/mmsegmentation/tree/master/configs/ocrnet
cfg.load_from = './work_dirs/RN101.pt'

#Pointe vers le dossier où les poids seront enregistrés
cfg.work_dir = './work_dirs/clip'

#A modifier selon ce que l'on souhaite
cfg.runner.max_iters = 10000
cfg.log_config.interval = 100
cfg.evaluation.interval = 300
cfg.checkpoint_config.interval = 300


cfg.seed = 0
set_random_seed(0, deterministic=False)

#Je ne sais pas s'il y aura quelque chose à modifier ici pour choisir le GPU que tu veux utiliser. Comme je n'en ai que 1, je n'ai pas eu ce problème.
cfg.gpu_ids = range(1)

#Politique de l'optimizer et du LR à modifier
cfg.optimizer = dict(type='SGD', lr=0.001,momentum=0.9, weight_decay=0.0005)
cfg.optimizer_config = dict(type='Fp16OptimizerHook', loss_scale=512.0, distributed=False)
cfg.lr_config = dict(policy='poly', power=0.9, min_lr=0.0001, by_epoch=False)

#On peut print la config à la fin si on le souhaite
#print(f'Config:\n{cfg.pretty_text}')

## Train and Quick test

Lance l'entrainement. Ceci est du code quasiment copié-collé, donc il ne devrait rien avoir à changer.

In [None]:
# Build the dataset
datasets = [build_dataset(cfg.data.train)]

# Build the detector
model = build_segmentor(
    cfg.model, train_cfg=cfg.get('train_cfg'), test_cfg=cfg.get('test_cfg'))
# Add an attribute for visualization convenience
model.CLASSES = datasets[0].CLASSES
model.PALETTE = datasets[0].PALETTE

# Create work_dir
mmcv.mkdir_or_exist(osp.abspath(cfg.work_dir))
train_segmentor(model, datasets, cfg, distributed=False, validate=True, 
                meta=dict())

Pour se faire une idée des résultats, on peut rapidement afficher une prédiction sur une image. Il faut évidemment changer le path de l'image de test

In [None]:
from mmseg.apis import inference_segmentor, init_segmentor, show_result_pyplot
from mmseg.core.evaluation import get_palette

img = mmcv.imread(data_root+'/images/12148_btv1b8439505gf1_0_val.png')
model.cfg = cfg
result = inference_segmentor(model, img)

show_result_pyplot(model, img, result, palette)