# HD-CNN con modelo base VGG-16

En primer lugar, importamos las librerías necesarias para ejecutar este cuaderno.

In [1]:
from fastai.vision.all import *

Definimos la ruta que contiene las imágenes del conjunto de datos.

In [2]:
path = Path('/root/Documents/images')

Listamos el directorio establecido para mostrar las carpetas por clase que contienen dicho directorio.

In [3]:
path.ls()

(#1000) [Path('/root/Documents/images/Amblyglyphidodon aureus'),Path('/root/Documents/images/Pungitius pungitius'),Path('/root/Documents/images/Parapercis clathrata'),Path('/root/Documents/images/Bryaninops yongei'),Path('/root/Documents/images/Carassius auratus'),Path('/root/Documents/images/Gymnothorax flavimarginatus'),Path('/root/Documents/images/Etheostoma caeruleum'),Path('/root/Documents/images/Cheilodactylus spectabilis'),Path('/root/Documents/images/Dinolestes lewini'),Path('/root/Documents/images/Gymnothorax javanicus')...]

Definimos la ruta padre del proyecto donde se encuentran los datos.

In [4]:
df_path = Path('/root/Documents/')

Cargamos el archivo CSV en forma de _dataframe_ de Pandas con las clases jerárquicas de cada imagen, la ruta de la imagen y si corresponde o no al conjunto de validación.

In [5]:
df = pd.read_csv(df_path/'csv/species1000-stratified.csv')

Cargamos los pesos en forma de _dataframes_ de las clases para corregir el desbalanceo durante el entrenamiento.

In [6]:
weights_df = pd.read_csv(df_path/'csv/species1000-weights.csv')

In [7]:
weights_df

Unnamed: 0,Specie,Count,Weight
0,Abramis brama,319,1.323439
1,Abudefduf abdominalis,221,1.910303
2,Abudefduf bengalensis,323,1.307050
3,Abudefduf saxatilis,1692,0.249514
4,Abudefduf septemfasciatus,149,2.833403
...,...,...,...
995,Zanclus cornutus,1966,0.214739
996,Zebrasoma desjardinii,166,2.543235
997,Zebrasoma flavescens,561,0.752544
998,Zebrasoma scopas,276,1.529627


In [8]:
weights_families_df = pd.read_csv(df_path/'csv/species1000-weights-family.csv')

In [9]:
weights_families_df

Unnamed: 0,Family,Count,Weight
0,Acanthuridae,12587,0.248450
1,Achiridae,152,20.573928
2,Acipenseridae,300,10.424123
3,Amiidae,796,3.928690
4,Ammodytidae,271,11.539620
...,...,...,...
130,Tetrarogidae,389,8.039170
131,Trichiuridae,212,14.751118
132,Triglidae,429,7.289597
133,Umbridae,586,5.336582


In [10]:
n_classes = len(weights_df)

Creamos el cuerpo y cabeza del modelo tomando como base VGG-16 con pesos preentrenados.

In [11]:
model = vgg16_bn
body = create_body(model, cut=-2)
body

Sequential(
  (0): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU(inplace=True)
    (3): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (5): ReLU(inplace=True)
    (6): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (7): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (9): ReLU(inplace=True)
    (10): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (12): ReLU(inplace=True)
    (13): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (14): Conv2d(128, 256

In [12]:
head = create_head(512*2,n_classes)
head

Sequential(
  (0): AdaptiveConcatPool2d(
    (ap): AdaptiveAvgPool2d(output_size=1)
    (mp): AdaptiveMaxPool2d(output_size=1)
  )
  (1): Flatten(full=False)
  (2): BatchNorm1d(1024, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (3): Dropout(p=0.25, inplace=False)
  (4): Linear(in_features=1024, out_features=512, bias=False)
  (5): ReLU(inplace=True)
  (6): BatchNorm1d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (7): Dropout(p=0.5, inplace=False)
  (8): Linear(in_features=512, out_features=1000, bias=False)
)

Separamos el cuerpo de la arquitectura en los distintos bloques para definir cada uno de ellos y aplicar posteriormente la arquitectura HD-CNN.

In [13]:
_body = body[0]
block1 = _body[:7]
block2 = _body[7:14]
block3 = _body[14:24]
block4 = _body[24:34]
block5 = _body[34:]

Definimos una función para obtener las etiquetas de cada ejemplo, en este caso: familia y especie.

In [14]:
def custom_get_y(o):
    fine_label = o['Specie']
    coarse1_label = o['Family']
    return [coarse1_label, fine_label]

Definimos una función para obtener el número de clases hijas por clase padre, esto nos servirá para definir las dimensiones de nuestros componentes finos.

In [15]:
def count_classes_per_coarse(labels_df):
    result = {}
    for c in set(labels_df['coarse']):
        classes_with_c = labels_df[labels_df['coarse']==c]
        result[c] = len(classes_with_c)
    return result

Creamos un _dataframe_ con la jerarquía de las etiquetas a predecir para obtener el número de clases hijas con _count_classes_per_coarse_.

In [16]:
labels_df = pd.DataFrame.from_dict({'fine': df['Specie'].values, 'coarse': df['Family'].values})
labels_df

Unnamed: 0,fine,coarse
0,Lepomis gibbosus,Centrarchidae
1,Pomoxis nigromaculatus,Centrarchidae
2,Lepomis miniatus,Centrarchidae
3,Scardinius erythrophthalmus,Cyprinidae
4,Acanthurus olivaceus,Acanthuridae
...,...,...
422172,Acanthurus coeruleus,Acanthuridae
422173,Amblyeleotris steinitzi,Gobiidae
422174,Etheostoma caeruleum,Percidae
422175,Tilodon sexfasciatus,Kyphosidae


In [17]:
classes_per_coarse = count_classes_per_coarse(labels_df)
classes_per_coarse

{'Monacanthidae': 7644,
 'Ephippidae': 1405,
 'Acanthuridae': 12587,
 'Gadidae': 259,
 'Lepisosteidae': 3763,
 'Gobiidae': 6725,
 'Tetrarogidae': 389,
 'Clupeidae': 2734,
 'Trichiuridae': 212,
 'Embiotocidae': 792,
 'Priacanthidae': 210,
 'Osmeridae': 156,
 'Megalopidae': 814,
 'Odacidae': 838,
 'Fistulariidae': 1423,
 'Callionymidae': 312,
 'Pomacentridae': 22846,
 'Lutjanidae': 5723,
 'Balistidae': 5690,
 'Catostomidae': 3262,
 'Serranidae': 9769,
 'Sebastidae': 1176,
 'Ictaluridae': 7430,
 'Nemipteridae': 575,
 'Belonidae': 851,
 'Serrasalmidae': 88,
 'Cyprinodontidae': 1183,
 'Ammodytidae': 271,
 'Rachycentridae': 149,
 'Cyclopteridae': 166,
 'Solenostomidae': 682,
 'Gobiesocidae': 1040,
 'Moronidae': 2745,
 'Cichlidae': 5697,
 'Tetraodontidae': 8429,
 'Sparidae': 9992,
 'Bothidae': 871,
 'Elopidae': 333,
 'Salmonidae': 16258,
 'Lobotidae': 265,
 'Caesionidae': 626,
 'Pholidae': 1215,
 'Stichaeidae': 805,
 'Cirrhitidae': 2539,
 'Microdesmidae': 406,
 'Kyphosidae': 4723,
 'Sillagini

Definimos una clase para nuestro modelo que cree la arquitectura HD-CNN, generando las capas compartidas como _shared\_layers_, el componente jerárquico como _coarse\_component_ y los componentes finos como _fine\_components_, así como los _head_ con las dimensiones calculadas anteriormente. En el método _forward_ establecemos la conexión de los distintos componentes para formar la arquitectura HD-CNN.

In [18]:
class VGGCustomModel(Module):
    def __init__(self, model, classes_per_coarse):
        n_coarse_classes = len(classes_per_coarse.keys())
        self.shared_layers = create_body(model, cut=-2)[0][:24]
        self.coarse_component = create_body(model, cut=-2)[0][24:]
        self.coarse_head = create_head(512*2,n_coarse_classes)
        self.fine_components = nn.ModuleList([create_body(model, cut=-2)[0][24:] for _ in range(n_coarse_classes)])
        self.fine_heads = nn.ModuleList([create_head(512*2, 1000) for num_classes in classes_per_coarse.values()])
        

    def forward(self, x):
        x = self.shared_layers(x)
        coarse_x = self.coarse_component(x)
        coarse1_label = self.coarse_head(coarse_x)
        coarse_idx = coarse1_label[0].argmax()
        x = self.fine_components[coarse_idx](x)
        fine_label = self.fine_heads[coarse_idx](x)
        return {
            'fine_label': fine_label,
            'coarse1_label': coarse1_label
        }

Creamos el modelo con la clase definida pasándole la arquitectura base y la información sobre las dimensiones.

In [19]:
model = VGGCustomModel(vgg16_bn, classes_per_coarse)

Como hemos modificado el modelo y la obtención de las clases para usar una salida múltiple, tenemos que modificar el tipo de bloque de categoría a uno que soporte estas salidas. Para ello, definimos una función que obtenga la clase y codifique a categoría cada una.

In [20]:
class CustomCategorize(DisplayedTransform):
    "Reversible transform of category string to `vocab` id"
    loss_func,order=CrossEntropyLossFlat(),1
    def __init__(self, vocab=None, vocab_coarse1=None, vocab_coarse2=None, sort=True, add_na=False, num_y=1):
        store_attr()
        self.vocab = None if vocab is None else CategoryMap(vocab, sort=sort, add_na=add_na)
        self.vocab_coarse1 = None if vocab_coarse1 is None else CategoryMap(vocab_coarse1, sort=sort, add_na=add_na)

    def setups(self, dsets):
        fine_dsets = [d[1] for d in dsets]
        coarse1_dsets = [d[0] for d in dsets]
        if self.vocab is None and dsets is not None: self.vocab = CategoryMap(fine_dsets, sort=self.sort, add_na=self.add_na)
        if self.vocab_coarse1 is None and dsets is not None: self.vocab_coarse1 = CategoryMap(coarse1_dsets, sort=self.sort, add_na=self.add_na)
        self.c = len(self.vocab)

    def encodes(self, o): return {'fine_label': TensorCategory(self.vocab.o2i[o[1]]),
                                  'coarse1_label': TensorCategory(self.vocab_coarse1.o2i[o[0]])
                                 }
    def decodes(self, o): return Category      (self.vocab    [o])

In [21]:
def CustomCategoryBlock(vocab=None, sort=True, add_na=False, num_y=1):
    "`TransformBlock` for single-label categorical targets"
    return TransformBlock(type_tfms=CustomCategorize(vocab=vocab, sort=sort, add_na=add_na))

Creamos un _splitter_ personalizado con los parámetros de cada bloque y del _head_.

In [22]:
def custom_splitter(model):
    return [params(model.shared_layers),
            params(model.coarse_component),
            params(model.fine_components),
            params(model.coarse_head),
            params(model.fine_heads)]

Creamos un _datablock_ con: bloques de tipo imagen y categoría personalizada _CustomCategoryBlock_, un separador por columna, la _x_ con la columna que contienen la ruta de las imágenes, la _y_ con la función personalizada, una transformación para hacer un recorte aleatorio dejando un tamaño común de 336x336, y las transformaciones de aumento de datos por defecto.

In [23]:
fishes = DataBlock(blocks = (ImageBlock, CustomCategoryBlock),
                 splitter=ColSplitter(),
                 get_x = ColReader(5, pref=path),
                 get_y=custom_get_y,
                 item_tfms=RandomResizedCrop(336, min_scale=0.5),
                 batch_tfms=aug_transforms())
dls = fishes.dataloaders(df)

Mostramos los _dataloaders_ generados con el _datablock_.

In [24]:
dls.train_ds, dls.valid_ds

((#337741) [(PILImage mode=RGB size=768x1024, {'fine_label': TensorCategory(531), 'coarse1_label': TensorCategory(25)}),(PILImage mode=RGB size=1024x738, {'fine_label': TensorCategory(776), 'coarse1_label': TensorCategory(25)}),(PILImage mode=RGB size=768x1024, {'fine_label': TensorCategory(538), 'coarse1_label': TensorCategory(25)}),(PILImage mode=RGB size=768x1024, {'fine_label': TensorCategory(837), 'coarse1_label': TensorCategory(41)}),(PILImage mode=RGB size=1024x786, {'fine_label': TensorCategory(32), 'coarse1_label': TensorCategory(0)}),(PILImage mode=RGB size=1024x683, {'fine_label': TensorCategory(145), 'coarse1_label': TensorCategory(109)}),(PILImage mode=RGB size=768x1024, {'fine_label': TensorCategory(827), 'coarse1_label': TensorCategory(108)}),(PILImage mode=RGB size=1024x697, {'fine_label': TensorCategory(792), 'coarse1_label': TensorCategory(100)}),(PILImage mode=RGB size=1024x768, {'fine_label': TensorCategory(784), 'coarse1_label': TensorCategory(9)}),(PILImage mode=R

Creamos el tensor con los pesos por clase y lo pasamos a GPU para poder usarlo durante el entrenamiento.

In [25]:
weights = tensor([float(weights_df[weights_df['Specie']==c]['Weight']) for c in dls.vocab]).cuda()
weights_families = tensor([float(weights_families_df[weights_families_df['Family']==c]['Weight']) for c in dls.vocab_coarse1]).cuda()

Defimos nuestra función de pérdida como el sumatorio de la pérdida en entropía cruzada de las dos salidas.

In [26]:
def loss_func(out, targ):
    return nn.CrossEntropyLoss(weight=weights)(out['fine_label'], targ['fine_label']) + \
            nn.CrossEntropyLoss(weight=weights_families)(out['coarse1_label'], targ['coarse1_label'])

Defimos la función de accuracy con la etiqueta fina, ya que es el resultado final que nos interesa. Además, esta etiqueta fue la que se usó para definir las particiones estratificadas, por lo que es la única que se debería tener en cuenta si queremos resultados más fiables.

In [27]:
def custom_accuracy(inp, targ, axis=-1):
    pred1,targ1 = flatten_check(inp['fine_label'].argmax(dim=axis), targ['fine_label'])
    acc1 = (pred1 == targ1).float().mean()
    return acc1

Creamos nuestro objeto _Learner_ con los _dataloaders_, la función de pérdida _loss_func_ creada, la métrica exactitud y el _splitter_ creado. Además, congelamos nuestro modelo para ajustar primero los pesos preentrenados a nuestras clases.

In [28]:
learn = Learner(dls, model, loss_func=loss_func, metrics=custom_accuracy,
                   splitter=custom_splitter).to_fp16()
learn.freeze()

Mostramos un resumen de nuestro modelo.

In [29]:
learn.summary()

epoch,train_loss,valid_loss,custom_accuracy,time


RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 15.75 GiB total capacity; 4.68 GiB already allocated; 3.88 MiB free; 4.73 GiB reserved in total by PyTorch)

Como podemos ver, debido a la cantidad de componentes finos que son necesarios con este conjunto de datos completo no es posible realizar el entrenamiento por falta de memoria.