# FERNANDO YAHIR GUTIERREZ SANTOYO 1917844

# Detección de Objetos de señales víales

Conseguimos la dataset con las fotos de 48x48 del archivo traffic_signs_x_train_gr_smpl.csv hecho por el profesor de la materia. También tenemos las categorías en el archivo traffic_signs_y_train_smpl.csv que al igual que el primero, lo proporcionó el profesor.

#### Vamos a Crear una Red Neuronal para:
1. Crear una red neuronalartificialla cual tenga la capacidad de identificar las siguientes señales de tráfico:
0. speed limit 60, 
1. speed limit 80, 
2. speed limit 80 lifted, 
3. right of way at crossing, 
4. right of way in general, 
5. give way, 
6. Stop, 
7. no speed limit general, 
8. turn right down, 
9. turn left down. 
Existen 10 categorías de señales, las cuales están identificadas con números del 0 al 9.

Tenemos que descargar primero las librerías

In [None]:
#pip install tensorflow==1.13.2
#pip install keras==2.0.8
#pip install imgaug==0.2.5
#pip install opencv-python
#pip install h5py
#pip install tqdm
#pip install imutils

Después las importamos en nuestra neurona

In [8]:
import argparse
import os
import numpy as np
import json
import cv2
import copy
import imgaug as ia
from imgaug import augmenters as iaa
from keras.utils import Sequence
import xml.etree.ElementTree as ET

ModuleNotFoundError: No module named 'numpy'

### Definimos el directorio de anotaciones xml/csv e imagenes

In [None]:
csv_dir = "annotation/traffic_signs_x_train_gr_smpl.csv/"  # directorio que contiene los csv
img_dir = "images/traffic_signs_x_train_gr_smpl.csv/"   # directorios con las imagenes
labels = ["speed limit 60", "speed limit 80", "speed limit 80 lifted", " right of way at crossing", 
          "right of way in general", "give way", "Stop", "no speed limit", "turn right down", "turn left down"]
tamanio = 48*48  # tamanio en pixeles para entrenar la red
mejores_pesos = "red_seniales_trafico.h5"

In [None]:
def leer_annotations(ann_dir, img_dir, labels=[]):
    all_imgs = []
    seen_labels = {}
    
    for ann in [x for x in sorted(os.listdir(ann_dir)) if x.endswith('.csv')] :
        img = {'object':[]}
        
        tree = ET.parse(ann_dir + ann)
        
        for elem in tree.iter():
            if 'filename' in elem.tag:
                img['filename'] = img_dir + elem.text
            if 'width' in elem.tag:
                img['width'] = int(elem.text)
            if 'height' in elem.tag:
                img['height'] = int(elem.text)
            if 'object' in elem.tag or 'part' in elem.tag:
                obj = {}
                
                for attr in list(elem):
                    if 'name' in attr.tag:
                        obj['name'] = attr.text

                        if obj['name'] in seen_labels:
                            seen_labels[obj['name']] += 1
                        else:
                            seen_labels[obj['name']] = 1
                        
                        if len(labels) > 0 and obj['name'] not in labels:
                            break
                        else:
                            img['object'] += [obj]
                            
                    if 'bndbox' in attr.tag:
                        for dim in list(attr):
                            if 'xmin' in dim.tag:
                                obj['xmin'] = int(round(float(dim.text)))
                            if 'ymin' in dim.tag:
                                obj['ymin'] = int(round(float(dim.text)))
                            if 'xmax' in dim.tag:
                                obj['xmax'] = int(round(float(dim.text)))
                            if 'ymax' in dim.tag:
                                obj['ymax'] = int(round(float(dim.text)))

        if len(img['object']) > 0:
            all_imgs += [img]
                        
    return all_imgs, seen_labels

Y ahora las cargamos

In [None]:
train_imgs, train_labels = leer_annotations(csv_dir, img_dir, labels)
print('imagenes',len(train_imgs), 'labels',len(train_labels))

### Separamos en Entrenamiento y Validación

In [None]:
train_valid_split = int(0.8*len(train_imgs))
np.random.shuffle(train_imgs)
valid_imgs = train_imgs[train_valid_split:]
train_imgs = train_imgs[:train_valid_split]
print('train:',len(train_imgs), 'validate:',len(valid_imgs))

### Argumentamos los datos

Esto lo hacemos haciendo pequeñas distorciones a las imagenes de entrada para entrenar con mayor variedad y mejorar la precision de la red.
Para hacerlo nos apoyamos sobre una librería llamada imgaug que nos brinda muchas funcionalidades como agregar desenfoque, agregar brillo, ó ruido aleatoriamente a las imágenes. Además podemos usar OpenCV para voltear la imagen horizontalmente y luego recolocar la “bounding box”.

In [None]:
iaa.OneOf([
    iaa.GaussianBlur((0, 3.0)), # blur images
    iaa.AverageBlur(k=(2, 7)), # blur image using local means with kernel
    iaa.MedianBlur(k=(3, 11)), # blur image using local medians with kernel
    ]),
    iaa.Sharpen(alpha=(0, 1.0), lightness=(0.75, 1.5)), # sharpen images
    iaa.AdditiveGaussianNoise(loc=0, scale=(0.0, 0.05*255), per_channel=0.5), # add gaussian noise to images
    iaa.OneOf([;
        iaa.Dropout((0.01, 0.1), per_channel=0.5), # randomly remove up to 10% of the pixels
        ]),
    iaa.Add((-10, 10), per_channel=0.5), # change brightness of images
    iaa.Multiply((0.5, 1.5), per_channel=0.5), # change brightness of images
    iaa.ContrastNormalization((0.5, 2.0), per_channel=0.5), # improve or worsen the contrast

### Crear la rede de clasificación

La red CNN es conocida como Darknet y está compuesta por 22 capas convolucionales que básicamente aplican BatchNormalizarion, MaxPooling y activación por LeakyRelu para la extracción de características, es decir, los patrones que encontrará en las imágenes (en sus pixeles) para poder diferenciar entre los objetos que queremos clasificar.

Va alternando entre aumentar y disminuir la cantidad de filtros y kernel de 3×3 y 1×1 de la red convolucional.

In [None]:
# Layer 1
x = Conv2D(32, (3,3), strides=(1,1), padding='same', name='conv_1', use_bias=False)(input_image)
x = BatchNormalization(name='norm_1')(x)
x = LeakyReLU(alpha=0.1)(x)
x = MaxPooling2D(pool_size=(2, 2))(x)

# Layer 2
x = Conv2D(64, (3,3), strides=(1,1), padding='same', name='conv_2', use_bias=False)(x)
x = BatchNormalization(name='norm_2')(x)
x = LeakyReLU(alpha=0.1)(x)
x = MaxPooling2D(pool_size=(2, 2))(x)

# Layer 3
x = Conv2D(128, (3,3), strides=(1,1), padding='same', name='conv_3', use_bias=False)(x)
x = BatchNormalization(name='norm_3')(x)
x = LeakyReLU(alpha=0.1)(x)



### Ahora creamos la red de detección

In [None]:
input_image     = Input(shape=(self.input_size, self.input_size, 3))
self.true_boxes = Input(shape=(1, 1, 1, max_box_per_image , 4))  
 
self.feature_extractor = FullYoloFeature(self.input_size)
 
print(self.feature_extractor.get_output_shape())    
self.grid_h, self.grid_w = self.feature_extractor.get_output_shape()        
features = self.feature_extractor.extract(input_image)            
 
# make the object detection layer
output = Conv2D(self.nb_box * (4 + 1 + self.nb_class), 
         (1,1), strides=(1,1), 
         padding='same', 
         name='DetectionLayer', 
         kernel_initializer='lecun_normal')(features)
output = Reshape((self.grid_h, self.grid_w, self.nb_box, 4 + 1 + self.nb_class))(output)
output = Lambda(lambda args: args[0])([output, self.true_boxes])
 
self.model = Model([input_image, self.true_boxes], output)

En total, la red YOLO crea una grilla de 13×13 y en cada una realizará 10 predicciones, lo que da un total de 8450 posibles detecciones para cada clase, cada una con la clase y sus posiciones x,y ancho y alto.

## ENTRENAMOS LA RED NEURONAL con YOLO

In [None]:
yolo = YOLO(input_size          = tamanio, 
            labels              = labels, 
            max_box_per_image   = 10,
            anchors             = anchors)

## Probar la RED

Para finalizar, podemos probar la red con imágenes nuevas, distintas que no ha visto nunca, veamos cómo se comporta la red!

In [None]:
def draw_boxes(image, boxes, labels):
    image_h, image_w, _ = image.shape
 
    for box in boxes:
        xmin = int(box.xmin*image_w)
        ymin = int(box.ymin*image_h)
        xmax = int(box.xmax*image_w)
        ymax = int(box.ymax*image_h)
 
        cv2.rectangle(image, (xmin,ymin), (xmax,ymax), (0,255,0), 3)
        cv2.putText(image, 
                    labels[box.get_label()] + ' ' + str(box.get_score()), 
                    (xmin, ymin - 13), 
                    cv2.FONT_HERSHEY_SIMPLEX, 
                    1e-3 * image_h, 
                    (0,255,0), 2)
        
    return image  