# Laboratoire 1 : Extraction de primitives
#### D√©partement du g√©nie logiciel et des technologies de l‚Äôinformation

| √âtudiants             | Ahmad Al-Taher - ALTA22109307                           |
|                       | Jean-Philippe Decoste - DECJ19059105                    |
|-----------------------|---------------------------------------------------------|
| Cours                 | GTI770 - Syst√®mes intelligents et apprentissage machine |
| Session               | Automne 2018                                            |
| Groupe                | 2                                                       |
| Num√©ro du laboratoire | 01                                                      |
| Professeur            | Herv√© Lombaert                                          |
| Charg√© de laboratoire | Pierre-Luc Delisle                                      |
| Date                  | 10 oct 2018                                             |

In [26]:
import math

import cv2 as cv
import graphviz
import matplotlib.pyplot as plt
import numpy as np
from scipy.misc import face, imread, imshow
from skimage import img_as_ubyte
from skimage.color import rgb2gray
from skimage.filters import threshold_otsu
from sklearn import preprocessing, tree
from sklearn.datasets import load_iris

In [18]:
class Image:
    def __init__(self, path, label, answer):
        """
             The only construct is to build an object type image that has all the elements required to make a decision weather it is
             a smooth or spiral galaxy
             
             Args:
                 self : refers to the class
                 path : Where the image is stored
                 label : The image name 
                 answer : The final answer (smooth or spiral). This is the answer from the data set. 
                          It is used to verify after making a decision. 
                          
              Returns:
                  An Image object with the image manipulations
         """
        self.Path = path
        self.Label = label
        self.Answer = answer
        self.Image = cv.imread(path)
        self.Pixels = np.array(self.Image)
        self.Width = self.Pixels.shape[0]
        self.Height = self.Pixels.shape[1]
        #we will always use the cropped image
        #default crop is 250
        #self.crop(self.Width) #no crop
        self.crop(200)

        #useful image manipulations
        self.manipulations()

        #default computations
        self.ComputeCircularity()
        self.computeBlackWhite()
        self.ComputeConvexity()
        self.ComputeBoundingRectangleToFillFactor()

        #plt.imshow(self.Image),plt.title('ORIGINAL')
        #plt.show()
        #cv.imshow('gray_image', self.remove_starlight()) 
        #plt.imshow(self.remove_starlight()),plt.title('GRAYSCALE')
        #plt.show()
        
    def manipulations(self):
        """
        This method is used to apply all the images manipulation on the image. Such as grayscale.
        Cropped image is the default image used 
        
        Args:
            self: refers to the class
        """
        #remove noise by blurring with a Gaussian filter
        self.CroppedPixels = cv.GaussianBlur(self.CroppedPixels,(3,3), 0)

        #convert to grayscale
        self.GrayScale = cv.cvtColor(self.CroppedPixels, cv.COLOR_BGR2GRAY)
        """remove background noise
        #the result is worst with laplacian
        #laplacian = cv.Laplacian(self._GrayScale, cv.CV_16S, 3)
        #laplacian = cv.convertScaleAbs(laplacian)
        #self._GrayScale = self._GrayScale - laplacian 
        """
        self.Threshold = threshold_otsu(self.GrayScale)
        self.Binary = self.GrayScale > self.Threshold
    
    def crop(self, dimentions):
        """
        This method is used to apply a crop to the image. Since the image is squared only on parameter is required 
        
        Args:
            dimentions: refers the final demention of the image. Such as the final image would have
                        dimentions*dimentions. Ex: dimentions=250 the image will be 250x250
        """
        # dimention is the width and Height to crop to. Since it is a square.
        upper_width = int(self.Width/2 + dimentions/2)
        lower_width = int(self.Width/2 - dimentions/2)
        upper_height = int(self.Height/2 + dimentions/2)
        lower_height = int(self.Height/2 - dimentions/2)
        #new array of the image
        self.CroppedPixels = self.Pixels[lower_width:upper_width, lower_height:upper_height]

    #All manipulations
    def remove_starlight(self):
        """ Removes the star light in images.

        Calclates the median in color and gray scale image to clean the image's background.

        Args:
             image_color: an OpenCV standard color image format.
             image_gray: an OpenCV standard gray scale image format.

        Returns:
            An image cleaned from star light.
        """
        t = np.max(np.median(self.Image[np.nonzero(cv.cvtColor(self.Pixels, cv.COLOR_BGR2GRAY))], axis=0))
        self.Image[self.Image < t] = t

        #return self.rescale(self.Image).astype("uint8")
        return self.rescale(self.Image)
        #return self.Image
    
    def rescale(self, image, min=20, max=255):
        """ Rescale the colors of an image.

        Utility method to rescale colors from an image. 

        Args: 
            image: an OpenCV standard image format.
            min: The minimum color value [0, 255] range.
            max: The maximum color value [0, 255] range.
        
        Returns:
            The image with rescaled colors.
        """
        image = image.astype('float')
        image -= image.min()
        image /= image.max()
        image = image * (max - min) + min

        return image
    
    def computeBlackWhite(self):
        """
        This method is used to compute the black and white ratio.
        The formula is blacks / whites
        
        Args:
            self: refers to the class
        """
        self.Black = 0
        self.White = 0
        self.BlackWhiteRatio = 0
        #compute the # of black and the # of whites
        for row in self.Binary:
            for pixel in row:
                if(pixel):
                    self.White += 1
                else:
                    self.Black += 1
        #compute the B/W ratio
        if self.Black > 0 and self.White > 0 :
            self.BlackWhiteRatio = self.Black / self.White
        else:
            self.BlackWhiteRatio = self.White / self.Black
        
    def ComputeCircularity(self):
        """
        This method is used to compute the circularity of the galaxy.
        The formula used is : ùê∂ = 4 ‚àó ùúã ‚àó ùê¥/ùëÉ2
        
        Args:
            self: refers to the class
         """
        #example from openCV documentation
        
        #thresh = cv.adaptiveThreshold(self.GrayScale, 100, cv.ADAPTIVE_THRESH_GAUSSIAN_C, cv.THRESH_BINARY, 501, 0)
        ret, thresh = cv.threshold(self.GrayScale, self.Threshold, 127, 0)
        img, contours, hierarchy = cv.findContours(thresh, 1 ,2)
        self.cnt = contours[0]
        #cv.imshow('img', img)
        
        self.area = cv.contourArea(self.cnt)
        self.perimeter = cv.arcLength(self.cnt,True)
        #circularity
        self.C = 0
        if self.area > 0 and self.perimeter > 0 :
            self.FormFactor = self.area/ math.pow(self.perimeter,2)
            self.C = 4 * math.pi * self.FormFactor 
    
    def ComputeConvexity(self):
        """
        This method is used to compute the convexity of the galaxy.
        The formula used is : ùê∂ = P / (2W + 2H)
        where P is the perimeter
        W is the width of the bounding rectangle
        H is the height of the bounding rectangle
        
        Args:
            self: refers to the class
         """
        x,y,w,h = cv.boundingRect(self.cnt)
        self.Convexity = self.perimeter / (2*w+2*h)

    def ComputeBoundingRectangleToFillFactor(self):
        """
        This method is used to compute the bounding rectangle to fill factor.
        The formula used is : B = A / (W*H)
        Where is A is the area of the shape
        W*H is the area of the bounding rectangle
        Args:
            self: refers to the class
         """
        x, y, w, h = cv.boundingRect(self.cnt)
        self.B = self.area / (w*h)
                

In [39]:
def loadAllImages(dataPath, imageFolderPath):
    """
    This method is used to al the images from the data set.
    
    Args:
        dataPath: the dataset file path
        imageFolderPath: the image dataset folder path
    """
    dataFile = open(dataPath, 'r') # option r veut dire read
    
    #index is used to load a define number of images.
    index = 1
    #Skip header
    next(dataFile)
    
    for line in dataFile:
        texts = line.split(",")
        imageName = texts[0]
        shape = str(texts[1])
        imagePath = imageFolderPath +"\\"+str(imageName)+'.jpg'
        
        if index % 3 != 2:
            trainDataSet.append(Image(imagePath,imageName,shape))
            index += 1
        else:
            testDataSet.append(Image(imagePath,imageName,shape))
            index += 1

    dataFile.close()
    
def traceGraph(feature1x, feature1y, feature1Name, feature2x, feature2y, feature2Name, xlabel, ylabel):
    """
    This method is used to out a 2D graph with the selected features

    Args:
        feature1x : The feature 1 x array. It will be used for the first data set shown in the graph. 
        feature1y : The feature 1 y array. It will be used for the first data set shown in the graph.
        feature1Name : The feature 1 dataset name. It will be used for the first data set shown in the graph.
        feature2x : The feature 2 x array. It will be used for the first data set shown in the graph.
        feature2y : The feature 2yx array. It will be used for the first data set shown in the graph.
        feature2Name : The feature 2 dataset name. It will be used for the first data set shown in the graph.
        xlabel : the label shown on the x axis.
        ylabel: the label shown on the y axis:
     """
    #fig = plt.figure()
    #ax1 = fig.add_subplot()
    plt.grid(True)
    plt.scatter(feature1x, feature1y, s=10, c='b', marker="s", label=feature1Name)
    plt.scatter(feature2x, feature2y, s=10, c='r', marker="o", label=feature2Name)
    plt.ylabel(xlabel)
    plt.xlabel(ylabel)
    plt.legend(loc='upper left')
    plt.show()

def buildTree(trainArray, trainArraylabels):
    """
    This method is used to build the decision tree and how the graph associated with it.
    fit(x,y) takes two arrays:
    X, sparse or dense, of size [n_samples, n_features] holding the training samples, and an array 
            ex: [[0, 0], [1, 1]]
    Y of integer values, size [n_samples], holding the class labels 
            ex : [0, 1]
    
    Since out Y array is not numerical we are using preprocessing from sklearn to transform them
    Args:
        trainArray: the array containing all the features. It will be used as the X
        trainArraylabels: the array containing all the labels. It will be used as the Y
    """
    TREE_DEPTH = 10
    
    #Encode label as 0 and 1 (respectively)
    le = preprocessing.LabelEncoder()
    le.fit(trainArraylabels)
    y = le.transform(trainArraylabels)
    #print(trainArraylabels)
    #print(y)

    #Build the tree
    clf = tree.DecisionTreeClassifier(max_depth = TREE_DEPTH)
    clf = clf.fit(trainArray, y)

    #Create graph. If executed localy, need to install Graphviz and set its \bin folder to System PATH
    dot_data = tree.export_graphviz(clf, out_file=None) 
    graph = graphviz.Source(dot_data) 
    graph.render("Galaxy")

    #Return the tree for testing later
    return clf 
    

In [1]:
#sepration 70%-30% of the data set
trainDataSet = []
testDataSet = []

#loadAllImages(r"data\csv\galaxy\galaxy_label_data_set_test.csv", r"data\images") #test
loadAllImages(r"data\csv\galaxy\galaxy_label_data_set.csv", r"data\images") #prod

#B/W ratio
feature1x = []
feature1y = []
#circularity
feature2x = []
feature2y = []
#convexity
feature3x = []
feature3y = []
#Bounding factor
feature4x = []
feature4y = []

trainArray= []
trainArraylabels = []
for ig in trainDataSet:
    #print(ig.Answer, str(ig.BlackWhiteRatio), str(ig.C), str(ig.Convexity), str(ig.B), sep=' -- ')
    trainArray.append([ig.BlackWhiteRatio, ig.C, ig.Convexity, ig.B])
    trainArraylabels.append(ig.Answer)

    if "smooth" in ig.Answer:
        feature1x.append(ig.BlackWhiteRatio)    #BW ratio
        feature1y.append(ig.C)                  #Circularity
        feature3x.append(ig.Convexity)          #Convexity
        feature3y.append(ig.B)                  #Bounding rect fill factor
    else:
        feature2x.append(ig.BlackWhiteRatio)    #BW ratio
        feature2y.append(ig.C)                  #Circularity
        feature4x.append(ig.Convexity)          #Convexity
        feature4y.append(ig.B)                  #Bounding rect fill factor

traceGraph(feature1x, feature1y, "smooth", feature2x, feature2y, "spiral", "Black/White ratio", "Bounding ratio")
traceGraph(feature3x, feature3y, "smooth", feature4x, feature4y, "spiral", "Convexity", "Circularity")

theTree = buildTree(trainArray, trainArraylabels)

#Testing part
success_percent = 0
testArray = []
testArraylabels = []
for ig in testDataSet:
    testArray.append([ig.BlackWhiteRatio, ig.C, ig.Convexity, ig.B])
    testArraylabels.append(ig.Answer)


predictions = theTree.predict(testArray)
#print(predictions)
#print(testDataSet)

index = 0
for prediction in predictions:
    print(prediction, testArraylabels[index], sep=' -- ')
    if prediction == 0 and "smooth" in testArraylabels[index]:
        success_percent += 1
    elif prediction == 1 and "spiral" in testArraylabels[index]:
        success_percent += 1
    index += 1

print(str(success_percent) + "/" + str(len(testDataSet)))

IndentationError: unexpected indent (<ipython-input-1-54b1f21a88b9>, line 2)

### Introduction et revue de la litt√©rature

Dans le cadre de ce laboratoire, il est question d'utiliser un arbre de d√©cision pour classer des images de galaxie selon des primitives extraites de ceux-ci. Plusieurs documents sont fournis afin de guider le choix des primitives. Par exemple, le document 'Morphological classification of galaxies into spirals and non-spirals' passe en revue diff√©rentes m√©thodes d'extraction de primitives dans le contexte demand√©. Il explique sa th√®se, comment il a extrait les primitives et les r√©sultats de ceux-ci.

Ce document, ainsi que quelques autres dans le dossier fourni, combin√© avec les recherches sur les primitives lors de la premi√®re s√©ance de laboratoire ont beaucoup aid√© dans le choix des primitives qui seront utilis√©es. Il y en a environ 7 qui sont int√©ressantes et tr√®s bien pr√©senter, qui feront possiblement, part de l'impl√©mentation finale.

Donc, pendant la lecture de ce rapport, vous en apprendrez davantage sur l'utilisation des primitives, quelques erreurs √† ne pas commettre et vous d√©couvrirez les r√©sultats que l'impl√©mentation finale obtient. Tout cela parmi les 5 questions suivantes. 

### Question 2

<i>Expliquer le choix des primitives. Quelle d√©marche avez-vous suivie afin d‚Äôeffectuer
votre choix de primitives? Sur quelles sources vous √™tes-vous bas√©es afin d‚Äô√©tablir
votre choix de primitives?</i>

Afin de compl√©ter l'algorithme de classification, il a √©t√© n√©cessaire de prendre le temps d'observer les images du dossier fournit pour en extraire les meilleures primitives possibles. Quatres ont √©t√© s√©lectionn√©es:
1. Le ratio de pixel blanc versus pixel noir
2. Le degr√© de circularit√©
3. Le degr√© de convexit√©
4. Taille du rectangle trac√© autour de la forme

Pourquoi ce choix? Eh bien, au d√©part il y en avait environ 7 dans la liste. Apr√®s observation du dossier image fournit, la consultation du document intitul√© : <i>Morphological classification of galaxies into spirals and non-spirals.pdf</i> et quelques tests d'ex√©cution, cette m√™me liste √† r√©duite aux quatres mentionn√©es ci-dessus. 

Le facteur le plus important, qui a entrain√© la r√©duction de la liste, est l'√©valuation du pouvoir discriminant. Seulement avec ces quatres primitives, l'algorithme trouve de tr√®s bon r√©sultats.

### Question 3

<b><i>√Ä l‚Äôaide de graphiques g√©n√©r√©s par votre script, expliquez l‚Äôefficacit√© de deux primitives
qui permettent de distinguer le mieux possible les classes du probl√®me.</i></b>

Selon les test pr√©liminaires, les primitives qui offraient le meilleur pouvoir discriminant sont: le ratio de pixel blanc et noir et le degr√© de circularit√©. Cependant, une erreur s‚Äôest gliss√© lors de l‚Äôex√©cution de ces tests qui a eu pour effet de r√©duire consid√©rablement leur pouvoir discriminant. 

Voici les deux graphiques g√©n√©r√© √† l‚Äôaide de 1000 images:

![bw_bratio.png](attachment:bw_bratio.png)![convex_circur.png](attachment:convex_circur.png)

### Question 4

<i><b>√Ä la suite de votre impl√©mentation de l‚Äôarbre de d√©cision, expliquer pour quelles raisons
votre arbre de d√©cision donne un tel score de pr√©cision. Qu‚Äôa fait la variable max_depth
sur les performances de classification?</b></i>

Ce qui fait la force d'un arbre de d√©cision c'est bien s√ªr, le caract√®re unique des variables selon la situation. Donc, les raisons qui font en sorte que l'arbre de d√©cision √† un tel score de pr√©cision sont: Une bonne analyse pr√©liminaire du probl√®me propos√©, une lecture attentive des documents fournis et, sans oublier, le pouvoir discriminant des primitives s√©lectionn√©es.

La variable max_depth permet de limiter le nombre de d√©cision effectu√© par l‚Äôarbre. Par contre, selon les tests effectu√©s, elle a peu d‚Äôeffet sur les performances de classification. Le tableau suivant montre les taux de succ√®s pour les diff√©rentes valeurs de max_depth. 

<table>
    <tr>
        <th>Valeur de max_depth</th>
        <th>Taux de succ√®s</th>
    </tr>    
    <tr>
        <td>3</td>
        <td>49.05 %</td>
    </tr>
    <tr>
        <td>5</td>
        <td>50.01 %</td>
    </tr>
    <tr>
        <td>8</td>
        <td>56.45 %</td>
    </tr>
    <tr>
        <td>10</td>
        <td>56.45 %</td>
    </tr>
</table> 

### Question 5

<i><b>Quelle autre primitive aurait √©galement pu √™tre ajout√©e afin d‚Äôam√©liorer le pouvoir
discriminant ou la performance de r√©gression des probabilit√©s?</b></i>

D‚Äôautres primitives auraient pu am√©liorer le pourcentage de r√©ussite. Par exemple, la forme de l‚Äôangle de l'ellipse peut donner une autre information associ√©e √† la forme de la figure qui est diff√©rente de la circularit√©. Dans le m√™me ordre d‚Äôid√©e, le ratio de la hauteur et largeur de l'ellipse peut donner un meilleur ratio que la convexit√©.

√âtant donn√© que les primitives utilis√©es sont bas√©es sur la forme, il aurait √©t√© possible d‚Äôajouter des primitives bas√©es sur les pixels. Le document utilis√© discute diff√©rentes primitives qui sont bas√©es sur les pixels. Par exemple, la valeur maximale des couleurs rouges et bleues dans l‚Äôimage ou bien le ratio de l‚Äôintensit√© des couleurs bleues et rouges.


### Conclusion

En conclusion, la lecture du document produit par Devendra Singh Dhami a beaucoup aid√© √† faire le laboratoire. Plusieurs primitives sont s√©lectionn√©es √† l‚Äôaide √† sa recherche. Pour r√©soudre le probl√®me les primitives de circularit√©, convexit√©, le ratio de noir et blanc et le facteur de remplissage du rectangle de contour sont choisis. Enfin, un arbre de d√©cision est construit pour classifier les nouveaux r√©sultats. La m√©thode de test est de diviser les donn√©es en 70% pour entra√Æner et 30% pour tester.

Pendant ce laboratoire, les premi√®res primitives choisies n‚Äô√©taient pas tr√®s parlantes. Par cons√©quent, il √©tait plus difficile de prendre une bonne d√©cision qui est probl√©matique. Ainsi, d‚Äôautres primitives sont ajout√©es afin d‚Äôam√©liorer la prise de d√©cision. Malgr√© les efforts ajout√©s, les r√©sultats ne sont pas optimums. Le meilleur r√©sultat obtenu est de 56.45% avec une profondeur de l‚Äôarbre de 10.

Des am√©liorations peuvent facilement √™tre ajout√©es. Les primitives sont bas√©es sur la forme de la galaxie. D‚Äôautres primitives bas√©es sur les pixels peuvent √™tre utilis√©es. Par exemple, les couleurs des pixels et des ratios associ√©s √† ceux-ci peuvent ajouter d‚Äôautres informations tr√®s utiles pour prendre une d√©cision. L‚Äôassociation des primitives bas√©es sur la forme et des primitives bas√©es sur les pixels semble √™tre la meilleure combinaison pour avoir un tr√®s grand pourcentage de r√©ussite.

### Bibliographie

<b>Site web:</b>
- https://docs.opencv.org/3.4.2/dd/d49/tutorial_py_contour_features.html
- http://scikit-learn.org/stable/modules/tree.html
- https://www.anaconda.com/
- https://pythonprogramming.net/thresholding-image-analysis-python-opencv-tutorial/
- 
    
<b>Documentation:</b>
- Morphological classification of galaxies into spirals and non-spirals.pdf
- Galaxy Morphology Classification.pdf
- Anaconda Cheatsheet.pdf