# TreeStructure DS creation

![BinaryTree](tree.png)

#### Example

0. : _si muove?_
1. : _nuota?_
2. : _corteccia?_
3. : _mammifero?_
4. : _vertebrato?_
5. : _conifera?_
6. : _petali?_
7. : Balena
8. : Salmone
9. : Cane
10. : Farfalla
11. : Larice
12. : Betulla
13. : Rosa
14. : Gramigna

Quindi un _pattern_ è dato dalla raccolta di **tutti** i valori della v.c. binaria presso tutti i nodi dell'albero, cioè le _features_. Come esempio molto semplice, si associano ai nodi **non foglie** delle regole decisionali, mentre ai restanti si associa un elemento di una categoria. Questo modello è _molto_ approssimativo in quanto una struttura più complessa dell'albero (diramazione non constante, struttura non perfetta e completa) dovrebbe essere usata.

Nel codice seguente le scelte fatte nella generazione dei data item sono:

0. La soglia probabilistica $\epsilon$ viene stabilita a priori, di piccolo valore
1. Il nodo root è una vc che assume i valori $\pm 1$ con $p = 0.5$
2. I children del nodo root assumono il valore $+1$ o $-1$ in modo mutuamente esclusivo, quale dei due eredita il valore positivo viene deciso in base all'estrazione di un campione $p \sim U([0,1])$: il primo child riceve il valore $+1$ con probabilità $p = 0.5$
3. Dal terzo livello (i primi nipoti del nodo root), tutta la progenie del child di root che ha assunto valore $-1$ deve altrettanto assumere il valore $-1$, quindi scorrendo sui nodi di tutti i livelli, il flip di valore viene preso in considerazione solo nel momento in cui il nodo in esame ha valore $1$. Questo garantisce che l'item finale (raccolta di tutti i valori presso tutti i nodi) possa essere univocamente identificato.

Nella seconda cella di codice, la variabile `lev` identifica il livello del quale considerare i nodi. Ad esempio, anche in riferimento alla Figura sopra, `lev = 3` stabilisce che la granulometria del data set sia quella di cui il livello terminale, quindi le leaves. Quindi il sistema di apprendimento successivamente impiegato impara a riconoscere le distinzioni più fine.

Importante notare che questa distinzione si fa considerando **tutti i nodi FINO** a quelli di cui il livello selezionato, quindi tutta la genealogia dei nodi del livello scelto deve essere uguale affinché due pattern appartengano alla stessa classe. Se, al contrario, considerassimo solo nodi di un certo livello, data l'estrazione aleatoria del valore di root e del passaggio del valore $+1$ ai primi due children, potremmo avere che due pattern appartengono alla stessa classe, secondo i nodi del livello scelto, ma avere valore opposto del nodo root, il che vorrebbe dire che _una pianta può nuotare/volare_.
 
Maggiore è il livello, maggiore è il numero di categorie.

In [1]:
import numpy as np
from numpy import random


class BinaryTreeDataSet:
    
    def __init__(self,Bf,D,M):
                              # Bf : branching factor
                              # D : livelli dell'albero
        self.N = Bf**(D) - 1  # tutti i nodi
        self.n = Bf**(D-1) -1 # tutti i nodi NON foglie
        self.P = Bf**(D-1)    # tutti i nodi foglie
        self.M = M            # quanti pattern (data items)
        
        print('\nTree characts:\n')
        print('   Nodes (feats) : N = ',self.N)
        print('Nodes NOT leaves : n = ',self.n)
        print('    Nodes leaves : P = ',self.P)
        print('        Patterns : M = ',self.M)
    #end

    def patternGenerator(self):
        
        N = self.N
        n = self.n
    
        tree = np.zeros(N)
        outcomes = [-1,1]
        e = 0.5
        tree[0] = outcomes[random.randint(0,2)]
        
        p = random.rand()
        if (p >= 0.5):
            tree[1] = tree[0]
            tree[2] = (-1.) * tree[0]
        else: 
            tree[1] = (-1.) * tree[0]
            tree[2] = tree[0]
        #endif
        
        for k in range(1,n):
            if (tree[k] == 1):
                p = random.rand()
                if (p > e):
                    tree[2*k + 1] = tree[k]
                    tree[2*k + 2] = (-1.) * tree[k]
                else:
                    tree[2*k + 1] = (-1.) * tree[k]
                    tree[2*k + 2] = tree[k]
                #endif
            else:
                tree[2*k + 1] = -1
                tree[2*k + 2] = -1
            #endif
        #enddo
        
        return tree
    #end


    def dataSetGenerator(self):
        
        #print('in dataset generator')
        N = self.N; M = self.M
        Y = np.zeros((M,N))
        
        for m in range(M):
            Y[m,:] = self.patternGenerator()
        #end
        
        return Y
    #end
    
#end

In [2]:
%%time

Bf = 2
D = 10
M = 2000

treeData = BinaryTreeDataSet(Bf,D,M)
X = treeData.dataSetGenerator()
print("\n",type(X),"\n",X)

lev = 1

Y = np.eye(X.shape[0])
print("DataSet: {} data entry having {} features each\n".format(X.shape[0], X.shape[1]))

def view1D(a): # a is array
    a = np.ascontiguousarray(a)
    void_dt = np.dtype((np.void, a.dtype.itemsize * a.shape[1]))
    return a.view(void_dt).ravel()
#enddef

# Get 1D view
uppBound = Bf**(lev + 1) - 2

X_ = X[:, : uppBound + 1]
a1D = view1D(X_)

# Perform broadcasting to get outer equality match
mask = a1D[:,None]==a1D

# Get indices of pairwise matches
n = len(mask)
mask[np.tri(n, dtype=bool)] = 0
idx = np.argwhere(mask)

# Run loop to assign equal rows in Y
for (i,j) in zip(idx[:,0],idx[:,1]):
    Y[j] = Y[i]
#enddo

check = np.zeros(Y.shape[0])
listZeroCol = []
listNoZeroCol = []
for i in range(Y.shape[1]):
    if (np.all( (Y[:,i] == check), axis = 0)):
        #print(i)
        listZeroCol.append(i)
    #endif
#enddo

listNoZeroCol = [i for i in range(Y.shape[1]) if i not in listZeroCol]
Y = Y[:,listNoZeroCol]

print(Y.shape," quindi il numero di classi diverse è {}".format(Y.shape[1]))
print(" ")
print(X)
print(" ")
print(Y)
print(" ")



Tree characts:

   Nodes (feats) : N =  1023
Nodes NOT leaves : n =  511
    Nodes leaves : P =  512
        Patterns : M =  2000

 <class 'numpy.ndarray'> 
 [[ 1.  1. -1. ... -1. -1. -1.]
 [ 1. -1.  1. ... -1. -1. -1.]
 [ 1. -1.  1. ... -1. -1. -1.]
 ...
 [ 1. -1.  1. ... -1. -1. -1.]
 [-1.  1. -1. ... -1. -1. -1.]
 [ 1. -1.  1. ... -1. -1. -1.]]
DataSet: 2000 data entry having 1023 features each

(2000, 4)  quindi il numero di classi diverse è 4
 
[[ 1.  1. -1. ... -1. -1. -1.]
 [ 1. -1.  1. ... -1. -1. -1.]
 [ 1. -1.  1. ... -1. -1. -1.]
 ...
 [ 1. -1.  1. ... -1. -1. -1.]
 [-1.  1. -1. ... -1. -1. -1.]
 [ 1. -1.  1. ... -1. -1. -1.]]
 
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 1. 0. 0.]
 ...
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]
 [0. 1. 0. 0.]]
 
Wall time: 10.7 s


# Neural Network model

In [5]:
# DataSet import
from math import floor

import keras
from keras.models import Sequential
from keras.layers import Dense,Dropout
from keras.layers.normalization import BatchNormalization
from keras.utils import np_utils, plot_model
from keras.callbacks import EarlyStopping
from keras.regularizers import l1
from keras.initializers import RandomNormal, Orthogonal

# note: RandomNormal(mean = 0.0, stddev = 0.05, seed = None)
#       Orthogonal(gain = 1.0, seed = None)

from sklearn.metrics import balanced_accuracy_score, accuracy_score
from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(color_codes = True)

from scipy import stats

Using TensorFlow backend.


In [16]:

print(type(X)," Dim: ",X.shape,"\n",X)
print(type(Y)," Dim: ",Y.shape,"\n",Y)
print("\n\n")

Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, Y, test_size = 0.3, random_state = 20)

print("X: train dims = {}, test dims = {}\n".format(Xtrain.shape, Xtest.shape))
print("Y: train dims = {}, test dims = {}\n".format(Ytrain.shape, Ytest.shape))

M = Xtrain.shape[1]
nCat = Ytrain.shape[1]

<class 'numpy.ndarray'>  Dim:  (2000, 1023) 
 [[ 1. -1.  1. ... -1. -1. -1.]
 [ 1. -1.  1. ... -1. -1. -1.]
 [-1. -1.  1. ... -1. -1. -1.]
 ...
 [-1.  1. -1. ... -1. -1. -1.]
 [-1. -1.  1. ... -1. -1. -1.]
 [ 1. -1.  1. ... -1. -1. -1.]]
<class 'numpy.ndarray'>  Dim:  (2000, 8) 
 [[1. 0. 0. ... 0. 0. 0.]
 [1. 0. 0. ... 0. 0. 0.]
 [1. 0. 0. ... 0. 0. 0.]
 ...
 [0. 1. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 1. 0. 0.]
 [1. 0. 0. ... 0. 0. 0.]]



X: train dims = (1400, 1023), test dims = (600, 1023)

Y: train dims = (1400, 8), test dims = (600, 8)



In [None]:
%%time
model = Sequential()

normal_init = RandomNormal(mean = 0.0, stddev = 0.05, seed = None)
#orth_init = Orthogonal(gain = 1.0, seed = None)

model.add(Dense(input_dim = M, units = 100,
                kernel_initializer = Orthogonal(gain = 1.5, seed = None),
                bias_initializer = RandomNormal(mean = 0.0, stddev = 0.1, seed = None),
                activation = 'relu'))
#model.add(Dropout(rate=0.3))
#model.add(Dense(units = 200,
#               kernel_initializer = Orthogonal(gain = 1.0, seed = None),
#               bias_initializer = RandomNormal(mean = 0.0, stddev = 0.1, seed = None),
#               activation = 'relu'))
#model.add(Dense(activation = 'relu', units = 100))
#model.add(Dense(activation = 'relu', units = 100))
#model.add(Dense(activation = 'relu', units = 80))
#model.add(Dense(activation = 'relu', units = 64))
model.add(Dense(units = nCat, activation = 'softmax'))

es1 = EarlyStopping(monitor='val_acc', mode='auto', patience = 30, verbose = 1)
es2 = EarlyStopping(monitor='val_loss', mode='auto',patience = 20, verbose = 1)

sgd = keras.optimizers.SGD(lr = 0.01, decay = 1e-6, momentum = 0.6, nesterov = True)
model.compile(loss = 'categorical_crossentropy', optimizer = sgd, metrics = ['accuracy'])

history = model.fit(Xtrain, Ytrain, validation_split = 0.1, epochs = 100, verbose = 0, callbacks = [es1,es2])


plt.figure(figsize=(18,6))
plt.subplot(1,2,1)
plt.plot(history.history['acc'])
plt.plot(history.history['val_acc'])
plt.title('Model accuracy')
plt.ylabel('Accuracy')
plt.xlabel('Epoch')
plt.legend(['Train', 'Validation'], loc='upper left')
#plt.show()

plt.subplot(1,2,2)
plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])
plt.title('Model loss')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend(['Train', 'Validation'], loc='upper left')
plt.show()


print("Model evaluation on test data: loss and accuracy\n",model.evaluate(Xtest,Ytest, verbose = 1))


### Fine level granulometry

Messo livello $L = 9$, quindi, avendo il tree 10 livelli, questa è la dinamica del learning per apprendimento del dettaglio più fine del data set, infatti è anche più dispendioso in termini di tempo.

```
Model evaluation on test data: loss and accuracy
 [0.6700157725811005, 0.9133333325386047]
Wall time: 1min 4s
```

![Level9](L9.png)

### Coarse level granulometry

Qui si considera il livello $L = 3$. Considerando un livello basso (più vicino al nodo `root`) si considerano **meno categorie**, infatti, come riportato nell'output della cella sopra, per la generazione di 1000 data items, tutte e sole le categorie che possono essere distinte considerando questo livello sono $8$. Si può vedere anche nell'illustrazione dell'albero binario, in quel caso quindi le distinzioni che per la quali si classifica un oggetto sono quelle di cui i nodi indicizzati da $i = 7, \dots, 14$. 

Il tempo di apprendimento beneficia della grossolanità della categorizzazione, sia per quanto riguarda il numero di epoche che il tempo wallclock. Come osservato in precedenti studi (Saxe et al., 2018), si nota che k'apprendimento delle distinzioni più generali, come in questo secondo caso, avvengono più rapidamente.

```
Model evaluation on test data: loss and accuracy
 [0.009505895928790172, 0.9983333333333333]
Wall time: 34.9 s
```

$\quad$
______

**Remark**: Si osservi che nel caso di $L = 9$, all'epoca 20 l'accuratezza sul validation set è oscillante intorno a $0.8$, mentre qui a 10 epoche è sul $0.95$ e a 20 epoche è prossima a $1.0$.

![Level 3](L3.png)

In [18]:
weights = np.asarray(model.get_weights())

In [None]:
fileID = open(r'C:\Users\Matteo\Desktop\MasterThesis\newThread\DS_model\weights_.pkl', 'wb')
pickle.dump(weights, fileID)
fileID.close()

In [None]:
fileID = open(r'C:\Users\Matteo\Desktop\MasterThesis\newThread\DS_model\weights_.pkl', 'rb')
weights = pickle.load(fileID)
fileID.close()

In [19]:
# weights is a 4 entry list.
# weights[0] is the  weights matrix of the input -> hidden layer
# weights[1] is the bias vector of the input -> hidden layer
# weights[2] is the  weights matrix of the hidden -> output layer
# weights[3] is the bias vector of the hidden -> output layer

weights = np.asarray(model.get_weights())


wghs1 = weights[0]
wghs1 = wghs1.flatten()
print(wghs1.shape)

bss1 = weights[1]
bss1 = bss1.flatten()
print(bss1.shape)

wghs2 = weights[2]
wghs2 = wghs2.flatten()
print(wghs2.shape)

bss2 = weights[3]
bss2 = bss2.flatten()
print(bss2.shape)

(102300,)
(100,)
(800,)
(8,)


In [None]:
plt.figure(figsize=(18,6))
plt.subplot(1,2,1)
sns.distplot(wghs1, rug = True, kde = True, norm_hist = True)
plt.xlabel("Weights values")
plt.ylabel("Frequency")

plt.subplot(1,2,2)
sns.distplot(bss1, rug = True, kde = True, norm_hist = True)
plt.xlabel("Biases values")
plt.ylabel("Frequency")
plt.show()

plt.figure(figsize=(18,6))
plt.subplot(1,2,1)
sns.distplot(wghs2, rug = True, kde = True, norm_hist = True)
plt.xlabel("Weights values")
plt.ylabel("Frequency")

plt.subplot(1,2,2)
sns.distplot(bss2, rug = True, kde = True, norm_hist = True)
plt.xlabel("Biases values")
plt.ylabel("Frequency")
plt.show()

### Fine level granulometry parameters distributions

![Parameters first layer](L9_wd_L1.png)

![Parameters second layer](L9_wd_L2.png)

### Coarse level granulometry parameters distributions

![Level 3 parameters layer 1](L3_wd_L1.png)

![Level 3 parameters layer 2](L3_wd_L2.png)

# SVClassifier