# TreeStructure DS creation

## A single feature generation

Usiamo una rappresentazione array per generare il dataset ad albero.

Le grandezze usate nella generazione sono:

* $Bf$: branching factor. Per un albero binario è costante e uguale a $2$;
* $D$: numero di livelli. Se l'albero ha D = 4 livelli, questi vengono indicizzati partendo da $0$ (root) a $D-1$ (leaves);
* $N = Bf^{D} - 1$: nodi totali nell'albero;
* $n = Bf^{D-1} - 1$: nodi che sono figlie;
* $P = Bf^{D-1}$: nodi che sono foglie;
* $M$: arbitrario e indipendente, è il numero di features per ogni esempio.

Qui semplicemente generiamo un solo vettore (serie di _leaves_), quindi serve una sola soglia probabilistica. 
Successivamente si ripete la stessa cosa per tutte le features desiderate. Infatti, il procedimento illustrato è finalizzato alla creazione di **una** feature: le _leaves_ (in numero $Bf^{D-1}$) sono la tante quanti i training examples. La foglia indicizzata con `0` (la prima entrata del vettore `tree` generato) è la prima feature `0` del primo vettore $\mathbf{y}^{0}$, la seconda foglia di `tree` è la prima feature del secondo vettore $\mathbf{y}^{1}$. 

Il numero di foglie $P$ è uguale al vettore di training examples. Il numero di features $M$ è arbitrario e non dipende dalle caratteristiche dell'albero.


Ref: [BinaryTrees on OpenDataStructures](https://opendatastructures.org/versions/edition-0.1d/ods-java/node52.html "Questo sarebbe per Java, e anche più completo")

In [None]:
"""Generazione di UNA feature per tutti i training examples

   Debug version --- troppi print"""


import numpy as np
from numpy import random

Bf = 2
D  = 4
N  = Bf**(D) - 1
print('Nodi totali N = ',N)
n  = Bf**(D-1) -1
print('Nodi escluse le foglie n = ',n)

tree = np.zeros(N)
outcomes = [-1,1]
e = random.rand()
print('Soglia probabilistica e = ',e)
tree[0] = outcomes[random.randint(0,2)]
print('Root = ',tree[0]); print(' ')


for i in range(n):
    print('Nodo ',i)
    p = random.rand()
    print('Probabilità di flip p = ',p)
    if p < e:
        tree[2*i + 1] = tree[i]
        print('Nodo ',2*i+1,' = ',tree[2*i+1])
    else:
        tree[2*i + 1] = (-1.0)*tree[i]
        print('Nodo ',2*i+1,' = ',tree[2*i+1])
    #end
    p = random.rand()
    print('Probabilità di flip p = ',p)
    if p < e:
        tree[2*i + 2] = tree[i]
        print('Nodo ',2*i+2,' = ',tree[2*i+2])
    else:
        tree[2*i + 2] = (-1.0)*tree[i]
        print('Nodo ',2*i+2,' = ',tree[2*i+2])
    #end
    print(' ')
#end

tree

## DataSet Spawn

Questo procedimento si ripete tante volte quante sono le features che vogliamo per ogni training example. Quindi lo ripetiamo $M$ volte, quindi ogni volta che ripetiamo dobbiamo generare una nuova soglia probabilistica $\epsilon$ rispetto alla quale confrontare la probabilità di flip per ogni nodo del quale vogliamo generare i children.

Inoltre è anche necessario generare ogni volta un nuovo valore della variabile casuale del nodo `root`.

In [99]:
import numpy as np
from numpy import random

Bf = 2
D  = 4
N  = Bf**(D) - 1
n  = Bf**(D-1) -1
P  = Bf**(D-1)
M = 4

tree = np.zeros(N)
outcomes = [-1,1]
Y = np.zeros((M,P))


for m in range(M):
    
    e = random.rand()
    tree[0] = outcomes[random.randint(0,2)]
    
    for i in range(n):
        
        p = random.rand()
        if p < e:
            tree[2*i + 1] = tree[i]
        else:
            tree[2*i + 1] = (-1.0)*tree[i]
        #end
        p = random.rand()
        if p < e:
            tree[2*i + 2] = tree[i]
        else:
            tree[2*i + 2] = (-1.0)*tree[i]
        #end
    #end
    Y[m,:] = tree[n:]
#end


Y

array([[-1., -1., -1., -1., -1., -1., -1., -1.],
       [-1.,  1., -1.,  1.,  1., -1., -1., -1.],
       [-1.,  1., -1., -1., -1., -1.,  1., -1.],
       [ 1.,  1.,  1.,  1., -1.,  1.,  1.,  1.]])

## Test shell
Some useful Python caveats that you should bear in mind

In [91]:
k = [i for i in range(N)]

#print(min(range(10)))
#print(max(range(10)))

outcomes = [-1,1]
e = [outcomes[np.random.randint(0,2)] for i in range(10)]
e

uniSamples = [np.random.rand() for i in range(10)]
uniSamples

tree = np.zeros(10)
tree = [np.random.rand() for i in range(10)]
#print(tree)
#print(tree[0])
#print(tree[9])

sample0 = [i for i in range(10)]
print(sample0)
print(sample[5:]) # quindi vuol dire [n:] : tutti gli i >= n, quindi posizione n inclusa

Y = np.zeros((4,4))
print(Y)
for i in range(4):
    print('iter ',i)
    sample = np.random.randint(1,10,size=10)
    print(sample)
    Y[i,:] = sample[6:]
#end
print(' ')
print(Y)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[8 8 8 8 4]
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
iter  0
[5 3 2 8 2 1 4 3 8 7]
iter  1
[6 3 9 1 6 7 6 5 2 7]
iter  2
[1 2 5 3 2 3 3 1 3 8]
iter  3
[8 4 2 2 1 5 3 9 9 1]
 
[[4. 3. 8. 7.]
 [6. 5. 2. 7.]
 [3. 1. 3. 8.]
 [3. 9. 9. 1.]]
