## SyntaxTreeIndex

Il s'agit d'une interface d'index qui offre des options de sélections avacées, basées sur un index hiérarchisé (cf. système de fichiers ou structure DOM d'une page)

Le TreeIndex est un arbre n-aire enraciné et ordonné et donc indexé suivant le parcours en largeur standard.

Un noeud feuille ou terminal, n'a pas de successeurs (noeuds dit 'enfants').

Un noeud interne ou parent est celui qui possède au moins un successeur.

Chaque noeud représente une sélection d'individus dans le jeu de données indexé.

Cette sélection peut être :
1. littérale (identifiants, cf. l'index de référence) et notamment constante,
2. ou abstraite
    - groupes des individus partageant telle ou telle caractéristique
    - vérifiable par un prédicat (cf. indexation boléenne)
    - formant un groupe variable au gré de la sélection courante d'un sous-ensemble des données

Les littéraux, à valeurs simples (scalaires) ou à valeurs multiples (composantes vectorielles) forment des ensembles concrets, et sont les terminaux du TreeIndex.

Les abstractions, les classes, à valeurs simples (caractéristique) ou à valeurs multiples (caractère comme conjonction de caractéristiques)

Une caractéristique (ou trait) est un prédicat vrai pour (que vérifie) chaque membre du sous-ensemble de l'ensemble N des individus d'une sélection. L'application du trait à un ensemble concret est une sélection d'un sous-ensemble des indidividus de cet ensemble.

Un caractère (ou profil) est une conjonction de caractéristiques (ou traits). Il définit le sous-ensemble intersection des ensembles d'individus partageant chacune de ces caractéristiques (features). C'est une structure intangible (un tuple). C'est un ensemble de prédicats à évaluer en terme de véracité.

Union : une disjonction de caractéristiques représente l'alternative, la possibilité d'une forme ou d'une autre.

La disjonction exclusive est le couple de deux caractéristiques dont l'une est vraie ssi l'autre est fausse.

Dans le cadre de la disjonction exclusive ('ou exclusif') deux caractéristiques A et B sont liées par la relation A ⇔ ㄱB 

D'une part, cela nous permet de définir une inversion et un élément neutre : AㄱB ⇔ ㄱAB ≣ 1.

D'autre part, cela nous donne accès à la logique formelle, l'algèbre booléenne, l'équivalence de formules, la réduction et normalisation de formules (de mémoire à vérifier, les formes de skolem) :
* A ⛒ B ≣ AㄱB + BㄱA
* A ⇒ B ≣ ㄱA + B
* A ⇔ B ≣ (A ⇒ B)(B ⇒ A)
* (A ≣ B) ≣ (B ≣ A) ≣ (A ⇔ B)

L'arbre de composition des caractères est un arbre syntaxique dont les noeuds parents opèrent logiquement une évaluation dérivée des valeurs paramètres de leurs enfants (les termes des formules prédictives, inférentielles)

Le raisonnement par équivalence sur les formules permet de remplacer une formule par la représentante la plus performante de sa classe. La performance s'entend ici en termes de minimisation des coûts (en ressource, en espace et en temps).

C'est donc un travail d'optimisation qui s'appuie sur une métrique objective (étude de la complexité algorithmique, D. Knuth), ici du coût de calcul d'une valeur de vérité.

Revenons à l'arbre : substituer à une formule, une formule équivalente et plus performante, c'est opérer une restucturation de l'arbre, c'est-à-dire un remaniement de sa composition interne. C'est typiquement ce que l'on fait dans les techniques de rééquilibrege d'arbres avec rotations (ABR, ARN). Ce peut-être de supprimer des opérations et des termes intermédiaires superflus (dont on peut se passer sans affecter le résultat final).

La racine de l'arbre est l'expression d'un prédicat racine. Le prédicat racine est une sélection concrète ou abstraite d'une sous-ensemble de ses termes.

Le termes d'une formule assertive sont ses références, ses observables (et il en est le suiveur, l'observateur).
Ce sont les noeuds, pas nécessairement enfants (donc plus d'arbre ?), auxquels le noeud courant réfère.

La structure n'est donc plus le TreeIndex, on dépasse. La structure contient :
* Il y a un index de référence (c'est l'index du dataframe)
* Il y a un alphabet V de variables composées d'un nom unique et affectées d'une valeur unique identifiant un ou plusieurs éléments de l'index.
* Il y a une grammaire G qui définit les expressions signifiantes valides.
* Il y un langage L_G qui est composé de l'ensemble théorique de toutes les expressions qui peuvent être formées sur V et G.
* Il y a la disjonction racine : S ← A | B | C | ε
* Il y a la conjonction par juxtaposition : A ← BC | Aa, S ← aS | Sb | ε
* Il y a les opérations intermédiaires : par ex. A ← A ⛒ B | ..

La structure de base est bien un arbre, l'arbre syntaxique, mais les opérations effectuées sont récursives, et un terme peut tout à fait se référencer lui-même.

Le sélecteur SyntaxTreeIndex est donc un interpréteur qui évalue la valeur de vérité de l'expression d'un prédicat.

En d'autres termes, c'est un producteur efficient d'index booléen.

Toute modification de la sélection de base (l'ensemble de données concret évalué), entraîne un recalcul ascendant des valeurs de vérité. Ce recalcul est local (impact limité), et il peut conduire à des recompositions (rééquilibrages), dans tous les cas à des actualisations, c'est-à-dire des affectations, c'est-à-dire des variations.

Le but est la conservation, la stabilité, la performance, l'adaptabilité du modèle.

La définition du STI est réalisable à l'aide d'un dictionnaire (JSON) de forme BNF.

{
    'meta': {
        'symbols': ['a', 'b'],
        'variables': ['S'],
        'axiom': 'S'
    }, 'syntax': {
        'S': [['a', 'A'], ['B', 'b'], []],
        'A': [['a', 'S', 'a']]
        'B': [['b', 'S', 'b']]
    }
}

Exemple :

* S~U~V ← (N|C|D)

* N ← ㄱS

* C ← UV ≣ VU : SS
* D ← U + V ≣ V + U : S + S 
* X ← U ⛒ V ≣ UㄱV + VㄱU ≣ V ⛒ U : S ⛒ S
* I ← U ⇒ V ≣ ㄱU + V : S ⇒ S
* E ← U ⇔ V ≣ (U ⇒ V)(V ⇒ U) : S ⇔ S

* X ≣ U ⛒ V ≣ ㄱ(ㄱU + V) + ㄱ(ㄱV + U) ≣ ㄱ(U ⇒ V) + ㄱ(V ⇒ U) ≣ ㄱ((U ⇒ V)(V ⇒ U))
* X ≣ U ⛒ V ≣ ㄱ(U ⇔ V)

Grammaire réduite à son noyau minimum :
* S ← ㄱ(S) | SS | (S X S) | A    # négation, conjonction, combinaison, symbole
* X ← + | ⛒ | ⇒ | ⇔ | ..        # opérateurs de combinaison
* A ← a | b | ..                  # alphabet de symboles

        {
            'meta': {
                'alphabets': {
                    'operands': ['', 'a', 'b', ..],
                    'association': ['(', ')'],
                    'operators': ['ㄱ', '', '+', '⛒', '⇒', '⇔', ..]
                    'variables': ['S', 'A', 'X']
                },
                'axiom': 'S'
            },
            'syntax': {
                'S': [['ㄱ', '(', 'S', ')'], ['(', 'S', 'X', 'S', ')'], ['A']],
                'X': symbols.operators[1:],
                'A': symbols.operands[1:]
            }
        }
