# Se frayer un chemin avec XPath

## Présentation

Le langage XPath est à la croisée des chemins de plusieurs technologies. On retrouve par exemple des expressions XPath dans XSLT et XQuery. En plus d’une syntaxe déclarative qui permet de tracer un chemin dans l’arborescence d’un document, XPath continue d’implémenter au long de ses versions successives des fonctions de plus en plus variées qui finissent par lui donner des airs de langage de programmation.

![À la croisée des chemins](./pics/1-fig1.png)

XPath n’opère que sur des documents déjà modélisés par un analyseur syntaxique (*parser*) sous forme arborescente. Et pour lui, tout est nœud : un élément, un attribut, du texte, un commentaire, un espace de nommage… Il établit ensuite une relation de dépendance hiérarchique entre eux, grâce à la syntaxe, et peut ainsi se déplacer dans la structure afin de répondre à des requêtes précises.

## Les relations de parenté

### Les nœuds parents

Les nœuds n’ont toujours qu’un seul parent.

```xml
<!-- <characters> parent de Leonard, Penny et Sheldon -->
<characters>
    <character name="Leonard"/>
    <character name="Penny"/>
    <character name="Sheldon"/>
</characters>
```

### Les nœuds enfants

Un nœud peut avoir un ou plusieurs enfants, voire aucun.

```xml
<!-- Leonard, Penny et Sheldon, enfants de <characters> -->
<characters>
    <character name="Leonard"/>
    <character name="Penny"/>
    <character name="Sheldon"/>
</characters>
```

### Les fratries

La fratrie caractérise les nœuds qui partagent le même parent.

```xml
<!-- Leonard, Penny et Sheldon forment une fratrie -->
<characters>
    <character name="Leonard"/>
    <character name="Penny"/>
    <character name="Sheldon"/>
</characters>
```

### Les ancêtres et les descendants

Les ancêtres désignent le parent d’un nœud, son parent à lui, et ainsi de suite jusqu’à remonter à la racine du document. À l’inverse, la relation de descendants désigne les enfants d’un nœud, ses enfants à lui, etc.

```xml
<!-- <show> et <characters> sont ancêtres de Leonard, Penny et Sheldon -->
<!-- Tous les nœuds descendent de <show> -->
<show title="The Big Bang Theory">
    <characters>
        <character name="Leonard"/>
        <character name="Penny"/>
        <character name="Sheldon"/>
    </characters>
</show>
```

## La syntaxe des requêtes

Les exemples qui suivent se basent sur le document XML ci-dessous :

```xml
<?xml version="1.0" encoding="UTF-8"?>
<show title="The Big Bang Theory">
     <characters>
         <character pID="leonard">
             <firstname>Leonard</firstname>
            <lastname>Hofstadter</lastname>
         </character>
         <character pID="penny">
             <firstname>Penny</firstname>
         </character>
    </characters>
    <actors>
        <actor pIDREF="leonard">
            <firstname>Johnny</firstname>
            <lastname>Galecki</lastname>
            <birth>1975-04-30</birth>
        </actor>
        <actor pIDREF="penny">
            <firstname>Kaley</firstname>
            <lastname>Cuoco-Sweeting</lastname>
            <birth>1985-11-30</birth>
        </actor>
    </actors>
</show>
```

### Les expressions XPath

Les requêtes XPath répondent à une syntaxe précise qui permet d’effectuer des requêtes sur un document structuré.

|Expression|Description|
|:-:|:-|
|`nœud`|Sélection des nœuds `nœud`|
|`/`|Sélection à partir de la racine.|
|`//nœud`|Sélection de tous les nœuds nœud peu importe leur localisation dans le document.|
|`.`|Sélectionne le nœud courant.|
|`..`|Sélectionne le nœud parent du nœud courant.|
|`@`|Sélection d’attributs.|
|`*`|Joker d’éléments.|
|`@*`|Joker d’attributs.|
|`node()`|Joker de nœuds.|

#### Exemples de requêtes basées sur les expressions

- sélectionner tous les personnages :
```
/show/characters
//characters
```
- sélectionner chaque personnage :
```
/show/characters/character
//character
```
- sélectionner les identifiants de personnages :
```
//@pID
```
- sélectionner tous les attributs :
```
//@*
```

### Les prédicats

Pour sélectionner un nœud spécifique, la syntaxe met à disposition la notation crochets `[]` avec, à l’intérieur, la condition à réaliser pour la sélection.

Par exemple, pour sélectionner le nœud qui identifie le personnage de Penny, plusieurs possibilités (non exhaustives) :

```
//character[2]
//character[@pID = "penny"]
//character[last() - 1]
//character[position() = 2]
```

### Les opérateurs

Sans surprise, le langage met à disposition les opérateurs classiques de tout langage :

- **arithmétiques :** `+` `-` `*` `div` `mod`
- **comparaison :** `=` `!=` `>` `<` `>=` `<=`
- **logiques :** `or` `and`
- **concaténation :** `|`

```
/* Tous les acteurs nés avant 1980 */
//actor[birth < "1980-01-01"]/nom

/* Acteurs nés dans années 70 */
//actor[birth < "1980-01-01" and birth > "1969-12-31"]/name

/* Leonard et son interprète */
//character[@pID="leonard"] | //actor[@pIDREF="leonard"]
```

### Les lignages

Les lignages désignent une catégorie de mots-clés pour sélectionner un ensemble de nœuds relativement au nœud courant.

|Lignage|Description|
|:-:|:-|
|`ancestor`|Tous les ancêtres du nœud courant|
|`ancestor-or-self`|Tous les ancêtres du nœud courant ainsi que lui-même|
|`attribute`|Tous les attributs du nœud courant|
|`child`|Tous les enfants du nœud courant|
|`descendant`|Tous les descendants du nœud courant|
|`descendant-or-self`|Tous les descendants du nœud courant et lui-même|
|`following`|Tout le document après la balise de fermeture du nœud courant|
|`following-sibling`|Les fratries qui suivent le nœud courant|
|`namespace`|Tous les espaces de noms du nœud courant|
|`parent`|Le parent du nœud courant|
|`preceding`|Tous les nœuds qui précèdent le nœud courant, à l’exception des ancêtres, des attributs et des espaces de noms|
|`preceding-sibling`|Les fratries qui précèdent le nœud courant|
|`self`|Le nœud courant|

La syntaxe d’expression des lignages répond au schéma suivant :

```
lignage::nœud-test[predicat]
```

Par exemple, pour sélectionner tous les attributs du nœud courant :

```
attribute::*
```

Pour sélectionner le premier prénom parmi les descendants du nœud courant :
```
descendant::firstname[1]
```

À noter que certains opérateurs sont des expressions raccourcies :

|Opérateur|Lignage correspondant|
|:-:|:-|
|`.`|`self::node()`|
|`..`|`parent::node()`|
|`//`|`descendant-or-self::node()`|

### Les fonctions natives

XPath partage une [librairie de fonctions](https://www.w3.org/TR/xpath-functions-3/) commune avec XQuery et XSLT.

#### Fonctions utiles sur les valeurs numériques

|Fonction|Action|
|:-:|:-|
|`abs(a)`|Renvoie la valeur absolue de `a`.|
|`ceiling(a)`|Renvoie l’arrondi supérieur de `a`.|
|`floor(a)`|Renvoie l’arrondi inférieur de `a`.|
|`number(a)`|Convertit si possible a en nombre.|
|`round(a)`|Renvoie le plus proche arrondi `a`.|

#### Fonctions utiles sur les chaînes de caractères

|Fonction|Action|
|:-:|:-|
|`concat(a,b,)`|Retourne une chaîne des arguments concaténés.|
|`contains(a,b)`|Teste si `b` est présent dans `a`.|
|`ends-with(a,b)`|Renvoie `true` si `a` finit par `b`.|
|`matches(a,b)`|Renvoie true si `b` est présent dans `a`.|
|`replace(a,b,c)`|Remplace `b` par `c` dans `a`.|
|`starts-with(a,b)`|Renvoie `true` si `a` commence par `b`.|
|`string(a)`|Convertit `a` en chaîne de caractères.|
|`string-length(a)`|Calcule la taille de la chaîne de caractères.|
|`substring(a,b[,c])`|Renvoie un extrait de `a`, de longueur `c` à partir de `b`.|
|`tokenize(a, b)`|Renvoie une liste de tokens de `a` en fonction de l’expression `b`.|

#### Fonctions utiles sur les nœuds

|Fonction|Action|
|:-:|:-|
|`lang(a)`|Teste la langue du nœud courant avec la langue déclarée pour le document.|
|`local-name()`|Renvoie le nom du nœud courant, sans l’espace de nommage.|
|`name()`|Renvoie le nom du nœud courant.|

#### Fonctions utiles sur les booléens

|Fonction|Action|
|:-:|:-|
|`boolean(a)`|Convertit `a` en booléen.|
|`false()`|Renvoie la valeur booléenne `false`.|
|`not(a)`|Si `a` vaut `true`, retourne `false`.|
|`true()`|Renvoie la valeur booléenne `true`.|

#### Autres fonctions utiles

|Fonction|Action|
|:-:|:-|
|`avg(a,b[,…])`|Retourne la moyenne des arguments.|
|`count(a)`|Calcule le nombre de nœuds dans `a`.|
|`last()`|Renvoie la valeur de la taille de l’ensemble de nœuds contextuels.|
|`min(a,b[,…])`|Renvoie l’argument inférieur à tous les autres.|
|`max(a,b[,…])`|Renvoie l’argument supérieur à tous les autres.|
|`position()`|Renvoie la position du nœud courant.|
|`sum(a,b[,…])`|Calcule la somme des arguments.|

## Tester une expression en ligne de commande

L’utilitaire `xmllint` permet d’exécuter des expressions XPath sur un document XML grâce à l’option `-xpath` :

In [None]:
!xmllint -xpath '//name[@fr]/text()' ./files/constellations.xml

**Remarque :** `xmllint` ne connaît que la version 1.0 du langage. Des expressions issues d’une version supérieure ne peuvent ainsi pas être évaluées :

In [None]:
!xmllint --xpath 'tokenize(//author[@id_author = "BOR"]/birth, "-")' ./files/library.xml

Comment faire alors ? Aucune fonction de la librairie standard Unix n’est prévue pour répondre à ces exigences, pour la simple et bonne raison que la version 2.0 de XPath n’apporte rien de nouveau à part des fonctions pour faciliter certaines tâches.

L’idée est alors de regarder ailleurs, dans des librairies tierces, comme `xidel` ou [`saxon-lint`](https://gitlab.com/GillesQuenot/saxon-lint) de Gilles Quenot.

In [None]:
!saxon-lint --xpath 'tokenize(//author[@id_author = "BOR"]/birth, "-")' ./files/library.xml