seg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!-- Dernière modification
     le       $Date$
     par      $Author$
     révision $Revision$ -->

<sect1 id="seg">
 <title>seg</title>

 <indexterm zone="seg">
  <primary>seg</primary>
 </indexterm>

 <para>
  Ce module code le type de données <type>seg</type> pour représenter
  des segments de ligne ou des intervalles de nombres à virgule flottante.
  <type>seg</type> peut représenter l'incertitude des points
  extrèmes d'un intervalle, ce qui le rend particulièrement utile pour représenter
  des mesures de laboratoires.
 </para>

 <sect2>
  <title>Explications</title>

  <para>
    La géométrie des mesures est habituellement plus complexe qu'un point
   dans un continuum numérique. Une mesure est habituellement un segment
   de ce continuum avec des limites non définissables. Les mesures
   apparaissent comme des intervalles à cause de ce côté incertain et
   du hasard, ainsi qu'à cause du fait que la valeur mesurée peut
   naturellement être un intervalle indiquant certaines conditions comme
   une échelle de température pour la stabilité d'une protéine.
  </para>

  <para>
   En utilisant le bon sens, il apparaît plus agréable de stocker de telles
   données sous la forme d'intervalle, plutôt que sous la forme d'une paire
   de nombres. En pratique, c'est même plus efficace dans la plupart des
   applications.
  </para>

  <para>
   En allant plus loin, le côté souple des limites suggère que l'utilisation
   des types de données numériques traditionnels amène en fait une certaine
   perte d'informations. Pensez à ceci&nbsp;: votre instrument lit
   6.50, et vous saisissez cette valeur dans la base de données.
   Qu'obtenez-vous en la récupérant&nbsp;? Regardez&nbsp;:

  <programlisting>
test=> select 6.50 :: float8 as "pH";
 pH
---
6.5
(1 row)
  </programlisting>

   Dans le monde des mesures, 6.50 n'est pas identique à 6.5. La différence
   pourrait même être critique. Les personnes ayant réalisé l'expérience
   écrivent habituellement (et publient) les chiffres qu'ils connaissent.
   6.50 est en fait un intervalle incertain compris dans un intervalle
   plus grand et encore plus incertain, 6.5, le point central étant
   (probablement) la seule fonctionnalité commune qu'ils partagent. Nous
   ne voulons pas que de telles différences de données apparaissent de
   façon identique.
  </para>

  <para>
   La conclusion&nbsp;? il est agréable d'avoir un type de données spécial
   qui peut enregistrer les limites d'un intervalle avec une précision
   variable arbitraire. Variable dans le sens où chaque élément de données
   enregistre sa propre précision.
  </para>

  <para>
    Vérifiez ceci&nbsp;:

   <programlisting>
test=> select '6.25 .. 6.50'::seg as "pH";
          pH
------------
6.25 .. 6.50
(1 row)
   </programlisting>
  </para>
 </sect2>

 <sect2>
  <title>Syntaxe</title>

  <para>
   La représentation externe d'un intervalle se forme en utilisant un ou deux
   nombres à virgule flottante joint par l'opérateur d'échelle
   (<literal>..</literal> ou <literal>...</literal>). Sinon, il peut être
   spécifié comme un point central plus ou moins une déviation.
   Des indicateurs optionels (<literal>&lt;</literal>,
   <literal>&gt;</literal> et <literal>~</literal>) peuvent aussi être stockés.
   (Néanmoins, ces indicateurs sont ignorés par la logique interne.)
  </para>

  <para>
   Dans la table suivante, <replaceable>x</replaceable>,
   <replaceable>y</replaceable> et <replaceable>delta</replaceable> dénotent
   des nombres à virgule flottante. <replaceable>x</replaceable> et
   <replaceable>y</replaceable>, mais pas <replaceable>delta</replaceable>,
   peuvent être précédés par un indicateur de certitude&nbsp;:
  </para>

  <table>
   <title>Représentations externes de <type>seg</type></title>
   <tgroup cols="2">
    <tbody>
     <row>
      <entry><literal><replaceable>x</replaceable></literal></entry>
      <entry>Valeur seule (intervalle de longueur zéro)
      </entry>
     </row>
     <row>
      <entry><literal><replaceable>x</replaceable> .. <replaceable>y</replaceable></literal></entry>
      <entry>Intervalle de <replaceable>x</replaceable> à <replaceable>y</replaceable>
      </entry>
     </row>
     <row>
      <entry><literal><replaceable>x</replaceable> (+-) <replaceable>delta</replaceable></literal></entry>
      <entry>Intervalle de <replaceable>x</replaceable> - <replaceable>delta</replaceable> à
      <replaceable>x</replaceable> + <replaceable>delta</replaceable>
      </entry>
     </row>
     <row>
      <entry><literal><replaceable>x</replaceable> ..</literal></entry>
      <entry>Intervalle ouvert avec une limite inférieure <replaceable>x</replaceable>
      </entry>
     </row>
     <row>
      <entry><literal>.. <replaceable>x</replaceable></literal></entry>
      <entry>Intervalle ouvert avec une limite supérieure <replaceable>x</replaceable>
      </entry>
     </row>
    </tbody>
   </tgroup>
  </table>

  <table>
   <title>Exemples d'entrées valides de type <type>seg</type></title>
   <tgroup cols="2">
    <tbody>
     <row>
      <entry><literal>5.0</literal></entry>
      <entry>
       Crée un segment de longueur zéro (un point si vous préférez)
      </entry>
     </row>
     <row>
      <entry><literal>~5.0</literal></entry>
      <entry>
       Crée un segment de taille nulle et enregistre
       <literal>~</literal> dans les données. <literal>~</literal> est ignoré
       par les opérations <type>seg</type> mais conservé en commentaire.
      </entry>
     </row>
     <row>
      <entry><literal>&lt;5.0</literal></entry>
      <entry>
       Crée un point à 5.0. <literal>&lt;</literal> est ignoré mais conservé
       en commentaire.
      </entry>
     </row>
     <row>
      <entry><literal>&gt;5.0</literal></entry>
      <entry>
       Crée un point à 5.0. <literal>&gt;</literal> est ignoré mais conservé
       en commentaire.
      </entry>
     </row>
     <row>
      <entry><literal>5(+-)0.3</literal></entry>
      <entry>
        Crée un intervalle <literal>4.7 .. 5.3</literal>.
        Notez que la notation <literal>(+-)</literal> n'est pas conservée.
      </entry>
     </row>
     <row>
      <entry><literal>50 .. </literal></entry>
      <entry>Tout ce qui supérieur ou égal à 50</entry>
     </row>
     <row>
      <entry><literal>.. 0</literal></entry>
      <entry>Tout ce qui est inférieur ou égal à 0</entry>
     </row>
     <row>
      <entry><literal>1.5e-2 .. 2E-2 </literal></entry>
      <entry>Crée un intervalle <literal>0.015 .. 0.02</literal></entry>
     </row>
     <row>
      <entry><literal>1 ... 2</literal></entry>
      <entry>
       Identifique à <literal>1...2</literal>, ou <literal>1 .. 2</literal>,
       ou <literal>1..2</literal>
       (les espaces autour de l'opérateur d'échelle sont ignorés)
      </entry>
     </row>
    </tbody>
   </tgroup>
  </table>

  <para>
   Comme <literal>...</literal> est largement utilisé dans les sources de
   données, il est autorisé comme autre orthographe possible de
   <literal>..</literal>. Malheureusement, ceci crée une ambiguité pour
   l'analyseur&nbsp;: la limite supérieure dans <literal>0...23</literal> est
   <literal>23</literal> ou <literal>0.23</literal>. Ceci se résout en
   réclamant au moins un chiffre avant le point décimal dans tous les nombres
   de type <type>seg</type>.
  </para>

  <para>
   Comme vérification, <type>seg</type> rejette les intervalles dont la limite
   inférieure est supérieure à la limite supérieure, par exemple
   <literal>5 .. 2</literal>.
  </para>

 </sect2>

 <sect2>
  <title>Précision</title>

  <para>
   Les valeurs <type>seg</type> sont stockés en interne sous la forme de paires
   de nombres en virgule flottante de 32 bits. Cela signifie que les nombres
   avec plus de sept chiffres significatifs sont tronqués.
  </para>

  <para>
   Les nombres avec moins ou avec exactement sept chiffres significatifs
   conservent leur précision originale. C'est-à-dire que, si votre requête
   renvoie 0.00, vous serez sûr que les zéros qui suivent ne sont pas des
   conséquences du formatage&nbsp;: elles reflètent la précision de la donnée
   originale. Le nombre de zéro au début n'affectent pas la précision&nbsp;:
   deux chiffres significatifs sont considérés pour la valeur 0.0067.
  </para>
 </sect2>

 <sect2>
  <title>Utilisation</title>

  <para>
   Le module <filename>seg</filename> inclut une classe d'opérateur pour les
   index GiST dans le cas des valeurs <type>seg</type>. Les opérateurs
   supportés par la classe d'opérateur GiST incluent&nbsp;:
  </para>

  <itemizedlist>
   <listitem>
    <programlisting>
[a, b] &lt;&lt; [c, d]         est à gauche de
    </programlisting>
    <para>
     [a, b] est entièrement à gauche de [c, d]. Autrement dit,
     [a, b] &lt;&lt; [c, d] est vérifié si b &lt; c
    </para>
   </listitem>
   <listitem>
    <programlisting>
[a, b] &gt;&gt; [c, d]        est à droite de
    </programlisting>
    <para>
     [a, b] est entièrement à droite de [c, d].  Autrement dit,
     [a, b] &gt;&gt; [c, d] est vérifié si a &gt; d
    </para>
   </listitem>
   <listitem>
    <programlisting>
[a, b] &amp;&lt; [c, d]        Couvre une partie ou est à gauche de
    </programlisting>
    <para>
     Cela se lit mieux de cette façon <quote>ne s'étend pas à droite de</quote>.
     C'est vrai quand b &lt;= d.
    </para>
   </listitem>
   <listitem>
    <programlisting>
[a, b] &amp;&gt; [c, d]        Couvre une partie ou est à droite de
    </programlisting>
    <para>
     Cela se lit mieux de cette façon <quote>ne s'étend pas à gauche de</quote>.
     C'est vrai quand a &gt;= c.
    </para>
   </listitem>
   <listitem>
    <programlisting>
[a, b] = [c, d]         Identique à
    </programlisting>
    <para>
     Les segments [a, b] et [c, d] sont identiques, autrement dit a == b
     et c == d
    </para>
   </listitem>
   <listitem>
    <programlisting>
[a, b] &amp;&amp; [c, d]        Couvre une partie
    </programlisting>
    <para>
     Les segments [a, b] et [c, d] se chevauchent en partie.
    </para>
   </listitem>
   <listitem>
    <programlisting>
[a, b] @&gt; [c, d]        Contient
    </programlisting>
    <para>
      Le segment [a, b] contient le segment [c, d], autrement dit
      a &lt;= c et b &gt;= d
    </para>
   </listitem>
   <listitem>
    <programlisting>
[a, b] &lt;@ [c, d]        Est contenu dans
    </programlisting>
    <para>
     Le segment [a, b] est contenu dans [c, d], autrement dit
        a &gt;= c et b &lt;= d
    </para>
   </listitem>
  </itemizedlist>

  <para>
   (Avant PostgreSQL 8.2, les opérateurs de contenance @&gt; et &lt;@ étaient
   appelés respectivement @ et ~. Ces noms sont toujours disponibles mais sont
   déclarés obsolètes et seront supprimés un jour. Notez que les anciens noms
   sont inversés par rapport à la convention suivie par les types de données
   géométriques&nbsp;!)
  </para>

  <para>
   Les opérateurs B-tree standard sont aussi fournis, par exemple&nbsp;:

  <programlisting>
[a, b] &lt; [c, d]                Plus petit que
[a, b] &gt; [c, d]                Plus grand que
  </programlisting>

   Ces opérateurs n'ont pas vraiment de sens sauf en ce qui concerne le tri.
   Ces opérateurs comparent en premier (a) à (c) et, s'ils sont égaux,
   comparent (b) à (d). Cela fait un bon tri dans la plupart des cas, ce qui
   est utile si vous voulez utiliser ORDER BY avec ce type.
  </para>
 </sect2>

 <sect2>
  <title>Notes</title>

  <para>
   Pour des exemples d'utilisation, voir les tests de régression
   <filename>sql/seg.sql</filename>.
  </para>

  <para>
   Le mécanisme qui convertit <literal>(+-)</literal> en échelles standards
   n'est pas entièrement précis pour déterminer le nombre de chiffres
   significatifs pour les limites. Par exemple, si vous ajoutez un chiffre
   supplémentaire à la limite basse si l'intervalle résultat inclut une
   puissance de dix&nbsp;:

   <programlisting>
postgres=> select '10(+-)1'::seg as seg;
      seg
---------
9.0 .. 11             -- should be: 9 .. 11
   </programlisting>
  </para>

  <para>
   La performance d'un index R-tree peut dépendre largement de l'ordre des
   valeurs en entrée. Il pourrait être très utile de trier la table en entrée
   sur la colonne <type>seg</type>&nbsp;; voir le script
   <filename>sort-segments.pl</filename> pour un exemple.
  </para>
 </sect2>

 <sect2>
  <title>Crédits</title>

  <para>
   Auteur original&nbsp;: Gene Selkov, Jr. <email>selkovjr@mcs.anl.gov</email>,
   Mathematics and Computer Science Division, Argonne National Laboratory.
  </para>

  <para>
   Mes remerciements vont principalement au professeur Joe Hellerstein
   (<ulink url="http://db.cs.berkeley.edu/~jmh/"></ulink>) pour avoir élucidé
   l'idée centrale de GiST (<ulink
   url="http://gist.cs.berkeley.edu/"></ulink>). Mes remerciements aussi aux
   développeurs de PostgreSQL pour m'avoir permis de créer mon propre monde
   et de pouvoir y vivre sans pertubation. Argonne Lab et le département
   américain de l'énergie ont aussi toute ma gratitude pour les années de
   support dans ma recherche sur les bases de données.
  </para>

 </sect2>

</sect1>