# Une introduction pragmatique à SQL pour la géomatique
---
## Cours 1 : Généralités
---

## Données spatiales

Les données spatiales sont très répandues et sont d'un usage courant. Par exemple, plus de 50% des 39436 jeux de données référencés en octobre 2021 sur le site [data.gouv.fr](https://www.data.gouv.fr/fr/) (la plateforme des données publiques françaises  développée et opérée par le département Etalab de la Direction interministérielle du numérique) sont au format *shapefile*, l'un des formats les plus utilisés dans les logiciels SIG (Systèmes d'Information Géographique, comme QGIS ou ArcGIS pour les plus connus).  

![BD Topo IGN, Grenoble](./img/bd_topo.png "BD Topo IGN, Grenoble")

De façon générale, les jeux de données spatiaux sont massifs : 
- Centre ville de Grenoble : 40000 objets répartis sur moins de 200 $km^2$ soit près de 200 objets par $km^2$ en zone urbaine. Source : BD TOPO de l’IGN (http://www.ign.fr),
- 450000 objets répertoriés dans la BD CARTO Rhône Alpes de l’IGN couvrant un territoire de 44000 $km^2$ etc.  

Ils nécessitent donc d'être manipulés par des outils informatiques spécialisés dans le traitement des données comme les SGBD (Systèmes de Gestion de Bases de Données) et le langage SQL. D'un point de vue technologique, on peut même considérer que les SIG sont un type particulier de SGBD.

## SIG

Tel un mille-feuilles, les SIG sont basé sur une superposition de "calques", des *couches* de données spatiales mises en perspectives les unes par rapport aux autres.

![Couches dans un logiciel SIG](./img/superposition_couches.png "Couches dans un logiciel SIG.")

L'objectif est de transformer ces données en information, c'est-à-dire de révéler des relations et des structures spatiales entre données.

![Des données à l'information](./img/donnees_information.png "Des données à l'information.")

Ou si l'on veut filer la métaphore :

![Des données à l'information](./img/from_data_to_information.jpg "Des données à l'information.")

Le langage SQL est l'un des nombreux outils permettant de passer des données brutes à de l'information. Prenons, par exemple, un jeu de données sismique de l'[USGS](https://earthquake.usgs.gov/earthquakes/search/) :

![Données sismiques](./img/seismes.png "Données sismiques.")

Le géocodage des données et la répartition des séismes font apparaître la structure spatiale des plaques tectoniques : 

![Plaques tectoniques](./img/plaques_tectoniques.png "Plaques tectoniques.")

On peut également faire une cartographie thématique par rapport à la profondeur des séismes et révéler la dynamique de cette structure spatiale :

![Profondeur des séismes](./img/profondeur_seismes.png "Profondeur des séismes.")

La répartition des séismes de plus en plus profonds d'Ouest en Est sur la côte pacifique de l'amérique du sud indique la subduction de la plaque Nazca sous la plaque sud-américaine. Au contraire, les séismes peu profonds de long de la dorsale médio-atlantique indique une divergence entre la plaque sud-américaine et la plaque africaine.

![Subduction et divergence](./img/subduction_divergence.png "Subduction et divergence.")

Le langage SQL, quant à lui, permet d'appliquer de façon très efficace une série de transformations aux jeux de données jusqu'à l'information finale. C'est une façon, si l'on veut, de passer des jeux de données aux flots de données. Ces transformations décrites dans un script SQL sont tout à fait réalisables à l'aide de l'interface graphique des logiciels SIG. Mais l'utilisation d'un langage informatique comme SQL rend explicite et non ambigüe le flot de transformations. On peut ainsi l'analyser, le corriger, le faire évoluer, le documenter, le partager, le réutiliser autant de fois que nécessaire, automatiser des transformations récurrentes etc. Apprendre SQL est aussi une étape préliminaire à l'utilisation d'ETL spatiaux.  

Prenons un exemple de flot de transformations appliqué à l'analyse spatiale. Supposons que l'on veuille déterminer quelles sont les zones à forte activité sismique en méditerranée. On se donne comme critère (non réaliste) les lieux où un séisme de magnitude supérieure à 6 s'est "récemment" produit à moins de 100 km. Le script SQL indiquera de :
- sélectionner les séismes de magnitude supérieure à 6 sur la période et la zone géographique considérées,
- créer une zone tampon de 100 km autour de ces séismes
- fusionner les zones tampon
- faire l'intersection avec la couche correspondante à la zone géographique étudiée (en faisant une reprojection si nécessaire) etc.

![Forte activité sismique](./img/activite_sismique.png "Forte activité sismique.")

L'intérêt d'un script SQL est ici qu'on pourra facilement et autant de fois qu'on le veut, faire évoluer son critère (magnitude, distance aux séismes etc.), l'appliquer à d'autres zones géographiques voire à d'autres entités (par exemple, les villes à l'intérieur de la zone tampon répondant à des critères de population etc.)

## Notion d'ensemble d'objets

Est-il difficile de comprendre le langage SQL ? A priori pas plus que la notion d'ensemble. En mathématiques, un ensemble désigne intuitivement une collection d'objets (les éléments de l'ensemble) tous différents deux à deux mais d'un même "type" (ou "classe"). Soit par example le type "étudiant". On peut construire l'ensemble des étudiants du master GAED. En choisissant aléatoirement un étudiant de l'IUGA, on peut facilement vérifier s'il appartient ou non à l'ensemble "GAED". On peut également construire l'ensemble des étudiants de sexe masculin à partir de l'ensemble de tous les étudiants de l'IUGA. Ou l'ensemble des étudiants de sexe masculin du master GAED à partir des ensembles "masculin" et "GAED" etc.  

En informatique, on représente un ensemble par une table. Par exemple, ceci est une table :

![Données sismiques](./img/seismes.png "Données sismiques.")

Elle représente un ensemble d'objets de type "séisme". Les objets de l'ensemble sont les lignes de la table : chaque ligne correspond à un objet de l'ensemble.  

Un objet est ainsi défini par ses *attributs* ou *champs* qui sont les colonnes de la table. Par exemple, un objet "séisme" est défini par 7 champs : event_id, date, time, lat, lon, depth et mag. Si l'on rajoute ou enlève des champs, alors on définit un autre type d'objet.  

Les champs ont eux-même un type. Par exemple, depth est de type entier, et mag est flottant (nombre décimal). Parmi les types courants on trouve également le type texte, booléen, date etc.

Parmi les champs de la table, il y a des champs qui servent à *identifier* de façon unique chaque objet de la table. Ainsi 2 objets différents portent nécessairement 2 identifiants différents. Tout comme chaque personne a son propre numéro de sécurité sociale, ou chaque étudiant son numéro d'étudiant. Dans la table "séismes", c'est le champs event_id qui joue le rôle d'identifiant ou *clé primaire*. La clé primaire d'une table n'est pas nécessairement composée d'un seul champs. Il est possible d'en utiliser plusieurs. Par exemple, les communes françaises ont un numéro d'INSEE. Pour Grenoble, c'est 38185. La table des communes peut donc avoir pour identifiant un champs appelé "num_insee" (num_insee = 38185 pour Grenoble) ou deux champs "dep" et "num_com" (dep = 38 et num_com = 185 pour Grenoble) qui jouent le rôle de la clé primaire.  

Les objets spatiaux possèdent un champs particulier qui est de type "géométrie". Nous reviendrons plus tard sur ces objets. Pour l'instant, on peut dire qu'il existe 4 catégories de géométries :  

- 3 catégories "vectorielles" : le point, la ligne et le polygone,

![Points, lignes et polygones](./img/objets_spatiaux.png "Points, lignes et polygones.")

- et les rasters :

![Données vectorielles et raster](./img/raster.png "Données vectorielles et raster.")

Il est important ici de comprendre les liens entre les notions de couche dans les logiciels SIG et de table :

- les tables sont des ensembles d'objets,
- les objets sont définis par leurs champs,
- lorsque ces objets sont des objets spatiaux, à chaque table correspond une couche et à chaque couche correspond une table,
- chaque ligne de la table est un objet spatial sur la couche et réciproquement. Donc si l'on supprime un objet sur la couche, on supprime une ligne dans la table. De même si l'on ajoute une ligne dans la table, on ajoute un objet à la couche correspondante.

![Notion de couches et de tables](./img/equivalences.png "Notion de couches et de tables.")

![Objets spatiaux](./img/geometrie.png "Objets spatiaux.")

> Bien que cela ne soit pas imposé par les logiciels SIG, il convient de suivre les règles suivantes :
> - 1 seule thématique par couche,
> - 1 seul type d'objet par couche,
> - Toutes les couches dans le même *système de projection*.

## Opérations sur un ensemble d'objets

### Exemples visuels

Commençons par donner l'intuition de ces opérations. Que peut-on faire sur un ensemble ?  

On peut **sélectionner** un sous-ensemble d'objets selon un critère. Par exemple les étudiants "de sexe masculin", ou les étudiant.e.s "portant des lunettes".

![Sélection (Filtrage)](./img/people.png "Sélection (Filtrage).")

Une autre possibilité consiste à **partionner** l'ensemble par rapport à toutes modalités (les valeurs) d'un attribut. Par exemple, l'attribut "sexe" a 2 modalités : masculin et féminin. A partir des partitions obtenues, on peut effectuer diverses opérations comme compter les objets dans chaque partition, calculer une moyenne (par exemple des tailles des hommes et des femmes) etc.

![Partition](./img/partition.png "Partition.")

On peut aussi faire les 3 opérations ensemblistes "classiques" : **union, intersection et différence**

![Union](./img/union.png "Union.")

L'union consiste à fusionner (sans répitition) les objets des 2 ensembles (de même type, ici des personnes).

![Intersection](./img/intersection.png "Intersection.")

L'intersection de 2 ensembles de même type donne les objets communs aux 2 ensembles.

![Difference](./img/difference.png "Différence.")

La différence entre 2 ensembles A et B n'est pas commutative. "A - B" donne les objets qui sont dans A mais pas dans B.  

## Création d'objets

Toutes les opérations que l'on vient de voir ont en commun de ne pas modifier la "nature" (= le type) des objets : les personnes restent des personnes.  

La "magie" de SQL provient de sa capacité à créer de nouveaux objets, c'est-à-dire à changer leur type. Comme le type d'un objet est déterminé par ses attributs, cela revient à les modifier. Pour cela, on dispose de 2 opérations :

![Projection](./img/projection.png "Projection.")

La **projection** consiste à ne garder que certain des attributs. Par exemple, l'attribut "habits". Mais l'opération la plus importante est la **jointure**.

![Jointure](./img/produit_cartesien.png "Jointure.")

La jointure consiste d'abord à faire le *produit cartésien* de 2 ensembles d'objets quelconques. Le produit cartésien construit *toutes les combinaisons possibles* d'objets. Comme dans un système de coordonnées où les points sont tous les couples possibles d'abscisses et d'ordonnées : (0, 0), (0, 1)... (1, 0), (1, 1)... etc.  

Puis on applique une sélection selon un critère pour supprimer les objets sans objet :) Ce critère est entièrement libre (même si souvent il indique l'égalité entre l'attribut d'un type et celui de l'autre type "pour mettre les objets en relation"). En particulier, ce peut être un critère spatial comme la distance entre objets, une relation (ou non) d'inclusion entre un point et un polygone, une relation d'intersection (au sens spatial) entre une ligne et un polygone etc.