# ex06 - Faire des opérations mathématiques sur les colonnes d'une table

Comme nous le savons déjà, la base de données de démonstration (c'est-à-dire demo.db3) a été extraite d'une modélisation hydrologique numérique. 

Les principaux types de données sont des entiers, des décimales ou des virgules flottantes. 

Il est tout à fait naturel que nous voulions effectuer des calculs ou des analyses statistiques. 

SQL peut gérer des calculs allant d'opérations mathématiques de base à la réalisation de statistiques avancées.

*** Opérateurs mathématiques de base ***
<li>+ Addition
<li>- Soustraction
<li>* Multiplication
<li>/ Division (renvoie le quotient uniquement, pas le reste)
<li>% Modulo (ne renvoie que le reste)
<li>^ Exponentielle
<li> Autres
    
Essayons d’utiliser les opérateurs mathématiques SQL les plus fréquemment utilisés sur les données de démonstration. 

Au lieu d'utiliser des nombres dans les requêtes, nous utiliserons les noms des colonnes qui contiennent les nombres. 

Lorsque nous exécutons la requête, le calcul s'effectuera sur chaque ligne de la table.

In [1]:
%load_ext sql

### 0. Reconnectons notre Google Drive

In [2]:
from google.colab import drive
# drive.mount('/content/gdrive')
drive.mount("/content/gdrive", force_remount=True)


Mounted at /content/gdrive


### 1. Connexion à la Database fournie pour le TP : demo.db3

In [3]:
%sql sqlite:////content/gdrive/MyDrive/Partage/Notebooks_Serie_1/demo.db3

'Connected: @/content/gdrive/MyDrive/Partage/Notebooks_Serie_1/demo.db3'

Si vous ne connaissez toujours pas les tables présentes dans la database de démonstration :-), vous pouvez toujours utiliser la commande suivante pour le savoir. 

In [5]:
%sql SELECT name FROM sqlite_master WHERE type='table'

 * sqlite:////content/gdrive/MyDrive/Partage/Notebooks_Serie_1/demo.db3
Done.


name
rch
hru
sub
sed
watershed_daily
watershed_monthly
watershed_yearly
channel_dimension
hru_info
sub_info


### 2. Testons un premier opérateur mathématique

En utilisant l'instruction SELECT, nous pouvons facilement tester la chose :

In [6]:
%sql SELECT 3+4

 * sqlite:////content/gdrive/MyDrive/Partage/Notebooks_Serie_1/demo.db3
Done.


3+4
7


In [7]:
%sql SELECT 12 * 4

 * sqlite:////content/gdrive/MyDrive/Partage/Notebooks_Serie_1/demo.db3
Done.


12 * 4
48


In [8]:
%sql SELECT 12 % 4

 * sqlite:////content/gdrive/MyDrive/Partage/Notebooks_Serie_1/demo.db3
Done.


12 % 4
0


In [9]:
%sql SELECT round(123.456,2) as Rounded

 * sqlite:////content/gdrive/MyDrive/Partage/Notebooks_Serie_1/demo.db3
Done.


Rounded
123.46


### 3. Faire des maths dans les colonnes d'une table

Prenons la table ***Watershed_monthly*** par exemple

#### 3.1 Regardons tout d'abord les colonnes de la table


In [10]:
%sql SELECT * From watershed_monthly LIMIT 3

 * sqlite:////content/gdrive/MyDrive/Partage/Notebooks_Serie_1/demo.db3
Done.


YR,MO,PREC_mm,SURQ_mm,LATQ_mm,GWQ_mm,PERCOLA_mm,TILEQ_mm,SW_mm,ET_mm,PET_mm,WYLD_mm,SYLD_tons,NO3_SURQ,NO3_LATQ,NO3_PERC,NO3_CROP,N_ORG,P_SOL,P_ORG,TILENO3
1981,1,96.2901611328125,0.5159813761711121,0.4125469923019409,6.688113689422607,19.90670585632324,0.0,1854.2242431640625,6.871741771697998,12.269017219543455,8.681976318359375,0.1793347150087356,0.0002173996617784,0.0022701763082295,1.3104768991470337,0.0,0.1262282431125641,0.0001126891293097,0.0154068088158965,0.0
1981,2,160.22804260253906,3.346802234649658,0.6452788710594177,9.148776054382324,34.36812210083008,0.0,1766.2530517578125,9.165532112121582,14.77317714691162,13.862184524536133,1.2127171754837036,0.0006267096032388,0.0019556784536689,1.174126386642456,0.0,0.8965995907783508,0.00056043791119,0.1099999845027923,0.0
1981,3,136.6529083251953,3.8249943256378174,1.4813165664672852,18.518495559692383,34.367244720458984,0.0,1990.7535400390625,13.52047634124756,23.363500595092773,25.018510818481445,1.2629601955413818,0.0008495681686326,0.0075485506094992,0.5044968724250793,0.0,0.6799346208572388,0.0005445934948511,0.0833883434534072,0.0


#### 3.2 Calculer la différence entre deux colonnes

Par exemple, nous nous intéressons à la différence entre l'évapo-transpiration potentielle (PET_mm) et les précipitations (PREC_mm). 

C'est ce qu'on appelle le déficit d'évapo-transpiration potentiel (PED). 
Le PED peut être considéré comme un indice de sécheresse. 

C'est la différence entre la quantité d'eau qui pourrait être perdue par le sol par évapotranspiration et la quantité réellement disponible. 

Lorsque la PED est élevée, les plantes n'ont pas la quantité totale d'eau disponible dont elles ont besoin pour leur croissance.


In [11]:
%%sql sqlite://
SELECT YR, MO,  
PREC_mm as Precipitation, 
PET_mm as PET, 
PET_mm-PREC_mm as PED 
From watershed_monthly LIMIT 10

Done.


YR,MO,Precipitation,PET,PED
1981,1,96.2901611328125,12.269017219543455,-84.02114391326904
1981,2,160.22804260253906,14.77317714691162,-145.45486545562744
1981,3,136.6529083251953,23.363500595092773,-113.28940773010254
1981,4,118.85740661621094,36.195560455322266,-82.66184616088867
1981,5,84.54698181152344,89.7725601196289,5.225578308105469
1981,6,44.83718490600586,123.68331909179688,78.84613418579102
1981,7,32.325984954833984,174.00889587402344,141.68291091918945
1981,8,20.65149688720703,152.6374969482422,131.98600006103516
1981,9,16.57965660095215,115.8529052734375,99.27324867248537
1981,10,59.67293167114258,43.6953010559082,-15.977630615234377


###### Nous pouvons également calculer le ratio entre PED et précipitations :


In [12]:
%%sql sqlite://
SELECT YR, MO,  PREC_mm as Precipitation, 
PET_mm as PET, 
(PET_mm-PREC_mm)/PREC_mm*100.0 as PED_Ratio 
From watershed_monthly LIMIT 10

Done.


YR,MO,Precipitation,PET,PED_Ratio
1981,1,96.2901611328125,12.269017219543455,-87.25828571143332
1981,2,160.22804260253906,14.77317714691162,-90.7799053730202
1981,3,136.6529083251953,23.363500595092773,-82.90303449708202
1981,4,118.85740661621094,36.195560455322266,-69.54707200351655
1981,5,84.54698181152344,89.7725601196289,6.180679896716599
1981,6,44.83718490600586,123.68331909179688,175.84987628255342
1981,7,32.325984954833984,174.00889587402344,438.29418072534986
1981,8,20.65149688720703,152.6374969482422,639.1110570914423
1981,9,16.57965660095215,115.8529052734375,598.7654090904647
1981,10,59.67293167114258,43.6953010559082,-26.77534045635141


#### 3.3 Utiliser des opérateurs mathématiques dans une instruction WHERE

Par exemple, nous pourrions utiliser l'opérateur modulo (%) pour filtrer les mois MO.

In [13]:
%%sql sqlite://
SELECT RCH, YR, MO, FLOW_INcms, FLOW_OUTcms 
From rch 
WHERE YR>2009 
and RCH=10 
and MO % 3 = 0

Done.


RCH,YR,MO,FLOW_INcms,FLOW_OUTcms
10,2010,3,3.429895639419556,3.0846056938171387
10,2010,6,736.3016357421875,734.9920654296875
10,2010,9,218.4079742431641,218.24456787109372
10,2010,12,36.9558219909668,36.8774642944336


### 4. Faites des statistiques avec les fonctions d'agrégation

Jusqu'à présent, nous avons effectué des opérations mathématiques sur les colonnes de chaque ligne d'un tableau. 

Nous pouvons également calculer un résultat à partir des valeurs de la même colonne à l'aide de la fonction d'agrégation, qui calcule un seul résultat à partir de plusieurs entrées. 

Deux des fonctions d'agrégation les plus utilisées dans l'analyse des données sont avg() et sum().


#### 4.1 Moyenne

***avg*** : calcule la moyenne de toutes les valeurs de cette colonne (en omettant les valeurs nulles).

In [14]:
%%sql sqlite://
SELECT avg(FLOW_INcms), avg(FLOW_OUTcms) 
From rch 

Done.


avg(FLOW_INcms),avg(FLOW_OUTcms)
559.361707683415,557.2792260827198


#### 4.2 Somme

***sum*** : calcule la somme des valeurs de cette colonne (en omettant les valeurs nulles).


In [15]:
%%sql sqlite://
SELECT sum(FLOW_INcms), sum(FLOW_OUTcms) 
From rch 

Done.


sum(FLOW_INcms),sum(FLOW_OUTcms)
4631514.939618677,4614271.99196492


#### 4.3 valeurs extrêmes

***max*** : calcule la valeur maximale dans cette colonne (en omettant les valeurs nulles).

***min*** : calcule la valeur minimale dans cette colonne (en omettant les valeurs nulles).

In [16]:
%%sql sqlite://
SELECT min(FLOW_INcms), max(FLOW_OUTcms) 
From rch 

Done.


min(FLOW_INcms),max(FLOW_OUTcms)
0.2012155354022979,10499.5498046875


### 5. Calculez par vous-mêmes :

Nous pouvons calculer certaines valeurs par la combinaison de ces opérateurs mathématiques. 

Par exemple, nous pouvons calculer les valeurs moyennes de Flow_In et Flow_Out.


In [17]:
%%sql sqlite://
SELECT sum(FLOW_INcms)/COUNT(FLOW_INcms) as AVG_FlowIn, 
sum(FLOW_OUTcms)/COUNT(FLOW_OUTcms) as AVG_FlowOut
From rch 

Done.


AVG_FlowIn,AVG_FlowOut
559.361707683415,557.2792260827198


### Conclusion du notebook

L'agrégation des données (également appelée cumul, récapitulation ou regroupement de données) crée une sorte de total à partir d'un certain nombre d'enregistrements. 

Sum, min, max, count et average sont des opérations d'agrégation courantes.

En fait, l'exemple ci-dessus ne donne pas la puissance réelle de ces fonctions d'agrégation. 


Elles ne deviennent réellement puissantes que lorsqu'elles sont utilisées avec les clauses ***GROUP BY*** et ***ORDER BY***.