## ex11 - Gérer des valeurs NULL

Les exemples de données dans les tables de demo.db3 présentés précédemment sont tous exacts et complets. 

Chaque ligne a une valeur pour chaque attribut. 

Cependant, les données réelles ne sont généralement pas aussi propres et ordonnées. Vous trouverez souvent des valeurs NULL dans certaines tables.

Les valeurs nulles dans une base de données peuvent causer quelques maux de tête. De plus, les descriptions dans les normes SQL sur la façon de gérer les NULL semblent ambiguës. 

Il n'apparaît pas clairement dans les documents de normes comment les NULL doivent être traités dans toutes les [circonstances] (https://www.sqlite.org/nulls.html).

Parfois, nous pouvons en fait éviter les NULL en définissant la contrainte NOT NULL lorsque nous créons une table. 

Cependant, il convient de garder à l'esprit que rendre les champs NOT NULL ne fonctionne pas toujours et pourrait créer plus de maux de tête qu'il ne guérit. Toutes les valeurs nulles ne signifient pas qu'il y a un problème avec les données.

SQLite NULL est le terme utilisé pour représenter une valeur manquante. 

Une valeur NULL dans une table est une valeur dans un champ qui semble vide. Cependant, une valeur NULL ne doit pas simplement être considérée comme 0 (zéro) ou une chaîne vide comme «». Il s'agit d'une valeur de vide ou non définie.

Ce notebook présentera:
- Comment faite un **DROP** sur une table **IF EXISTS**
- Comment faire un **CREATE** d'une nouvelle table à partir d'une table existante
- Comment faire un ***UPDATE*** d'une table avec une condition WHERE
- Comment faire un ***COUNT NULL*** avec ***IS NULL***
- Comment donner des valeurs par défaut à ***NULL*** avec la fonction SQLite *** COALESCE ***

In [None]:
%load_ext sql

In [None]:
from google.colab import drive
# drive.mount('/content/gdrive')
drive.mount("/content/gdrive", force_remount=True)


Mounted at /content/gdrive


### 1. Connection à la database demo.db3

Il a été précisé que demo.db3 est un extrait d'une modélisation hydrologique. Par conséquent, les données de chaque table sont ordonnées et complètes sans valeurs NULL. Cependant, nous pouvons créer une table avec des valeurs NULL pour la démonstration.

In [None]:
%sql sqlite:////content/gdrive/MyDrive/Partage/Notebooks_Serie_1/demo.db3

'Connected: @/content/gdrive/MyDrive/Partage/Notebooks_Serie_1/demo.db3'

Si vous ne vous souvenez pas des tables présentes dans la database de démonstration, vous pouvez toujours utiliser la commande suivante pour les retrouver.

In [None]:
%sql SELECT name FROM sqlite_master WHERE type='table'

 * sqlite:///data/demo.db3
Done.


name
rch
hru
sub
sed
watershed_daily
watershed_monthly
watershed_yearly
channel_dimension
hru_info
sub_info


### 2. Create a table with NULL values from an existing table

Take the table of watershed_yearly as an example.
- ***Firstly, make a backup table***

>The SQLite CREATE TABLE AS statement is used to create a table from an existing table by copying the existing table's columns.

In [None]:
%%sql sqlite://
DROP TABLE  IF EXISTS watershed_yearly_bk;
CREATE TABLE watershed_yearly_bk AS SELECT * FROM watershed_yearly

Done.
Done.


[]

Have a quick check of the backup table

In [None]:
%%sql sqlite://
SELECT YR, PREC_mm 
FROM watershed_yearly_bk
---LIMIT 3

Done.


YR,PREC_mm
1981,895.605102539
1982,884.670654297
1983,816.660522461
1984,867.57434082
1985,637.725524902
1986,733.841247559
1987,1007.89447021
1988,895.846618652
1989,930.10546875
1990,751.455383301


- ***Secondly, make some values as NULLs***

>SQLite UPDATE Query is used to modify the existing records in a table. You can use WHERE clause with UPDATE query to update selected rows, otherwise all the rows would be updated.

In [None]:
%%sql sqlite://
UPDATE watershed_yearly_bk
SET PREC_mm = NULL
WHERE
    PREC_mm < 850.0

18 rows affected.


[]

### 3. Find NULLs

Null values cannot be determined with an =. We need to use the IS NULL or IS NOT NULL statements to identify null values. So, to get all records with no recorded snow_depth, we could run this query.

In [None]:
%%sql sqlite://
SELECT  YR, PREC_mm
FROM watershed_yearly_bk
WHERE PREC_mm IS NULL

Done.


YR,PREC_mm
1983,
1985,
1986,
1990,
1994,
1995,
1996,
1997,
1998,
1999,


The count of years with NULLs

In [None]:
%%sql sqlite://
SELECT  COUNT(YR) AS MISSING
FROM watershed_yearly_bk
WHERE PREC_mm IS NULL

Done.


MISSING
18


:) It is right the number of rows we updated.

### 4. Handle NULLs

NULLs can be ambiguous and annoying as ther are identified differently depending on data sources. Tale can have NULL values for a number of reasons such as observations that were not recorded and data corruption.

In general, there are two main strategies to handle NULLs during the query session and ***NOT*** to change original data in the table.

#### 4.1  Do not use rows with NULL values

This strategy is quite simple as we always can filter the data with a ***WHERE IS NOT NULL*** condition. However, in practice, the data would be used at all, if the ratio of NULLs is too high.

In [None]:
%%sql sqlite://
SELECT  YR, PREC_mm
FROM watershed_yearly_bk
WHERE PREC_mm IS NOT NULL

Done.


YR,PREC_mm
1981,895.605102539
1982,884.670654297
1984,867.57434082
1987,1007.89447021
1988,895.846618652
1989,930.10546875
1991,984.470336914
1992,907.946350098
1993,1057.77331543
2005,855.009216309


*Calculate the counts of NULLs, NOT_NULLs and total*. Keep in mind that the ***COUNT*** function will neglet NULL values.

In [None]:
%%sql sqlite://
SELECT SUM(CASE WHEN PREC_mm IS NULL THEN 1 else 0 END) COUNT_NULLs,
       COUNT(PREC_mm) COUNT_NOT_NULLs,
       COUNT(YR) AS TOTAL
From watershed_yearly_bk

Done.


COUNT_NULLs,COUNT_NOT_NULLs,TOTAL
18,12,30


#### 4.2 Replace NULL values with sensible values***

It is recommended that you should firstly check the database document to make sure that nullable columns (columns that are allowed to have null values) have documented what a null value means from a business perspective before replacing NULL values with sensible values.

The SQLite provides a more elegant way of handling NULL values. Tha is to use the COALESCE() function that accepts two or more arguments and returns the first non-null argument into a specified default value if it is null. If all the arguments are NULL, the COALESCE function returns NULL.

The following illustrates the syntax of the COALESCE function:<br>
*** COALESCE(parameter1, parameter2, …)***;<br>

Here we want all NULLs of PREC_mm to be treated as the climatological mean of NOT NULLs.

***Calculate the mean nof NON-NULLs***

In [None]:
%%sql sqlite://
SELECT avg(PREC_mm)
From watershed_yearly_bk

Done.


avg(PREC_mm)
936.122131348


***Replace NULLs with the above mean of NON-NULLs***

In [None]:
%%sql sqlite://
SELECT YR, COALESCE(PREC_mm, 936.122131348) as Precipitation
From watershed_yearly_bk

Done.


YR,Precipitation
1981,895.605102539
1982,884.670654297
1983,936.122131348
1984,867.57434082
1985,936.122131348
1986,936.122131348
1987,1007.89447021
1988,895.846618652
1989,930.10546875
1990,936.122131348


### Summary

Dealing with NULL values is a complicated task. It would be better to get assistances from domain experts or you know very clearly what the NULL vlaues were presented for.