# Utilisation d'une archive Darwin Core

Pour plus de contexte voir : [README](https://github.com/OGSL-SLGO/examples/blob/main/examples/biodiversity/)

## Importation et exploration des fichiers

Les informations et les métadonnées sur l'archive Darwin Core utilisée peuvent être trouvées ici : https://catalogue.ogsl.ca/dataset/3b8c6d97-6eb8-4e8d-9869-ccb2b9bab5f3

Assurez-vous d'avoir les packages requis: 

In [1]:
library('tidyverse')

── [1mAttaching packages[22m ─────────────────────────────────────── tidyverse 1.3.2 ──
[32m✔[39m [34mggplot2[39m 3.4.0      [32m✔[39m [34mpurrr  [39m 1.0.0 
[32m✔[39m [34mtibble [39m 3.1.8      [32m✔[39m [34mdplyr  [39m 1.0.10
[32m✔[39m [34mtidyr  [39m 1.2.1      [32m✔[39m [34mstringr[39m 1.5.0 
[32m✔[39m [34mreadr  [39m 2.1.3      [32m✔[39m [34mforcats[39m 0.5.2 
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()


L'archive utilisée comme exemple contient 4 fichiers : 
- un fichier *event core*
- un fichier *occurrence core*
- deux fichiers *measurement of facts* (emof): event et occurrence

In [2]:
url <-'https://catalogue.ogsl.ca/data/zip-rne/3b8c6d97-6eb8-4e8d-9869-ccb2b9bab5f3/zip-rne_marais-pf_event_2019-2021.csv'
event_raw <- read.csv(url)

url <-'https://catalogue.ogsl.ca/data/zip-rne/3b8c6d97-6eb8-4e8d-9869-ccb2b9bab5f3/zip-rne_marais-pf_occurrence_2019-2021.csv'
occurrence_raw <- read.csv(url)

url <-'https://catalogue.ogsl.ca/data/zip-rne/3b8c6d97-6eb8-4e8d-9869-ccb2b9bab5f3/zip-rne_marais-pf_event_emof_2019-2021.csv'
emof_event_raw <- read.csv(url)

url <-'https://catalogue.ogsl.ca/data/zip-rne/3b8c6d97-6eb8-4e8d-9869-ccb2b9bab5f3/zip-rne_marais-pf_occurrence_emof_2019-2021.csv'
emof_occurrence_raw <- read.csv(url)

head(event_raw)
head(emof_event_raw)

Unnamed: 0_level_0,datasetID,countryCode,eventID,eventDate,code_station,num_echantillon,samplingProtocol,decimalLongitude,decimalLatitude,habitat,maximumElevationInMeters,commentaires
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<int>,<chr>,<dbl>,<dbl>,<chr>,<dbl>,<chr>
1,CZIP-RNE-MARAIS-PF,CA,CZIP-RNE-PF-2019-B1-1,2019-08-26T16:35,B1,1,Bourolle,-69.09246,48.64362,Marelle / Haut marais,,
2,CZIP-RNE-MARAIS-PF,CA,CZIP-RNE-PF-2019-B1-9,2019-08-27T08:52,B1,9,Bourolle,-69.09246,48.64362,Marelle / Haut marais,,
3,CZIP-RNE-MARAIS-PF,CA,CZIP-RNE-PF-2019-B1-15,2019-08-27T17:32,B1,15,Bourolle,-69.09246,48.64362,Marelle / Haut marais,,
4,CZIP-RNE-MARAIS-PF,CA,CZIP-RNE-PF-2019-B1-22,2019-08-28T09:42,B1,22,Bourolle,-69.09246,48.64362,Marelle / Haut marais,,
5,CZIP-RNE-MARAIS-PF,CA,CZIP-RNE-PF-2019-B1-25,2019-08-28T16:37,B1,25,Bourolle,-69.09246,48.64362,Marelle / Haut marais,,
6,CZIP-RNE-MARAIS-PF,CA,CZIP-RNE-PF-2019-B1-34,2019-08-29T11:42,B1,34,Bourolle,-69.09246,48.64362,,,


Unnamed: 0_level_0,eventID,measurementID,measurementType,measurementValue,measurementUnit
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>
1,CZIP-RNE-PF-2019-B1-1,CZIP-RNE-PF-2019-B1-1-MESURE-01,État de la marée,Basse et Descendante,
2,CZIP-RNE-PF-2019-B1-1,CZIP-RNE-PF-2019-B1-1-MESURE-49,Condition météo,Nuageux,
3,CZIP-RNE-PF-2019-B1-1,CZIP-RNE-PF-2019-B1-1-MESURE-97,Type de substrat,Argile / Vaseux,
4,CZIP-RNE-PF-2019-B1-1,CZIP-RNE-PF-2019-B1-1-MESURE-146,Condition météo,Nuageux,
5,CZIP-RNE-PF-2019-B1-1,CZIP-RNE-PF-2019-B1-1-MESURE-194,Vitesse du vent,5,km/h
6,CZIP-RNE-PF-2019-B1-1,CZIP-RNE-PF-2019-B1-1-MESURE-242,Température de l'air,25,°C


On veut obtenir dans un même fichier : les coordonnées où on eu lieu les occurrences, le nombre d'individus et les conditions physico-chimiques mesurées lors de l'observation des espèces.
Dans l'ensemble des archives Dwc qui sont des fichiers relationnels, le point commun est la colonne **eventID**. La colonne **occurrenceID** permet également d'établir les relations entres les paramètres et les occurrences.

## Transformation des données

Afin d'alléger la lecture de la table finale, supprimons quelques colonnes non utilisées dans les fichiers *event* et *occurrence core*.

In [3]:
event <- event_raw %>% select(eventID,eventDate, decimalLongitude, decimalLatitude)
occurrence <- occurrence_raw %>% select(eventID, occurrenceID, kingdom, ScientificName)


On peut désormais grouper ses deux fichiers ensemble :

In [4]:
data_core <- merge(event,occurrence, by='eventID')
str(data_core)


'data.frame':	1667 obs. of  7 variables:
 $ eventID         : chr  "CZIP-RNE-PF-2019-B1-22" "CZIP-RNE-PF-2019-B2-16" "CZIP-RNE-PF-2019-B2-16" "CZIP-RNE-PF-2019-B2-20" ...
 $ eventDate       : chr  "2019-08-28T09:42" "2019-08-27T17:52" "2019-08-27T17:52" "2019-08-28T08:21" ...
 $ decimalLongitude: num  -69.1 -69.1 -69.1 -69.1 -69.1 ...
 $ decimalLatitude : num  48.6 48.6 48.6 48.6 48.6 ...
 $ occurrenceID    : chr  "CZIP-RNE-PF-2019-ICHTYO-B1-OCC-34" "CZIP-RNE-PF-2019-ICHTYO-B2-OCC-24" "CZIP-RNE-PF-2019-ICHTYO-B2-OCC-25" "CZIP-RNE-PF-2019-ICHTYO-B2-OCC-31" ...
 $ kingdom         : chr  "Animalia" "Animalia" "Animalia" "Animalia" ...
 $ ScientificName  : chr  "Pungitius pungitius" "Gasterosteus aculeatus" "Pungitius pungitius" "Gasterosteus aculeatus" ...


Ensuite on s'intéresse aux fichiers *emof* afin d'extraire les variables d'intérêt. 
Ces fichiers nécessitent une transformation supplémentaire. Si on observe les fichiers *emof* : 

In [5]:
head(emof_occurrence_raw)

Unnamed: 0_level_0,eventID,occurrenceID,measurementID,materialSampleID,measurementType,measurementValue,measurementUnit,X
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
1,CZIP-RNE-PF-2019-B1-22,CZIP-RNE-PF-2019-ICHTYO-B1-OCC-34,CZIP-RNE-2019-COUNT-B1:34,,Individual count,1,,
2,CZIP-RNE-PF-2019-B1-22,CZIP-RNE-PF-2019-ICHTYO-B1-OCC-34,CZIP-RNE-2019-LT-B1:600,B1:600,Longueur,24,mm,
3,CZIP-RNE-PF-2019-B2-16,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-24,CZIP-RNE-2019-COUNT-B2:24,,Individual count,10,,
4,CZIP-RNE-PF-2019-B2-16,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-25,CZIP-RNE-2019-COUNT-B2:25,,Individual count,327,,
5,CZIP-RNE-PF-2019-B2-16,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-25,CZIP-RNE-2019-LT-B2:421,B2:421,Longueur,36,mm,
6,CZIP-RNE-PF-2019-B2-16,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-25,CZIP-RNE-2019-LT-B2:422,B2:422,Longueur,42,mm,


On remarque que la colonne ***MeasurementType*** contient plusieurs variables. 
On veut obtenir le nombre d'individus du fichier *emof_occurrence* et la salinité, l'oxygène dissout (%) et le pH présent dans le fichier *emof_event*.

In [6]:
emof_occurrence <- emof_occurrence_raw%>%
    select(eventID, occurrenceID, measurementType, measurementValue)%>%
    filter(measurementType == 'Individual count') %>%
    spread(measurementType, measurementValue)
head(emof_occurrence)

emof_event <- emof_event_raw%>%
    select(eventID,measurementType, measurementValue, measurementUnit)%>%
    filter(measurementType %in% c("Oxygène dissout", "Salinité", "pH"), measurementUnit %in% c("psu", "", "%")) %>%
    select(-c(measurementUnit)) %>%
    group_by(eventID) %>%
    spread(measurementType, measurementValue)
head(emof_event)


Unnamed: 0_level_0,eventID,occurrenceID,Individual count
Unnamed: 0_level_1,<chr>,<chr>,<chr>
1,CZIP-RNE-PF-2019-B1-22,CZIP-RNE-PF-2019-ICHTYO-B1-OCC-34,1
2,CZIP-RNE-PF-2019-B2-16,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-24,10
3,CZIP-RNE-PF-2019-B2-16,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-25,327
4,CZIP-RNE-PF-2019-B2-20,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-31,2
5,CZIP-RNE-PF-2019-B2-20,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-32,91
6,CZIP-RNE-PF-2019-B2-26,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-35,24


eventID,Oxygène dissout,pH,Salinité
<chr>,<chr>,<chr>,<chr>
CZIP-RNE-PF-2019-B1-1,99.3,8.51,25.6
CZIP-RNE-PF-2019-B1-15,116.4,8.06,26.02
CZIP-RNE-PF-2019-B1-22,79.6,7.92,26.79
CZIP-RNE-PF-2019-B1-25,111.0,8.33,26.7
CZIP-RNE-PF-2019-B1-34,73.3,7.2,25.65
CZIP-RNE-PF-2019-B1-39,118.2,8.05,26.95


A partir de là on peut désormais combiner l'ensemble des fichiers, les colonne ***eventID*** et ***occurrenceID*** faisant office de 'clé'.

In [7]:
emof <- merge(emof_event, emof_occurrence, by='eventID')
head(emof)

Unnamed: 0_level_0,eventID,Oxygène dissout,pH,Salinité,occurrenceID,Individual count
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
1,CZIP-RNE-PF-2019-B1-22,79.6,7.92,26.79,CZIP-RNE-PF-2019-ICHTYO-B1-OCC-34,1
2,CZIP-RNE-PF-2019-B2-16,97.7,7.2,23.41,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-24,10
3,CZIP-RNE-PF-2019-B2-16,97.7,7.2,23.41,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-25,327
4,CZIP-RNE-PF-2019-B2-20,96.9,7.15,25.5,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-31,2
5,CZIP-RNE-PF-2019-B2-20,96.9,7.15,25.5,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-32,91
6,CZIP-RNE-PF-2019-B2-26,95.3,7.29,24.77,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-36,236


In [8]:
data_core_emof <- merge(data_core, emof, by=c('eventID', 'occurrenceID'))
head(data_core_emof)



Unnamed: 0_level_0,eventID,occurrenceID,eventDate,decimalLongitude,decimalLatitude,kingdom,ScientificName,Oxygène dissout,pH,Salinité,Individual count
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
1,CZIP-RNE-PF-2019-B1-22,CZIP-RNE-PF-2019-ICHTYO-B1-OCC-34,2019-08-28T09:42,-69.09246,48.64362,Animalia,Pungitius pungitius,79.6,7.92,26.79,1
2,CZIP-RNE-PF-2019-B2-16,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-24,2019-08-27T17:52,-69.0881,48.64101,Animalia,Gasterosteus aculeatus,97.7,7.2,23.41,10
3,CZIP-RNE-PF-2019-B2-16,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-25,2019-08-27T17:52,-69.0881,48.64101,Animalia,Pungitius pungitius,97.7,7.2,23.41,327
4,CZIP-RNE-PF-2019-B2-20,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-31,2019-08-28T08:21,-69.0881,48.64101,Animalia,Gasterosteus aculeatus,96.9,7.15,25.5,2
5,CZIP-RNE-PF-2019-B2-20,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-32,2019-08-28T08:21,-69.0881,48.64101,Animalia,Pungitius pungitius,96.9,7.15,25.5,91
6,CZIP-RNE-PF-2019-B2-26,CZIP-RNE-PF-2019-ICHTYO-B2-OCC-35,2019-08-28T16:55,-69.0881,48.64101,Animalia,Gasterosteus aculeatus,95.3,7.29,24.77,24


On obtient ainsi un fichier ordonné comprenant les mesures d'occurrence et également les mesures associées soit à l'événement soit à l'occurrence. 