# Analyse et visualisation de données avec Python
## Analyse de données sur les grappes de calcul

Questions
* Comment effectuer des analyses de données sur une grappe de calcul?

Objectifs
* Préparer un script Python
* Utiliser un script de tâche

## Processus typique
1. Avoir un [compte Calcul Canada](https://docs.computecanada.ca/wiki/Getting_started/fr)
1. [Importer les données](https://docs.computecanada.ca/wiki/Transferring_data/fr) sur la grappe de calcul
  1. En conformité avec votre plan de [gestion des données de recherche](https://docs.computecanada.ca/wiki/Research_Data_Management/fr)
1. Développement du code de l’analyse
  1. Prototypage interactif ([session SSH](https://docs.computecanada.ca/wiki/SSH/fr) ou [JupyterHub](https://docs.computecanada.ca/wiki/JupyterHub/fr))
  1. Création de scripts [Python](https://docs.computecanada.ca/wiki/Python/fr) (fichiers `*.py`)
1. [Lancement de tâches](https://docs.computecanada.ca/wiki/Running_jobs/fr) de calculs intensifs

Voir aussi notre atelier [*Premiers pas sur les serveurs de calcul*](https://docs.computecanada.ca/wiki/%C3%89v%C3%A9nements_pass%C3%A9s)

## Préparer un script Python
Dans le dossier `scripts/`, on y trouve le fichier `gen-scatter.py`:
```
#!/usr/bin/env python

import pandas as pd

surveys_df = pd.read_csv("../data/surveys.csv")

les_axes = surveys_df.plot('weight', 'hindfoot_length', kind="scatter")
les_axes.get_figure().savefig("scatter.png")
```

## Configuration de Python
Au choix :
* Utiliser les modules disponibles (note : **Plotnine est manquant**) :
```
module load python/3.8 scipy-stack
```

* Ou créer un environnement virtuel :
```
virtualenv --no-download dat201
source dat201/bin/activate
pip install --no-index pandas plotnine
```

## Script de tâche
L'exécution automatique du script Python se fera lors
d'une tâche préalablement soumise à l'ordonnanceur Slurm.
Or, la définition d'une telle tâche peut être faite via
un script Bash. Par exemple, `gen-scatter.sh` :

```
#!/bin/bash
#SBATCH --account=def-someuser
#SBATCH --mem-per-cpu=1500M
#SBATCH --time=0:10:00

source dat201/bin/activate
python gen-scatter.py
```

1. À soumettre avec : `sbatch gen-scatter.sh`
1. Voir l’état avec: `squeue -u $USER`

## Utilisation de fichiers SQLite
* SQL : Structured Query Language
  * Pour des bases de données relationnelles
* SQLite : base de données dans un fichier
  * Réduction de l’espace-disque utilisé par rapport aux fichiers CSV
  * Réduction de l’espace-mémoire utilisé par rapport au chargement complet d’un fichier CSV
  * Optimisation de l’accès aux données
    * Sélection, jonction, filtrage et regroupement des données au niveau SQL plutôt que dans Pandas
* Documentation [Calcul Canada](https://docs.computecanada.ca/wiki/SQLite/fr)
* Tutoriel [Data Carpentry](https://datacarpentry.org/sql-ecology-lesson/)