# Introduction

## La notion de bonnes pratiques

- [**Origine**]{.blue2} : communauté des développeurs logiciels

. . .

- [**Constats**]{.blue2} :
    - le [_"code est plus souvent lu qu'écrit"_]{.green2} ([Guido Van Rossum](https://fr.wikipedia.org/wiki/Guido_van_Rossum))
    - la maintenance d'un code est très coûteuse

. . .

- [**Conséquence**]{.blue2} : ensemble de [**règles informelles**]{.orange},
conventionnellement acceptées comme produisant des logiciels [**fiables**]{.orange}, [**évolutifs**]{.orange} et [**maintenables**]{.orange}


## Pourquoi s'intéresser aux bonnes pratiques ? {.smaller}

<br>

L'activité du statisticien / *datascientist* tend à se rapprocher de celle du développeur :

. . .

- projets **intenses en code**

. . .

- **projets collaboratifs** et de grande envergure

. . .


- **complexification** des données et donc des **infrastructures**

. . .

- **déploiement** d'applications pour valoriser les analyses

## Bonnes pratiques et reproductibilité

![](img/reprospectrum.png){height="200" fig-align="center"}

**Source** : Peng R., Reproducible Research in Computational Science, Science (2011)

- Une reproductibilité parfaite est [**coûteuse**]{.orange}

- `Git` est un [**standard atteignable**]{.orange} et [**efficient**]{.orange}

## Bonnes pratiques et reproductibilité

![](img/aea.png){fig-align="center"}

- Les journaux académiques sont de plus en plus exigeants sur
la reproductibilité
(notamment [AEA](https://aeadataeditor.github.io/) et [@AeaData](https://twitter.com/AeaData))

<!--
## L'objectif du jour

- Aujourd'hui, on se [__concentre sur `Git`__]{.orange}

![](https://www.memecreator.org/static/images/memes/5482008.jpg){fig-align="center"}
-->

# Le contrôle de version : pourquoi faire ?

## :one: Archiver son code proprement {auto-animate=true}

pour en finir avec ça :

![](img/fichiers_multiples.png)


## :one: Archiver son code proprement {auto-animate=true}

ou ça :

![](img/finalfinal.png){fig-align="center"}


## :one: Archiver son code proprement {auto-animate=true}

ou encore ça :

```{.python code-line-numbers="12-18"}
prior <- read_csv(prior_path)
prior <- prior %>%
    select(id, proba_inter, proba_build, proba_rfl) %>%
    separate(id, into = c('nidt', 'grid_id'), sep = ":") %>%
    group_by(nidt) %>%
    mutate(
        proba_build = proba_build/sum(proba_build),
        proba_rfl = proba_rfl/sum(proba_rfl),
        ) %>%
    unite(col = "id", nidt, grid_id, sep = ":")

# Test
# prior_test <- prior %>%
#    mutate(
#        proba_inter = round(proba_inter, 4)
#        proba_build = round(proba_build, 4)
#        proba_rfl = round(proba_rfl, 4)
#    )

write_csv(prior_round, "~/prior.csv")
```

## :one: Archiver son code proprement {auto-animate=true}

Pour arriver à ça :

![](img/timeline.png){fig-align="center" height=475}

Source : [ThinkR](https://thinkr.fr/travailler-avec-git-via-rstudio-et-versionner-son-code/)

## :two: Voyager dans le temps (de votre projet)

![](img/historique_utilitr.png){fig-align="center"}

## :three: Une collaboration simplifiée et efficace {auto-animate=true}

Un modèle distribué

![](img/git_distributed.png){fig-align="center" height=475}

Source : [specbee.com](https://www.specbee.com)

## :three: Une collaboration simplifiée et efficace {auto-animate=true}

Qui permet l'expérimentation en toute sécurité

![](img/branches.png){fig-align="center"}

Source : [lutece.paris.fr](https://lutece.paris.fr/support/jsp/site/Portal.jsp?page=wiki&view=page&page_name=git&language=fr)

## :three: Une collaboration simplifiée et efficace {auto-animate=true}

Quel que soit l'environnement de travail

![](img/envtravail.png){fig-align="center" height=475}

## :three: Une collaboration simplifiée et efficace {auto-animate=true}

Avec des outils pour faciliter la collaboration

![](img/issue.png){fig-align="center" height=500}

## :four: Partager son code à un public large {auto-animate=true}

Une vitrine pour les projets et l'organisation

![](img/ghinseefr.png){fig-align="center" height=475}


## En résumé

- [__Construire__]{.blue2} et [__naviguer__]{.blue2} à travers l'[**historique**]{.orange} de son projet

. . .

- La [**collaboration**]{.orange} rendue [__simple__]{.blue2} et [__efficace__]{.blue2}

. . .

- Améliorer la [**reproductibilité**]{.orange} de ses projets

. . .

- Améliorer la [**visibilité**]{.orange} de ses projets

# Le contrôle de version avec `Git`

## :warning: Git est complexe {auto-animate=true}

L'utilisation de `Git` nécessite [__certaines notions préalables__]{.orange}:

::: {.incremental}
- Fonctionnement d'un `filesystem`
- Connaissance basique du terminal `Linux`
- Potentiellement, un grand nombre de commandes
:::

![Source : [Ici](https://iulianacosmina.com/?p=19452)](img/gitfire.png){height="400"}

## :warning: Git est complexe {auto-animate=true}

[__Mais__]{.blue2}

::: {.incremental}
- L'**usage quotidien** n'implique que [**quelques commandes**]{.orange}
- [**Enormément de ressources**]{.orange} disponibles sur internet
- Des [**interfaces visuelles**]{.orange} (ex: `RStudio`, `Sublime Merge`, `VS Code`) qui facilitent l'apprentissage
- Un investissement individuel pour de [**gros gains collectifs**]{.orange}
:::


## Concepts {auto-animate=true}

#### `Git`, `GitHub`, `GitLab`... quelles différences ?

:::{.incremental}
- `Git` est un **logiciel** ;
- Utilisation en ligne de commandes
- Différentes [__interfaces graphiques__]{.blue2} (`RStudio`, `VS Code`...)
:::

## Concepts {auto-animate=true}

#### `Git`, `GitHub`, `GitLab`... quelles différences ?


:::{.incremental}
- `GitHub` et `GitLab` sont des **forges logicielles**
- _Forge_: espace d'archivage de code
- Des fonctionalités supplémentaires : __réseau social du code__
:::

:::{.callout-tip}

- `GitHub` : utilisation pour les projets **open-source**
- `GitLab` : utilisation pour les projets **internes**

:::


## Concepts {auto-animate=true}

#### Dépôt local / dépôt distant (`remote`)

![](img/localremote.png){fig-align="center" height=400}

- Par défaut, le dépôt distant porte l'alias `origin`

<!-- ## Concepts {auto-animate=true}

_Workflow_ (version littéraire) :

- On travaille sur un dépôt local en éditant des fichiers
- On dit à `Git` que ces fichiers doivent être suivis (`staging area`)
- On valide les modifications faites en local (`commit`)
- On soumet les modifications (`push`) après avoir récupéré la version collective (`pull`) -->

## Concepts {auto-animate=true}

#### _Workflow_ local

![](img/areas.png){fig-align="center" height=400}

Source : [Git Documentation](https://git-scm.com/book/en/v2/Getting-Started-What-is-Git%3F)

## Concepts {auto-animate=true}

#### _Workflow_ complet

![Source : [itnext.io](https://itnext.io/git-concepts-for-newcomers-part-2-git-repository-working-tree-and-staging-area-a2e720bf3528)](img/completeworkflow_cropped.png){height="300" width="500"}

## Commandes essentielles {auto-animate=true}

<br> 

| Action     | Commande      |
|------------|---------------|
| Cloner un projet | `git clone [url-to-git-repo]` |
| Afficher les changements | `git status` |
| Retrouver l'URL du dépôt distant | `git remote -v` |

## Commandes essentielles {auto-animate=true .smaller}

<br>

| Action     | Commande      |
|------------|---------------|
| Ajouter des changements à l'index de `Git` | Un seul fichier : `git add <file-name>` <br> Tous les fichiers déjà indexés : `git add -u` <br> Tous les fichiers :warning: : `git add -A` |

<br>

:::{.callout-important}
## Warning

La méthode `git add -A` peut amener à suivre les modifications
de fichiers qui ne devraient pas l'être (par exemple, des données).

Il est recommandé de bien réfléchir avant de l'utiliser (ou d'avoir
un bon `.gitignore`)

:::

## Commandes essentielles {auto-animate=true}

<br>

| Action     | Commande      |
|------------|---------------|
| Faire un `commit` | `git commit -m "message"`|
| Pousser les changements locaux (branche `master`) | `git push origin master` |
| Récupérer les changements distants (branche `master`) | `git pull origin master` |

## Modes d'authentification


```{css, echo=FALSE}
#size-slide, 
#size-slide h2 {
 size: 16pt;
}

```


:::{.incremental}
- [**https**]{.orange}
  - `git clone https://github.com/username/projet.git`
  - simple à utiliser
  - authentification username/token à chaque *push*
  - les identifiants peuvent être stockés dans la dénomination de l'origin
  - le mdp est lu dans un .txt **non indexé**

- [**ssh**]{.orange}
*bloqué à la Drees*
  - `git clone git@github.com:username/projet.git`
  - (plus) complexe à initialiser
  - authentification automatique 
:::

## Application 0 {.smaller}

:::{.callout-tip collapse="true" icon=false}
## Préparation de l'environnement de travail

:::{.incremental}
1. Créer un compte [`GitHub`](https://github.com/)
2. Créer un nouveau dépôt **privé** sur `GitHub`
3. Créer un compte sur le [SSP Cloud](https://datalab.sspcloud.fr/home)
4. Lancer un service `RStudio`. Dans l'onglet de configuration `Git` du service, fixer la durée du `Cache` pour le stockage des identifiants `GitHub` à une valeur suffisamment élevée
5. Cloner le dépôt distant sur votre environnement local (ici, le `RStudio` du `Datalab`):
    + `File` → `New project` → `Version Control` → `Git`
6. [Générer un *token*](https://docs.github.com/en/enterprise-server@3.4/authentication/keeping-your-account-and-data-secure/creating-a-personal-access-token) (jeton d'authentification) sur `GitHub`
7. Stocker le *token* sur le `SSP Cloud` (ou un gestionnaire de mot de passe) :
    + `Mon Compte` -> `Services externes` -> `Jeton d'accès personnel GitHub`
8. Terminer la procédure de clonage en fournissant le nom d'utilisateur `GitHub` et le *token*
:::

:::

❓ **Question** : qu'est ce qui différencie le projet cloné d'un projet quelconque ?



## Application 1

:::{.callout-tip collapse="true" icon=false}
## Premiers commits

:::{.incremental}
1. Créer un dossier 📁 `scripts`
2. Y créer les fichiers `script1.R` et `script2.R`, chacun contenant quelques commandes `R` de votre choix
3. Ajouter ces fichiers à la zone de *staging* de Git en les cochant dans l'interface `RStudio`
4. Effectuer un `commit`, auquel on donnera un message descriptif pertinent
5. Supprimer le fichier `script1.R` et modifier le contenu du fichier `script2.R`
6. Analyser ce qui se passe lorsque l'on coche ces fichiers dans l'interface `RStudio`
7. Effectuer un nouveau *commit* pour ajouter ces modifications à l'historique
8. Visualiser l'historique du projet à partir de l'interface graphique de `RStudio`
:::
:::

❓ **Question** : à ce stade, le dépôt du projet sur `GitHub` (`remote`) a-t-il été modifié ?



## Application 2

:::{.callout-tip collapse="true" icon=false}

## Interactions avec le dépôt distant

::: {.incremental}
1. Effectuer un `push` pour intégrer les changements locaux au projet distant
2. Parcourir l'historique du projet sur `GitHub`
    a. Faire apparaître les différences entre deux versions consécutives du projet
    b. Afficher une version passée du projet
:::

:::



## Bonnes pratiques {auto-animate=true .smaller}

__Que versionne-t-on ?__

:::{.incremental}
- Essentiellement du [**code source**]{.orange}
- [__Pas d'outputs__]{.orange} (fichiers `.html`, `.pdf`, modèles...)
- [__Pas de données__]{.orange}, d'informations locales ou sensibles
:::

:::{.callout-note}

Pour définir des règles qui évitent de committer tel ou tel fichier, on utilise
un fichier nommé __`.gitignore`__.

Si on mélange du code et des éléments
annexes (_output_, données...) dans un même dossier, il [__faut consacrer du temps à ce fichier__]{.orange}.

Le site [`gitignore.io`](https://www.toptal.com/developers/gitignore) peut vous fournir
des modèles.

N'hésitez pas à y ajouter des règles conservatrices (par exemple `*.csv`), 
comme cela est expliqué dans [la documentation `utilitR`](https://www.book.utilitr.org/git.html?q=gitignore#gitignore).

:::

## Bonnes pratiques {auto-animate=true .smaller}

__Format des commits__

::: {layout="[40,60]"}

::: {.incremental}
- [**Fréquence**]{.orange}
    - Aussi souvent que possible
    - Le lot de modifications doit "faire sens"
- [**Messages**]{.orange}
    - Courts et informatifs (comme un titre de mail)
    - Décrire **le pourquoi plutôt que le comment** dans le texte
:::

![](img/titre-commit.png)

:::

## Application 3

:::{.callout-tip collapse="true" icon=false}
## Le fichier `.gitignore`

::: {.incremental}
Lors de la création du projet sur `GitHub`, nous avons demandé la création d'un fichier `.gitignore`, qui se situe à la racine du projet. Il spécifie l'ensemble des fichiers qui seront toujours exclus de l'indexation faite par `Git`.

1. Exclure les fichiers de type `*.pdf` et `*.html`
2. Créer un dossier `data` à la racine du projet et créer à l'intérieur de celui-ci un fichier `data/raw.csv` avec une ligne de données quelconque
3. Ajouter au `.gitignore` le dossier `data/`
4. Vérifier que toutes les règles ajoutées précédemment fonctionnent comme attendu
:::

:::

❓ **Question** : que se passe-t-il lorsque l'on ajoute au `.gitignore` des fichiers qui ont déjà été *commit* sur le projet Git ?




# Le travail collaboratif avec Git

## Outils pour le travail collaboratif

- L'éco-système `Git` [**facilite** le travail collaboratif]{.blue2}
    - `Git` {{< fa brands git-alt >}} : modèle des [__branches__]{.orange}
    - `GitHub` {{< fa brands github >}} / `GitLab` {{< fa brands gitlab >}} : [**Issues**, **Pull Requests**, **Forks**]{.orange}

. . .

- Ces outils ne remplacent pas une [**bonne définition de l'organisation du travail**]{.orange} en équipe
    - Choix d'un *workflow*
    - Droits d'accès
    - Règles de contribution

## Application 4 {.smaller}

:::{.callout-tip collapse="true" icon=false}
## Synchronisation des dépôts

::: {.incremental}
1. Se mettre par [__groupes de 3/4 personnes__]{.orange}:
    - Une personne aura la responsabilité d’être [**mainteneur**]{.blue2}
    - Deux à trois personnes seront [**développeurs**]{.blue2}
2. Le mainteneur crée un dépôt sur `Github`. Il/Elle donne des droits au(x) développeur(s) du projet
3. Créer une copie locale (clone) du projet sur son service `RStudio` du [Datalab](https://datalab.sspcloud.fr/home)
4. Créer un fichier `<votre_nom>-<votre_prenom>.md`. Écrire dedans trois phrases de son choix sans ponctuation ni majuscules, puis `commit` et `push` les modifications
:::

__À ce stade, une seule personne (la plus rapide) devrait ne pas avoir rencontré de rejet du `push`.__
C’est normal ! Avant d’accepter une modification, `Git` vérifie en premier lieu la cohérence de la branche avec le dépôt distant. Le premier ayant fait un `push` a modifié le dépôt commun ; les autres doivent intégrer ces modifications dans leur version locale (`pull`) avant d’avoir le droit de proposer un changement.

::: {.incremental}
5. Pour ceux dont le `push` a été refusé, effectuer un `pull` des modifications distantes
6. Dans `RStudio`, afficher l'historique du projet et regarder la manière dont ont été intégrées les modifications des collaborateurs
7. Effectuer à nouveau un `push` de vos modifications locales
8. Les derniers membres du groupe devront refaire les étapes précédentes, potentiellement plusieurs fois, pour pouvoir `push` les modifications locales
:::


:::

❓ **Question** : que se serait-il passé si les différents membres du groupe avaient effectué leurs modifications sur un seul et même fichier ?



## Application 5 {.smaller}

:::{.callout-tip collapse="true" icon=false}
## Résoudre les conflits

::: {.incremental}
1. On se place dans la même configuration que dans l'application précédente : un [**mainteneur**]{.blue2} et deux/trois [**développeurs**]{.blue2}
2. Le mainteneur modifie le contenu de son fichier, puis `commit` et `push` les modifications
3. Sans faire de `pull` préalable, les développeurs modifient également le contenu du fichier du mainteneur, puis `commit` et `push` les modifications
:::

Le `push` est rejeté pour la même raison que dans l'application précédente : les dépôts ne sont plus synchronisés, il faut `pull` les changements distants au préalable.
Mais **cette fois, le `pull` est également rejeté** : il y a un **conflit** entre l'historique du projet distant et celui du projet local.
`Git` nous indique qu'il faut résoudre le conflit avant de pouvoir modifier l'historique du projet.

::: {.incremental}
5. Utiliser l'interface de `RStudio` pour résoudre le conflit, en choisissant la version du fichier que vous souhaitez conserver, puis `commit`/`push` les modifications
6. Comme dans l'application précédente, seul le développeur le plus rapide parvient à `push`. Les autres doivent répéter l'opération.
:::

:::

❓ **Question** : comment limiter au maximum la survenue des conflits d'historique ?



## Le modèle des branches {auto-animate=true}

![](https://i.imgflip.com/4ooord.jpg){fig-align="center"}

## Le modèle des branches {auto-animate=true}

![](img/branches.png)

## Exemple d'organisation : le *GitHub flow*

![](img/ghflow.png)

Description plus détaillée : [ici](https://docs.github.com/en/get-started/quickstart/github-flow)

<!--
## Adopter de bonnes pratiques collaboratives {.smaller}

:warning: __Ne jamais `git push --force`__

![](https://miro.medium.com/max/400/0*XaLzNzYkA6PZjbl9.jpg){height="350" fig-align="center"}
-->

## Application 6

:::{.callout-tip collapse="true" icon=false}
## Branches, *issues* et *pull requests*

::: {.incremental}
1. Sur `GitHub`, chaque personne ouvre une `Issue` sur le même dépôt que les applications précédentes, dans laquelle vous suggérez une modification à apporter à votre projet
2. Créer une branche dont le nom indique la modification que vous allez apporter (ex : `ajout-authentification`)
3. Effectuer un `commit` avec les modifications de votre choix, puis pousser les changements sur une nouvelle branche du dépôt distant
4. Ouvrir une `Pull Request` (`PR`) pour proposer d'intégrer vos changements sur la branche principale du dépôt distant. Spécifier que l'acceptation de la `Pull Request` entraînera la fermeture automatique de l'`Issue` associée en écrivant dans le corps de la `PR` : `close #N` où `N` est le numéro de l'`Issue` en question
5. Chaque personne effectue finalement une *review* d'une `PR` d'un autre membre de l'équipe, suite à quoi les différentes `PR` peuvent être fusionnées
:::
:::

❓ **Question** : quelle organisation pour merge dans la branche principale ?



## Application 7

:::{.callout-tip collapse="true" icon=false}
## Utilisation de `GitLab`

::: {.incremental}
Cette application vise à prendre en matin l'interface de `GitLab`, éventuellement dans le cadre de votre environnement interne de travail.

1. Dans le cadre d'un `GitLab` interne, il est plus confortable d'utiliser l'authentification via clé `ssh` plutôt que l'authentification par *token*. Si vous n'en avez pas encore, générer une clé `ssh` et ajouter celle-ci à votre compte `GitLab`. Se référer pour cela à la [documentation GitLab](https://docs.gitlab.com/ee/user/ssh.html) ou, idéalement, à la documentation de cette procédure sur votre environnement interne de travail.
2. Explorer l'interface de `GitLab` pour retrouver les différents éléments que nous avons exploités sur l'interface de `GitHub`.
3. Créer un projet dans son espace personnel sur `GitLab` et répéter les opérations des applications 1 et 2.
:::
:::



## Application 8 (bonus)

:::{.callout-tip collapse="true" icon=false}
## Contribution à un projet open-source

::: {.incremental}
1. Sur `GitHub`, faire un `fork` du dépôt [`git-exo`](https://github.com/avouacr/git-exo.git)
2. Créer une branche intitulée `<votre_nom>-<votre_prénom>`
3. Effectuer un `commit` avec les modifications de votre choix, puis pousser les changements sur votre `fork`
4. Ouvrir une `Pull Request` (`PR`) pour proposer d'intégrer vos changements sur la branche principale du dépôt [`git-exo`](https://github.com/avouacr/git-exo.git)
5. Ouvrir une `Issue` dans laquelle vous mentionnez la `Pull Request` précédemment ouverte
:::

:::

❓ **Question** : pourquoi, avec un `fork`, est-il très important de toujours effectuer une `Pull Request` à partir d'une branche différente de la branche principale ?



## Ressources utiles {.smaller}

<br>

- Pour **aller plus loin**:
    - Formation [Travail collaboratif avec `R`](https://collaboratif-git-formation-insee.netlify.app/index.html)
    - Cours [Reproductibilité et bonnes pratiques pour les projets de data science](https://ensae-reproductibilite.netlify.app/) de l'`ENSAE`
    - La [documentation `utilitR`](https://www.book.utilitr.org/) propose plusieurs chapitres sur `Git`
    - La [Bible](https://git-scm.com/book/en/v2)
<br>

. . .

- **Trouver de l'aide**:
    - Pour toute question : le salon Tchap [Insee-Git-Gitlab](https://tchap.gouv.fr/#/room/#InseeGitGitlablPtu8f1Frns:agent.finances.tchap.gouv.fr)
    - A l'Insee : la [documentation utilisateurs] pour l'utilisation de `Git` sur `AUS`
    - Sollicitez vos collègues utilisateurs de `Git` !

## Merci pour votre attention !