# Introduction

## La notion de bonnes pratiques

- [**Origine**]{.blue2} : communaut√© des d√©veloppeurs logiciels

. . .

- [**Constats**]{.blue2} :
    - le [_"code est plus souvent lu qu'√©crit"_]{.green2} ([Guido Van Rossum](https://fr.wikipedia.org/wiki/Guido_van_Rossum))
    - la maintenance d'un code est tr√®s co√ªteuse

. . .

- [**Cons√©quence**]{.blue2} : ensemble de [**r√®gles informelles**]{.orange},
conventionnellement accept√©es comme produisant des logiciels [**fiables**]{.orange}, [**√©volutifs**]{.orange} et [**maintenables**]{.orange}


## Pourquoi s'int√©resser aux bonnes pratiques ? {.smaller}

<br>

L'activit√© du statisticien / *datascientist* tend √† se rapprocher de celle du d√©veloppeur :

. . .

- projets **intenses en code**

. . .

- **projets collaboratifs** et de grande envergure

. . .


- **complexification** des donn√©es et donc des **infrastructures**

. . .

- **d√©ploiement** d'applications pour valoriser les analyses

## Bonnes pratiques et reproductibilit√©

![](img/reprospectrum.png){height="200" fig-align="center"}

**Source** : Peng R., Reproducible Research in Computational Science, Science (2011)

- Une reproductibilit√© parfaite est [**co√ªteuse**]{.orange}

- `Git` est un [**standard atteignable**]{.orange} et [**efficient**]{.orange}

## Bonnes pratiques et reproductibilit√©

![](img/aea.png){fig-align="center"}

- Les journaux acad√©miques sont de plus en plus exigeants sur
la reproductibilit√©
(notamment [AEA](https://aeadataeditor.github.io/) et [@AeaData](https://twitter.com/AeaData))

<!--
## L'objectif du jour

- Aujourd'hui, on se [__concentre sur `Git`__]{.orange}

![](https://www.memecreator.org/static/images/memes/5482008.jpg){fig-align="center"}
-->

# Le contr√¥le de version : pourquoi faire ?

## :one: Archiver son code proprement {auto-animate=true}

pour en finir avec √ßa :

![](img/fichiers_multiples.png)


## :one: Archiver son code proprement {auto-animate=true}

ou √ßa :

![](img/finalfinal.png){fig-align="center"}


## :one: Archiver son code proprement {auto-animate=true}

ou encore √ßa :

```{.python code-line-numbers="12-18"}
prior <- read_csv(prior_path)
prior <- prior %>%
    select(id, proba_inter, proba_build, proba_rfl) %>%
    separate(id, into = c('nidt', 'grid_id'), sep = ":") %>%
    group_by(nidt) %>%
    mutate(
        proba_build = proba_build/sum(proba_build),
        proba_rfl = proba_rfl/sum(proba_rfl),
        ) %>%
    unite(col = "id", nidt, grid_id, sep = ":")

# Test
# prior_test <- prior %>%
#    mutate(
#        proba_inter = round(proba_inter, 4)
#        proba_build = round(proba_build, 4)
#        proba_rfl = round(proba_rfl, 4)
#    )

write_csv(prior_round, "~/prior.csv")
```

## :one: Archiver son code proprement {auto-animate=true}

Pour arriver √† √ßa :

![](img/timeline.png){fig-align="center" height=475}

Source : [ThinkR](https://thinkr.fr/travailler-avec-git-via-rstudio-et-versionner-son-code/)

## :two: Voyager dans le temps (de votre projet)

![](img/historique_utilitr.png){fig-align="center"}

## :three: Une collaboration simplifi√©e et efficace {auto-animate=true}

Un mod√®le distribu√©

![](img/git_distributed.png){fig-align="center" height=475}

Source : [specbee.com](https://www.specbee.com)

## :three: Une collaboration simplifi√©e et efficace {auto-animate=true}

Qui permet l'exp√©rimentation en toute s√©curit√©

![](img/branches.png){fig-align="center"}

Source : [lutece.paris.fr](https://lutece.paris.fr/support/jsp/site/Portal.jsp?page=wiki&view=page&page_name=git&language=fr)

## :three: Une collaboration simplifi√©e et efficace {auto-animate=true}

Quel que soit l'environnement de travail

![](img/envtravail.png){fig-align="center" height=475}

## :three: Une collaboration simplifi√©e et efficace {auto-animate=true}

Avec des outils pour faciliter la collaboration

![](img/issue.png){fig-align="center" height=500}

## :four: Partager son code √† un public large {auto-animate=true}

Une vitrine pour les projets et l'organisation

![](img/ghinseefr.png){fig-align="center" height=475}


## En r√©sum√©

- [__Construire__]{.blue2} et [__naviguer__]{.blue2} √† travers l'[**historique**]{.orange} de son projet

. . .

- La [**collaboration**]{.orange} rendue [__simple__]{.blue2} et [__efficace__]{.blue2}

. . .

- Am√©liorer la [**reproductibilit√©**]{.orange} de ses projets

. . .

- Am√©liorer la [**visibilit√©**]{.orange} de ses projets

# Le contr√¥le de version avec `Git`

## :warning: Git est complexe {auto-animate=true}

L'utilisation de `Git` n√©cessite [__certaines notions pr√©alables__]{.orange}:

::: {.incremental}
- Fonctionnement d'un `filesystem`
- Connaissance basique du terminal `Linux`
- Potentiellement, un grand nombre de commandes
:::

![Source : [Ici](https://iulianacosmina.com/?p=19452)](img/gitfire.png){height="400"}

## :warning: Git est complexe {auto-animate=true}

[__Mais__]{.blue2}

::: {.incremental}
- L'**usage quotidien** n'implique que [**quelques commandes**]{.orange}
- [**Enorm√©ment de ressources**]{.orange} disponibles sur internet
- Des [**interfaces visuelles**]{.orange} (ex: `RStudio`, `Sublime Merge`, `VS Code`) qui facilitent l'apprentissage
- Un investissement individuel pour de [**gros gains collectifs**]{.orange}
:::


## Concepts {auto-animate=true}

#### `Git`, `GitHub`, `GitLab`... quelles diff√©rences ?

:::{.incremental}
- `Git` est un **logiciel** ;
- Utilisation en ligne de commandes
- Diff√©rentes [__interfaces graphiques__]{.blue2} (`RStudio`, `VS Code`...)
:::

## Concepts {auto-animate=true}

#### `Git`, `GitHub`, `GitLab`... quelles diff√©rences ?


:::{.incremental}
- `GitHub` et `GitLab` sont des **forges logicielles**
- _Forge_: espace d'archivage de code
- Des fonctionalit√©s suppl√©mentaires : __r√©seau social du code__
:::

:::{.callout-tip}

- `GitHub` : utilisation pour les projets **open-source**
- `GitLab` : utilisation pour les projets **internes**

:::


## Concepts {auto-animate=true}

#### D√©p√¥t local / d√©p√¥t distant (`remote`)

![](img/localremote.png){fig-align="center" height=400}

- Par d√©faut, le d√©p√¥t distant porte l'alias `origin`

<!-- ## Concepts {auto-animate=true}

_Workflow_ (version litt√©raire) :

- On travaille sur un d√©p√¥t local en √©ditant des fichiers
- On dit √† `Git` que ces fichiers doivent √™tre suivis (`staging area`)
- On valide les modifications faites en local (`commit`)
- On soumet les modifications (`push`) apr√®s avoir r√©cup√©r√© la version collective (`pull`) -->

## Concepts {auto-animate=true}

#### _Workflow_ local

![](img/areas.png){fig-align="center" height=400}

Source : [Git Documentation](https://git-scm.com/book/en/v2/Getting-Started-What-is-Git%3F)

## Concepts {auto-animate=true}

#### _Workflow_ complet

![Source : [itnext.io](https://itnext.io/git-concepts-for-newcomers-part-2-git-repository-working-tree-and-staging-area-a2e720bf3528)](img/completeworkflow_cropped.png){height="300" width="500"}

## Commandes essentielles {auto-animate=true}

<br> 

| Action     | Commande      |
|------------|---------------|
| Cloner un projet | `git clone [url-to-git-repo]` |
| Afficher les changements | `git status` |
| Retrouver l'URL du d√©p√¥t distant | `git remote -v` |

## Commandes essentielles {auto-animate=true .smaller}

<br>

| Action     | Commande      |
|------------|---------------|
| Ajouter des changements √† l'index de `Git` | Un seul fichier : `git add <file-name>` <br> Tous les fichiers d√©j√† index√©s : `git add -u` <br> Tous les fichiers :warning: : `git add -A` |

<br>

:::{.callout-important}
## Warning

La m√©thode `git add -A` peut amener √† suivre les modifications
de fichiers qui ne devraient pas l'√™tre (par exemple, des donn√©es).

Il est recommand√© de bien r√©fl√©chir avant de l'utiliser (ou d'avoir
un bon `.gitignore`)

:::

## Commandes essentielles {auto-animate=true}

<br>

| Action     | Commande      |
|------------|---------------|
| Faire un `commit` | `git commit -m "message"`|
| Pousser les changements locaux (branche `master`) | `git push origin master` |
| R√©cup√©rer les changements distants (branche `master`) | `git pull origin master` |

## Modes d'authentification


```{css, echo=FALSE}
#size-slide, 
#size-slide h2 {
 size: 16pt;
}

```


:::{.incremental}
- [**https**]{.orange}
  - `git clone https://github.com/username/projet.git`
  - simple √† utiliser
  - authentification username/token √† chaque *push*
  - les identifiants peuvent √™tre stock√©s dans la d√©nomination de l'origin
  - le mdp est lu dans un .txt **non index√©**

- [**ssh**]{.orange}
*bloqu√© √† la Drees*
  - `git clone git@github.com:username/projet.git`
  - (plus) complexe √† initialiser
  - authentification automatique 
:::

## Application 0 {.smaller}

:::{.callout-tip collapse="true" icon=false}
## Pr√©paration de l'environnement de travail

:::{.incremental}
1. Cr√©er un compte [`GitHub`](https://github.com/)
2. Cr√©er un nouveau d√©p√¥t **priv√©** sur `GitHub`
3. Cr√©er un compte sur le [SSP Cloud](https://datalab.sspcloud.fr/home)
4. Lancer un service `RStudio`. Dans l'onglet de configuration `Git` du service, fixer la dur√©e du `Cache` pour le stockage des identifiants `GitHub` √† une valeur suffisamment √©lev√©e
5. Cloner le d√©p√¥t distant sur votre environnement local (ici, le `RStudio` du `Datalab`):
    + `File` ‚Üí `New project` ‚Üí `Version Control` ‚Üí `Git`
6. [G√©n√©rer un *token*](https://docs.github.com/en/enterprise-server@3.4/authentication/keeping-your-account-and-data-secure/creating-a-personal-access-token) (jeton d'authentification) sur `GitHub`
7. Stocker le *token* sur le `SSP Cloud` (ou un gestionnaire de mot de passe) :
    + `Mon Compte` -> `Services externes` -> `Jeton d'acc√®s personnel GitHub`
8. Terminer la proc√©dure de clonage en fournissant le nom d'utilisateur `GitHub` et le *token*
:::

:::

‚ùì **Question** : qu'est ce qui diff√©rencie le projet clon√© d'un projet quelconque ?



## Application 1

:::{.callout-tip collapse="true" icon=false}
## Premiers commits

:::{.incremental}
1. Cr√©er un dossier üìÅ `scripts`
2. Y cr√©er les fichiers `script1.R` et `script2.R`, chacun contenant quelques commandes `R` de votre choix
3. Ajouter ces fichiers √† la zone de *staging* de Git en les cochant dans l'interface `RStudio`
4. Effectuer un `commit`, auquel on donnera un message descriptif pertinent
5. Supprimer le fichier `script1.R` et modifier le contenu du fichier `script2.R`
6. Analyser ce qui se passe lorsque l'on coche ces fichiers dans l'interface `RStudio`
7. Effectuer un nouveau *commit* pour ajouter ces modifications √† l'historique
8. Visualiser l'historique du projet √† partir de l'interface graphique de `RStudio`
:::
:::

‚ùì **Question** : √† ce stade, le d√©p√¥t du projet sur `GitHub` (`remote`) a-t-il √©t√© modifi√© ?



## Application 2

:::{.callout-tip collapse="true" icon=false}

## Interactions avec le d√©p√¥t distant

::: {.incremental}
1. Effectuer un `push` pour int√©grer les changements locaux au projet distant
2. Parcourir l'historique du projet sur `GitHub`
    a. Faire appara√Ætre les diff√©rences entre deux versions cons√©cutives du projet
    b. Afficher une version pass√©e du projet
:::

:::



## Bonnes pratiques {auto-animate=true .smaller}

__Que versionne-t-on ?__

:::{.incremental}
- Essentiellement du [**code source**]{.orange}
- [__Pas d'outputs__]{.orange} (fichiers `.html`, `.pdf`, mod√®les...)
- [__Pas de donn√©es__]{.orange}, d'informations locales ou sensibles
:::

:::{.callout-note}

Pour d√©finir des r√®gles qui √©vitent de committer tel ou tel fichier, on utilise
un fichier nomm√© __`.gitignore`__.

Si on m√©lange du code et des √©l√©ments
annexes (_output_, donn√©es...) dans un m√™me dossier, il [__faut consacrer du temps √† ce fichier__]{.orange}.

Le site [`gitignore.io`](https://www.toptal.com/developers/gitignore) peut vous fournir
des mod√®les.

N'h√©sitez pas √† y ajouter des r√®gles conservatrices (par exemple `*.csv`), 
comme cela est expliqu√© dans [la documentation `utilitR`](https://www.book.utilitr.org/git.html?q=gitignore#gitignore).

:::

## Bonnes pratiques {auto-animate=true .smaller}

__Format des commits__

::: {layout="[40,60]"}

::: {.incremental}
- [**Fr√©quence**]{.orange}
    - Aussi souvent que possible
    - Le lot de modifications doit "faire sens"
- [**Messages**]{.orange}
    - Courts et informatifs (comme un titre de mail)
    - D√©crire **le pourquoi plut√¥t que le comment** dans le texte
:::

![](img/titre-commit.png)

:::

## Application 3

:::{.callout-tip collapse="true" icon=false}
## Le fichier `.gitignore`

::: {.incremental}
Lors de la cr√©ation du projet sur `GitHub`, nous avons demand√© la cr√©ation d'un fichier `.gitignore`, qui se situe √† la racine du projet. Il sp√©cifie l'ensemble des fichiers qui seront toujours exclus de l'indexation faite par `Git`.

1. Exclure les fichiers de type `*.pdf` et `*.html`
2. Cr√©er un dossier `data` √† la racine du projet et cr√©er √† l'int√©rieur de celui-ci un fichier `data/raw.csv` avec une ligne de donn√©es quelconque
3. Ajouter au `.gitignore` le dossier `data/`
4. V√©rifier que toutes les r√®gles ajout√©es pr√©c√©demment fonctionnent comme attendu
:::

:::

‚ùì **Question** : que se passe-t-il lorsque l'on ajoute au `.gitignore` des fichiers qui ont d√©j√† √©t√© *commit* sur le projet Git ?




# Le travail collaboratif avec Git

## Outils pour le travail collaboratif

- L'√©co-syst√®me `Git` [**facilite** le travail collaboratif]{.blue2}
    - `Git` {{< fa brands git-alt >}} : mod√®le des [__branches__]{.orange}
    - `GitHub` {{< fa brands github >}} / `GitLab` {{< fa brands gitlab >}} : [**Issues**, **Pull Requests**, **Forks**]{.orange}

. . .

- Ces outils ne remplacent pas une [**bonne d√©finition de l'organisation du travail**]{.orange} en √©quipe
    - Choix d'un *workflow*
    - Droits d'acc√®s
    - R√®gles de contribution

## Application 4 {.smaller}

:::{.callout-tip collapse="true" icon=false}
## Synchronisation des d√©p√¥ts

::: {.incremental}
1. Se mettre par [__groupes de 3/4 personnes__]{.orange}:
    - Une personne aura la responsabilit√© d‚Äô√™tre [**mainteneur**]{.blue2}
    - Deux √† trois personnes seront [**d√©veloppeurs**]{.blue2}
2. Le mainteneur cr√©e un d√©p√¥t sur `Github`. Il/Elle donne des droits au(x) d√©veloppeur(s) du projet
3. Cr√©er une copie locale (clone) du projet sur son service `RStudio` du [Datalab](https://datalab.sspcloud.fr/home)
4. Cr√©er un fichier `<votre_nom>-<votre_prenom>.md`. √âcrire dedans trois phrases de son choix sans ponctuation ni majuscules, puis `commit` et `push` les modifications
:::

__√Ä ce stade, une seule personne (la plus rapide) devrait ne pas avoir rencontr√© de rejet du `push`.__
C‚Äôest normal ! Avant d‚Äôaccepter une modification, `Git` v√©rifie en premier lieu la coh√©rence de la branche avec le d√©p√¥t distant. Le premier ayant fait un `push` a modifi√© le d√©p√¥t commun ; les autres doivent int√©grer ces modifications dans leur version locale (`pull`) avant d‚Äôavoir le droit de proposer un changement.

::: {.incremental}
5. Pour ceux dont le `push` a √©t√© refus√©, effectuer un `pull` des modifications distantes
6. Dans `RStudio`, afficher l'historique du projet et regarder la mani√®re dont ont √©t√© int√©gr√©es les modifications des collaborateurs
7. Effectuer √† nouveau un `push` de vos modifications locales
8. Les derniers membres du groupe devront refaire les √©tapes pr√©c√©dentes, potentiellement plusieurs fois, pour pouvoir `push` les modifications locales
:::


:::

‚ùì **Question** : que se serait-il pass√© si les diff√©rents membres du groupe avaient effectu√© leurs modifications sur un seul et m√™me fichier ?



## Application 5 {.smaller}

:::{.callout-tip collapse="true" icon=false}
## R√©soudre les conflits

::: {.incremental}
1. On se place dans la m√™me configuration que dans l'application pr√©c√©dente : un [**mainteneur**]{.blue2} et deux/trois [**d√©veloppeurs**]{.blue2}
2. Le mainteneur modifie le contenu de son fichier, puis `commit` et `push` les modifications
3. Sans faire de `pull` pr√©alable, les d√©veloppeurs modifient √©galement le contenu du fichier du mainteneur, puis `commit` et `push` les modifications
:::

Le `push` est rejet√© pour la m√™me raison que dans l'application pr√©c√©dente : les d√©p√¥ts ne sont plus synchronis√©s, il faut `pull` les changements distants au pr√©alable.
Mais **cette fois, le `pull` est √©galement rejet√©** : il y a un **conflit** entre l'historique du projet distant et celui du projet local.
`Git` nous indique qu'il faut r√©soudre le conflit avant de pouvoir modifier l'historique du projet.

::: {.incremental}
5. Utiliser l'interface de `RStudio` pour r√©soudre le conflit, en choisissant la version du fichier que vous souhaitez conserver, puis `commit`/`push` les modifications
6. Comme dans l'application pr√©c√©dente, seul le d√©veloppeur le plus rapide parvient √† `push`. Les autres doivent r√©p√©ter l'op√©ration.
:::

:::

‚ùì **Question** : comment limiter au maximum la survenue des conflits d'historique ?



## Le mod√®le des branches {auto-animate=true}

![](https://i.imgflip.com/4ooord.jpg){fig-align="center"}

## Le mod√®le des branches {auto-animate=true}

![](img/branches.png)

## Exemple d'organisation : le *GitHub flow*

![](img/ghflow.png)

Description plus d√©taill√©e : [ici](https://docs.github.com/en/get-started/quickstart/github-flow)

<!--
## Adopter de bonnes pratiques collaboratives {.smaller}

:warning: __Ne jamais `git push --force`__

![](https://miro.medium.com/max/400/0*XaLzNzYkA6PZjbl9.jpg){height="350" fig-align="center"}
-->

## Application 6

:::{.callout-tip collapse="true" icon=false}
## Branches, *issues* et *pull requests*

::: {.incremental}
1. Sur `GitHub`, chaque personne ouvre une `Issue` sur le m√™me d√©p√¥t que les applications pr√©c√©dentes, dans laquelle vous sugg√©rez une modification √† apporter √† votre projet
2. Cr√©er une branche dont le nom indique la modification que vous allez apporter (ex : `ajout-authentification`)
3. Effectuer un `commit` avec les modifications de votre choix, puis pousser les changements sur une nouvelle branche du d√©p√¥t distant
4. Ouvrir une `Pull Request` (`PR`) pour proposer d'int√©grer vos changements sur la branche principale du d√©p√¥t distant. Sp√©cifier que l'acceptation de la `Pull Request` entra√Ænera la fermeture automatique de l'`Issue` associ√©e en √©crivant dans le corps de la `PR` : `close #N` o√π `N` est le num√©ro de l'`Issue` en question
5. Chaque personne effectue finalement une *review* d'une `PR` d'un autre membre de l'√©quipe, suite √† quoi les diff√©rentes `PR` peuvent √™tre fusionn√©es
:::
:::

‚ùì **Question** : quelle organisation pour merge dans la branche principale ?



## Application 7

:::{.callout-tip collapse="true" icon=false}
## Utilisation de `GitLab`

::: {.incremental}
Cette application vise √† prendre en matin l'interface de `GitLab`, √©ventuellement dans le cadre de votre environnement interne de travail.

1. Dans le cadre d'un `GitLab` interne, il est plus confortable d'utiliser l'authentification via cl√© `ssh` plut√¥t que l'authentification par *token*. Si vous n'en avez pas encore, g√©n√©rer une cl√© `ssh` et ajouter celle-ci √† votre compte `GitLab`. Se r√©f√©rer pour cela √† la [documentation GitLab](https://docs.gitlab.com/ee/user/ssh.html) ou, id√©alement, √† la documentation de cette proc√©dure sur votre environnement interne de travail.
2. Explorer l'interface de `GitLab` pour retrouver les diff√©rents √©l√©ments que nous avons exploit√©s sur l'interface de `GitHub`.
3. Cr√©er un projet dans son espace personnel sur `GitLab` et r√©p√©ter les op√©rations des applications 1 et 2.
:::
:::



## Application 8 (bonus)

:::{.callout-tip collapse="true" icon=false}
## Contribution √† un projet open-source

::: {.incremental}
1. Sur `GitHub`, faire un `fork` du d√©p√¥t [`git-exo`](https://github.com/avouacr/git-exo.git)
2. Cr√©er une branche intitul√©e `<votre_nom>-<votre_pr√©nom>`
3. Effectuer un `commit` avec les modifications de votre choix, puis pousser les changements sur votre `fork`
4. Ouvrir une `Pull Request` (`PR`) pour proposer d'int√©grer vos changements sur la branche principale du d√©p√¥t [`git-exo`](https://github.com/avouacr/git-exo.git)
5. Ouvrir une `Issue` dans laquelle vous mentionnez la `Pull Request` pr√©c√©demment ouverte
:::

:::

‚ùì **Question** : pourquoi, avec un `fork`, est-il tr√®s important de toujours effectuer une `Pull Request` √† partir d'une branche diff√©rente de la branche principale ?



## Ressources utiles {.smaller}

<br>

- Pour **aller plus loin**:
    - Formation [Travail collaboratif avec `R`](https://collaboratif-git-formation-insee.netlify.app/index.html)
    - Cours [Reproductibilit√© et bonnes pratiques pour les projets de data science](https://ensae-reproductibilite.netlify.app/) de l'`ENSAE`
    - La [documentation `utilitR`](https://www.book.utilitr.org/) propose plusieurs chapitres sur `Git`
    - La [Bible](https://git-scm.com/book/en/v2)
<br>

. . .

- **Trouver de l'aide**:
    - Pour toute question : le salon Tchap [Insee-Git-Gitlab](https://tchap.gouv.fr/#/room/#InseeGitGitlablPtu8f1Frns:agent.finances.tchap.gouv.fr)
    - A l'Insee : la [documentation utilisateurs] pour l'utilisation de `Git` sur `AUS`
    - Sollicitez vos coll√®gues utilisateurs de `Git` !

## Merci pour votre attention !