# Introduction

Git est un logiciel de gestion de versions décentralisé. C'est un logiciel libre créé par Linus Torvalds, auteur du noyau Linux, et distribué selon les termes de la licence publique générale GNU version 2. En 2016, il s’agit du logiciel de gestion de versions le plus populaire qui est utilisé par plus de douze millions de personnes.

Git permet de gérer le versionnage de projets plus ou moins importants. Il est essentiel et très utlisé dans de nombreuses entreprises pour collaborer et versionner du code logiciel.

## Mais comment ça marche ?


Le concept est assez simple, git permet de synchroniser de manière asynchrone un espace de travail local et un espace de travail distant et partagé avec d'autres.

Git considère chaque fichier d'un projet comme une instance à part entière. L'utilisateur devra gérer l'état de son fichier local et veillera à la cohérence tout au long de la vie du projet. Git se chargera plus ou moins automatiquement de gérer les différentes avancés des participants à un même projet. 

Git fonctionne avec un système de d'états à un instant T. Tous ces états compilés et mis à la suite des autres permettent de définir l'état actuel du projet et du code. Tous ces états sont stockés en local et sur le serveur distant cela permet à chaque utilisateur d'être à un même niveau d'information.


## Mais à quoi ce sert ?

Aujourd'hui pour partager des versions de différents projets, la plupart des gens créer des versions brutes de ces fichiers/dossiers/projets en ajoutant des noms plus longs les uns que les autres : 
- projet_data_engineering_v2_new_last
- video_vacances_v1.2.10.mp4
On se les envoie ensuite par mail pour garder une trace et se partager les différentes avancées. 
Git permet de garder en mémoire toutes ces versions tout en proposant uniquement la dernière version.
Il permet aussi de "merger" les travaux de plusieurs personnes de façon plus ou moins automatique.

Git permet donc de garantir plusieurs choses: 
- Les modifications faites par chaque participant ne rentre pas en conflit avec celles des autres.
- Chaque participant peut savoir ce que les autres ont modifié et peuvent agir en conséquence.
- Chaque participant possède la dernière version du projet.

## Les concepts

### Les zones de travail

Git gère 4 zones de travail, 3 sur la machine locale et 1 sur le serveur distant.
- Working directory 
- Staging area 
- Local repository 
- Remote repository

ces différentes zones permet la cohérence et la gestion des conflits entre les différents participants. 

Le working directory est l'état des fichiers locaux à un instant T. Je modifie un fichier de mon projet, mon working directory est mis à jour. Cela correspond à la version actuelle de tous mes fichiers. 
La staging area correspond au premier jet d'une nouvelle version. nous souhaitons valider et sauvegarder la modification d'un fichier. Nous sauvegardons cet état dans la staging area. C'est l'étape juste avant l'incorporation des modifications dans le projet. 
Le local repository est la version locale du projet que l'on souhaite partager à tout le monde.
Le remote repository est la version partagée.


Le processus est donc le suivant : 
- Je modifie un fichier ou un ensemble de fichier
- J'ajoute ces modifications à la staging area
- Je valide la staging area et la prépare à être envoyé sur le serveur distant. 
- Je pousse mes modifications et les partages avec tout le monde.


### L'état des fichiers

Git gère aussi 4 états de fichiers différents
- Untracked 
- Unmodified
- Modified
- Staged 

c'est 4 états permettent de définir à un instant t, l'état de tous les fichiers du projet. 

Untracked est l'état lorsque qu'un fichier n'est pas versionné par git. Il n'est dans aucune zone de travail et n'est pas intégré dans les processus de partage.
Unmodified est un fichier qui n'a pas été modifié depuis le dernier état
Modified est un fichier qui vient d'être modifié
Staged est un fichier qui était modifié et qui est ajouté au staging area. Il est prêt à être partagé.


### Les branches

Les branches sont des copies d'un même projet qui vivent en parrallèle. Cela permet d'entamer des modifications importantes tout en gardant une version "stable" et sans la modifier. 

Ces branches fonctionnent de la même manière que le projet principal.

## Les commandes de base

### clone
- `git clone <URL>`

permet de récupérer le projet du serveur distant et de stocker les fichiers en local. Cela créé les zones de travail automatiquement et l'ensemble des fichiers est "Unmodified"

Lancer la commande `git clone https://github.com/rcourivaud/DataEngineerTools` pour récupérer l'ensemble du dossier sur votre machine locale.

### status 

- `git status`

permet d'afficher l'ensemble des états des fichiers.

Essayez maintenant de modifier le fichier gittest.txt et de relancer le `git status`

### add

- `git add <VOTRE_FICHIER>` 

permet d'ajouter à la staging area le fichier modifié.

Lancer la commande `git add gittest.txt` et relancer le `git status`

### commit 

- `git commit -m <VOTRE_MESSAGE>` 

permet de sauvegarder et de valider la staging area dans le local repository.

Lancer la commande `git commit -m "just add some text in  gittest.txt"` et relancer le `git status`

### push

- `git push origin <VOTRE_BRANCHE>` 

permet d'envoyer et de partager votre local repository vers le remote repository. C'est à ce moment la que git envoie vos modifications locales au serveur.

Lancer la commande `git push origin master` et relancer le `git status`

Tous les fichiers redeviennent "Unmodified"

### fetch

- `git fetch origin` 

permet de récupérer toutes les modifications du serveur distant et de les télécharger sur le local repository.

### merge

- `git merge <VOTRE_BRANCHE>` 

permet de merge une branche du local repository sur la branche locale.

### pull 

- `git pull origin <VOTRE_BRANCHE>` 

permet de mutualiser les deux commandes précedentes en faisant le git fetch et le git merge en une seule commande.