# Versionskontrolle

Dieses Jupyter Notebook enthält die Beispiele zur Vorlesung Versionsverwaltung mit Git. Um dieses Notebook auszuführen benötigt man einen [Bash-Kernel](https://github.com/takluyver/bash_kernel). Alle Kommandos in diesem Notebook simulieren die Ausführung an der Kommandozeile.

## Diff

Bevor wir uns Git zuwenden, müssen wir zunächst die Darstellung von Unterschieden zwischen Dateien betrachten. Man nennt so einen Unterschied einen *Diff*, und erstellt werden diese vom klassischen Werkzeug `diff`.

Gegeben seien zwei Beispieldateien (deren Inhalt wir uns mit `cat` ansehen können):

In [None]:
cat data/git/Example1.java

In [None]:
cat data/git/Example2.java

Der Unterschied zwischen den beiden Dateien kann mit `diff <datei1> <datei2>` angezeigt werden.

In [None]:
diff data/git/Example1.java data/git/Example2.java

Angezeigt werden nur jene Zeilen, bei denen sich die beiden Dateien unterscheiden. Zeilen mit dem Prefix `<` enstammen der ersten Datei, und jene mit dem Prefix `>` sind die entsprechenden Zeilen in der zweiten Datei.

Sehen wir uns ein Beispiel an, bei dem neue Zeilen im Vergleich zur ersten Datei hinzugefügt wurden:

In [None]:
cat data/git/Example3.java

In [None]:
diff data/git/Example1.java data/git/Example3.java

Nun noch ein Beispiel bei dem Zeilen entfernt wurden.

In [None]:
cat data/git/Example4.java

In [None]:
diff data/git/Example1.java data/git/Example4.java

### Context

Um einen Diff besser zu verstehen, kann man sich den Kontext, also die Zeilen rund um die Änderung, mitanzeigen lassen.

In [None]:
diff -c data/git/Example1.java data/git/Example2.java

In [None]:
diff -c data/git/Example1.java data/git/Example3.java

In [None]:
diff -c data/git/Example1.java data/git/Example4.java

### Unified diff format

Als Austauschformat wird das _Unified_-Diff-Format verwendet

In [None]:
diff -u data/git/Example1.java data/git/Example2.java

Zeilen mit Präfix `+` wurden hinzugefügt, mit Präfix `-` entfernt.

In [None]:
diff -u data/git/Example1.java data/git/Example3.java

In [None]:
diff -u data/git/Example1.java data/git/Example4.java

## Patch

Das Unified Diff Format erlaubt es, bestehende Dateien anzupassen. Der Unterschied wird dazu in einem *Patch* gespeichert.

In [None]:
diff -u data/git/Example1.java data/git/Example2.java > patch.txt

In [None]:
cat patch.txt

In [None]:
cp data/git/Example1.java Example.java

In [None]:
cat Example.java

Um die Datei `Example.java` nun basierend auf unserem Patch zu verändern, benötigen wir das Kommando `patch`.

In [None]:
patch -p0 Example.java < patch.txt

In [None]:
cat Example.java

In [None]:
# Nur um das Jupyter Notebook aufzuräumen...
rm patch.txt
rm Example.java

## Git

Wir verwenden zur Versionsverwaltung das Programm `git`. Git ist in alle modernen IDEs direkt integriert, wir verwenden hier jedoch die Kommandozeilen-Version.

Zunächst legen wir uns nur ein temporäres Verzeichnis an, damit das Jupyter Notebook nicht zugemüllt wird...

In [None]:
rm -rf tmp
mkdir -p tmp
cd tmp

Wir nehmen an Entwickler 1 hat einen Workspace im Verzeichnis `dev1.

In [None]:
mkdir -p dev1
cd dev1

Wir legen hier nun ein neues Git Repository an.

In [None]:
git init

Um Veränderungen im Workspace zu simulieren, fügen wir eine Datei `hello.txt` hinzu.

In [None]:
echo "Hallo SE 2024" > hello.txt

In [None]:
ls

Um diese neue Datei in die Versionsverwaltung aufzunehmen, dient das `add` Kommando in Git.

In [None]:
git add hello.txt

Damit befindet sich die Datei auf der "Stage". Um sie ins Repository einzuchecken, dient das `commit` Kommando.

In [None]:
git commit -m "Add hello"

Git-Output wird mit einem "Pager" angezeigt, der per Default auf einen Tastendruck wartet. Nachdem das im Jupyter Notebook nicht geht, müssen wir den an dieser Stelle umkonfigurieren. Das ist normalerweise nicht notwendig.

In [None]:
# Only required for presenting in the Jupyter notebook
export GIT_PAGER=cat

Die Historie unserers Repositories können wir mit `log` ansehen.

In [None]:
git log

Nun verändern wir die Datei nochmal (und simulieren damit, dass Entwickler 1 arbeitet).

In [None]:
echo "Hello again" >> hello.txt

Den Status unseres Workspaces können wir mit `status` einsehen.

In [None]:
git status

Wenn wir wissen wollen, was verändert wurde, können wir uns einen Diff anzeigen lassen.

In [None]:
git diff

Das Committen der neuen Änderungen funktioniert wieder ähnlich.

In [None]:
git add hello.txt

In [None]:
git commit -m "Updated hello"

Die Historie zeigt uns nun zwei Änderungen.

In [None]:
git log

Wenn wir wissen wollen, wer zuletzt die Datei `hello.txt` geändert hat, dann finden wir das mit `blame` heraus.

In [None]:
git blame hello.txt

### Nicht-committete Änderungen rückgängig machen

Angenommen wir nehmen wieder eine lokale Änderung vor.

In [None]:
echo "Hello yet again" >> hello.txt

In [None]:
git status

Wenn wir lokale Änderungen, die noch nicht "staged" oder "committed" sind, rückgängig machen wollen, dann können wir dazu einfach die Version in `HEAD` auschecken.

In [None]:
git checkout hello.txt

In [None]:
git status

In [None]:
cat hello.txt

### Unstaging

Nehmen wir noch eine Änderung vor:

In [None]:
echo "Hello yet again" >> hello.txt
git add hello.txt

In [None]:
git status

Diese Änderung ist nun schon "staged". Wenn wir diese Änderung rückgängig machen wollen, reicht ein "checkout" nicht aus:

In [None]:
git checkout hello.txt

In [None]:
git status

Zuvor müssen wir die Datei "unstagen":

In [None]:
git reset hello.txt

In [None]:
git status

Aber committen wir die Änderung zunächst doch noch.

In [None]:
git add hello.txt
git commit -m "Hello the third"

### Reverting

Wir können eine beliebige Version der Datei `hello.txt` auschecken. Die folgenden Commits existieren:

In [None]:
git log

Da sich Commit-Hashes bei jeder Ausführung ändern, holen wir uns den Commithash des ersten Commits (das ist normal nicht so notwendig, das passiert hier nur um mit dem Jupyter Notebook zu arbeiten).

In [None]:
# Normally you'd know the commit hash, we need to figure out this way for the Jupyter notebook
COMMIT=$(git log --reverse --oneline | head -n 1 | cut -d ' ' -f1)

Wir können uns nun gezielt die Version von `hello.txt` mit diesem Commithash auschecken.

In [None]:
git checkout $COMMIT -- hello.txt

In [None]:
git status

In [None]:
cat hello.txt

Die Datei zählt nun als geändert, wenn wir diese Änderung behalten wollen (und damit die letzten beiden Commits rückgängig machen), dann müssen wir sie commiten.

In [None]:
git add hello.txt
git commit -m "Reverted to original version"

In [None]:
git log hello.txt

### Detached Head

Vorsichtig muss man sein, wenn man nicht nur eine Datei in einer alten Version auscheckt, sondern den ganzen Workspace in den Zustand versetzt.

In [None]:
git checkout $COMMIT

Wenn wir uns die Historie ansehen, sind die letzten beiden Commits nun verschwunden:

In [None]:
git log --oneline

Noch ist nichts verloren, wir können einfach wieder die "main" Version auschecken.

In [None]:
git checkout main

In [None]:
git log --oneline

`main` ist ein Branch. Um zu sehen, wie wir dieses Problem umgehen können, schauen wir uns zunächst an wie man mit Branches arbeitet.

## Branches

Zwischen Branches wechselt man mit dem Kommando `checkout`; einen neuen Branch erstellt man mit `checkout -b`.

In [None]:
git checkout -b se2

Nun können wir in unserem `se2` Branch arbeiten.

In [None]:
echo "Hello in the se2 branch" >> hello.txt

In [None]:
git add hello.txt

In [None]:
git commit -m "Add branch hello"

In [None]:
git log --oneline

Wenn wir zurück in den `main` Branch wechseln, dann ist die letzte Änderung hier nicht vorhanden.

In [None]:
git checkout main

In [None]:
cat hello.txt

In [None]:
git log --oneline

Um Branches zusammenzuführen, dient das Kommando "merge". Mergen wir also `se2` nach `main`:

In [None]:
git merge se2

Nun sind die Änderungen wieder zusammengeführt.

In [None]:
cat hello.txt

Änderungen in main sind in `se2` nicht sichtbar:

In [None]:
echo "Hello added in main" >> hello.txt
git add hello.txt
git commit -m "Added hello main"

In [None]:
git checkout se2

In [None]:
cat hello.txt

Wir führen nun auch in `se2` eine Änderung durch und committen.

In [None]:
echo "Hello added again in se2" >> hello.txt
git add hello.txt
git commit -m "Added hello to se2 again"

Diese Änderung ist natürlich in `main` nicht sichtbar.

In [None]:
git checkout main

In [None]:
cat hello.txt

Wenn wir nun allerdings einen Merge probieren, gibt es ein Problem: Die Datei `hello.txt` wurde in beiden Branches editiert.

In [None]:
git merge se2

Der Merge-Conflict wird in der Datei angezeigt.

In [None]:
cat hello.txt

In [None]:
git status

Hier hat der automatische Merge nicht geklappt. Wir müssen also per Hand in unserem Editor das Problem lösen.

In [None]:
cat > hello.txt << EOM
Hallo SE 2022
Hello in the se2 branch
Hello added in main
Hello added again in se2
EOM

In [None]:
cat hello.txt

Wir befinden uns noch im Merge, und müssen diesen abschliessen indem wir die Datei, in der wir den Merge-Conflict behoben haben, stagen und dann committen.

In [None]:
git status

In [None]:
git add hello.txt

Ein Merge-Commit braucht keine explizite Commit-Message.

In [None]:
git commit --no-edit

In [None]:
git log --oneline

Wir können uns hierzu auch einen Commit-Graphen anzeigen lassen.

In [None]:
git log --oneline --graph

### Detached Head reparieren

Erstellen wir nochmal den problematischen Detached Head:

In [None]:
# Checkout first commit
git checkout $COMMIT

Die Lösung des Problems liegt darin, für den aktuellen Zustand einen neuen Branch anzulegen.

In [None]:
git checkout -b new_feature

In [None]:
echo "Adding hello to initial hello" >> hello.txt

In [None]:
git add hello.txt

In [None]:
git commit -m "Added hello in branch"

In [None]:
git log --oneline --graph

Diese Änderung ist natürlich noch nicht im Main-Branch:

In [None]:
git checkout main

In [None]:
cat hello.txt

## Rebase

Ein Merge erzeugt einen expliziten Merge-Commit und eine Verzweigung in der Commit-Historie. Eine Alternative dazu ist ein Rebase, welches die Commits eines Branches auf einen alternativen Startpunkt anwendet. Wir erzeugen uns dazu wieder einen Branch der von dem ersten Commit verzweigt.

In [None]:
git checkout $COMMIT

In [None]:
git checkout -b rebase_feature

In diesem Branch erzeugen wir eine neue Datei `hello2.txt`.

In [None]:
echo "Hello again" > hello2.txt

In [None]:
git add hello2.txt
git commit -m "Add new hello file"

In diesem Branch fehlen uns nun aber die ganzen Änderungen, die an der Datei `hello.txt` angwendet wurden:

In [None]:
cat hello.txt

In [None]:
git log --oneline --graph

Wir können den Branch `rebase_feature` aber mit dem aktuellen Main rebasen:

In [None]:
git rebase main

Hierdurch wird der Commit, mit dem `hello2.txt` erstellt wurde, auf den Main angewendet.

In [None]:
cat hello.txt

In [None]:
git log --oneline --graph

Die Datei `hello2.txt` existiert aber noch nicht im Main:

In [None]:
git checkout main

In [None]:
ls

Wir müssen den Branch dazu nach Main mergen.

In [None]:
git merge rebase_feature

In [None]:
ls

Nachdem der Branch `rebase_feature` auf Main rebased war, wird ein Fast-Forward-Merge angewendet, d.h. es benötigt keinen eigenen Merge-Commit.

In [None]:
git log --oneline --graph

## Stashing

Es kann vorkommen, dass man Änderungen von anderer Stelle einpflegen muss, bevor das Feature, an dem man gerade arbeitet, fertig ist, sodass man es noch nicht committen will. Man kann die Änderungen, die noch nicht committed sind, auf einen "Stash" schieben.

In [None]:
echo "Some unfinished change" >> hello.txt

In [None]:
cat hello.txt

In [None]:
git status

In [None]:
git stash

Damit sind nun alle Dateien wieder am gleichen Stand wie `master`.

In [None]:
git status

In [None]:
cat hello.txt

Um die lokalen Änderungen wieder einzufügen, verwendet man `stash apply`:

In [None]:
git stash apply

In [None]:
cat hello.txt

In [None]:
# Houskeeping for Jupyter notebook
cd ..
rm -rf dev1

## Mehrere Benutzer und Remote Repositories

Git ist ein verteiles Versionskontrollsystem, d.h. es kann mehrere Klone des Repositories geben, und man kann Änderungen dazwischen austauschen. Wir legen uns für das Notebook ein neues "Remote" Repository an, auf welches 2 simulierte Entwickler Zugriff haben sollen:

In [None]:
mkdir remote_repo
cd remote_repo
git init --bare

Entwickler 1 und Entwickler 2 können sich Klone des Repositories mit dem "clone" Befehl erstellen. (Der Befehl wird aktuell noch meckern dass das Repository leer ist).

In [None]:
cd ..

In [None]:
git clone remote_repo dev1

In [None]:
git clone remote_repo dev2

Zunächst simulieren wir, dass Entwickler 1 in seinem Workspace arbeitet.

In [None]:
cd dev1

In [None]:
echo "I am developer 1" >> hello.txt
git add hello.txt
git commit -m "Hello 1"

Um die Änderungen im eigenen Repository an das "Remote" Repository zu schieben, dient der "push" Befehl:

In [None]:
git push

Entwickler 2 kann nun diese Änderungen vom Remote Repository in das eigene "pullen":

In [None]:
cd ..
cd dev2

Noch ist das Repository leer:

In [None]:
ls

Änderungen ziehen passiert mit "pull":

In [None]:
git pull

In [None]:
cat hello.txt

Nun arbeitet auch Entwickler 2 im eigenen Workspace.

In [None]:
echo "I am developer 2" >> hello.txt
git add hello.txt
git commit -m "Add hello from developer 2"

Die Änderungen können per "push" wieder geteilt werden.

In [None]:
git push

Entwickler 1 kann sich diese Änderungen mit "pull" holen.

In [None]:
cd ..
cd dev1

In [None]:
cat hello.txt

In [None]:
git pull

In [None]:
git log

In [None]:
cat hello.txt

In [None]:
cd ..

## Remotes

Ein Git Repository ist nicht an ein einzelnes Remote-Repository gebunden, sondern kann sich mit beliebig vielen anderen Repositories austauschen. Klonen wir zunächst ein Repository von GitHub:

In [None]:
git clone https://github.com/se2p/se2022-gitexample.git

In [None]:
cd se2022-gitexample

Wenn ein Repository per "clone" erstellt wird, dann heisst das Upstream-Repository `origin`. Wir können uns ansehen, wo `origin` liegt:

In [None]:
git remote get-url origin

Legen wir uns noch einen Klon des neuen Repositories an:

In [None]:
cd ..
git clone se2022-gitexample another_clone

In [None]:
cd another_clone

`origin` ist nun einfach das Verzeichnis unseres lokalen Git-Repositories, das wir eben geklont haben:

In [None]:
git remote get-url origin

Wir können aber nun auch das GitHub-Repository als Remote hinzufügen:

In [None]:
git remote add github https://github.com/se2p/se2022-gitexample.git

Unser Repository hat nun zwei Remotes:

In [None]:
git remote

Der Name des Remotes kann bei einem `push` angegeben werden.

### Hinweis zum Pushen von Branches an Remotes

Befindet man sich in einem Branch, der auf einem Remote noch nicht existiert, so resultiert ein `git push` in der folgenden Fehlermeldung:

```
fatal: The current branch Foo has no upstream branch.
To push the current branch and set the remote as upstream, use

    git push --set-upstream origin <branchname>
```

Durch Eingabe des vorgegebenen Befehls `git push --set-upstream origin <branchname>` wird der Branch am Remote `origin` angelegt. Danach kann man Dateiänderungen direkt in den Remote-Branch pushen. Alternativ erlaubt auch `git push --all` dass _alle_ Branches gepushed werden.

### Hinweis zum Pushen von Tags an Remotes

Wenn nicht nur Dateiänderungen sondern auch Tags gepushed werden sollen, so muss man den Tagnamen der gepushed werden soll angeben: `git push origin <tagname>`. Alternativ pushed `git push --follow-tags` einfach alle Tags.


In [None]:
# Clean up notebook
cd ../..
rm -rf tmp