# Einführung

Dieses Notebook enthält Praxisbeispiele zur internen Fortbildung (Bio)Informatik für Anwender. Im Fokus sind eine kurze Einweisung zu Google Colab, einschließlich der wichtigsten Unterschiede zu einem eigenen Linux und die Anwendung von regulären Ausdrücken zum Theorieteil mit awk, sed und egrep.

Um das Notebook auszurühren klicke "Laufzeit" -> "Alle ausführen". Dies sollte sehr schnell gehen. Einzelne Codeteile lassen sich mit einem Klick auf den Pfeil vor dem jeweiligen Codeabschnitt ausführen. Der Code lässt sich im Bedarfsfall mit "Code anzeigen" darstellen.

10.06.2024, Robert Maximilian Leidenfrost

Google Colab steht für Google Colaboratory und beinhaltet im wesentlichen ein von Google gehostetes Jupyter Notebook. Dieses ist mit einem Google Account und ohne weiteres Setup frei nutzbar.

Kurz zur von Google bereitgestellten Technik: Die Umgebung operiert derzeit auf einem Ubuntu 22.04 LTS (Long-Term Support), und als Laufzeittypen werden Python (in der Version 3.10) sowie R angeboten. Auf der Hardwareseite sehen wir (=ich beim Erstellen dieses Notebooks) ca 12.7 GB System-RAM und 107.7 GB Laufwerk. Zur Einordnung: Damit bewegen wir uns irgendwo im Bereich von Rechnern die ihr im Büro vor euch habt. Nichts spezielles, nichts hochperformantes was man z.B. im Medienbereich oder privat für High-End Gaming etc. finden würde.
Ansonsten stellt Google GPUs (Graphics Processing Unit) und TPUs (Tensor Processing Unit) zur Verfügung. Erstere eignen sich neben der Erzeugung von Grafik besonders für die Berechnung einfach parallelisierbarer Aufgaben, letztere sind anwendungsspezifische Chips insbesondere für das maschinelle Lernen.

Insbesondere letzteres ist ein Hauptfokus dieses Google-Angebots. Daneben zielt Google auch auf die Domänen Daten und Datenanalyse, Datenvisualisierung und Cloud Computing ab. Ebenfalls relevant ist der Einsatz im Bereich Ausbildung (Education). Google Colab ermöglicht ein einfaches Erstellen, Bereitstellen und Teilen von (praktischem = interaktivem) Lehrmaterial.



## Der Bildschirm vor euch

Zunächst betrachten wir die Arbeitsoberfläche in unserem Browser. Oben finden wir wie bei jedem herkömmlichen Programm (heute vermutlich so etwas wie "Desktop-App") unsere Menüleiste. Hier gibt es auf der linken Seite die Reiter "Datei", "Bearbeiten", "Anzeige", "Einfügen", "Laufzeit", "Tools" und "Hilfe". Auf der rechten Seite sind aus Google-Apps bekannten Funktionen ("Kommentieren" und "Teilen"), sowie der Zugang zum eigenen Google Benutzerkonto.

Auf der linken Seite finden sich ein Navigationsmenü. Hier findet sich (von oben nach unten) der Inhalt des Notebooks, eine Suchfunktion, eine Übersicht über die verwendeten Variablen (ignore), Secrets (ignore), sowie ein Dateibrowser.
Zentral ist der Arbeitsbereich, das Experimentierfeld. Hier wird der Code gelesen, geschrieben, kommentiert und ausgeführt.
Zu guter letzt befindet sich auf der rechten Seite je nachdem Einblendungen mit interessanten Informationen.

Unterhalb der Google Funktionen (vgl. Bildschirm, Menüband oben) befinden sich, wenn man mit der eigenen Laufzeitumgebugng verbunden ist, im Ruhezustand ein kleiner grüner Haken. Dieser markiert die Verbindung mit der aktuellen Laufzeit. Daneben werden der z.V. Arbeitsspeicher (RAM) und Laufwerkskapazität dargestellt, sowie Optionen zur Laufzeit und Sitzung dargestellt (kleiner Pfeil nach unten). Sollte man nicht mit seiner Umgebgung verbunden sein, dann kann man sich hier via "Verbinden" mit seiner Laufzeit/Sitzung verbinden.

Wenn wir Code in Google Colab schreiben, müssen wir auf unsere Sprache achten. Sollten wir normale Linux Befehle verwenden wollen, dann müssen wir dem Befehl im Gegensatz zu einem normalen Linux Terminal ein "!" (Ausrufezeichen) voranstellen. Solange der Laufzeittyp auf Python 3 eingestellt ist (Standard), können wir Pythonbefehle direkt ausführen.

Zu guter Letzt: Wenn das Chromefenster selbst nicht gebraucht wird und/oder Stackoverflow auf einem zweiten Monitor laufen, lässt sich der Anschein einer Programmierumgebung mit einem Druck auf die Taste F11 verbessern.

## Hallo Welt

Viel Text. Wo ist das interaktiv? Das erste Programm in einer Programmiersprache ist für die meisten von uns "Hallo Welt". Nun lernen wir hier keine neue Sprache, aber immerhin ein neues, interaktives Tool, mit dem wir uns mit Programmiersprachen beschäftigen können. Also ist "Hallo Welt" vielleicht auch hier ein guter Einstieg...

In [None]:
#Dieses kurze Programm gibt ein Hello World aus.
print("Hello World")

Das ist es. Das erste Programm in Python. Genauer gesagt - der Befehl print("") mit vorangestellter Kommentierung (#). Ich empfehle euch, immer alles was ihr am PC macht, zu dokumentieren. Das spart nicht nur im Zweifelsfall später (sehr) viel Arbeit. Übertragen könnte man auch von einem elektronischem Laborbuch sprechen. NB: Google sorgt auch für eins eurer idealerweise zwei bis drei Backups. Ein etwas komplexeres Beispiel (wir laden Bibliotheken die Werkzeuge enthalten mit denen wir arbeiten möchten, wir erstellen/laden/arbeiten mit Daten, wir visualisieren Daten) könnte wie folgt aussehen:

In [None]:
#Wir importieren Softwarebibliotheken die uns beim Datenhandling (numpy) und der Datenvisualisierung (matplotlib) helfen. Dafür nutzen wir den Python-Befehl "import".
import numpy as np
from matplotlib import pyplot as plt

#Daten? Daten! Wir erzeugen Zufallsdaten...
ys = 200 + np.random.randn(100)
x = [x for x in range(len(ys))]

#Wir erzeugen eine Grafik und lassen sie anzeigen
plt.plot(x, ys, '-')
plt.fill_between(x, ys, 195, where=(ys > 195), facecolor='g', alpha=0.6)

plt.title("Fills and Alpha Example")
plt.show()

Eine tiefere Einführung in Google Colab findet ihr unter: https://colab.research.google.com/ und ohne uns weiter um den Code im Detail zu kümmern, verlassen wir zunächst die wunderbare Welt des Programmierens und kehren zurück zu Linux.

# Linux

Zurück zu Linux. Wie macht man das jetzt ohne Desktop wie in Windows? Immerhin haben wir hier ein einigermaßen normal aussehendes Fenster vor uns. Keine grüne Schrift die über einen schwarzen Bildschirm läuft (vgl. https://hackertyper.net/). Der Computer auf dem wir wirklich arbeiten ist allerdings auch nicht unser Computer, und das ist dann doch ab und an der Fall. Den schwarzen Bildschirm von gerade nennt man Konsole oder Terminal, und wenn man damit auf einen entfernten PC, oder Server, zugreift, dann in der Regel über eine sog. SSH Verbindung. Damit kann man gut arbeiten, und v.a. gut Sachen wegautomatisieren.

Wir schauen uns jetzt erstmal auf der Google Maschine, auf der wir gerade sind, um. Dazu nutzen wir einige Befehle von Linux. Mit %%shell kann man alle Befehle in einer Zelle durch die Shell interpretieren lassen, mit einem vorangestellten ! nur den Befehl in der Zeile in der das Ausrufezeichen steht.

Wir lassen uns unser derzeitiges Verzeichnis ausgeben (pwd), den Inhalt des Verzeichnisses (ls) und navigieren dann in unseren "home" Bereich. Der Übersichtlichkeit halber habe ich die Ausgabe zu den einzelnen Befehlen mit "echo" getrennt. Die Ausgaben können wir sicherhaltshalber noch einmal vergleichen mit einer grafischen Ansicht - dazu klicken wir in der linken Menüleiste auf das Ordnersymbol.

Aus praktischen Gründen: In Linux kann man fast alles überall hinspeichern. Das kann irgendwann ziemlich chaotisch aussehen. Mac OS Nutzer dürften damit keine Probleme haben.
Wir arbeiten auf Colab, in diesem Notebook, standardmäßig nicht im /home/ Verzeichnis, sondern im /content/ Verzeichnis.

Aufgabe: Seht euch die Befehle an und vollzieht sie nach. Sie werden entweder direkt im Code kommentiert, oder aber mit einem "echo" genannten Befehl in der Ausgabe beschrieben. Wenn ihr zu einem Befehl mehr wissen möchtet, dann fügt ein neues Codefenster ein, und hängt ein --help oder -h an, also z.B. "ls --help", oder stellt ein help voran, also z.B. "help echo".

In [None]:
%%shell

echo "Derzeitiges Verzeichnis"
pwd
echo "-"
echo "Verzeichnisinhalt"
ls
echo "-"
echo "Verzeichnisinhalt des Stammverzeichnisses /"
ls /
echo "-"
echo "Navigation zum Home Bereich"
cd /home
echo "-"
echo "Anzeige des Inhalts des Homeverzeichnisses"
ls
echo "-"

In [None]:
!pwd

Spasseshalber schauen wir uns das Stammverzeichnis jetzt noch einmal etwas ausführlicher an. Dazu nutzen wir wieder ls, allerdings diesmal mit dem flag -l. Dadurch werden uns noch die Dateiberechtigungen, Nutzer und Nutzergruppen, die Datei-/Verzeichnisgröße und Änderungszeit ausgegeben. Ausserdem wohin Verknüpfungen gehen. Dateien/Verzeichnisse mit einem Punkt davor (hier nicht der Fall), sind versteckte Dateien/Verzeichnisse.

In [None]:
!ls -l /

Gut. Dann erstellen wir mal eine neue Datei. Hierfür nutzen wir den Befehl touch. Touch erstellt eine leere Datei mit gewünschtem Namen. Ausserdem kann man mit touch das Änderungsdatum von Dateien aktualisieren.

Anschließend probieren wir das Erstellen und Löschen von Verzeichnissen und Dateien. Kleine Aufgabe: Den Erstellen Block zweimal ausführen ohne direkt danach zu löschen. Es wird eine Fehlermeldung auftauchen - Linux ist da normalerweise sehr direkt. Achtung: Linux ist auch direkt beim Kopieren und Löschen, siehe unten.

In [None]:
!touch Hello_World

In [None]:
%%shell

#Erstelle Verzeichnisse
mkdir /content/new_folder
mkdir /content/new_folder_2
mkdir /content/new_folder_3

#Befülle Verzeichnisse von Hand
touch /content/new_folder/testfile1
touch /content/new_folder/testfile2

#Befülle Verzeichnisse mit mehr Dateien
touch /content/new_folder_2/testfile2{a..z}.txt

#Befülle Verzeichnisse mit mehr Dateien
for f in {a..z} {A..Z} {0..99}
do
    echo hello > "/content/new_folder_3/testfile3$f.txt"
done


Jetzt möchten wir mal den Inhalt einer Datei ausgeben lassen. Für die ganze Datei wählen wir cat, für die ersten Zeilen head und die letzten Zeilen tail. Der Befehl mit dem wir vorhin Text ausgedruckt haben funktioniert hier nicht - er gibt stattdessen das aus was wir ihm schreiben - in diesem Falle den Pfad.

In [None]:
%%shell

#mit cat
cat /content/new_folder_3/testfile311.txt

#mit head
head /content/new_folder_3/testfile310.txt

#mit tail
tail /content/new_folder_3/testfile310.txt

#Vergleich mit echo
echo /content/new_folder_3/testfile310.txt

Nun wollten wir allerdings keine englischen "new_folders" sondern ein Arbeitsverzeichnis und von den erstellten Dateien wollten wir eigentlich ein Backup bevor wir damit arbeiten. Dann müssen wir wenn wir Mist machen die Originaldaten nicht nochmal herunterladen, oder schlimmer, unsere selbsterhobenen Daten sind nicht im Datennirvana verschwunden. In beiden Fällen ließe sich das zwar meist mit Kaffee und Wein regeln. Aber ein Backup schadet nie.

In [None]:
%%shell

#Umbenennen entspricht Verschieben, das geht mit mv
mv /content/new_folder/ /content/Arbeitsverzeichnis
mv /content/new_folder_2/ /content/Originaldaten1
mv /content/new_folder_3/ /content/Originaldaten2

#Kopieren funktioniert mit cp
cp /content/Originaldaten1/*.txt /content/Arbeitsverzeichnis/
cp /content/Originaldaten2/*.txt /content/Arbeitsverzeichnis/

ls -l /content/Arbeitsverzeichnis/


Hat funktioniert? Finden wir die neuen Ordner in der grafischen Verzeichnisstruktur links? Dann löschen wir alles wieder! Dafür nutzen wir den Befehl rm -r. "rm" entfernt alles, -r schließt alle Unterverzeichnisse und Dateien die sich in einem Verzeichnis befinden ein. NB: Ein leeres Verzeichnis könnten wir mit rmdir löschen.
ACHTUNG: Bei "rm" gibt es keine Warnmeldung wie vorhin beim Erstellen. Und es gibt auch keinen Papierkorb wie in Windows!

In [None]:
%%shell
rm Hello_World
rm -r /content/Arbeitsverzeichnis
rm -r /content/Originaldaten1
rm -r /content/Originaldaten2

## Reguläre Ausdrücke

In Python you can use the built-in package "re" to work with Regular Expressions. For a nice tutorial, from which the following example is drawn, consult https://www.w3schools.com/python/python_regex.asp. Please note that after importing the re package, there is a try:/except: structure. Using that, you can catch exceptions, or errors, where Python would stop in case things go boom. However, if all goes smoothly, the program will tell you either that there is either a match or there is not. This is depending on whether a certain condition is met and done using a conditional statement - the "if-then-else" construct.

In [None]:
import re

try:
  txt = "The rain in Spain"
  x = re.search("^The.*Spain$", txt)

  if x:
    print("Yes! This is a match. :-)")
  else:
    print("Oh noes. Sad Panda. :.-/")
except:
  print("This went utterly wrong.")

Damit schauen wir uns jetzt ganz entspannt in der Shell (richtig gelesen, kein Python programmieren) grep, sed und awk an. Warum ausgerechnet die drei Programme? Weil sich damit vermutlich 99% aller bioinformatischen Fragestellungen lösen lassen. Dazu kommen gegebenenfalls noch die Basisbefehle cat, cut, sort, uniq, paste, tr und die Redirections (<, >).

Wofür steht grep? Globally search regular expression and print. Das ist der ominöse Reguläre Ausdruck wieder. Mit dem Programm können wir Dateien/Input Zeile für Zeile nach einem bestimmten Muster unserer Wahl durchsuchen, und diese Zeile bei einem Treffer ausgeben. Dazu gibt es jede Menge Funktionen, die uns nützlich sein könnten. Zum Beispiel nur die Zeilen auszugeben, die ein bestimmtes Muster NICHT enthalten.

In [None]:
%%shell

echo "readme.doc" | egrep "(\w+)\.(doc|ppt)$"

echo "name@ firma.com" | egrep -o "^\S+"

echo "name@firma.com" | egrep -o "^\S+@\S+\.\S+$"

echo "https://www.baua.de/DE/Home/Home_node.html" | egrep -o '(http|https)://[^/"]+'

echo "GCTACGCTCGTGACTCGAGTA" | egrep -o "(C.+)(TGA)?\1"

#Frage? Was macht -o

In [None]:
%%shell
#Wirklich einfache Beispiele zu sed.
#Eine häufige Anwendung ist die Ersetzung. Das Muster ist hierbei immer gleich:
#sed 's/Muster/Ersatz/Flags'
#Eine häufige Flagge ist das g. Damit wird nicht nur das erste Auftreten eines Musters in einer Zeile bearbeitet, sondern alle Treffer in einer Zeile.

echo "Kuh" | sed 's/Kuh/Schwein/'

echo "Schwein" | sed 's/Schwein/Pferd/'

echo "Kuh, Kuh" | sed 's/Kuh/Schwein/'

echo "Kuh, Kuh" | sed 's/Kuh/Schwein/g'

#Kann man das (unnötigerweise) auch schrittweise machen?
echo "Kuh" | sed s/Kuh/Schwein/g | sed s/Schwein/Pferd/g

#Warum ist -E hier für sed nötig?
echo "readme.doc" | sed -E 's/(\w+)\.doc$/readme\.ppt/'

#Natürlich kann sed nicht nur Zeichen und Muster ersetzen.
#Sed kann auch Löschen, hinzufügen, einfügen und ändern!

In [None]:
%%shell
#Und kurz zu awk
#Hierfür brauchen wir erstmal eine kleine Datei. Die laden wir auch vom Github, und verschaffen uns einen Überblick über den Inhalt.

head example.txt

In [None]:
%%shell
#danach kann es mit awk losgehen

awk '{print $3 "\t" $4}' example.txt

Wir hatten vier Spalten. Awk gibt uns mit dem Print Befehl nur die Spalten 3 und 4 der Datei aus. Natürlich kann man hier auch nur Spalten, die einen Ausdruck matchen ausgeben, oder neu sortieren, oder anderen Befehlen (wie z.B. Ausdrücken zählen lassen) verknüpfen.

In [None]:
%%shell

awk '/kunde/' example.txt

In [None]:
%%shell

awk '/kunde/ {print $3}' example.txt

In [None]:
%%shell

awk '/kunde/{++cnt} END {print "Anzahl = ", cnt}' example.txt

Zu guter Letzt:

Mit dem Befehl sort (ggfs. Option -n - wofür würde diese stehen?) lässt sich ein Datenstrom sortieren.

Mit dem Befehl uniq werden nur einzigartige Treffer ausgegeben, bzw. bei vorliegen mehrerer identischer Treffer, diese zu einem zusammengefasst.

# Biodaten

## Daten? Daten!

Wie kommen wir jetzt aus dem Internet an Dateien oder Datenbanken?

Dazu gibt es viele Möglichkeiten. Wenn eine URL (also ein Uniform Resource Locator) bekannt ist sind wget oder curl einfache Befehle die wir nutzen können. Wir verwenden in diesem Beispiel wget.
Da Datenmengen in der Bioinformatik sehr schnell sehr groß werden können (vgl. z.B. unter https://ftp.ncbi.nlm.nih.gov/blast/db/ die nr BLAST-Datenbank), immer vorher überlegen was ihr runterladet. Ausserdem kontrollieren wir den Download auf Vollständigkeit. Dies geht über sog. Hashsummen und bietet den zusätzlichen Vorteil, dass ihr sicher sein könnt, dass die Datei die ihr euch im Web besorgt habt, auch die Datei war, die ihr angeboten bekommen habt (ein Sicherheitsaspekt). Wir nutzen dafür die sog. MD5 Hashsumme und extrahieren unsere Sequenzen erst im Anschluss mit dem Befehl tar -xvf. Tar kommt von tape archiver, und ist ein Packprogramm. D.h. Dateien die tar.gz. heißen sind Archivdateien (tar, sog. tarballs), die zudem noch komprimiert sind (gz, von GNU zip). Gz Dateien können einfach mit gunzip, gzip o.ä. bearbeitet werden.

Wir möchten in diesem Beispiel die 16S rRNA BLAST-db vom NCBI.

In [None]:
!wget https://ftp.ncbi.nlm.nih.gov/blast/db/16S_ribosomal_RNA.tar.gz
!wget https://ftp.ncbi.nlm.nih.gov/blast/db/16S_ribosomal_RNA.tar.gz.md5

In [None]:
!md5sum 16S_ribosomal_RNA.tar.gz
!cat 16S_ribosomal_RNA.tar.gz.md5

In [None]:
!mkdir NCBI_16S_BLASTdb
!tar -xvf 16S_ribosomal_RNA.tar.gz -C NCBI_16S_BLASTdb/

Das gleiche machen wir jetzt mit der RefSeq Fasta. Die BLAST Datenbank ist zwar schick und wir könnten damit direkt arbeiten wenn wir BLAST lokal installiert haben (geht in der Regel wesentlich schneller als über das Webinterface), aber eigentlich ist es nicht das was wir suchen. Wir wollten die Sequenzen direkt sehen, und zwar als Fasta Datei.

Fasta Dateien sind ein textbasiertes, menschenlesbares Dateiformat zur Speicherung der Primärstruktur von Nukleinsäuren und Proteinen. Die Nukleinsäuren und Proteine werden im Ein-Buchstaben-Code dargestellt, und eine Sequenz besteht immer aus einer einzeiligen Beschreibung (Header), und darauf folgend den eigentlichen Sequenzdaten in einer oder mehreren Zeilen. Jeder Header beginnt mit einem ">" Symbol.

Die Aufgabe hier ist wie folgt:

1) Lade die Datei: https://ftp.ncbi.nlm.nih.gov/refseq/TargetedLoci/Bacteria/bacteria.16SrRNA.fna.gz herunter

2) Extrahiere die Datei.

3) Zeige den Kopf der Datei an.

In [None]:
%%shell
wget https://ftp.ncbi.nlm.nih.gov/refseq/TargetedLoci/Bacteria/bacteria.16SrRNA.fna.gz
gunzip bacteria.16SrRNA.fna.gz
head bacteria.16SrRNA.fna

## Daten verarbeiten mit der Shell
Jetzt möchten wir wissen wieviele Sequenzen sich in dieser Datei eigentlich verstecken. Dafür können wir reguläre Ausdrücke einsetzen und Befehle aneinanderreihen. Genauer gesagt drei Befehle 1) cat zum Anzeigen des Dateiinhalts, 2) grep um uns jede Zeile die mit > beginnt, d.h. jeden Header zu suchen und 3) wc -l um die Anzahl der ausgegebenen Zeilen (das ist das -l) zu zählen. Diese werden durch das Pipesymbol verbunden und leiten damit ihre jeweilige Ausgabe direkt an den nächsten Befehl weiter. NB: Das cat am Anfang braucht man nicht, man kann Dateien auch direkt in grep einlesen.

In [None]:
!cat bacteria.16SrRNA.fna | grep "^>" | wc -l

In [None]:
%%shell
#Variante 1 - wir suchen alle > am Zeilenanfang, geben diese Zeilen aus, und pipen sie direkt in wc -l um die Zeilen zu zählen
egrep "^>" bacteria.16SrRNA.fna | wc -l

#Variante 2 - hierfür muss man den -c flag von egrep kennen.
egrep -c ">" bacteria.16SrRNA.fna

echo "Hier ist die Zählung zuende, aber stimmt das auch? Wir lassen das zählen mal weg und schauen uns ein paar Einträge genauer an..."
egrep "^>\w\s{*,}|(Staphylococcus aureus)" bacteria.16SrRNA.fna
egrep "Enterococcus faecalis" bacteria.16SrRNA.fna

#wir wollen uns das Ergebnis nicht nur anzeigen lassen, sondern auch in eine Datei speichern. Mit > schreiben wir eine Datei, mit >> hängen wir an eine Datei an.

egrep "^>\w\s{*,}|(Staphylococcus aureus)" bacteria.16SrRNA.fna > results.fa
egrep "Enterococcus faecalis" bacteria.16SrRNA.fna >> results.fa

#mit cat lassen wir uns das Anzeigen

cat results.fa

Statt ein Suchmuster direkt anzugeben kann man grep auch eine Liste mit Begriffen nach denen es suchen soll übergeben.

Diese erstellen wir und schauen ob wir die gleiche Ausgabe erhalten.

In [None]:
#Erzeuge eine Datei search_sa mit dem Inhalt S. aureus und einer zweiten Zeite E. faecalis
#Beachte einmal die Verwendung von > und dann von >>. Was passiert wenn man ein zweites Mal nur > einsetzt?
!echo "Staphylococcus aureus" > search_sa
!echo "Enterococcus faecalis" >> search_sa
#Zeige den Inhalt der Datei an
!cat search_sa

In [None]:
%%shell
#Nutze grep um den Inhalt der 16S Fasta Datei mit unserer Suchliste zu durchsuchen
egrep -f search_sa bacteria.16SrRNA.fna | tee results_2.fa

Stimmt das mit der vorherigen Ausgabe überein? Das geht mit diff. "diff" liefert einem Unterschiede zwischen Dateien. Wenn also die Dateien übereinstimmen, dann gibt es keine Ausgabe.

In [None]:
!diff results.fa results_2.fa

In [None]:
#Nicht ganz. Die Sortierung ist anders. Aber das lässt sich auch in den Griff bekommen
!cat results.fa | sort > results_3.fa
!egrep -f search_sa bacteria.16SrRNA.fna | sort > results_4.fa

!diff results_3.fa results_4.fa
!echo "Ja, die Zelle ist durch und für diff gibt es diesmal keinen Output."

Dann schauen wir mal weiter. Gibt es in den 16S Sequenzen den berüchtigten 27F Primer? Wenn ja, wie oft?

Aufgabe:
Erzeuge eine neue Zelle und untersuche das gleiche für 1492R?
Bonusaufgabe: Gibt es zwischen diesen Sequenzen Überlappungen?

In [None]:
%%shell

egrep "AGAGTTTGATCCTGGCTCAG" bacteria.16SrRNA.fna | wc -l

## Daten bearbeiten und visualisieren

Grundsätzlich lassen sich Daten auf vielerlei Wege erzeugen, manipulieren, analysieren und darstellen. Wie wir gerade gesehen haben sogar direkt auf der Kommandozeile als wir z.B. die Anzahl der Sequenzen gezählt haben und uns die Zahl ausgeben haben lassen. Natürlich gibt es noch viel mehr Parameter als einfach eine Summe die man sich hier anschauen kann, und natürlich sind nicht alle Daten so einfach verpackt.

Nun kann man direkt selbst dran gehen und Funktionen, die einem Minima, Maxmima, Median und Mittelwerte o.ä. liefern, programmieren, z.B. mit Python. Hier gibt es die oben bereits verwendeten und sehr umfangreichen Programmbibliotheken numpy und matplotlib mit denen man arbeiten kann. Das passiert häufig im Bereich Data Science, Data Mining aber auch im datenintensiven Bereich des Maschine Learning.

Man kann, insb. wenn es in den Bereich (deskriptive) Statistik oder explorative Datenanalyse geht, auch mit Programmen wie SPSS oder R arbeiten. SPSS ist im kommerziellen Bereich eine etablierte Software die, mit entsprechender Übung, gut nutzbar ist. R ist, meiner Meinung nach, deutlich vielseitiger und erzeugt schönere Grafiken.

R ist also ziemlich mächtig, wenn es um Datenanalyse, -visualisierung und Statistik geht. Hierfür bietet R eine Vielzahl an Tools. Dazu ist es kostenlos und Open Source, kann auf verschiedenen Plattformen eingesetzt werden.

Wir könnten jetzt ein neues Notebook öffnen und die Laufzeitumgebung zu R ändern. Machen wir aber nicht. Stattdessen nutzen wir den kurzen Befehl "%load_ext rpy2.ipython" für etwas Physik durch Wollen. Danach muss für das Ausführen von Befehlen in R jedem Befehl ein "%%R" vorangestellt werden. Das testen wir - per Konvention mit Hallo Welt in R.

# R

## Einstieg

In [None]:
%load_ext rpy2.ipython

In [None]:
%%R
#Dies ist die bekannte Kommentierungszeile
meinString <- "Hallo Welt!"
print (meinString)

Die Arbeitsaufgabe an dieser Stelle besteht nur darin, die R Befehle in diesem Notebook nachzuvollziehen, zu korrigieren und in eigene Scripte in RStudio zu übertragen. Dieses Skript laden wir am Ende wieder ins Notebook, und führen es im Ganzen aus.

In [None]:
%%R
#setze das Arbeitsverzeichnis
setwd("/home")
#zeige das aktuelle Arbeitsverzeichnis
getwd()

Gut. Damit wissen wir erstmal wo wir uns befinden. Was ist noch wichtig?

Klarer Lesbarer Code
Das passiert irgendwann vermutlich jedem, und je besser man mit einer Sprache vertraut wird, vermutlich desto eher. Und warum sollte es einen auch kümmern? Ich weiß ja was ich programmiert hab. Aber - weiß ich das auch in sechs Monaten noch? Kann jemand anders was damit anfangen?
Es gibt ein paar Dinge, die ihr beim Arbeiten auch mit R im Eigeninteresse immer beachten solltet:

1) Sucht euch für Funktionen und Variablen klare und eineindeutige Namen. In Mathe gibt es das große und das kleine K, und das K mit dem dicken Balken. Das schreibt sich schnell, aber ist, wenn man sich den Code den man schreibt in ferner Zukunft noch einmal anschaut (oder gar wiederverwendet, man hat ja das Problem dann schon einmal gelöst), nicht intuitiv.

2) Strukturiert eure Namen. In R kann man z.B. Binnenversalien verwenden (engl. camel-case-notation), wie z.B. superLangerVariablenName oder man nimmt einen Punkt oder Unterstrich (engl. dottet style), wie z.B. super.langer.variablen.name.

3) Ähnlich strukturiert ihr den Code. Macht Absätze in euren Skripten, fügt an den Funktionen an denen ihr arbeitet Kommentare mit Beschreibungen ein und nutzt die Umbruchfunktion von R. Letzteres meint, dass ihr eine Zeile mit einem Operator aufhören lassen könnt (wie z.B. ein , oder ein + und den Rest eures Befehls in der nächsten Zeile beenden könnt. Das erleichtert euch die Lesbarkeit.

## Die ersten Befehle

Zum Einstieg ein bischen Basis:

In [None]:
%%R

#Direkte Eingabe von Daten
messreihe.photometer.eins <- c(12, 4, 4, 6, 9, 3)
messreihe.photometer.zwei <- c(5, 3, 2, 2, 12, 9)

#Operationen auf Daten
messreihe.photometer.gesamt <- messreihe.photometer.eins + messreihe.photometer.zwei
messreihe.photometer.gesamt

Huch, was kommt denn da raus? Er pappt die zwei Messreihen nicht einfach hintereinander? Das hat mit der Funktion von R zu tun. Wir haben die zwei Vektoren miteinander addiert (und nicht konkateniert), also eine Vektoroperation durchgeführt. Das sind Funktionen (in dem Fall ist die Funktion eine Addition), die auf ganze Vektoren angewendet werden. Wenn einem Vektoren nicht reichen, dann kann man in R auch Matrizen verwenden.

Man kann R allerdings auch als einfachen Taschenrechner verwenden. Vergleiche die folgenden zwei Zellen:

In [None]:
%%R

12 + 4 + 4 + 6 + 9+ 3

In [None]:
%%R

sum(messreihe.photometer.eins)

Schauen wir uns das Objekt "Vektor" mit dem wir gerade arbeiten genauer an:

In [None]:
%%R

str(messreihe.photometer.eins)

Wir haben einen numerischen Vektor (num), mit einer Dimension von 6 (1:6). Die ersten Werte eines Vektors werden immer ausgegeben, hier alle sechs. Können wir die Länge, oder den Typ auch direkt angeben?

In [None]:
%%R

length(messreihe.photometer.eins)

In [None]:
%%R

is.numeric(messreihe.photometer.eins)

In [None]:
%%R

is.integer(messreihe.photometer.eins)

Zurück zum Ausgangsproblem: Wir wollten eigentlich die Messwerte aus beiden Reihen ein einem Vektor darstellen. Und noch schöner wäre es das irgendwie als Tabelle zu haben...

In [None]:
%%R
#beachte dass sich hier unser Objektname ändert. Warum wird gleich klar!
werte.photometer.gesamt <- c(messreihe.photometer.eins, messreihe.photometer.zwei)
werte.photometer.gesamt

In [None]:
%%R
#nur den 3ten Messwert anzeigen
werte.photometer.gesamt[3]

In [None]:
%%R
messreihe.photometer.gesamt <- c(rep(1,6), rep(2,6))
messreihe.photometer.gesamt

#messpunkt.photometer.gesamt <- c(1:6), 1:6))

In [None]:
%%R

messpunkt.photometer.gesamt <- c(rep(seq(from = 1, to = 6, by = 1), 2))
messpunkt.photometer.gesamt



In [None]:
%%R
versuch.gesamt <- data.frame(messreihe.photometer.gesamt, messpunkt.photometer.gesamt, werte.photometer.gesamt)
versuch.gesamt

Wie schaut das neue Objekt, der "Data frame" aus?

In [None]:
%%R
str(versuch.gesamt)

In [None]:
%%R
summary(versuch.gesamt)

In [None]:
%%R
versuch.eins <- versuch.gesamt[versuch.gesamt$messreihe.photometer.gesamt == 1,]
versuch.zwei <- versuch.gesamt[versuch.gesamt$messreihe.photometer.gesamt == 2,]
versuch.eins

In [None]:
%%R
plot(versuch.eins$messpunkt.photometer.gesamt, versuch.eins$werte.photometer.gesamt)
title(main="Versuch Eins", type="o", col.main= "red", font.main = 4,
      axis=FALSE)

## Ein etwas komplexerer Datensatz

Schauen wir uns mal einen etwas komplexeren Datensatz an. Hierfür greifen wir auf die R Library Datasets zurück. Diese enthält einen Datensatz der Iris heißt. Diesen betrachten wir um einen Eindruck zu gewinnen. Wir schauen uns die Datenklasse, Struktur eine Zusammenfassung, die Spaltennamen und schlussendlich die ersten Daten selbst an. Wieviele Beobachtungen haben wir? Wie schauen die Irisblüten denn aus?

In [None]:
%%R
library(datasets)
data(iris)


In [None]:
%%R
class(iris)

In [None]:
%%R
str(iris)

In [None]:
%%R
summary(iris)

In [None]:
%%R
colnames(iris)

In [None]:
%%R
head(iris)

Anschließend extrahieren wir die Länge der Blütenblätter. Dies geht auf zwei verschiedene Arten:

In [None]:
%%R
iris$Petal.Length

In [None]:
%%R
iris[,3]
#Was passiert, wenn man die Struktur [,3] änder, z.B. zu [3,] oder [3,3]

In [None]:
%%R
#und speichern uns das mal in einem neuen Vektor
petal.length <- iris[,3]
petal.length

In [None]:
%%R
mean(petal.length)

Vergleichen wir das Ergebnis mit der Zusammenfassung die uns Summary geliefert hat. Natürlich können wir derartige Berechnungen auch direkt durchführen lassen:

In [None]:
%%R
summary(petal.length)

In [None]:
%%R
mean(iris$Petal.Length)

Zahlen sind schön, Grafiken sind besser! Wie verteilen sich die Werte für Blütenlänge, -weite und Kelchblattlänge und -weite?

In [None]:
%%R

boxplot(petal.length)

In [None]:
%%R

boxplot(iris[, 1:4])

Unterscheiden sich Irisblüten und Kelche nicht nur optisch? Betrachten wir zunächst die Varianz. Hierfür nutzen wir die Standardabweichung...

In [None]:
%%R
sd(petal.length)

In [None]:
%%R
sepal.width <- iris$Sepal.Width
sd(sepal.width)

Die Varianz scheint für die Kelchweite kleiner zu sein, als für die Blütenlänge.
Woran könnte das liegen? Schauen wir etwas weiter. Wie sehen die Blütenlängen und Kelchweiten denn aus?

In [None]:
%%R
barplot(petal.length)
barplot(sepal.width)

Erinnern wir uns an unsere Datensatzzusammenfassung. Species hatte drei verschiedene Möglichkeiten. Dazu schauen wir uns noch weitere graphische Darstellungen der Daten an.

Wir können sehen, dass eine Gruppe viel dichter zusammen liegt als die anderen beiden.

Im Histogramm sehen wir, dass unsere Daten keine "Glockenform" aufweisen. Ausserdem haben wir eine hohe Anzahl an Blumen mit sehr kleinen Blütenlängen.

Der Q-Q Plot (quantil-quantil) wird zur graphischen Analyse auf Normalverteilungen geprüft. Diese Prüfung ist eine Grundlage für viele statistische Tests. Wenn die Daten einer Normalverteilung folgen, liegen sie auf eine Linie. Dies ist hier nicht der Fall.

In [None]:
%%R
barplot(iris$Petal.Length, col=iris$Species)

In [None]:
%%R
plot(petal.length)
hist(petal.length)
qqnorm(petal.length)
qqline(petal.length)

Wie würde eine Normalverteilung für diese Grafiken aussehen?

In [None]:
%%R

x <- rnorm(150)
plot(x)
hist(x)
qqnorm(x)
qqline(x)

Grafik ist schön, aber geht das auch mathematisch? Dafür gibt es den Shapiro-Wilk Test.

In [None]:
%%R
shapiro.test(petal.length)

Sieht für den gesamten Datensatz nicht so aus. Wie schaut es aus, wenn wir nur eine Irisspezies betrachten?

In [None]:
%%R
qqnorm(petal.length[1:50])
qqline(petal.length[1:50])
shapiro.test(petal.length[1:50])

Schon besser. Und für eine der anderen beiden Gruppen die wir gesehen haben?

In [None]:
%%R
qqnorm(petal.length[51:100])
qqline(petal.length[51:100])
shapiro.test(petal.length[51:100])

Sind die Unterscheide der Beobachtung "Blütenlänge" für die zwei betrachteten  Spezies nicht wirklich unterschiedlich?

Oder, alternativ, gibt es Unterschiede zwischen den Blütenlängen der zwei betrachteten Spezies?

In [None]:
%%R
t.test(petal.length[1:50], petal.length[51:100], paired = FALSE, alternative = "two.sided", var.equal = FALSE)

Bei einem p-Wert kleiner 0.05 können wir also unsere Nullhypothese verwerfen und die Alternative annehmen. Es gibt einen Unterschied zwischen beobachteter Blütenlänge in Abhängigkeit von der Spezies.

Eine weitere Frage die wir uns anschauen können ist der Zusammenhang von Blütenweite und Blütenlänge.

In [None]:
%%R
petal.width <- iris$Petal.Width
plot(petal.width, petal.length)

In [None]:
%%R
species <- as.factor(iris$Species)
plot(petal.width, petal.length, col=species)
legend("topleft", levels(species), fill = 1:3)

Wie wir die ganze Zeit vermuten, scheint es da einen Zusammenhang zu geben. Dieser lässt sich auch mathematisch darstellen, z.B. in Form des Korrelationskoeffizient nach Pearson. Ein Wert von -1 oder 1 zeigt hierbei eine hohe (indirekte) lineare Korrelation, ein Wert von 0 keine lineare Korrelation an.

In [None]:
%%R
cor(petal.width, petal.length)


In [None]:
%%R
plot(petal.width, petal.length, col=species)
legend("topleft", levels(species), fill = 1:3)
text(1.5, 1.5, paste("R=0.96"))

Auch das kann man testen:

In [None]:
%%R
cor.test(petal.width, petal.length)

und bei Betrachtung des Ergebnisses zum Schluss kommen, dass die Nullhypothese abgelehnt wird, d.h. die Korrelation statistisch signifikant ist.

Wie kommt man jetzt zu einer mathematischen Gleichung die Blütenlänge und -weite ausdrückt? Mittels einer Regression.

Länge = $a$ * Weite + c + $e$

$a$ = Sog. Slope

c = Konstante

$e$ = Irgendein Fehler

Man könnte auch sagen wir betrachten die Blütenlänge als Funktion der (davon unabhängigen) Blütenweite.

In [None]:
%%R
modell <- lm(petal.length ~ petal.width)
summary(modell)

Daraus ergibt sich, dass wir mit einiger Sicherheit (vgl. p-Wert) sagen können: dass die Blütenlänge als Funktion 2,22994 * der Blütenweite + 1,08356 ausgedrückt werden kann.

In [None]:
%%R
plot(petal.width, petal.length, col=species)
legend("topleft", levels(species), fill = 1:3)
text(1.5, 1.5, paste("R=0.96"))
abline(modell)

Wenn wir so etwas nicht für nur zwei, sondern mehr als zwei = viele Parameter untersuchen wollen, dann nutzen wir ANOVA (Analysis of variance) ....

In [None]:
%%R

sepal.width <- iris$Sepal.Width
boxplot(sepal.width ~ species)

In [None]:
%%R
summary(aov(sepal.width ~ species))


... und kommen zu dem Schluss, dass wir unsere Nullhypothese hier abgelehnt werden kann. Also haben nicht alle drei Spezies die gleiche durchschnittliche Kelchweite. Das passt zum Boxplot, möglicherweise hat die Spezies Setosa weitere Kelche.

An der Stelle möchte ich es für die Grundlagen erst einmal belassen. Tieferes gibt es entweder im Internetz, oder in den entsprechenden Lehrbüchern. Ein einfach geschriebener Einstieg ist z.B. R für Dummies.

# $\LaTeX$

Auch die Schriftsatzsprache TeX in Form von $\LaTeX$ geht mit Google Colab zur Darstellung. Einfach den TeX Teil in $ Zeichen setzen. Ein Colab Intro findet ihr unter https://colab.research.google.com/github/bebi103a/bebi103a.github.io/blob/main/lessons/00/intro_to_latex.ipynb#scrollTo=9osw90L4lfuw und TeX Cheatsheets gibt es im Internet jede Menge - https://users.dickinson.edu/~richesod/latex/latexcheatsheet.pdf als Beispiel - und TeX ist nicht Teil dieses Notebooks, aber erwähnt haben wollte ich das trotzdem.

Kleine Beispiele (aus dem Colab Intro):
  
  Einstein told us that $E = mc^2$.
  
  Euler told us that $\mathrm{e}^{i \pi} - 1 = 0$.

Und unser aller Liebling:

  $x=\frac{-b\pm\sqrt{b^2-4ac}}{2a}$