# UMR QB1 - Seminar zur Genexpressionsanalyse

---

## Medizinisches Problem & Forschungsfrage

**"_Was sind die molekularen Unterschiede zwischen Krebszellen und normalem menschlichem Gewebe, und wie können wir diese Unterschiede nutzen, um neue therapeutische Ziele und deren Medikamente für die Krebsbehandlung zu identifizieren?_"**

### **Warum dies für die Medizin wichtig ist:**
- **Krebsheterogenität:** Verschiedene Krebsarten haben unterschiedliche molekulare Signaturen
- **Präzisionsmedizin:** Behandlungen müssen auf spezifische Krebsarten zugeschnitten werden
- **Medikamentenresistenz:** Krebszellen entwickeln sich weiter, um der Behandlung zu entkommen
- **Therapeutische Ziele:** Neue Medikamente werden dringend für bessere Patientenergebnisse benötigt

### **Was wir entdecken werden:**
1. **Molekulare Krebssignaturen:** Gene, die konsistent im Vergleich von Krebs zu normalem Gewebe verändert sind
2. **Therapeutische Schwachstellen:** Signalwege, die mit Medikamenten gezielt angesteuert werden können
3. **Möglichkeiten zur Medikamentenumwidmung:** Bestehende Medikamente, die Krebs behandeln könnten
4. **Biomarker-Identifikation:** Gene, die das Ansprechen auf die Behandlung vorhersagen könnten

---


## Datensatz: Eine reale Studie zu Krebs vs. normalem Gewebe

**Klinischer Kontext:** Universal Human Reference (UHR) vs. Human Brain Reference (HBR)  
**Medizinische Relevanz:** Krebszelllinien vs. normales menschliches Hirngewebe<br>
**Stichprobengröße:** 6 Proben (3 Krebsreplikate vs. 3 normale Hirnreplikate)  
**Datentyp:** Paired-End-RNA-Sequenzierung (Chromosom 22 Subset)  
**Referenz:** Griffith M, Walker JR, Spies NC, Ainscough BJ, Griffith OL (2015) Informatics for RNA Sequencing: A Web Resource for Analysis on the Cloud. *PLoS Comput Biol* 11(8): e1004393. https://doi.org/10.1371/journal.pcbi.1004393



### **Medizinische Proben**

#### **UHR (Universal Human Reference) = KREBSPROBEN**
- **Zusammensetzung:** Gesamt-RNA aus 10 verschiedenen menschlichen Krebszelllinien
- **Enthaltene Krebsarten:** Brust-, Leber-, Gebärmutterhals-, Hoden-, Gehirn-, Hautkrebsarten plus Immunzellen (T-Zellen, B-Zellen, Makrophagen, Histiozyten)
- **Warum dies wichtig ist:** Repräsentiert die gemeinsamen molekularen Merkmale verschiedener Krebsarten
- **Klinische Relevanz:** Hilft bei der Identifizierung pan-karzinogener therapeutischer Ziele

#### **HBR (Human Brain Reference) = KONTROLLEN AUS NORMALEM GEWEBE**
- **Zusammensetzung:** Gesamt-RNA aus Gehirnen von 23 gesunden Kaukasiern, meist 60-80 Jahre alt
- **Warum Hirngewebe:** Bietet eine Basislinie für den Vergleich mit normalem Gewebe
- **Klinische Relevanz:** Zeigt, wie "gesunde" Genexpression aussieht

### **Die biologische Hypothese:**
**Krebszellen werden systematische Veränderungen in der Genexpression im Vergleich zu normalem Gewebe zeigen und Folgendes offenbaren:**
1. **Onkogene** (krebsfördernde Gene), die überexprimiert sind
2. **Tumorsuppressoren** (krebsverhindernde Gene), die stillgelegt sind
3. **Stoffwechselwege**, die verändert wurden, um Krebswachstum zu unterstützen
4. **Medikamentenziele**, die Krebszellen selektiv abtöten könnten

---

## Lernziele


**Technische Fähigkeiten:**
1. Durchführung einer Differenzialexpressionsanalyse zur Identifizierung von Krebs-Biomarkern
2. Durchführung einer Pathway-Anreicherung zum Verständnis der Krebsbiologie
3. Verwendung von computergestützter Medikamentenumwidmung für therapeutische Entdeckungen

**Medizinisches Verständnis:**
1. **Interpretation von Krebsgensignaturen** im klinischen Kontext
2. **Identifikation potenzieller Biomarker** für Krebsdiagnose/-prognose
3. **Verständnis der Medikamentenumwidmung** als Strategie für schnellere therapeutische Entwicklung
4. **Verbindung computergestützter Erkenntnisse** mit realen Krebsbehandlungsentscheidungen

**Klinische Translation:**
1. **Bewertung therapeutischer Ziele**, die durch RNA-seq identifiziert wurden
2. **Bewertung von Medikamentenkandidaten** für das Krebsbehandlungspotenzial
3. **Verständnis von Präzisionsmedizin**-Ansätzen in der Krebsversorgung

---

## Setup und Einführung

#### Conda installieren

Nach dem Ausführen dieser Zelle wird die Laufzeit automatisch neu gestartet. Warten Sie, bis dies abgeschlossen ist, und fahren Sie dann fort. Ignorieren Sie Fehlermeldungen und Warnungen

In [None]:
!pip install -q condacolab
import condacolab
condacolab.install()

#### Conda-Installation überprüfen

In [None]:
import condacolab
condacolab.check()

#### Alle erforderlichen Software und Pakete installieren

In [None]:
%%bash
conda install -c bioconda -c conda-forge bioconductor-deseq2 r-optparse r-ggplot2 r-gprofiler2 r-dplyr r-tidyr -y -q 2>&1

#### Daten- und Skript-Repository

- Expressionsdaten: Vorverarbeitete RNA-seq-Datendateien und Count-Matrix
- Analyseskripte für jeden Schritt
- Referenzgenomdateien und Annotationen

In [None]:
%%bash
git clone https://gitlab.uni-rostock.de/wb283/qb1rnaseq.git

In [None]:
%%bash
ls

In [None]:
%%bash
ls -lht

In [None]:
%%bash
ls qb1rnaseq

---

## 1 Datenbeladung

### RNA-seq Count Matrix laden

Dieser Schritt lädt die vorverarbeiteten RNA-seq-Expressionsdaten, die aus der Salmon-Quantifizierung generiert wurden. Die Count-Matrix repräsentiert die Anzahl der Reads, die jedem Gen/Transkript in jeder Probe zugeordnet sind.

**Was wird geladen:**
- **Count-Matrix**: Rohe Read-Counts für jedes Gen über alle Proben hinweg
- **Probenmetadaten**: Informationen zu Krebsproben (UHR) vs. normalen Proben (HBR)
- **Genidentifikatoren**: Transkript-/Gen-IDs aus den Referenzannotationen

**Datenqualitätsprüfungen:**
- Anzahl der analysierten Gene/Transkripte
- Anzahl der Proben (sollte 6 sein: 3 Krebs + 3 normal)
- Count-Verteilungen über Proben hinweg
- Probengruppierungsinformationen

In [None]:
%%bash
Rscript qb1rnaseq/load_data.R

---

## 2 Differenzialexpressionsanalyse

### Identifizierung von Krebs-assoziierten Genen mit DESeq2

Die Differenzialexpressionsanalyse ist der Kernschritt zur Identifizierung von Genen, die zwischen Krebs- und Normalgewebe unterschiedlich exprimiert werden. Wir verwenden DESeq2, ein statistisches Paket, das für RNA-seq-Count-Daten entwickelt wurde.

**Was DESeq2 macht:**
1. **Normalisierung**: Korrigiert Unterschiede in der Sequenzierungstiefe und RNA-Zusammensetzung zwischen Proben
2. **Dispersion-Schätzung**: Modelliert die biologische Variabilität zwischen Replikaten
3. **Statistisches Testen**: Identifiziert Gene mit signifikant unterschiedlicher Expression (Krebs vs. normal)
4. **Multiple Test-Korrektur**: Korrigiert für falsch-positive Ergebnisse bei Tausenden gleichzeitiger Tests

**Ausgabemetriken:**
- **log2 Fold Change**: Wie stark sich die Expression verändert (positiv = höher im Krebs, negativ = niedriger im Krebs)
- **P-Wert**: Statistische Signifikanz der Veränderung
- **Adjustierter P-Wert (padj)**: P-Wert nach Korrektur für multiple Tests

**Biologische Interpretation:**
- **Onkogene**: Gene mit positivem log2FC und padj < 0,05 (überexprimiert im Krebs)
- **Tumorsuppressoren**: Gene mit negativem log2FC und padj < 0,05 (unterexprimiert im Krebs)
- **Potenzielle Biomarker**: Stark differenziell exprimierte Gene, die die Diagnose leiten könnten
- **Medikamentenziele**: Gene mit großen Fold Changes, die für eine Therapie angesteuert werden könnten

In [None]:
%%bash
Rscript qb1rnaseq/run_deseq2.R

In [None]:
%%bash
head degs.tsv

### Visualisierung der Krebsmolekularen Signaturen

Die Visualisierung ist entscheidend für das Verständnis komplexer genomischer Daten. Wir erstellen drei Schlüsselfiguren, um unsere Ergebnisse zu interpretieren:

**1. Volcano Plot**
Visualisiert sowohl die Effektgröße (log2 Fold Change) als auch die statistische Signifikanz (p-Wert) für jedes Gen:
- **X-Achse**: log2 Fold Change (Krebs vs. normal)
  - Positiv = überexprimiert im Krebs (potenzielle Onkogene)
  - Negativ = unterexprimiert im Krebs (potenzielle Tumorsuppressoren)
- **Y-Achse**: -log10(adjustierter p-Wert)
  - Höher = signifikanter
- **Farbcodierung**:
  - Rot = signifikante Onkogene (padj < 0,05, log2FC > 1)
  - Blau = signifikante Tumorsuppressoren (padj < 0,05, log2FC < -1)
  - Grau = nicht signifikant

**2. PCA (Hauptkomponentenanalyse) Plot**
Reduziert die Dimensionalität, um Probenbeziehungen zu zeigen:
- **Zweck**: Zeigt die Gesamtähnlichkeit/Unterschied zwischen Proben
- **Interpretation**:
  - Klare Trennung = starke molekulare Unterschiede zwischen Krebs und Normal
  - Clustering innerhalb der Gruppen = gute Reproduzierbarkeit der Replikate
  - Prozentsätze = Anteil der erklärten Varianz durch jede PC
- **Klinische Relevanz**: Bestätigt, dass Krebs- und Normalgewebe unterschiedliche molekulare Profile haben

**3. Heatmap der Top-Gene**
Zeigt Expressionsmuster für die signifikantesten Krebs-assoziierten Gene:
- **Zeilen**: Top 20 differenziell exprimierte Gene
- **Spalten**: Einzelne Proben (Krebs vs. Normal)
- **Farbskala**:
  - Rot = hohe Expression (Z-Score normalisiert)
  - Blau = niedrige Expression
  - Weiß = Durchschnittsexpression
- **Muster**:
  - Konsistente Expression innerhalb der Gruppen = zuverlässige Biomarker
  - Gegensätzliche Muster zwischen Gruppen = starke Kandidaten für therapeutische Ziele

In [None]:
%%bash
Rscript qb1rnaseq/create_plots.R

In [None]:
from IPython.display import Image
Image('volcano_plot.png')

In [None]:
from IPython.display import Image
Image('pca_plot.png')

In [None]:
from IPython.display import Image
Image('heatmap.png')

---

## 3 Pathway-Anreicherungsanalyse

### Verständnis der Krebsbiologie durch Pathway-Analyse

Während die Differenzialexpressionsanalyse einzelne Gene identifiziert, hilft die Pathway-Analyse zu verstehen, wie diese Gene zusammenarbeiten, um Krebs zu verursachen. Dieser Schritt übersetzt Genlisten in biologische Erkenntnisse.

**Was ist Pathway-Anreicherung?**
Testet, ob unsere Krebs-assoziierten Gene statistisch in bekannten biologischen Prozessen, molekularen Funktionen oder Signalwegen überrepräsentiert sind.

**Verwendete Datenbanken:**
1. **GO (Gene Ontology)**:
   - Biologische Prozesse (BP): Zelluläre Funktionen (z.B. Zellzyklus, Apoptose)
   - Zelluläre Komponenten (CC): Subzelluläre Lokalisationen
   - Molekulare Funktionen (MF): Biochemische Aktivitäten

2. **KEGG (Kyoto Encyclopedia of Genes and Genomes)**:
   - Gut dokumentierte Signalwege
   - Krankheitsassoziierte Wege
   - Metabolische Prozesse

3. **Reactome**:
   - Kuratierte und peer-reviewed Wege
   - Detaillierte molekulare Interaktionen
   - Biologische Reaktionen

**Erwartete Krebs-Pathways:**

*Onkogene (hochreguliert):*
- Zellzyklusfortschritt
- DNA-Replikation
- Metabolische Reprogrammierung
- Angiogenese (Bildung von Blutgefäßen)
- Zellproliferation

*Tumorsuppressoren (herunterreguliert):*
- Apoptose (programmierter Zelltod)
- DNA-Reparatur
- Zellzyklus-Checkpoints
- Immunüberwachung
- Zelldifferenzierung

**Klinische Bedeutung:**
- **Medikamententargets**: Pathways können mit bestehenden Medikamenten gezielt angesteuert werden
- **Kombinationstherapie**: Mehrere Pathways für synergistische Effekte ansteuern
- **Resistenzmechanismen**: Verständnis von Alternativwegen
- **Biomarker**: Pathway-Aktivitätssignaturen für Patientenstratifizierung

In [None]:
%%bash
Rscript pathway_analysis.R --input degs.tsv --output pathway_results.tsv

In [None]:
%%bash
head pathway_results.tsv

---

## 4 Medikamentenumwidmung

### Medikamentenumwidmung in der Krebsforschung

**Was ist Medikamentenumwidmung?**
Medikamentenumwidmung (auch Drug Repurposing genannt) beinhaltet das Finden neuer therapeutischer Anwendungen für bestehende Medikamente. Dieser Ansatz bietet mehrere Vorteile:

1. **Schnellere Entwicklung**: 5-10 Jahre vs. 15-20 Jahre für neue Medikamente
2. **Bekannte Sicherheitsprofile**: Bestehende Medikamente haben etablierte Sicherheitsdaten
3. **Geringere Kosten**: Reduziert das Risiko und die Kosten der Medikamentenentwicklung
4. **Sofortige klinische Anwendung**: Kann in einigen Fällen off-label verschrieben werden

**Wie funktioniert computergestützte Medikamentenumwidmung?**
Unser Ansatz verwendet Genexpressionssignaturen:
1. **Krebssignatur**: Listen von Onkogenen (hochreguliert) und Tumorsuppressoren (herunterreguliert)
2. **Medikamenteneffekt-Datenbank**: Wie Tausende von Medikamenten die Genexpression beeinflussen
3. **Signaturabgleich**: Finden von Medikamenten, die Krebsgenexpressionsmuster umkehren

**Erfolgsgeschichten:**
- **Metformin**: Diabetes-Medikament → Krebsprävention (200+ klinische Studien)
- **Aspirin**: Schmerzlinderung → Krebsprävention (FDA zugelassen)
- **Rapamycin**: Immunsuppressivum → Krebs- und Altersforschung

**Unsere Skriptvorbereitung:**
Konvertiert unsere DESeq2-Ergebnisse in ein Format, das mit L1000CDS2, einer großen Medikamentenumwidmungsdatenbank, kompatibel ist.

### Abfrage der L1000CDS2-Medikamentendatenbank

**Was ist L1000CDS2?**
L1000CDS2 (L1000 Characteristic Direction Signature) ist ein computergestütztes Tool, das vom Ma'ayan Laboratory entwickelt wurde und:

1. **Datenbankumfang**: Enthält Genexpressionssignaturen für >20.000 Medikamente, die an menschlichen Zelllinien getestet wurden
2. **Signaturabgleich**: Verwendet mathematische Algorithmen, um Medikamente zu finden, die Krankheitssignaturen umkehren
3. **LINCS-Programm**: Teil der NIH Library of Integrated Network-based Cellular Signatures Initiative

**Wie funktioniert der Algorithmus?**
1. **Eingangssignatur**: Unsere Krebsgensignatur (Onkogene + Tumorsuppressoren)
2. **Datenbanksuche**: Vergleicht mit medikamenteninduzierten Expressionsveränderungen
3. **Bewertungssystem**: Berechnet, wie gut jedes Medikament die Krebssignatur umkehrt
4. **Rangfolge**: Gibt Medikamente rangiert nach ihrem Potenzial zur Bekämpfung von Krebs zurück

**Interpretation der Ergebnisse:**
- **Negative Scores**: Medikamente, die Krebssignaturen umkehren (hohes therapeutisches Potenzial)
- **Positive Scores**: Medikamente, die Krebssignaturen nachahmen (diese vermeiden)
- **Score-Größenordnung**: Größere absolute Werte zeigen stärkere Effekte an

**Klinische Validierung:**
Das System hat erfolgreich identifiziert:
- Bekannte Krebsmedikamente (validiert den Ansatz)
- Umgewidmete Medikamente bereits in Krebsstudien
- Neuartige Umwidmungsmöglichkeiten für weitere Untersuchungen


In [None]:
%%bash
python drug_repositioning.py --input degs.tsv --output drug_candidates.txt

In [None]:
%%bash
cat drug_candidates.txt

### Interpretation der Medikamentenumwidmungsergebnisse

**Verständnis der L1000CDS2-Scores:**

Die Medikamentenumwidmungsanalyse erzeugt eine rangliste von Verbindungen basierend auf ihrer Fähigkeit, Krebsgensignaturen umzukehren. So interpretieren Sie die Ergebnisse:

**Score-Interpretation:**
- **Negative Scores**: Hohes therapeutisches Potenzial (Medikamente, die Krebssignaturen umkehren)
- **Positive Scores**: Diese Medikamente vermeiden (sie ahmen Krebssignaturen nach oder verschlimmern sie)
- **Score-Größenordnung**: Größere absolute Werte zeigen stärkere vorhergesagte Effekte an

**Validierungskategorien:**

**Bekannte Krebsmedikamente (Positive Kontrollen):**
- **Beispiele**: Doxorubicin, Paclitaxel, Cisplatin, Tamoxifen, Imatinib
- **Bedeutung**: Validiert unseren computergestützten Ansatz
- **Klinische Bedeutung**: Bestätigt, dass die Krebssignatur biologisch relevant ist
- **Forschungswert**: Zeigt, dass die Methode etablierte Krebstherapeutika identifizieren kann

**Erfolgreich umgewidmete Medikamente:**
- **Metformin**: Ursprünglich für Diabetes → Jetzt in 200+ klinischen Krebsstudien
- **Aspirin**: Ursprünglich für Schmerz/Entzündung → FDA-zugelassen für Krebsprävention
- **Klinischer Erfolg**: Diese Medikamente beweisen, dass Umwidmung in der Praxis funktioniert
- **Patientennutzen**: Bereits für Off-Label-Verwendung in einigen Fällen verfügbar

**Vielversprechende Umwidmungskandidaten:**
- **Statine** (Cholesterinmedikamente): Anti-Krebs-Eigenschaften in Studien entdeckt
- **Rapamycin** (Immunsuppressivum): Aktive Krebs- und Altersforschung
- **Chloroquin** (Antimalariamittel): Wird für Krebsanwendungen untersucht
- **Forschungsmöglichkeit**: Neuartige Anwendungen, die weitere Validierung erfordern

---

### Warum Medikamentenumwidmung funktioniert

**Wissenschaftliche Vorteile:**
- **Schnellere Entwicklungszeit**: 5-10 Jahre vs. 15-20 Jahre für neue Medikamente
- **Bekannte Sicherheitsprofile**: Bestehende Medikamente haben etablierte Sicherheits- und Nebenwirkungsdaten
- **Geringere Entwicklungskosten**: Reduziert das finanzielle Risiko für Pharmaunternehmen
- **Regulatorische Vorteile**: Schnellerer Zulassungsprozess für neue Indikationen

**Biologische Begründung:**
- **Pathway-Targeting**: Viele Krankheiten teilen gemeinsame molekulare Wege
- **Polypharmakologie**: Einzelne Medikamente beeinflussen oft mehrere biologische Ziele
- **Netzwerkeffekte**: Medikamente können miteinander verbundene zelluläre Systeme beeinflussen
- **Serendipitöse Entdeckungen**: Unerwartete positive Effekte bei verschiedenen Krankheiten




---

## Kontakt

Dr. rer. nat. Israel Barrantes <br>
Forschungsgruppe Translationale Bioinformatik (Leiter)<br>
Institut für Biostatistik und Informatik in Medizin und Alternsforschung, Büro 3017<br>
Universitätsmedizin Rostock<br>
Ernst-Heydemann-Str. 8<br>
18057 Rostock, Deutschland<br>

E-Mail: israel.barrantes[bei]uni-rostock.de

---
Letzte Aktualisierung 2025/10/25
