# UMR QB1 - Seminar zur Genexpressionsanalyse

---

## Medizinisches Problem & Forschungsfrage

**"_Was sind die molekularen Unterschiede zwischen Krebszellen und normalem menschlichem Gewebe, und wie können wir diese Unterschiede nutzen, um neue therapeutische Ziele und deren Medikamente für die Krebsbehandlung zu identifizieren?_"**

### **Warum dies für die Medizin wichtig ist:**
- **Krebsheterogenität:** Verschiedene Krebsarten haben unterschiedliche molekulare Signaturen
- **Präzisionsmedizin:** Behandlungen müssen auf spezifische Krebsarten zugeschnitten werden
- **Medikamentenresistenz:** Krebszellen entwickeln sich weiter, um der Behandlung zu entkommen
- **Therapeutische Ziele:** Neue Medikamente werden dringend für bessere Patientenergebnisse benötigt

### **Was wir entdecken werden:**
1. **Molekulare Krebssignaturen:** Gene, die konsistent im Vergleich von Krebs zu normalem Gewebe verändert sind
2. **Therapeutische Schwachstellen:** Signalwege, die mit Medikamenten gezielt angesteuert werden können
3. **Möglichkeiten zur Medikamentenumwidmung:** Bestehende Medikamente, die Krebs behandeln könnten
4. **Biomarker-Identifikation:** Gene, die das Ansprechen auf die Behandlung vorhersagen könnten

---


## Datensatz: Eine reale Studie zu Krebs vs. normalem Gewebe

**Klinischer Kontext:** Universal Human Reference (UHR) vs. Human Brain Reference (HBR)  
**Medizinische Relevanz:** Krebszelllinien vs. normales menschliches Hirngewebe<br>
**Stichprobengröße:** 6 Proben (3 Krebsreplikate vs. 3 normale Hirnreplikate)  
**Datentyp:** Paired-End-RNA-Sequenzierung (Chromosom 22 Subset)  
**Referenz:** Griffith M, Walker JR, Spies NC, Ainscough BJ, Griffith OL (2015) Informatics for RNA Sequencing: A Web Resource for Analysis on the Cloud. *PLoS Comput Biol* 11(8): e1004393. https://doi.org/10.1371/journal.pcbi.1004393



### **Medizinische Proben**

#### **UHR (Universal Human Reference) = KREBSPROBEN**
- **Zusammensetzung:** Gesamt-RNA aus 10 verschiedenen menschlichen Krebszelllinien
- **Enthaltene Krebsarten:** Brust-, Leber-, Gebärmutterhals-, Hoden-, Gehirn-, Hautkrebsarten plus Immunzellen (T-Zellen, B-Zellen, Makrophagen, Histiozyten)
- **Warum dies wichtig ist:** Repräsentiert die gemeinsamen molekularen Merkmale verschiedener Krebsarten
- **Klinische Relevanz:** Hilft bei der Identifizierung pan-karzinogener therapeutischer Ziele

#### **HBR (Human Brain Reference) = KONTROLLEN AUS NORMALEM GEWEBE**
- **Zusammensetzung:** Gesamt-RNA aus Gehirnen von 23 gesunden Kaukasiern, meist 60-80 Jahre alt
- **Warum Hirngewebe:** Bietet eine Basislinie für den Vergleich mit normalem Gewebe
- **Klinische Relevanz:** Zeigt, wie "gesunde" Genexpression aussieht

### **Die biologische Hypothese:**
**Krebszellen werden systematische Veränderungen in der Genexpression im Vergleich zu normalem Gewebe zeigen und Folgendes offenbaren:**
1. **Onkogene** (krebsfördernde Gene), die überexprimiert sind
2. **Tumorsuppressoren** (krebsverhindernde Gene), die stillgelegt sind
3. **Stoffwechselwege**, die verändert wurden, um Krebswachstum zu unterstützen
4. **Medikamentenziele**, die Krebszellen selektiv abtöten könnten

---

## Lernziele


**Technische Fähigkeiten:**
1. Durchführung einer Differenzialexpressionsanalyse zur Identifizierung von Krebs-Biomarkern
2. Durchführung einer Pathway-Anreicherung zum Verständnis der Krebsbiologie
3. Verwendung von computergestützter Medikamentenumwidmung für therapeutische Entdeckungen

**Medizinisches Verständnis:**
1. **Interpretation von Krebsgensignaturen** im klinischen Kontext
2. **Identifikation potenzieller Biomarker** für Krebsdiagnose/-prognose
3. **Verständnis der Medikamentenumwidmung** als Strategie für schnellere therapeutische Entwicklung
4. **Verbindung computergestützter Erkenntnisse** mit realen Krebsbehandlungsentscheidungen

**Klinische Translation:**
1. **Bewertung therapeutischer Ziele**, die durch RNA-seq identifiziert wurden
2. **Bewertung von Medikamentenkandidaten** für das Krebsbehandlungspotenzial
3. **Verständnis von Präzisionsmedizin**-Ansätzen in der Krebsversorgung

---

## Setup und Einführung

#### Conda installieren

Nach dem Ausführen dieser Zelle wird die Laufzeit automatisch neu gestartet. Warten Sie, bis dies abgeschlossen ist, und fahren Sie dann fort. Ignorieren Sie Fehlermeldungen und Warnungen

In [None]:
!pip install -q condacolab
import condacolab
condacolab.install()

#### Conda-Installation überprüfen

In [None]:
import condacolab
condacolab.check()

#### Alle erforderlichen Software und Pakete installieren

In [None]:
%%bash
conda install -c bioconda -c conda-forge bioconductor-deseq2 r-optparse r-ggplot2 r-gprofiler2 r-dplyr r-tidyr -y -q 2>&1

#### Daten- und Skript-Repository

- Expressionsdaten: Vorverarbeitete RNA-seq-Datendateien und Count-Matrix
- Analyseskripte für jeden Schritt
- Referenzgenomdateien und Annotationen

In [None]:
%%bash
git clone https://gitlab.uni-rostock.de/wb283/qb1rnaseq.git

In [None]:
%%bash
ls

In [None]:
# Change working directory permanently
import os
os.chdir('qb1rnaseq')

In [None]:
%%bash
ls

In [None]:
%%bash
tar xzf griffith-data.tar.gz

In [None]:
%%bash
ls

---

## Genexpression

![](https://gitlab.uni-rostock.de/wb283/qb1rnaseq/-/raw/main/expression_technology_comparison_ed2.jpg)

**Was ist RNA-seq?**
RNA-seq bestimmt, wie viele RNA-Moleküle (Genexpression) in jeder Probe für jedes Gen vorhanden waren. Dieser Prozess umfasst:

1. **Reads zuordnen**: Bestimmen, von welchem Gen/Transkript jeder Sequenzierungs-Read stammt
2. **Zählen**: Aufaddieren, wie viele Reads auf jedes Gen abgebildet werden
3. **Normalisierung**: Anpassen für Unterschiede in der Sequenzierungstiefe und Genlänge

![](https://gitlab.uni-rostock.de/wb283/qb1rnaseq/-/raw/main/rnaseq_experiments.png)


**Warum Count-Daten verwenden?**
- **Rohe Counts**: Repräsentieren die tatsächliche Anzahl der Sequenzierungs-Reads pro Gen
- **Statistische Anforderungen**: Count-basierte statistische Modelle (wie DESeq2) benötigen Integer-Counts
- **Vergleichbarkeit**: Counts können über Proben hinweg normalisiert werden für einen fairen Vergleich

![](https://gitlab.uni-rostock.de/wb283/qb1rnaseq/-/raw/main/rnaseq_mapping_example_ed2.jpg)

![](https://gitlab.uni-rostock.de/wb283/qb1rnaseq/-/raw/main/rnaseq_expression_table_ed2.jpg)


**Medizinische Bedeutung**

- Onkogene (überexprimiert bei Krebs)
- Tumorsuppressoren (unterexprimiert bei Krebs)
- Potenzielle therapeutische Ziele




---

## 1 Daten


### 1.1 Datensatz: Metadaten und Sequenzierungen

- **UHR-Proben**: Gemischte Krebszelllinien (Universal Human Reference)
- **HBR-Proben**: Normales Hirngewebe (Human Brain Reference)
- **Chr22-Subset**: Bildungsdatensatz mit Fokus auf Chromosom 22-Gene


In [None]:
%%bash
cat samples.tsv

### 1.2 Genannotationen (GTF-Format)

- **Spalte 1**: Chromosomenname (22)
- **Spalte 2**: Annotationsquelle (z.B. Ensembl, HAVANA)
- **Spalte 3**: Feature-Typ (z.B. Gen, Transkript, Exon)
- **Spalten 4-5**: Start- und Endpositionen
- **Spalte 7**: Strang (+ oder -)
- **Spalte 9**: Attribute (gene_id, gene_name, etc.)


In [None]:
%%bash
ls refs/

In [None]:
%%bash
# transcriptome annotations
head refs/22.gtf

### 1.3 DNA-Sequenz (FASTA-Format)

- **Kopfzeile** (`>`): Sequenzidentifikator und Beschreibung
- **Sequenzzeilen**: DNA-Basen (A, T, G, C)
- **Verwendung**: Referenzgenom für die Read-Zuordnung


In [None]:
%%bash
# sequence data
head refs/22.fa

### 1.4 Genexpressions-Count-Matrix

**Was ist eine Count-Matrix?**
Die Count-Matrix ist die fundamentale Datenstruktur für RNA-seq-Analysen:

- **Zeilen**: Gene oder Transkripte
- **Spalten**: Proben (UHR vs. HBR Replikate)
- **Werte**: Anzahl der Sequenzierungs-Reads, die jedem Gen in jeder Probe zugeordnet sind

**Woher kommt die Count-Matrix?**
1. **Salmon Quantifizierung**: Zählt Reads für jedes Transkript
2. **Aggregation**: Kombiniert Transkript-Counts zu Gen-Counts
3. **Matrix-Format**: Organisiert alle Proben zur Analyse


In [None]:
%%bash
head counts.tsv

**Verständnis der Count-Matrix-Struktur:**

**Gene_ID-Spalte:**
- **Transkript-Identifikatoren**: Aus den Ensembl-Annotationen (z.B. ENST00000...)
- **Eindeutige IDs**: Jede Zeile repräsentiert ein einzigartiges Transkript/Gen
- **Annotations-Match**: Entspricht Einträgen in der GTF-Datei

**Proben-Spalten (UHR und HBR):**
- **UHR (Universal Human Reference)**: Krebs-Proben
  - UHR_1, UHR_2, UHR_3 = biologische Replikate von gemischten Krebszelllinien
- **HBR (Human Brain Reference)**: Normale Proben
  - HBR_1, HBR_2, HBR_3 = biologische Replikate von normalem Hirngewebe

**Count-Werte:**
- **Integer-Zahlen**: Repräsentieren rohe Read-Counts
- **Variabilität**: Höhere Counts = höhere Expression
- **Null-Counts**: Gen nicht exprimiert oder nicht nachweisbar
- **Replikat-Konsistenz**: Ähnliche Counts über Replikate zeigen Zuverlässigkeit

**Medizinische Interpretation:**
- **Vergleich UHR vs. HBR**: Identifiziert Krebs-spezifische Expressionsmuster
- **Hohe UHR-Counts**: Potenzielle Onkogene (krebsfördernde Gene)
- **Hohe HBR-Counts**: Potenzielle Tumorsuppressoren (in Krebs stillgelegt)
- **Ähnliche Counts**: Haushalts-Gene (nicht differenziell exprimiert)


## 2 Genexpressionsanalyse

**Was ist Genexpressionsanalyse?**
Die Genexpressionsanalyse identifiziert Gene, die zwischen Bedingungen (Krebs vs. Normal) signifikant unterschiedlich exprimiert werden. Dies ist der Kernschritt zur Entdeckung:
- **Krebs-Biomarker**: Gene, die Krebs von Normal unterscheiden
- **Therapeutische Ziele**: Gene, die für Medikamentenentwicklung angesteuert werden könnten
- **Biologische Mechanismen**: Wege, die bei Krebs dysreguliert sind

**Das DESeq2-Verfahren:**
1. **Normalisierung**: Anpassung für Unterschiede in der Bibliotheksgröße zwischen Proben
2. **Dispersionsschätzung**: Modellierung der Variabilität zwischen biologischen Replikaten
3. **Statistisches Testen**: Identifizierung signifikant veränderter Gene
4. **Multiple-Test-Korrektur**: Anpassung der P-Werte für Tausende gleichzeitiger Tests

**Ausgabemetriken:**
- **baseMean**: Durchschnittliche normalisierte Counts über alle Proben
- **log2FoldChange**: Wie stark sich die Expression ändert (positiv = höher im Krebs)
- **pvalue**: Statistische Signifikanz der Änderung
- **padj**: Adjustierter P-Wert (nach Korrektur für multiple Tests)

**Signifikanz-Schwellenwerte:**
- **padj < 0,05**: Statistisch signifikant (FDR-korrigiert)
- **|log2FC| > 1**: Biologisch bedeutsame Änderung (2-fach)
- **Kombiniert**: Gene mit beiden Kriterien sind starke Kandidaten


In [None]:
%%bash
# 2025-07-14
Rscript run_deseq2.R \
    --metadata samples.tsv \
    --expression counts.tsv \
    --output-degs degs.tsv \
    --output-plots pca_plot.png,heatmap.png,volcano_plot.png \
    --output-image deseq2_results.RData

In [None]:
%%bash
head degs.tsv

In [None]:
%%bash
grep "ENST00000328933.9" refs/22.gtf | cut -f9

### Datenvisualisierung für biologische Interpretation

**Warum RNA-seq-Ergebnisse visualisieren?**
Die Visualisierung verwandelt Tausende von Zahlen in verständliche biologische Erkenntnisse und ermöglicht:
- **Mustererkennung**: Identifizierung von Trends über Gene hinweg
- **Qualitätskontrolle**: Erkennung von Ausreißern oder technischen Problemen
- **Hypothesengenerierung**: Vorschlagen neuer biologischer Mechanismen
- **Kommunikation**: Klare Präsentation von Ergebnissen

**Drei Schlüsselvisualisierungen:**
1. **Volcano Plot**: Übersicht über alle Gene (Effektgröße vs. Signifikanz)
2. **PCA Plot**: Probenbeziehungen und Qualitätskontrolle
3. **Heatmap**: Detaillierte Expressionsmuster der Top-Gene


In [None]:
from IPython.display import Image, display
import os

display(Image('heatmap.png'))

Schauen wir uns nun die Annotationen eines dieser Transkripte an, z.B. `ENST00000390323.2`:

In [None]:
%%bash
# Annotations from differentially expressed genes
grep "ENST00000390323.2" refs/22.gtf | cut -f9

---

## 3 Pathway-Analyse

### Pathway-Analyse durchführen

**Was ist Pathway-Anreicherungsanalyse?**
Anstatt einzelne Gene zu betrachten, gruppiert die Pathway-Analyse Gene nach ihrer biologischen Funktion und fragt:
- Sind unsere Krebs-assoziierten Gene in bestimmten biologischen Prozessen überrepräsentiert?
- Welche zellulären Wege sind bei Krebs dysreguliert?

**Verwendete Datenbanken:**
1. **Gene Ontology (GO)**:
   - **Biologische Prozesse (BP)**: Zelluläre Funktionen (z.B. Zellzyklus, Apoptose)
   - **Zelluläre Komponenten (CC)**: Subzelluläre Lokalisationen
   - **Molekulare Funktionen (MF)**: Biochemische Aktivitäten

2. **KEGG**: Gut dokumentierte Signalwege und Krankheitswege
3. **Reactome**: Kuratierte biologische Wege und Reaktionen

**Erwartete Krebswege:**
- **Hochreguliert**: Zellzyklusfortschritt, DNA-Replikation, Metabolismus
- **Herunterreguliert**: Apoptose, DNA-Reparatur, Immunantwort

**Klinische Bedeutung:**
- **Medikamentenziele**: Identifizierung beeinträchtigter Wege für Therapie
- **Kombinationstherapie**: Mehrere Wege gleichzeitig ansteuern
- **Resistenzmechanismen**: Verständnis von Ausweichrouten


In [None]:
%%bash
Rscript pathway_analysis.R --input degs.tsv --output pathway_results.tsv

In [None]:
%%bash
head pathway_results.tsv

---

## 4 Drug Repositioning

### Drug Repositioning in der Krebsforschung

**Was ist Drug Repositioning?**
Drug Repositioning beinhaltet das Finden neuer therapeutischer Anwendungen für bestehende Medikamente. Dieser Ansatz bietet mehrere Vorteile:

1. **Schnellere Entwicklung**: 5-10 Jahre vs. 15-20 Jahre für neue Medikamente
2. **Bekannte Sicherheitsprofile**: Bestehende Medikamente haben etablierte Sicherheitsdaten
3. **Geringere Kosten**: Reduziert das Risiko und die Kosten der Medikamentenentwicklung
4. **Sofortige klinische Anwendung**: Kann in einigen Fällen off-label verschrieben werden

**Wie funktioniert computergestützte Medikamentenumwidmung?**
Unser Ansatz verwendet Genexpressionssignaturen:
1. **Krebssignatur**: Listen von Onkogenen (hochreguliert) und Tumorsuppressoren (herunterreguliert)
2. **Medikamenteneffekt-Datenbank**: Wie Tausende von Medikamenten die Genexpression beeinflussen
3. **Signaturabgleich**: Finden von Medikamenten, die Krebsgenexpressionsmuster umkehren

**Erfolgsgeschichten:**
- **Metformin**: Diabetes-Medikament → Krebsprävention (200+ klinische Studien)
- **Aspirin**: Schmerzlinderung → Krebsprävention (FDA zugelassen)
- **Rapamycin**: Immunsuppressivum → Krebs- und Altersforschung

**Unsere Skriptvorbereitung:**
Konvertiert unsere DESeq2-Ergebnisse in ein Format, das mit L1000CDS2, einer großen Medikamentenumwidmungsdatenbank, kompatibel ist.

### L1000CDS2

**Was ist L1000CDS2?**
L1000CDS2 (L1000 Characteristic Direction Signature) ist ein Tool, das vom Ma'ayan Laboratory entwickelt wurde und:

1. **Datenbankumfang**: Enthält Genexpressionssignaturen für >20.000 Medikamente, die an menschlichen Zelllinien getestet wurden
2. **Signaturabgleich**: Verwendet mathematische Algorithmen, um Medikamente zu finden, die Krankheitssignaturen umkehren
3. **LINCS-Programm**: Teil der NIH Library of Integrated Network-based Cellular Signatures Initiative

**Wie funktioniert der Algorithmus?**
1. **Eingangssignatur**: Unsere Krebsgensignatur (Onkogene + Tumorsuppressoren)
2. **Datenbanksuche**: Vergleicht mit medikamenteninduzierten Expressionsveränderungen
3. **Bewertungssystem**: Berechnet, wie gut jedes Medikament die Krebssignatur umkehrt
4. **Rangfolge**: Gibt Medikamente rangiert nach ihrem Potenzial zur Bekämpfung von Krebs zurück

**Interpretation der Ergebnisse:**
- **Negative Scores**: Medikamente, die Krebssignaturen umkehren (hohes therapeutisches Potenzial)
- **Positive Scores**: Medikamente, die Krebssignaturen nachahmen (diese vermeiden)
- **Score-Größenordnung**: Größere absolute Werte zeigen stärkere Effekte an

**Klinische Validierung:**
Das System hat erfolgreich identifiziert:
- Bekannte Krebsmedikamente (validiert den Ansatz)
- Umgewidmete Medikamente bereits in Krebsstudien
- Neuartige Umwidmungsmöglichkeiten für weitere Untersuchungen


In [None]:
%%bash
python drug_repositioning.py --input degs.tsv --output drug_candidates.txt

In [None]:
%%bash
cat drug_candidates.txt

### Interpretation der Drug Repositioning ergebnisse

**Verständnis der L1000CDS2-Scores:**

Die Drug Repositionings-analyse erzeugt eine Rangliste von Verbindungen basierend auf ihrer Fähigkeit, Krebsgensignaturen umzukehren. So interpretieren Sie die Ergebnisse:

**Score-Interpretation:**
- **Negative Scores**: Hohes therapeutisches Potenzial (Medikamente, die Krebssignaturen umkehren)
- **Positive Scores**: Diese Medikamente vermeiden (sie ahmen Krebssignaturen nach oder verschlimmern sie)
- **Score-Größenordnung**: Größere absolute Werte zeigen stärkere vorhergesagte Effekte an

**Validierungskategorien:**

**Bekannte Krebsmedikamente (Positive Kontrollen):**
- **Beispiele**: Doxorubicin, Paclitaxel, Cisplatin, Tamoxifen, Imatinib
- **Bedeutung**: Validiert unseren computergestützten Ansatz
- **Klinische Bedeutung**: Bestätigt, dass die Krebssignatur biologisch relevant ist
- **Forschungswert**: Zeigt, dass die Methode etablierte Krebstherapeutika identifizieren kann

**Erfolgreich umgewidmete Medikamente:**
- **Metformin**: Ursprünglich für Diabetes → Jetzt in 200+ klinischen Krebsstudien
- **Aspirin**: Ursprünglich für Schmerz/Entzündung → FDA-zugelassen für Krebsprävention
- **Klinischer Erfolg**: Diese Medikamente beweisen, dass Umwidmung in der Praxis funktioniert
- **Patientennutzen**: Bereits für Off-Label-Verwendung in einigen Fällen verfügbar

**Vielversprechende Umwidmungskandidaten:**
- **Statine** (Cholesterinmedikamente): Anti-Krebs-Eigenschaften in Studien entdeckt
- **Rapamycin** (Immunsuppressivum): Aktive Krebs- und Altersforschung
- **Chloroquin** (Antimalariamittel): Wird für Krebsanwendungen untersucht
- **Forschungsmöglichkeit**: Neuartige Anwendungen, die weitere Validierung erfordern

---

### Warum Drug Repositioning funktioniert

**Wissenschaftliche Vorteile:**
- **Schnellere Entwicklungszeit**: 5-10 Jahre vs. 15-20 Jahre für neue Medikamente
- **Bekannte Sicherheitsprofile**: Bestehende Medikamente haben etablierte Sicherheits- und Nebenwirkungsdaten
- **Geringere Entwicklungskosten**: Reduziert das finanzielle Risiko für Pharmaunternehmen
- **Regulatorische Vorteile**: Schnellerer Zulassungsprozess für neue Indikationen

**Biologische Begründung:**
- **Pathway-Targeting**: Viele Krankheiten teilen gemeinsame molekulare Wege
- **Polypharmakologie**: Einzelne Medikamente beeinflussen oft mehrere biologische Ziele
- **Netzwerkeffekte**: Medikamente können miteinander verbundene zelluläre Systeme beeinflussen
- **Serendipitöse Entdeckungen**: Unerwartete positive Effekte bei verschiedenen Krankheiten




---

## Kontakt

Dr. rer. nat. Israel Barrantes <br>
Forschungsgruppe Translationale Bioinformatik (Leiter)<br>
Institut für Biostatistik und Informatik in Medizin und Alternsforschung, Büro 3017<br>
Universitätsmedizin Rostock<br>
Ernst-Heydemann-Str. 8<br>
18057 Rostock, Deutschland<br>

E-Mail: israel.barrantes[bei]uni-rostock.de

---
Letzte Aktualisierung 2025/11/03
