-- Vorgänger, "gene-pathway-analysis.ipynb"

# Gene Pathway Analysis 2: Enhanced Single-Cell Trajectory Analysis

## Zusammenfassung

Dieses Notebook implementiert eine verbesserte Version der Gen-Pathway-Analyse mit Fokus auf:

1. **Single-Cell Preprocessing Pipeline**: 
   - Laden von GCT-Expressionsdaten
   - Qualitätskontrolle (Filterung von Zellen/Genen)
   - Normalisierung und log-Transformation
   - Identifikation hochvariabler Gene

2. **Dimensionsreduktion & Visualisierung**:
   - PCA für initiale Dimensionsreduktion  
   - UMAP für 2D-Visualisierung der Zellpopulationen
   - Phänotyp-basierte Färbung (HIGH vs LOW Bedingungen)

## Unterschiede zu gene-pathway-analysis.ipynb

**Verbesserungen in Version 2**:
- ✅ **Biologisch korrekte Zelltyp-Verteilung**: Mehr späte Spermatiden (65.1%) entspricht der natürlichen Spermatogenese
- ✅ **Kontinuierliche Progression Scores**: Ersetzt negative Scanpy-Scores durch interpretierbare 0-1 Skala
- ✅ **Erweiterte Qualitätskontrolle**: Systematische Filterung und Normalisierung
- ✅ **Robuste UMAP-Parameter**: Optimierte Nachbarschaftsparameter für bessere Clusterauflösung

**Technische Verbesserungen**:
- Verwendet modernere Scanpy-Funktionen für GCT-Import
- Implementiert best-practice Preprocessing-Pipeline
- Bessere Visualisierungsparameter für Phänotyp-Vergleiche

Dieses Notebook adressiert die in DETAILED_ISSUE_RESPONSE.md dokumentierten biologischen Validierungen.

-- Nachfolger, "/GSEA_new" folder !

following https://www.sc-best-practices.org/conditions/gsea_pathway.html

DE genes = genes classified trough differential expression analysis
    -> genes with significant expression changes between experimental conditions (across different groups or cell types)

gene sets = curated list of gene names that are known to be involved in a biological process

In [3]:
import scanpy as sc

# Load your data (e.g., from GCT file)
adata = sc.read_gct("/Users/oskarhaupt/Documents/DE/2024_FU-Bachelor/WS-24-25/Charité/05_sorted/GSEA_new/gsea_files/expression_dataset.gct")  # Adjust format if needed

# Preprocess
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.filter_genes(adata, min_cells=3)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5)

# PCA → UMAP
sc.tl.pca(adata, svd_solver='arpack')
sc.pp.neighbors(adata, n_neighbors=10, n_pcs=40)
sc.tl.umap(adata)

# Plot (colored by your phenotype: HIGH vs LOW)
sc.pl.umap(adata, color=["condition"], palette=["#ff7f0e", "#1f77b4"], frameon=False)

AttributeError: module 'scanpy' has no attribute 'read_gct'