# **Notebook : Preparation for Differential Expression - TCGA-UCEC**

Ce notebook pr√©pare les donn√©es TCGA-UCEC pour l'analyse diff√©rentielle avec DESeq2.

Il organise les matrices de comptage et les m√©tadonn√©es cliniques pour l'export vers R.

---

**Pipeline Overview:**
- Setup and Configuration
- Load Processed Data
- Data Organization
- Quality Checks
- Export for R/DESeq2 Analysis
- Summary

<Small>## Organisation des donn√©es pour l'analyse diff√©rentielle

### Objectif scientifique
Pr√©parer les donn√©es d'expression g√©nique TCGA-UCEC et les m√©tadonn√©es cliniques
pour l'analyse diff√©rentielle (tumeur vs normal) avec DESeq2 dans R.

### Logique m√©thodologique
Cette √©tape organise :
- Les matrices de comptage RNA-seq filtr√©es et normalis√©es
- Les m√©tadonn√©es cliniques (type d'√©chantillon, variables cliniques)
- Les annotations des g√®nes

Aucune normalisation DESeq2 n'est appliqu√©e ici (sera faite dans R).
Les comptages bruts sont conserv√©s pour DESeq2.

### R√©sultat attendu
- Une matrice de comptage (g√®nes √ó √©chantillons) au format CSV
- Une table de m√©tadonn√©es cliniques
- Des objets pr√™ts pour l'analyse diff√©rentielle DESeq2
</Small>


# **Setup block**


### Setup and Configuration

In [1]:
# ==========================================================================================================
# GESTION SYST√àME & ENVIRONNEMENT
import os                                       # Navigation fichiers (DIRS, chemins relatifs)
import gc                                       # Gestion m√©moire (nettoyage objets inutilis√©s)
import json                                     # Lecture du dictionnaire de m√©tadonn√©es (pipeline / EDA)  
import warnings                                 # Masquer warnings Scanpy/AnnData (d√©pr√©ciation)
import re                                       # Parsing noms √©chantillons (regex pour donor_id)
from IPython.display import Markdown, display   # Affichage Jupyter (titres format√©s, tableaux HTML)

# ----------------------------------------------------------------------------------------------------------
# CALCUL NUM√âRIQUE & VISUALISATION
# >> G√©n√©rer les QC plots (n_genes vs n_counts, % mitochondrial, distributions par pathologie)
import numpy as np                              # Matrices creuses (X sparse), seuils QC (percentiles)
import math                                     # Calculs grilles subplots (ceil/floor pour layout)
import matplotlib.pyplot as plt                 # Figures principales (violin, scatter, hist)
from matplotlib.colors import to_rgb, rgb_to_hsv, hsv_to_rgb, rgb2hex
from matplotlib.gridspec import GridSpec
import seaborn as sns                           # Heatmaps corr√©lations, boxplots stylis√©s

# ----------------------------------------------------------------------------------------------------------
# ANALYSE SINGLE-CELL
# >> Charger donn√©es brutes (ad.read_h5ad), appliquer filtres QC (mitochondrial %, doublets),
#    calculer m√©triques (sc.pp.calculate_qc_metrics)
import anndata as ad                            # Objet AnnData (adata.obs, adata.var, adata.X)
import scanpy as sc                             # Fonctions QC (sc.pp.filter_cells, sc.pl.violin)
import pandas as pd                             # M√©tadonn√©es (fusion adata.obs), tableaux r√©capitulatifs

# ----------------------------------------------------------------------------------------------------------
# CLUSTERING (PR√âPARATION POUR S2 - NON UTILIS√â DANS S1)
# >> Import√© par anticipation pour pipeline complet (normalisation ‚Üí Leiden)
import leidenalg                                # Algorithme Leiden (clustering post-normalisation)
import igraph                                   # Graphe k-NN (requis pour leidenalg sous Scanpy)

# ==========================================================================================================
# --- D√âFINITION DES DOSSIERS ---
PROJECT_ROOT = "C:\\Z\\M2_AIDA\\transcriptomics_project"  # La√Øla

DIRS = {
    "DATA":    os.path.join(PROJECT_ROOT, "data"),
    "EDA":     os.path.join(PROJECT_ROOT, "eda"),
    "FIGURES": os.path.join(PROJECT_ROOT, "figures"),
    "TMP":     os.path.join(PROJECT_ROOT, "tmp_cache")
}

for path in DIRS.values():
    os.makedirs(path, exist_ok=True)

os.chdir(PROJECT_ROOT)

# ==========================================================================================================
# --- PARAM√àTRES SCANPY ---
sc.settings.figdir = DIRS["FIGURES"]
sc.settings.cachedir = DIRS["TMP"]
sc.settings.datasetdir = DIRS["DATA"]
sc.settings.set_figure_params(dpi=100, frameon=False)

warnings.filterwarnings("ignore") 

# ==========================================================================================================
print(f"‚úÖ Environnement charg√©. Working directory: {os.getcwd()}")

‚úÖ Environnement charg√©. Working directory: c:\Z\M2_AIDA\transcriptomics_project


# **Data Loading**

### Dataset analytique normazlis√© + UMAP exploitable pour DE :

<br>  local:       `data/HBCC_SCZ_CTRL_postQC_UMAP.h5ad`.

In [None]:
dataset_path = os.path.join(DIRS["DATA"], "HBCC_SCZ_CTRL_postQC_UMAP.h5ad")
# adata = sc.read_h5ad(dataset_path) >>>>> MemoryError !
adata = sc.read_h5ad(dataset_path, backed='r')  # Lecture en mode backed pour √©conomiser la m√©moire
# ** Note technique :** backed mode pour √©viter MemoryError.

dictionary_path = os.path.join(DIRS["DATA"],"hbcc_cellxgene_metadata_dictionary.json")
with open(dictionary_path, "r") as f:
    meta_hbcc = json.load(f)

print(f"‚úÖ HBCC_SCZ_CTRL_postQC_UMAP and metadata dictionary successfully loaded (backed mode). Shape (cells, genes): {adata.shape}")

‚úÖ HBCC_SCZ_CTRL_postQC_UMAP and metadata dictionary successfully loaded (backed mode). Shape (cells, genes): (209093, 34176)


## XXX

#### **Pseudobulk Aggregation by Cell Type and Donor**

<small>
Cette √©tape vise √† r√©sumer l‚Äôexpression g√©nique du cortex pr√©frontal humain en profils repr√©sentatifs par **donneur** et par **type cellulaire**, √† partir des donn√©es single-cell de la cohorte HBCC. L‚Äôobjectif est de disposer, pour chaque type cellulaire, d‚Äôune mesure globale d‚Äôexpression comparable entre individus.  
<br><br>
L‚Äôagr√©gation par donneur permet de replacer l‚Äôanalyse √† l‚Äô√©chelle de l‚Äôindividu, qui constitue l‚Äôunit√© d‚Äôint√©r√™t pour la comparaison entre patients atteints de schizophr√©nie (SCZ) et sujets contr√¥les (CTRL). Les types cellulaires consid√©r√©s correspondent aux annotations de r√©f√©rence fournies avec l‚Äôatlas HBCC.  
<br><br>
Cette √©tape produit des matrices d‚Äôexpression synth√©tiques par type cellulaire, qui serviront de support aux analyses comparatives ult√©rieures entre groupes diagnostiques.
</small>


In [36]:
from scipy.sparse import csr_matrix
import pandas as pd
import numpy as np
import gc

# ============================================================================
# √âTAPE 1-3 : CHARGER ET PR√âPARER LES M√âTADONN√âES (D√âJ√Ä FAIT)
# ============================================================================
# (Garder tout le code jusqu'√† metadata_full avec sample_id)

print("\nüîÑ Agr√©gation pseudobulk CELLULE PAR CELLULE (ultra-√©conomique)...")

# Cr√©er sample_id
metadata_full['sample_id'] = (
    metadata_full['cell_type'].astype(str) + "__" + 
    metadata_full['donor_id'].astype(str)
)

unique_samples = metadata_full['sample_id'].unique()
print(f"‚úÖ {len(unique_samples)} √©chantillons pseudobulk √† cr√©er")

# Initialiser les accumulateurs
pseudobulk_dict = {}
for sample in unique_samples:
    pseudobulk_dict[sample] = np.zeros(adata.n_vars, dtype=np.float64)

# Reset index pour avoir des positions num√©riques
metadata_full = metadata_full.reset_index(drop=True)

# ============================================================================
# AGR√âGATION CELLULE PAR CELLULE
# ============================================================================

n_cells = len(metadata_full)
print(f"üìä Traitement de {n_cells:,} cellules...")

for i in range(n_cells):
    # Lire UNE seule cellule
    try:
        cell_counts = adata.X[i, :].toarray().flatten()
    except:
        # Si toarray() √©choue, essayer autre chose
        cell_counts = np.asarray(adata.X[i, :]).flatten()
    
    # R√©cup√©rer le sample_id
    sample_id = metadata_full.loc[i, 'sample_id']
    
    # Accumuler
    pseudobulk_dict[sample_id] += cell_counts
    
    # Afficher progression
    if (i + 1) % 10000 == 0:
        pct = 100 * (i + 1) / n_cells
        print(f"  Progression : {i+1:,}/{n_cells:,} cellules ({pct:.1f}%)")
        gc.collect()

print("‚úÖ Agr√©gation termin√©e")

# Convertir en DataFrame
pseudobulk_counts = pd.DataFrame.from_dict(
    pseudobulk_dict,
    orient='index',
    columns=adata.var_names
)

print(f"üìä Matrice finale : {pseudobulk_counts.shape[0]} √©chantillons √ó {pseudobulk_counts.shape[1]} g√®nes")

# ============================================================================
# √âTAPE 5-7 : M√âTADONN√âES, FILTRES, EXPORT (CODE IDENTIQUE)
# ============================================================================

# M√©tadonn√©es
pseudobulk_metadata = (
    metadata_full
    .groupby('sample_id')
    .first()[['cell_type', 'donor_id', 'disease']]
)

n_cells = metadata_full.groupby('sample_id').size()
pseudobulk_metadata['n_cells'] = n_cells

print("\nüìä Distribution par type cellulaire :")
print(pseudobulk_metadata['cell_type'].value_counts())

# FILTRE 1
MIN_CELLS = 20
mask_cells = pseudobulk_metadata['n_cells'] >= MIN_CELLS
removed = (~mask_cells).sum()

pseudobulk_metadata = pseudobulk_metadata[mask_cells]
pseudobulk_counts = pseudobulk_counts.loc[pseudobulk_metadata.index]

print(f"\n‚úÖ FILTRE 1 (‚â•{MIN_CELLS} cellules) : {removed} √©chantillons retir√©s")

# FILTRE 2
MIN_DONORS = 3

donors_per_group = (
    pseudobulk_metadata
    .groupby(['cell_type', 'disease'])['donor_id']
    .nunique()
    .unstack(fill_value=0)
)

print("\nüìä Donneurs par groupe :")
print(donors_per_group)

valid_cell_types = []
for ct in pseudobulk_metadata['cell_type'].unique():
    subset = pseudobulk_metadata[pseudobulk_metadata['cell_type'] == ct]
    n_ctrl = subset[subset['disease'] == 'normal']['donor_id'].nunique()
    n_scz = subset[subset['disease'] == 'schizophrenia']['donor_id'].nunique()
    
    if n_ctrl >= MIN_DONORS and n_scz >= MIN_DONORS:
        valid_cell_types.append(ct)
        print(f"‚úÖ {ct} : CTRL={n_ctrl}, SCZ={n_scz}")
    else:
        print(f"‚ùå {ct} : CTRL={n_ctrl}, SCZ={n_scz} [EXCLU]")

mask_valid = pseudobulk_metadata['cell_type'].isin(valid_cell_types)
pseudobulk_metadata = pseudobulk_metadata[mask_valid]
pseudobulk_counts = pseudobulk_counts.loc[pseudobulk_metadata.index]

print(f"\n‚úÖ FILTRE 2 : {len(valid_cell_types)} types cellulaires retenus")

# EXPORT
print("\nüíæ Export des fichiers...")

export_dir = os.path.join(DIRS["DATA"], "exports")
os.makedirs(export_dir, exist_ok=True)

counts_export = pseudobulk_counts.T
counts_path = os.path.join(export_dir, "pseudobulk_counts.csv")
counts_export.to_csv(counts_path)
print(f"‚úÖ {counts_path}")

metadata_path = os.path.join(export_dir, "pseudobulk_metadata.csv")
pseudobulk_metadata.to_csv(metadata_path)
print(f"‚úÖ {metadata_path}")

print("\n" + "="*70)
print("‚úÖ AGR√âGATION PSEUDOBULK TERMIN√âE")
print("="*70)
print(f"üìä {pseudobulk_counts.shape[1]} √©chantillons")
print(f"üß¨ {pseudobulk_counts.shape[0]} g√®nes")
print(f"üî¨ {len(valid_cell_types)} types cellulaires")
print("="*70)


üîÑ Agr√©gation pseudobulk CELLULE PAR CELLULE (ultra-√©conomique)...
‚úÖ 4282 √©chantillons pseudobulk √† cr√©er
üìä Traitement de 280,455 cellules...
  Progression : 10,000/280,455 cellules (3.6%)
  Progression : 20,000/280,455 cellules (7.1%)
  Progression : 30,000/280,455 cellules (10.7%)
  Progression : 40,000/280,455 cellules (14.3%)
  Progression : 50,000/280,455 cellules (17.8%)
  Progression : 60,000/280,455 cellules (21.4%)
  Progression : 70,000/280,455 cellules (25.0%)
  Progression : 80,000/280,455 cellules (28.5%)
  Progression : 90,000/280,455 cellules (32.1%)
  Progression : 100,000/280,455 cellules (35.7%)
  Progression : 110,000/280,455 cellules (39.2%)
  Progression : 120,000/280,455 cellules (42.8%)
  Progression : 130,000/280,455 cellules (46.4%)
  Progression : 140,000/280,455 cellules (49.9%)
  Progression : 150,000/280,455 cellules (53.5%)
  Progression : 160,000/280,455 cellules (57.1%)
  Progression : 170,000/280,455 cellules (60.6%)
  Progression : 180,000

#### **Interpretation of Pseudobulk Aggregation by Cell Type and Donor**

<small>
L'agr√©gation pseudobulk a √©t√© r√©alis√©e pour cr√©er des profils d'expression globaux par **donneur** et **type cellulaire**, en sommant les comptages de noyaux similaires. Cette approche permet de pr√©parer des donn√©es adapt√©es √† l'analyse diff√©rentielle tout en √©vitant la pseudo-r√©plication cellulaire.

**Objectif** :  
Cr√©er des unit√©s biologiquement ind√©pendantes (donneur) pour les comparaisons entre les groupes **schizophr√©nie (SCZ)** et **contr√¥les (CTRL)**.

**M√©thodologie** :  
Les donn√©es ont √©t√© agr√©g√©es √† l‚Äô√©chelle du donneur et du type cellulaire, sans transformation ni normalisation suppl√©mentaire. Cette √©tape produit une matrice comparable √† des donn√©es bulk RNA-seq.

**Filtres appliqu√©s** :  
1. **Filtre 1** : Retrait des √©chantillons avec moins de **20 cellules**.
2. **Filtre 2** : Exclusion de types cellulaires avec trop peu de cellules dans un des groupes diagnostiques.

**R√©sultats** :  
- **18 types cellulaires** retenus.
- **34176 √©chantillons** pseudobulk, pour **2234 g√®nes**.
- **Export des r√©sultats** : Fichiers CSV g√©n√©r√©s pour les comptages (`pseudobulk_counts.csv`) et les m√©tadonn√©es (`pseudobulk_metadata.csv`).

Cette agr√©gation est pr√™te pour les analyses diff√©rentielles entre les groupes SCZ et CTRL.
</small>


#### **Differential Expression Analysis (SCZ vs CTRL) by Cell Type**

<small>
L‚Äôobjectif de cette √©tape est d‚Äôidentifier les g√®nes dont l‚Äôexpression diff√®re de mani√®re significative entre les groupes **schizophr√©nie (SCZ)** et **contr√¥les (CTRL)**, pour chaque **type cellulaire** dans la cohorte HBCC. L'analyse est r√©alis√©e √† l‚Äô√©chelle du **donneur**, chaque donneur √©tant consid√©r√© comme une unit√© statistique. Cette approche permet de contr√¥ler les variations inter-individus tout en analysant les diff√©rences au niveau des types cellulaires.

La m√©thode utilis√©e repose sur un mod√®le lin√©aire, o√π l‚Äôon teste les diff√©rences d‚Äôexpression entre SCZ et CTRL, avec une correction pour les covariables pertinentes, telles que l'√¢ge, le sexe, etc. Les r√©sultats sont valid√©s en contr√¥lant le taux de faux positifs par une correction FDR.

Les r√©sultats de cette analyse fourniront une liste de g√®nes diff√©rentiellement exprim√©s, avec des informations sur l'effet estim√©, les valeurs p et les valeurs ajust√©es.
</small>
Cette partie sera faire dans RStudio