# TCGA-UCEC ‚Äì Notebook 0A
## Acquisition des donn√©es brutes (GDC/TCGA)

**Objectif** : T√©l√©charger les donn√©es de comptage STAR et les m√©tadonn√©es cliniques via l'API du GDC en utilisant l'interop√©rabilit√© R-Python. Cette √©tape garantit la provenance et la reproductibilit√© des donn√©es sources.

## 1. Configuration et Environnement

In [None]:
# ==========================================================================================================
import os                                       # Navigation fichiers (DIRS, chemins relatifs)
import sys                                      # Interaction syst√®me
import pandas as pd                             # Manipulation de tables
import subprocess                               # Ex√©cution de commandes avec streaming de sortie

from datetime import datetime

# ==========================================================================================================
# D√©finition de la racine du projet
PROJECT_ROOT = os.getcwd()

DIRS = {
    "RAW":       os.path.join(PROJECT_ROOT, "data", "raw"),
    "SCRIPTS":   os.path.join(PROJECT_ROOT, "scripts"),
    "PROCESSED": os.path.join(PROJECT_ROOT, "data", "processed")
}

for path in DIRS.values():
    os.makedirs(path, exist_ok=True)

# ==========================================================================================================
print(f"‚úÖ Environnement configur√©. Racine : {PROJECT_ROOT}")
print(f"‚úÖ Dossiers d'acquisition pr√™ts.")

‚úÖ Environnement configur√©. Racine : c:\Z\M2_AIDA\TCGA_UCEC_project
‚úÖ Dossiers d'acquisition pr√™ts.


## 2. Ex√©cution du script d'acquisition (Rscript)

Le t√©l√©chargement s'appuie sur la librairie R **TCGAbiolinks**. Nous appelons le script fourni directement depuis ce notebook pour maintenir une tra√ßabilit√© compl√®te.

In [2]:
# ==========================================================================================================
# Chemin vers l'ex√©cutable R et le script moteur
R_EXECUTABLE = r"C:\Program Files\R\R-4.5.2\bin\x64\Rscript.exe"
r_script_path = os.path.join(DIRS["SCRIPTS"], "Script_data_download.R")

if os.path.exists(r_script_path):
    print("‚è≥ Acquisition en cours : t√©l√©chargement depuis le GDC (cela peut prendre 5-10 minutes)...\n")
    
    # Appel syst√®me √† Rscript
    # Utilisation de subprocess pour capturer et afficher la sortie de R en temps r√©el
    process = subprocess.Popen(
        [R_EXECUTABLE, r_script_path], 
        stdout=subprocess.PIPE, 
        stderr=subprocess.STDOUT, 
        text=True,
        encoding='utf-8'
    )

    # Lecture de la sortie ligne par ligne pour un retour utilisateur imm√©diat
    for line in process.stdout:
        print(line, end='')

    process.wait()
    
    if process.returncode == 0:
        print("\n‚úÖ Script R termin√© avec succ√®s. Donn√©es pr√™tes dans data/raw/.")
    else:
        print(f"\nErreur lors de l'ex√©cution du script R (Code retour: {process.returncode})")
else:
    print(f"Fichier script R introuvable : {r_script_path}")

‚è≥ Acquisition en cours : t√©l√©chargement depuis le GDC (cela peut prendre 5-10 minutes)...

Le chargement a n√©cessit√© le package : MatrixGenerics
Le chargement a n√©cessit√© le package : matrixStats

Attachement du package : 'MatrixGenerics'

Les objets suivants sont masqu√©s depuis 'package:matrixStats':

    colAlls, colAnyNAs, colAnys, colAvgsPerRowSet, colCollapse,
    colCounts, colCummaxs, colCummins, colCumprods, colCumsums,
    colDiffs, colIQRDiffs, colIQRs, colLogSumExps, colMadDiffs,
    colMads, colMaxs, colMeans2, colMedians, colMins, colOrderStats,
    colProds, colQuantiles, colRanges, colRanks, colSdDiffs, colSds,
    colSums2, colTabulates, colVarDiffs, colVars, colWeightedMads,
    colWeightedMeans, colWeightedMedians, colWeightedSds,
    colWeightedVars, rowAlls, rowAnyNAs, rowAnys, rowAvgsPerColSet,
    rowCollapse, rowCounts, rowCummaxs, rowCummins, rowCumprods,
    rowCumsums, rowDiffs, rowIQRDiffs, rowIQRs, rowLogSumExps,
    rowMadDiffs, rowMads, rowMaxs, r

## 2Bis. Relocalisation des fichiers (Workaround Post-Acquisition)

Le script R exporte par d√©faut dans un dossier nomm√© tcga_ucec_counts_export. Nous d√©pla√ßons ces fichiers vers data/raw/ pour respecter l'arborescence du projet et permettre aux notebooks suivants d'acc√©der aux donn√©es.

In [None]:
import shutil

# Chemins source et cible (os est d√©j√† import√© en cellule 1)
source_dir = os.path.join(PROJECT_ROOT, "tcga_ucec_counts_export")
target_dir = DIRS["RAW"]

files_to_move = [
    "counts_samples_x_genes.csv.gz",
    "metadata_clinical_merged.csv.gz",
    "gene_annotation.csv.gz"
]

if os.path.exists(source_dir):
    print(f"üìÇ Dossier source d√©tect√© : {source_dir}")
    moved_count = 0

    for f in files_to_move:
        src_path = os.path.join(source_dir, f)
        dst_path = os.path.join(target_dir, f)
        
        if os.path.exists(src_path):
            shutil.move(src_path, dst_path)
            print(f"‚úÖ D√©plac√© : {f}")
            moved_count += 1
            
    if moved_count > 0:
        print(f"\n‚úÖ Harmonisation termin√©e. {moved_count} fichiers d√©plac√©s vers {target_dir}.")
else:
    # V√©rification de s√©curit√© si les fichiers sont d√©j√† l√† (√©vite de planter au re-run)
    if all(os.path.exists(os.path.join(target_dir, f)) for f in files_to_move):
        print("‚úÖ Les fichiers sont d√©j√† correctement plac√©s dans data/raw/.")
    else:
        print(f"‚ùå Erreur : Dossier source {source_dir} introuvable et fichiers absents de {target_dir}.")

üìÇ Dossier source d√©tect√© : c:\Z\M2_AIDA\TCGA_UCEC_project\tcga_ucec_counts_export
‚úÖ D√©plac√© : counts_samples_x_genes.csv.gz
‚úÖ D√©plac√© : metadata_clinical_merged.csv.gz
‚úÖ D√©plac√© : gene_annotation.csv.gz

‚úÖ Harmonisation termin√©e. 3 fichiers d√©plac√©s vers c:\Z\M2_AIDA\TCGA_UCEC_project\data\raw.


## 3. V√©rification des fichiers t√©l√©charg√©s

Contr√¥le de la pr√©sence physique des fichiers dans `data/raw/` et affichage des dimensions brutes.

In [9]:
# ==========================================================================================================
# D√©finition des chemins vers les fichiers attendus dans data/raw/
expr_file = os.path.join(DIRS["RAW"], "counts_samples_x_genes.csv.gz")
meta_file = os.path.join(DIRS["RAW"], "metadata_clinical_merged.csv.gz")
gene_file = os.path.join(DIRS["RAW"], "gene_annotation.csv.gz")

# V√©rification de l'existence et chargement des donn√©es brutes
if os.path.exists(expr_file) and os.path.exists(meta_file) and os.path.exists(gene_file):
    print("Lecture des fichiers compress√©s (cela peut prendre quelques secondes)...")
    
    # Lecture avec pandas (gestion native du .gz)
    # index_col=0 car la premi√®re colonne contient les barcodes/identifiants
    df_expr = pd.read_csv(expr_file, index_col=0)
    df_meta = pd.read_csv(meta_file, index_col=0)
    df_gene = pd.read_csv(gene_file, index_col=0)
    
    print(f"\n‚úÖ V√©rification termin√©e avec succ√®s.")
    print(f"   - Matrice de Counts  ({os.path.basename(expr_file)})  : {df_expr.shape[0]} √©chantillons x {df_expr.shape[1]} g√®nes")
    print(f"   - M√©tadonn√©es        ({os.path.basename(meta_file)})  : {df_meta.shape[0]} √©chantillons x {df_meta.shape[1]} colonnes cliniques")
    print(f"   - Informations G√®nes ({os.path.basename(gene_file)})  : {df_gene.shape[0]} g√®nes x {df_gene.shape[1]} colonnes annot√©es\n")
    
    # Affichage des premi√®res lignes pour inspection visuelle
    display(df_expr.head(3))
    display(df_meta.head(3))
    display(df_gene.head(3))

else:
    print(f"‚ùå Erreur : Fichiers introuvables dans {DIRS['RAW']}.")
    print("Veuillez v√©rifier que la cellule 2Bis (Relocalisation) a bien √©t√© ex√©cut√©e.")

Lecture des fichiers compress√©s (cela peut prendre quelques secondes)...

‚úÖ V√©rification termin√©e avec succ√®s.
   - Matrice de Counts  (counts_samples_x_genes.csv.gz)  : 553 √©chantillons x 60660 g√®nes
   - M√©tadonn√©es        (metadata_clinical_merged.csv.gz)  : 553 √©chantillons x 175 colonnes cliniques
   - Informations G√®nes (gene_annotation.csv.gz)  : 60660 g√®nes x 2 colonnes annot√©es



Unnamed: 0_level_0,ENSG00000000003.15,ENSG00000000005.6,ENSG00000000419.13,ENSG00000000457.14,ENSG00000000460.17,ENSG00000000938.13,ENSG00000000971.16,ENSG00000001036.14,ENSG00000001084.13,ENSG00000001167.14,...,ENSG00000288661.1,ENSG00000288662.1,ENSG00000288663.1,ENSG00000288665.1,ENSG00000288667.1,ENSG00000288669.1,ENSG00000288670.1,ENSG00000288671.1,ENSG00000288674.1,ENSG00000288675.1
sample_barcode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
TCGA-EY-A1GK-01A-11R-A13S-07,1904,2,607,529,138,167,238,1427,597,877,...,0,1,20,0,0,0,68,0,2,44
TCGA-FI-A2CX-01A-11R-A17B-07,496,1,839,253,194,4301,847,3321,2903,1147,...,0,1,18,0,0,3,85,0,9,7
TCGA-AX-A3G3-01A-11R-A213-07,2115,2,2657,352,284,673,952,1760,1092,1317,...,0,0,7,0,0,2,101,0,13,129


Unnamed: 0_level_0,patient,sample,shortLetterCode,definition,sample_submitter_id,tumor_descriptor,sample_id,pathology_report_uuid,submitter_id,sample_type,...,treatments_radiation_treatment_dose,treatments_radiation_number_of_fractions,treatments_radiation_treatment_anatomic_sites,treatments_radiation_treatment_dose_units,treatments_radiation_prescribed_dose_units,treatments_radiation_route_of_administration,treatments_radiation_number_of_cycles,treatments_radiation_prescribed_dose,treatments_radiation_residual_disease,bcr_patient_barcode.y
barcode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
TCGA-EY-A1GK-01A-11R-A13S-07,TCGA-EY-A1GK,TCGA-EY-A1GK-01A,TP,Primary solid Tumor,TCGA-EY-A1GK-01A,Primary,d4e702a9-8e4a-4ad7-8b45-691c95dcf298,B5024D10-E23D-4B3B-8C54-13EBAA423A04,TCGA-EY-A1GK,Primary Tumor,...,,,,,,,,,,TCGA-EY-A1GK
TCGA-FI-A2CX-01A-11R-A17B-07,TCGA-FI-A2CX,TCGA-FI-A2CX-01A,TP,Primary solid Tumor,TCGA-FI-A2CX-01A,Primary,b6d24830-0d69-44d7-94cf-7dfdc49e52c4,0F6F56E4-C4F9-4915-BE4E-1FBF4C6D93AD,TCGA-FI-A2CX,Primary Tumor,...,,,,,,,,,,TCGA-FI-A2CX
TCGA-AX-A3G3-01A-11R-A213-07,TCGA-AX-A3G3,TCGA-AX-A3G3-01A,TP,Primary solid Tumor,TCGA-AX-A3G3-01A,Primary,5efdace8-5790-4239-8e8a-6349f88b10dd,3D86258F-2C9B-4DF2-86C5-E12B3FCB480D,TCGA-AX-A3G3,Primary Tumor,...,,,,,,,,,,TCGA-AX-A3G3


Unnamed: 0_level_0,gene_symbol,gene_type
ensembl_gene_id,Unnamed: 1_level_1,Unnamed: 2_level_1
ENSG00000000003.15,TSPAN6,protein_coding
ENSG00000000005.6,TNMD,protein_coding
ENSG00000000419.13,DPM1,protein_coding


### Guide de R√©f√©rence : Les Barcodes TCGA
<Small>
L'identifiant TCGA (Barcode) est la cl√© de vo√ªte de l'organisation des donn√©es. Il permet de remonter de la donn√©e brute (s√©quen√ßage) jusqu'√† l'entit√© biologique (le patient).

1. Le Barcode Long (√âchantillon / Sample)
Ce code complet est utilis√© dans la Matrice d'Expression. Il d√©taille pr√©cis√©ment l'origine technique de la donn√©e.
<Br>Projet (TCGA) : The Cancer Genome Atlas.
<Br>TSS (EY) : Tissue Source Site (le centre o√π le pr√©l√®vement a √©t√© effectu√©).
<Br>Participant (A1GK) : ID Patient (identifiant unique de la patiente, cl√© √† 12 caract√®res).
<Br>Sample (01) : Type d'√©chantillon (01 : tumeur solide primaire, 11 : tissu normal).
<Br>Vial (A) : La fiole sp√©cifique (portion) du pr√©l√®vement.
<Br>Portion (11) : La portion physique utilis√©e pour l'extraction.
<Br>Analyte (R) : Le type de mol√©cule extraite (R pour l'ARN, D pour l'ADN).
<Br>Plate (A13S) : Identifie la plaque de 96 puits utilis√©e pour le s√©quen√ßage.
<Br>Center (07) : Le centre de s√©quen√ßage qui a g√©n√©r√© la donn√©e.

2. Le Barcode Court (Patient / Participant)
Ce code est utilis√© comme identifiant dans la Matrice Clinique et sert de r√©f√©rence d'identit√©.
<Br>Projet (TCGA) : The Cancer Genome Atlas.
<Br>TSS (EY) : Tissue Source Site (Centre de pr√©l√®vement).
<Br>Participant (A1GK) : Identifiant unique de la patiente.

Usage Strat√©gique : La "Common Key"
Le code √† 12 caract√®res (TCGA-EY-A1GK) est la Cl√© de Jointure universelle. Son r√¥le est vital pour deux raisons :
- Alignement des Espaces : Il permet d'aligner chaque vecteur de l'Espace G√©nique (une ligne de la matrice d'expression) avec sa cible correspondante dans l'Espace Clinique (une ligne de la matrice de survie).
- Normalisation : Il permet de faire abstraction des variables techniques (fioles, plaques, centres) pour ne conserver que la signature biologique li√©e √† l'individu.
- R√®gle de traitement : Pour fusionner les donn√©es, on r√©duit syst√©matiquement le barcode long au format court (les 12 premiers caract√®res) afin de faire correspondre les g√®nes aux donn√©es cliniques.
</Small>

### Note Math√©matique : Mod√©lisation : De l'Espace G√©nique √† l'Espace Clinique
<Small>
Ce document constitue le socle th√©orique du projet. Il d√©taille la transition entre la r√©alit√© biologique (comptages d'ARN) et la pr√©diction clinique via les structures math√©matiques du Machine Learning.

1. La Matrice de Counts (Matrice d'Expression g√©nique)
Ce tableau √† deux dimensions est la porte d'entr√©e du mod√®le. Il structure les donn√©es de s√©quen√ßage mol√©culaire :
- En lignes ($i$) : Chaque ligne repr√©sente un √©chantillon biologique unique (sample). Une m√™me patiente peut √™tre associ√©e √† plusieurs lignes si elle dispose de plusieurs pr√©l√®vements (ex : tissu tumoral et tissu sain).
- En colonnes ($j$) : Chaque colonne repr√©sente un g√®ne sp√©cifique (ex : TP53, BRCA1).
- Dans chaque cellule de la matrice ($x_{i,j}$) : On trouve une valeur num√©rique de comptage (count).

Signification biologique et Int√©r√™t biom√©dical
La valeur $x_{i,j}$ indique le nombre de fragments d'ARN messager d√©tect√©s pour le g√®ne $j$ dans l'√©chantillon $i$. Elle refl√®te le niveau d'activit√© (l'expression g√©nique) au moment du pr√©l√®vement.
L'ensemble des valeurs d'une m√™me ligne constitue le profil transcriptomique de l'√©chantillon. Ce profil agit comme une signature biologique globale qui caract√©rise l'identit√© mol√©culaire de la tumeur chez une patiente donn√©e (√©tat d'activation du g√©nome et agressivit√©).

2. L'√âquation Fondamentale de Transformation
Pour pr√©dire l'√©tat d'une patiente, le mod√®le cherche √† r√©soudre l'√©quation suivante :
$$Y = F(X_1, X_2, \dots, X_n)$$

Signification des termes
$Y$ (La Variable Cible) : Une valeur num√©rique repr√©sentant l'Espace Clinique (ex : un score de risque ou une probabilit√© de survie).
$F$ (La Fonction de Transformation) : Le mod√®le d'IA. C'est l'op√©rateur math√©matique qui apprend √† combiner les donn√©es. En Deep Learning, on dit qu'il cherche √† approximer la d√©pendance fonctionnelle entre les g√®nes et la clinique.
$(X_1, X_2, \dots, X_n)$ (Le Vecteur d'Entr√©e) : Les mesures contenues dans les cellules d'une ligne de la matrice. L'indice $j$ identifie le g√®ne (la dimension de l'espace).

Pourquoi est-ce une "Int√©gration" ?
Le mod√®le ne se contente pas de corr√©ler un g√®ne √† une maladie. Il identifie comment l'interaction entre $n$ g√®nes d√©finit la signature de la pathologie.
Exemple : Le g√®ne $X_1$ seul ou $X_2$ seul peuvent √™tre peu informatifs. Mais si le mod√®le d√©tecte que $X_1$ est haut ET $X_2$ est bas, il peut en d√©duire une chute drastique de la survie $Y$.

3. Structure des Donn√©es : La Hi√©rarchie Tensorielle
Le Machine Learning manipule des Tenseurs, une g√©n√©ralisation math√©matique des scalaires et des matrices.

Distinction entre Ordre et Dimension
L'Ordre (ou Rang) : C'est le nombre d'indices n√©cessaires pour identifier une composante.
Ordre 0 : Scalaire (ex : l'√¢ge).
Ordre 1 : Vecteur (ex : un profil patient).
Ordre 2 : Matrice (ex : la matrice d'expression compl√®te).

La Dimension : C'est le nombre de vecteurs de la base de l'espace. Un profil patient est un tenseur d'ordre 1 √©voluant dans un espace de dimension 20 000 (nombre de g√®nes).

√âtude de cas : Augmentation de l'Ordre vs Dimension
Action
Impact Structurel
Objet (Patient unique)
Indices n√©cessaires

Ajouter une valeur de feature (ex: g√®ne $n+1$)

Augmentation de la Dimension

Vecteur (Ordre 1)

1 ($j$)

Ajouter un type de feature (ex: origine Terrestre/Martien)

Augmentation de l'Ordre

Matrice (Ordre 2)

2 ($j, k$)

Note : Si l'on ajoute un axe "Type d'esp√®ce" ($k$) pour chaque g√®ne ($j$), le profil d'une patiente devient une grille (Ordre 2). Le jeu de donn√©es complet devient alors un tenseur d'ordre 3 ($m \times n \times k$).

4. L'Espace Latent ($Z$) : L'Espace des M√©canismes

Le mod√®le projette les donn√©es dans un espace interm√©diaire appel√© Espace Latent.

Variables Observ√©es ($X$) : Les g√®nes (20 000 dimensions). C'est une r√©alit√© biologique brute et souvent bruit√©e.

Variables Latentes ($Z$) : Des concepts abstraits cr√©√©s par le mod√®le.

Analogie m√©dicale : Si les g√®nes sont des sympt√¥mes isol√©s, l'espace latent repr√©sente les syndromes ou les m√©canismes biologiques (ex : "instabilit√© g√©nomique").

R√¥le du Machine Learning (Repr√©sentation Non-Lin√©aire)

Contrairement aux m√©thodes statistiques classiques (comme la PCA) qui font une projection lin√©aire ("l'ombre" des donn√©es), les r√©seaux de neurones peuvent tordre et plier l'espace pour d√©couvrir des d√©pendances fonctionnelles non-lin√©aires. On parle de Representation Learning.

5. Architectures de Transformation : L'Auto-encodeur

L'auto-encodeur est une architecture en miroir utilis√©e pour l'extraction de signatures :

L'Encodeur ($h$) : Compresse $X$ vers l'espace latent $Z$ de dimension r√©duite ($d \ll n$).


$$Z = h(X)$$

Le Goulot d'√©tranglement (Bottleneck) : Cette √©tape force le mod√®le √† ne conserver que l'essence biologique (l'ADN math√©matique) de la tumeur pour pouvoir la reconstruire.

Le D√©codeur ($g$) : Tente de reconstruire le profil original $\hat{X}$ √† partir de $Z$.


$$\hat{X} = g(h(X))$$

Finalit√© M√©thodologique

D√©bruitage : Le passage par le goulot d'√©tranglement √©limine les fluctuations al√©atoires.

Extraction : Une fois entra√Æn√©, on utilise uniquement l'encodeur pour transformer les 20 000 g√®nes en un petit vecteur latent $Z$ tr√®s informatif, qui servira de base √† la pr√©diction finale de $Y$.

6. Formalisation Finale du Flux

$$\mathcal{X} \in \mathbb{R}^{m \times n} \xrightarrow{\text{Codage}} \mathcal{Z} \in \mathbb{R}^{m \times d} \xrightarrow{\text{Pr√©diction}} \mathcal{Y} \in \mathbb{W}$$

L'op√©rateur $F$ r√©alise ainsi un mapping entre l'Espace des G√®nes (haute dimension, ordre 2) et l'Espace Clinique (basse dimension, pronostic).

Cours par l'Exemple : Le Neurone et les R√©seaux
<Small>
Ce cours r√©sume les principes fondamentaux des r√©seaux de neurones en suivant une progression par l'exemple, de l'unit√© simple √† l'approximation de fonctions complexes.

1. D√©finition d'un Neurone Unique
Un neurone est une fonction d√©finie en deux √©tapes :
Combinaison Lin√©aire : On multiplie les entr√©es ($x$) par des coefficients ($a$) : $a_1x_1 + a_2x_2 + \dots$
Activation : On applique une fonction ($\phi$ ou $h$) sur ce r√©sultat.
Exemple concret : Un neurone √† deux entr√©es ($x, y$) avec des coefficients $2$ et $3$ et une fonction d'activation "Heaviside" ($H$).
Calcul : $f(x, y) = H(2x + 3y)$
R√©sultat : La sortie vaut $1$ si $2x + 3y \geq 0$, et $0$ sinon.
G√©om√©trie : Ce neurone s√©pare le plan en deux demi-plans le long de la droite $2x + 3y = 0$.

2. R√©alisation de Portes Logiques
On peut param√©trer un neurone pour qu'il se comporte comme une op√©ration logique.
Porte OU : Poids $(1, 1)$ et biais $-1$.
$f(x, y) = H(x + y - 1)$
Rend $1$ (vrai) d√®s que l'une des entr√©es vaut $1$.
Porte ET : Poids $(1, 1)$ et biais $-2$.
$f(x, y) = H(x + y - 2)$
Rend $1$ (vrai) uniquement si $x$ et $y$ valent $1$.

3. La Limitation du Neurone Unique : Le XOR
Un seul neurone ne peut pas r√©aliser le OU Exclusif (XOR).
Le probl√®me : Pour le XOR, on veut que $(0,1)$ et $(1,0)$ donnent $1$, mais que $(0,0)$ et $(1,1)$ donnent $0$.
Preuve par l'absurde : G√©om√©triquement, il est impossible de tracer une seule droite qui s√©pare les points "vrais" des points "faux" dans ce cas pr√©cis. On ne peut pas s√©parer les croix rouges des ronds bleus avec une seule ligne.

4. Plusieurs Neurones : Vers la Complexit√©
En r√©unissant plusieurs neurones par couches, on l√®ve les limitations pr√©c√©dentes.
R√©solution du XOR : En utilisant un r√©seau de 3 neurones (2 couches), on combine les r√©sultats de deux droites pour isoler les zones du XOR.
Zones Polygonales :
Une couche de neurones d√©finit plusieurs droites.
Le neurone de sortie (type "ET") prend l'intersection de ces demi-plans.
Cela permet de d√©finir des zones en forme de triangle ou de polygone.
Propri√©t√©s : Avec plusieurs neurones, on peut r√©aliser l'union, l'intersection ou le compl√©ment d'ensembles. N'importe quelle zone d√©limit√©e par une courbe peut √™tre approch√©e par un polygone, et donc par un r√©seau de neurones.

5. Th√©or√®me d'Approximation Universelle
Ce th√©or√®me stipule que pour toute fonction continue sur un intervalle $[a, b]$, il existe un r√©seau de neurones capable de l'approcher d'aussi pr√®s que l'on veut.
Le m√©canisme par l'exemple (Les Cr√©neaux) :
On cr√©e une "marche" (Heaviside).
En combinant deux marches d√©cal√©es, on cr√©e un cr√©neau (une fonction qui vaut $1$ sur un petit segment et $0$ ailleurs).
En additionnant une multitude de cr√©neaux de hauteurs diff√©rentes, on peut reconstruire, "petit pas par petit pas", n'importe quelle forme de courbe.

6. Apprentissage et Pathologies
L'apprentissage consiste √† trouver les bons poids par r√©tropropagation du gradient. Plusieurs probl√®mes peuvent survenir :
Mod√®le insuffisant : Vouloir mod√©liser une parabole avec une simple droite (pas assez de neurones).
Sous-apprentissage : Arr√™ter le calcul trop t√¥t (pas assez d'it√©rations).
Minima locaux : La descente de gradient s'arr√™te dans un "creux" qui n'est pas le meilleur possible. Solution : recommencer avec des poids initiaux al√©atoires.

Sur-apprentissage (Overfitting) : Le mod√®le colle parfaitement aux points d'entra√Ænement (apprend le bruit) mais devient incapable de faire des pr√©dictions correctes sur de nouvelles donn√©es. La courbe devient trop complexe et "oscille" inutilement.
</Small>

### Analyse : Le Machine Learning classique est-il un neurone unique ?
<Small>
La structure math√©matique $Y = F(AX + B)$ constitue la brique de base commune aux statistiques classiques et √† l'intelligence artificielle moderne. Formellement, le cas du Machine Learning sans r√©seau multicouche revient √† utiliser un neurone unique o√π la fonction de d√©cision est l'op√©rateur lui-m√™me.

1. La R√©gression Lin√©aire : Le neurone √† activation identit√©
La r√©gression lin√©aire est la forme la plus √©l√©mentaire de cette mod√©lisation.
Structure : $Y = \sum(a_i x_i) + c$
Configuration : Il s'agit d'un neurone unique o√π la fonction d'activation $\phi$ est l'Identit√© ($\phi(x) = x$). L'op√©rateur n'applique aucune transformation non-lin√©aire sur la combinaison des entr√©es.

2. La R√©gression Logistique : Le neurone √† activation sigmo√Øde
Ce mod√®le, standard en biostatistique pour pr√©dire des probabilit√©s de survie ou des diagnostics, correspond exactement √† la d√©finition d'un neurone artificiel.
Structure : $Y = \sigma(AX + B)$
Configuration : Neurone unique utilisant une fonction d'activation Sigmo√Øde ($\sigma(x) = \frac{1}{1 + e^{-x}}$). La sortie est contrainte dans l'intervalle $[0, 1]$.

3. Le SVM (Support Vector Machine) : Le neurone s√©parateur
Dans sa version lin√©aire, le SVM cherche l'hyperplan qui s√©pare deux classes avec une marge maximale.
Configuration : Il se comporte comme un neurone avec une activation de type Heaviside (fonction marche).
Diff√©rence : Contrairement au Deep Learning qui minimise une erreur moyenne par descente de gradient, le SVM optimise les poids pour maximiser la distance entre les vecteurs supports.
Limitations structurelles du neurone unique

Bien que le Machine Learning classique puisse √™tre vu comme un neurone unique, cette structure impose deux limites majeures :

La contrainte de lin√©arit√© : Un neurone unique ne peut tracer que des fronti√®res de d√©cision "droites" (des hyperplans). Comme d√©montr√© par le probl√®me du XOR, il est incapable de mod√©liser des relations o√π la s√©paration des classes n√©cessite une courbure ou une fragmentation de l'espace.

L'absence d'Espace Latent : Sans couches cach√©es, le mod√®le ne peut pas cr√©er de variables interm√©diaires. Il passe directement des variables biologiques brutes ($X$) au pronostic ($Y$), emp√™chant l'extraction automatique de caract√©ristiques abstraites (syndromes ou m√©canismes tumoraux complexes).

Synth√®se comparative
Mod√®le ML Classique
Structure
Fonction d'activation
R√©gression Lin√©aire
Neurone unique
Identit√©
R√©gression Logistique
Neurone unique
Sigmo√Øde
Perceptron / SVM
Neurone unique
Heaviside (Marche)
Deep Learning
R√©seau de neurones
ReLU / Sigmo√Øde / etc.

Conclusion : Le passage du Machine Learning au Deep Learning marque la transition d'une mod√©lisation par hyperplan (un neurone unique) √† une mod√©lisation par approximation universelle (plusieurs couches de neurones), permettant de capturer la complexit√© non-lin√©aire des donn√©es g√©nomiques.
</Small>

## 4. Prochaines √©tapes
- Nettoyage des noms de g√®nes (Mapping ENSG -> Symbol).
- Filtrage de l'expression faible (Low counts).
- Normalisation Log-CPM.


In [33]:
import os
import pandas as pd
from datetime import datetime

path_raw = DIRS["RAW"]
f_counts = os.path.join(path_raw, "counts_samples_x_genes.csv.gz")
f_meta = os.path.join(path_raw, "metadata_clinical_merged.csv.gz")
f_anno = os.path.join(path_raw, "gene_annotation.csv.gz")

df_expr = pd.read_csv(f_counts, index_col=0, compression='gzip')
df_meta = pd.read_csv(f_meta, index_col=0, compression='gzip')
df_gene = pd.read_csv(f_anno, index_col=0, compression='gzip')

mtime_expr = datetime.fromtimestamp(os.path.getmtime(f_counts)).strftime('%Y-%m-%d %H:%M')
mtime_meta = datetime.fromtimestamp(os.path.getmtime(f_meta)).strftime('%Y-%m-%d %H:%M')
mtime_anno = datetime.fromtimestamp(os.path.getmtime(f_anno)).strftime('%Y-%m-%d %H:%M')

size_expr = os.path.getsize(f_counts)
size_meta = os.path.getsize(f_meta)
size_anno = os.path.getsize(f_anno)

print("PIPELINE 0A (ACQUISITION) STATUS REPORT : ")
print("\n‚úÖ SUMMARY :")
print("- Acquisition des donnees brutes via TCGAbiolinks (R).")
print("- Relocalisation des fichiers dans data/raw.")

print("\n‚úÖ DATASET LOCATION : data/raw/")
print(f"    - counts_samples_x_genes.csv.gz     | Modifie : {mtime_expr} | Taille : {size_expr} octets")
print(f"    - metadata_clinical_merged.csv.gz   | Modifie : {mtime_meta} | Taille : {size_meta} octets")
print(f"    - gene_annotation.csv.gz            | Modifie : {mtime_anno} | Taille : {size_anno} octets")

print(f"\n‚úÖ Donnees chargees :")
print(f"    - df_expr : {df_expr.shape[0]} echantillons x {df_expr.shape[1]} genes")
print(f"    - df_meta : {df_meta.shape[0]} echantillons x {df_meta.shape[1]} colonnes")
print(f"    - df_gene : {df_gene.shape[0]} genes x {df_gene.shape[1]} colonnes")

PIPELINE 0A (ACQUISITION) STATUS REPORT : 

‚úÖ SUMMARY :
- Acquisition des donnees brutes via TCGAbiolinks (R).
- Relocalisation des fichiers dans data/raw.

‚úÖ DATASET LOCATION : data/raw/
    - counts_samples_x_genes.csv.gz     | Modifie : 2025-12-31 13:12 | Taille : 28775270 octets
    - metadata_clinical_merged.csv.gz   | Modifie : 2025-12-31 13:12 | Taille : 176175 octets
    - gene_annotation.csv.gz            | Modifie : 2025-12-31 13:12 | Taille : 501961 octets

‚úÖ Donnees chargees :
    - df_expr : 553 echantillons x 60660 genes
    - df_meta : 553 echantillons x 175 colonnes
    - df_gene : 60660 genes x 2 colonnes
