# Exploration des Donn√©es Multi-Omiques

Ce notebook pr√©sente l'analyse exploratoire des donn√©es transcriptomiques et cliniques.

In [None]:
# Import des biblioth√®ques n√©cessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuration pour les visualisations
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configuration matplotlib pour les graphiques de meilleure qualit√©
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

print("‚úÖ Environnement configur√© pour l'EDA")

## 1. Chargement des Donn√©es

Chargement des donn√©es d'expression et cliniques de d√©monstration.

In [None]:
# Chemins des fichiers de donn√©es
expression_path = '../demo_expression_data.csv'
clinical_path = '../demo_clinical_data.csv'

# Chargement des donn√©es
expression_data = pd.read_csv(expression_path)
clinical_data = pd.read_csv(clinical_path)

print("üìä Donn√©es charg√©es avec succ√®s")
print(f"Donn√©es d'expression : {expression_data.shape}")
print(f"Donn√©es cliniques : {clinical_data.shape}")

## 2. Aper√ßu des Donn√©es

Examen rapide de la structure et du contenu des donn√©es.

In [None]:
# Aper√ßu des donn√©es d'expression
print("=== DONN√âES D'EXPRESSION ===")
print(expression_data.head())
print(f"\nTypes de donn√©es : {expression_data.dtypes.to_dict()}")
print(f"\nValeurs manquantes : {expression_data.isnull().sum().sum()}")

# Aper√ßu des donn√©es cliniques
print("\n=== DONN√âES CLINIQUES ===")
print(clinical_data.head())
print(f"\nTypes de donn√©es : {clinical_data.dtypes.to_dict()}")
print(f"\nValeurs manquantes : {clinical_data.isnull().sum().sum()}")

## 3. Analyse des Donn√©es d'Expression

Distribution des expressions g√©niques et identification des outliers.

In [None]:
# S√©lectionner les colonnes d'expression (exclure patient_id)
expression_genes = expression_data.drop('patient_id', axis=1)

# Statistiques descriptives
print("=== STATISTIQUES DESCRIPTIVES - EXPRESSION G√âNIQUE ===")
print(expression_genes.describe())

# V√©rifier la distribution des valeurs
print("\n=== DISTRIBUTION DES EXPRESSIONS ===")
for gene in expression_genes.columns:
    print(f"{gene}: Min={expression_genes[gene].min():.2f}, Max={expression_genes[gene].max():.2f}, Mean={expression_genes[gene].mean():.2f}")

In [None]:
# Visualisation : Distribution des expressions g√©niques
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
axes = axes.ravel()

for i, gene in enumerate(expression_genes.columns):
    # Histogramme
    axes[i].hist(expression_genes[gene].dropna(), bins=10, alpha=0.7, color='skyblue', edgecolor='black')
    axes[i].set_title(f'Distribution de {gene}')
    axes[i].set_xlabel('Expression')
    axes[i].set_ylabel('Fr√©quence')
    
    # Ajouter des statistiques sur le graphique
    mean_val = expression_genes[gene].mean()
    median_val = expression_genes[gene].median()
    axes[i].axvline(mean_val, color='red', linestyle='--', label=f'Moyenne: {mean_val:.1f}')
    axes[i].axvline(median_val, color='green', linestyle='--', label=f'M√©diane: {median_val:.1f}')
    axes[i].legend()

plt.tight_layout()
plt.savefig('../results/expression_distributions.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# Heatmap des corr√©lations entre g√®nes
plt.figure(figsize=(10, 8))
correlation_matrix = expression_genes.corr()

# Cr√©er la heatmap
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, 
            mask=mask,
            annot=True, 
            cmap='coolwarm', 
            center=0,
            square=True,
            fmt='.3f')

plt.title('Matrice de Corr√©lation - Expressions G√©niques', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig('../results/correlation_matrix.png', dpi=300, bbox_inches='tight')
plt.show()

## 4. Analyse des Donn√©es Cliniques

Distribution des variables cliniques et leurs corr√©lations.

In [None]:
# Analyse des variables cliniques
print("=== ANALYSE DES VARIABLES CLINIQUES ===")

# Variables cat√©gorielles
categorical_vars = ['sex', 'stage', 'treatment_response']
for var in categorical_vars:
    print(f"\n{var.upper()}:")
    print(clinical_data[var].value_counts())
    print(f"Missing values: {clinical_data[var].isnull().sum()}")

# Variables num√©riques
numerical_vars = ['age', 'survival_months']
print("\n=== STATISTIQUES NUM√âRIQUES ===")
print(clinical_data[numerical_vars].describe())

In [None]:
# Visualisation des variables cliniques
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Distribution de l'√¢ge
axes[0,0].hist(clinical_data['age'].dropna(), bins=8, alpha=0.7, color='lightcoral', edgecolor='black')
axes[0,0].set_title('Distribution de l\'√¢ge')
axes[0,0].set_xlabel('√Çge (ann√©es)')
axes[0,0].set_ylabel('Fr√©quence')

# Distribution de la survie
axes[0,1].hist(clinical_data['survival_months'], bins=8, alpha=0.7, color='lightgreen', edgecolor='black')
axes[0,1].set_title('Distribution de la survie (mois)')
axes[0,1].set_xlabel('Survie (mois)')
axes[0,1].set_ylabel('Fr√©quence')

# Distribution par sexe
sex_counts = clinical_data['sex'].value_counts()
axes[1,0].bar(sex_counts.index, sex_counts.values, color=['lightblue', 'pink'], alpha=0.7)
axes[1,0].set_title('R√©partition par sexe')
axes[1,0].set_xlabel('Sexe')
axes[1,0].set_ylabel('Nombre de patients')

# Distribution par stade
stage_counts = clinical_data['stage'].value_counts()
axes[1,1].bar(stage_counts.index, stage_counts.values, color='orange', alpha=0.7)
axes[1,1].set_title('R√©partition par stade')
axes[1,1].set_xlabel('Stade')
axes[1,1].set_ylabel('Nombre de patients')

plt.tight_layout()
plt.savefig('../results/clinical_distributions.png', dpi=300, bbox_inches='tight')
plt.show()

## 5. Int√©gration des Donn√©es

Fusion des donn√©es d'expression et cliniques pour l'analyse int√©grative.

In [None]:
# Fusion des donn√©es sur patient_id
integrated_data = pd.merge(expression_data, clinical_data, on='patient_id', how='inner')

print("=== DONN√âES INT√âGR√âES ===")
print(f"Dimensions apr√®s fusion : {integrated_data.shape}")
print(f"Valeurs manquantes totales : {integrated_data.isnull().sum().sum()}")

# Aper√ßu des donn√©es int√©gr√©es
print("\nAper√ßu des donn√©es int√©gr√©es :")
print(integrated_data.head())

# Sauvegarder les donn√©es int√©gr√©es
output_path = '../results/integrated_demo_data.csv'
Path('../results').mkdir(exist_ok=True)
integrated_data.to_csv(output_path, index=False)
print(f"\n‚úÖ Donn√©es int√©gr√©es sauvegard√©es : {output_path}")

## 6. Analyse de Qualit√©

√âvaluation de la qualit√© des donn√©es et identification des probl√®mes.

In [None]:
# Rapport de qualit√© des donn√©es
def generate_quality_report(data, data_name):
    """G√©n√®re un rapport de qualit√© pour un jeu de donn√©es"""
    report = {
        'dataset': data_name,
        'shape': data.shape,
        'missing_values': data.isnull().sum().to_dict(),
        'data_types': data.dtypes.to_dict(),
        'duplicates': data.duplicated().sum(),
        'completeness': 1 - (data.isnull().sum().sum() / (data.shape[0] * data.shape[1]))
    }
    return report

# G√©n√©rer les rapports
expression_report = generate_quality_report(expression_data, 'Expression')
clinical_report = generate_quality_report(clinical_data, 'Clinical')
integrated_report = generate_quality_report(integrated_data, 'Integrated')

print("=== RAPPORTS DE QUALIT√â ===\n")

for report in [expression_report, clinical_report, integrated_report]:
    print(f"Dataset: {report['dataset']}")
    print(f"  Dimensions: {report['shape']}")
    print(f"  Compl√©tude: {report['completeness']:.3f}")
    print(f"  Duplicatas: {report['duplicates']}")
    print(f"  Valeurs manquantes: {sum(report['missing_values'].values())}")
    print("-" * 40)
    print()

## 7. Conclusions et Recommandations

Synth√®se de l'analyse et identification des prochaines √©tapes.

In [None]:
# Synth√®se de l'analyse
print("=== SYNTH√àSE DE L'ANALYSE EXPLORATOIRE ===\n")

print("1. QUALIT√â DES DONN√âES:")
print(f"   - Donn√©es d'expression: {expression_data.shape[0]} √©chantillons, {expression_data.shape[1]-1} g√®nes")
print(f"   - Donn√©es cliniques: {clinical_data.shape[0]} √©chantillons, {clinical_data.shape[1]-1} variables")
print(f"   - Compl√©tude globale: {integrated_report['completeness']:.1%}")

print("2. CARACT√âRISTIQUES DES DONN√âES:")
print(f"   - √Çge moyen: {clinical_data['age'].mean():.1f} ¬± {clinical_data['age'].std():.1f} ans")
print(f"   - Survie m√©diane: {clinical_data['survival_months'].median():.0f} mois")
print(f"   - Distribution des stades: {dict(clinical_data['stage'].value_counts())}")

print("3. PROBL√àMES IDENTIFI√âS:")
missing_total = integrated_data.isnull().sum().sum()
if missing_total > 0:
    print(f"   - Valeurs manquantes: {missing_total} valeurs ({missing_total/(integrated_data.shape[0]*integrated_data.shape[1]):.1%})")
else:
    print("   - Aucune valeur manquante d√©tect√©e")

print("4. RECOMMANDATIONS POUR LE PR√âTRAITEMENT:")
print("   - Imputation des valeurs manquantes (KNN ou m√©diane)")
print("   - Normalisation des donn√©es d'expression (TMM ou DESeq2)")
print("   - V√©rification des outliers dans les donn√©es d'expression")
print("   - Validation de la qualit√© des √©chantillons")

print("‚úÖ Analyse exploratoire termin√©e avec succ√®s!")
print("üìÅ R√©sultats sauvegard√©s dans /results/")