In [1]:
import re  # Bibliothèque pour les expressions régulières

# Fonction pour charger une séquence d'acides aminés à partir d’un fichier
def load_sequence(filepath):
    with open(filepath, 'r', encoding='utf-8') as f:
        return f.read().replace('\n', '').strip()  # Nettoyage : suppression des sauts de ligne et espaces

# Fonction pour extraire les informations d'une ligne de mutation
def parse_variant_line(line):
    fields = line.strip().split('\t')  # Séparation des champs avec tabulation
    if len(fields) < 3:
        return None  # Ligne incomplète

    variant_name = fields[0].strip()  # Exemple : NM_000059.4(BRCA2):c.53G>A (p.Arg18His)
    protein_change = fields[2].strip()  # Exemple : R18H

    # Préfixer par "p." si ce n’est pas déjà fait
    if not protein_change.startswith("p."):
        protein_change = "p." + protein_change

    # Extraction de la mutation nucléotidique c.53G>A
    c_variant_match = re.search(r'c\.[\d+_>ACGT]+', variant_name)
    variant_id = c_variant_match.group() if c_variant_match else variant_name

    return variant_id, protein_change

# Fonction pour appliquer une mutation à une séquence protéique
def apply_mutation(sequence, protein_change):
    # Dictionnaire de conversion 3 lettres → 1 lettre (code des acides aminés)
    three_to_one = {
        'Ala': 'A', 'Arg': 'R', 'Asn': 'N', 'Asp': 'D', 'Cys': 'C',
        'Gln': 'Q', 'Glu': 'E', 'Gly': 'G', 'His': 'H', 'Ile': 'I',
        'Leu': 'L', 'Lys': 'K', 'Met': 'M', 'Phe': 'F', 'Pro': 'P',
        'Ser': 'S', 'Thr': 'T', 'Trp': 'W', 'Tyr': 'Y', 'Val': 'V',
        'Sec': 'U', 'Pyl': 'O', 'Asx': 'B', 'Glx': 'Z', 'Xle': 'J', 'Ter': '*'
    }

    # Fonction interne pour convertir les codes d'acides aminés
    def convert(aa):
        if len(aa) == 1:
            return aa.upper()  # Si déjà au format 1 lettre
        return three_to_one.get(aa.capitalize(), None)

    # Extraire le triplet : acide aminé original, position, acide aminé muté
    match = re.match(r'p\.([A-Za-z]{1,3})(\d+)([A-Za-z]{1,3})', protein_change)
    if not match:
        return None  # Format inattendu

    aa_orig, pos_str, aa_new = match.groups()
    pos = int(pos_str) - 1  # Passage à l’index 0-based
    orig_aa = convert(aa_orig)
    new_aa = convert(aa_new)

    # Vérifications de validité
    if orig_aa is None or new_aa is None:
        return None
    if pos >= len(sequence):
        return None
    # Remarque : on peut activer cette ligne si on veut vérifier que l’AA original correspond bien
    # if sequence[pos] != orig_aa:
    #     print(f"Warning: expected {orig_aa} at position {pos+1}, found {sequence[pos]}")

    # Remplacement de l’acide aminé à la position donnée
    return sequence[:pos] + new_aa + sequence[pos+1:]

# Fonction pour traiter les mutations (benignes ou pathogènes)
def process_variants(sequence, file_path, label):
    variants = []
    with open(file_path, 'r', encoding='utf-8') as f:
        header = f.readline()  # Ignorer la ligne d’en-tête
        for line in f:
            if not line.strip():
                continue  # Ligne vide
            parsed = parse_variant_line(line)
            if parsed is None:
                continue
            variant_id, protein_change = parsed
            mutated_seq = apply_mutation(sequence, protein_change)
            if mutated_seq:
                variants.append((variant_id, mutated_seq, label))  # Ajout au résultat
    return variants

# Fonction pour enregistrer les résultats dans un fichier
def save_variants(variants, output_file):
    with open(output_file, 'w', encoding='utf-8') as f:
        # En-têtes du fichier de sortie
        f.write("| Variant | Séquence Mutée | Label |\n")
        f.write("|---------|----------------|-------|\n")
        for var_id, mut_seq, label in variants:
            f.write(f"| {var_id} | {mut_seq} | {label} |\n")  # Format Markdown

# Fonction principale
def main():
    # Chemins des fichiers à utiliser
    seq_file = r"C:\Users\REINA\BRCA2_Pathogenicity/data/raw/brca2_sequence.txt"
    benign_file = r"C:\Users\REINA\BRCA2_Pathogenicity/data/raw/clinvar_benign.txt"
    pathogenic_file = r"C:\Users\REINA\BRCA2_Pathogenicity/data/raw/clinvar_pathogenic.txt"
    output_file = r"C:\Users\REINA\BRCA2_Pathogenicity/data/processed/mutation/brca2_mutated_sequences.txt"

    # Chargement de la séquence de référence
    reference_seq = load_sequence(seq_file)

    # Traitement des variantes bénignes (label 0)
    benign_variants = process_variants(reference_seq, benign_file, 0)

    # Traitement des variantes pathogènes (label 1)
    pathogenic_variants = process_variants(reference_seq, pathogenic_file, 1)

    # Fusion des deux ensembles
    all_variants = benign_variants + pathogenic_variants

    # Sauvegarde dans le fichier de sortie
    save_variants(all_variants, output_file)

    # Affichage du nombre de mutations générées
    print(f"{len(all_variants)} variants written to {output_file}")

# Point d’entrée du script
if __name__ == "__main__":
    main()


228 variants written to C:\Users\REINA\BRCA2_Pathogenicity/data/processed/mutation/brca2_mutated_sequences.txt


In [None]:
EMBEDDINGS

In [None]:
import torch
from transformers import BertTokenizer, BertModel

# === Chargement du modèle ProtBERT sur HuggingFace ===
tokenizer = BertTokenizer.from_pretrained("Rostlab/prot_bert", do_lower_case=False)
model = BertModel.from_pretrained("Rostlab/prot_bert")
model.eval()

# === Fonction pour générer l'embedding ===
def get_embedding(sequence):
    spaced_seq = ' '.join(list(sequence.strip()))
    tokens = tokenizer(spaced_seq, return_tensors='pt')
    with torch.no_grad():
        outputs = model(**tokens)
    embedding = outputs.last_hidden_state.mean(dim=1).squeeze().tolist()
    return embedding

# === Fichiers ===
input_file = r"C:\Users\REINA\BRCA2_Pathogenicity/data/processed/mutation/brca2_mutated_sequences.txt"
output_file = r"C:\Users\REINA\BRCA2_Pathogenicity/data/processed/embeddings/brca2_embeddings.txt"

# === Traitement du fichier markdown ===
variants, sequences, labels = [], [], []

with open(input_file, 'r', encoding='utf-8') as f:
    for line in f:
        line = line.strip()
        # Ignorer l'en-tête ou lignes vides
        if line.startswith("| Variant") or line.startswith("|---------") or not line:
            continue

        parts = [part.strip() for part in line.strip('|').split('|')]
        if len(parts) != 3:
            continue  # ligne incomplète

        variant, sequence, label = parts
        if sequence and label:
            variants.append(variant)
            sequences.append(sequence)
            labels.append(int(label))

# === Générer les embeddings et sauvegarder ===
with open(output_file, 'w', encoding='utf-8') as out_f:
    for i in range(len(sequences)):
        emb = get_embedding(sequences[i])
        emb_str = ' '.join(f"{x:.6f}" for x in emb)
        out_f.write(f"Variant: {variants[i]}\n")
        out_f.write(f"Label: {labels[i]}\n")
        out_f.write(f"Embedding: {emb_str}\n")
        out_f.write("=" * 80 + "\n\n")

print(f"✅ Embeddings saved to: {output_file}")

HYDROPLASTICITY

In [2]:
# === Hydropathie Kyte-Doolittle ===
hydropathy_dict = {
    'A': 1.8,  'R': -4.5, 'N': -3.5, 'D': -3.5, 'C': 2.5,
    'Q': -3.5, 'E': -3.5, 'G': -0.4, 'H': -3.2, 'I': 4.5,
    'L': 3.8,  'K': -3.9, 'M': 1.9,  'F': 2.8,  'P': -1.6,
    'S': -0.8, 'T': -0.7, 'W': -0.9, 'Y': -1.3, 'V': 4.2
}

# === Fonction de conversion d'une séquence ===
def encode_hydropathy(sequence, max_len=1024):
    scores = [hydropathy_dict.get(aa.upper(), 0.0) for aa in sequence.strip()]
    if len(scores) < max_len:
        scores += [0.0] * (max_len - len(scores))
    else:
        scores = scores[:max_len]
    return scores

# === Chemins ===
input_file = r"C:\Users\REINA\BRCA2_Pathogenicity/data/processed/mutation/brca2_mutated_sequences.txt"
output_file = r"C:\Users\REINA\BRCA2_Pathogenicity/data/processed/hydrophobicity/brca2_hydrophobicity.txt"

# === Lecture et traitement ===
with open(input_file, 'r', encoding='utf-8') as f:
    lines = f.readlines()

variants = []
sequences = []
labels = []

for line in lines[1:]:  # skip header
    if line.strip() == "":
        continue
    parts = line.strip().split('|')
    if len(parts) >= 4:
        variant = parts[1].strip()
        sequence = parts[2].strip()
        label = parts[3].strip()
        variants.append(variant)
        sequences.append(sequence)
        labels.append(label)

# === Écriture du fichier de sortie ===
with open(output_file, 'w', encoding='utf-8') as out:
    for i in range(1,len(sequences)):
        hydro = encode_hydropathy(sequences[i])
        hydro_str = ' '.join([f"{x:.2f}" for x in hydro])
        out.write(f"Variant: {variants[i]}\n")
        out.write(f"Label: {labels[i]}\n")
        out.write(f"Hydropathy: {hydro_str}\n")
        out.write("="*80 + "\n\n")

print(f"✅ Hydropathic profiles saved to: {output_file}")


✅ Hydropathic profiles saved to: C:\Users\REINA\BRCA2_Pathogenicity/data/processed/hydrophobicity/brca2_hydrophobicity.txt


EMBEDDINGS+HYDROPLASTICITY

In [3]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import os

def parse_file(file_path):
    """
    Fonction pour analyser un fichier d'embeddings ou d'hydropathie.
    Elle extrait les variants, les étiquettes (labels) et les vecteurs de valeurs associées.
    """
    data = []
    current_variant = None
    current_label = None
    current_values = []
    
    # Ouverture du fichier
    with open(file_path, 'r') as f:
        for line in f:
            line = line.strip()
            
            # Détection d'un nouveau variant
            if line.startswith("Variant:"):
                # Si un variant précédent a été lu, on l'ajoute à la liste
                if current_variant is not None:
                    data.append({
                        'Variant': current_variant,
                        'Label': current_label,
                        'Values': np.array(current_values, dtype=float)
                    })
                # Mise à jour du variant courant
                current_variant = line.split()[-1]
                current_values = []
            
            # Détection de l’étiquette du variant
            elif line.startswith("Label:"):
                current_label = int(line.split()[-1])
            
            # Début des valeurs numériques (embedding ou hydropathy)
            elif line.startswith("Embedding:") or line.startswith("Hydropathy:"):
                values = line.split()[1:]
                current_values.extend([float(x) for x in values])
            
            # Lignes contenant la suite des valeurs
            elif line and not line.startswith("="):
                current_values.extend([float(x) for x in line.split()])
    
    # Ajout du dernier variant lu
    if current_variant is not None:
        data.append({
            'Variant': current_variant,
            'Label': current_label,
            'Values': np.array(current_values, dtype=float)
        })
    
    # Conversion en DataFrame Pandas
    return pd.DataFrame(data)

# Chemins des fichiers embeddings et hydropathie
embedding_path = r"C:\Users\REINA\BRCA2_Pathogenicity\data\processed\embeddings\brca2_embeddings.txt"
hydropathy_path = r"C:\Users\REINA\BRCA2_Pathogenicity\data\processed\hydrophobicity\brca2_hydrophobicity.txt"

# Chargement des données d’embeddings
print("Chargement des embeddings...")
embeddings_df = parse_file(embedding_path)
print(f"{len(embeddings_df)} enregistrements d'embeddings chargés.")

# Chargement des données d’hydropathie
print("Chargement des données d’hydropathie...")
hydropathy_df = parse_file(hydropathy_path)
print(f"{len(hydropathy_df)} enregistrements d’hydropathie chargés.")

# Vérification que les variants sont bien dans le même ordre dans les deux fichiers
if not all(embeddings_df['Variant'] == hydropathy_df['Variant']):
    print("⚠️ Attention : l’ordre des variants ne correspond pas entre les fichiers.")
    # Fusion basée sur le nom du variant et son label
    combined_df = pd.merge(
        embeddings_df, 
        hydropathy_df, 
        on=['Variant', 'Label'], 
        suffixes=('_embedding', '_hydropathy')
    )
else:
    # Fusion directe si les ordres sont identiques
    combined_df = pd.DataFrame({
        'Variant': embeddings_df['Variant'],
        'Label': embeddings_df['Label'],
        'Values_embedding': embeddings_df['Values'],
        'Values_hydropathy': hydropathy_df['Values']
    })

print(f"{len(combined_df)} enregistrements combinés.")

# Combinaison des vecteurs d'embedding et d’hydropathie en un seul vecteur
print("Fusion des vecteurs d’attributs...")
combined_df['Combined_Features'] = combined_df.apply(
    lambda row: np.concatenate([row['Values_embedding'], row['Values_hydropathy']]),
    axis=1
)

# Création du dossier de sortie si nécessaire
output_dir = r"C:\Users\REINA\BRCA2_Pathogenicity\data\processed\combined"
os.makedirs(output_dir, exist_ok=True)

# Sauvegarde du fichier compact (1 colonne pour les features)
compact_path = os.path.join(output_dir, "brca2_combined_features.csv")
pd.DataFrame({
    'Variant': combined_df['Variant'],
    'Label': combined_df['Label'],
    'Combined_Features': combined_df['Combined_Features']
}).to_csv(compact_path, index=False)
print(f"✅ Fichier compact sauvegardé : {compact_path}")

# Sauvegarde du fichier version étendue (1 colonne par valeur)
expanded_path = os.path.join(output_dir, "brca2_combined_features_expanded.csv")
features_list = [np.concatenate([e, h]) for e, h in zip(
    combined_df['Values_embedding'], 
    combined_df['Values_hydropathy']
)]

# Création du DataFrame avec une colonne par attribut
expanded_df = pd.DataFrame(features_list)
expanded_df.insert(0, 'Variant', combined_df['Variant'])
expanded_df.insert(1, 'Label', combined_df['Label'])
expanded_df.to_csv(expanded_path, index=False)
print(f"✅ Fichier étendu sauvegardé : {expanded_path}")

print("🎉 Traitement terminé !")


Chargement des embeddings...
228 enregistrements d'embeddings chargés.
Chargement des données d’hydropathie...
228 enregistrements d’hydropathie chargés.
228 enregistrements combinés.
Fusion des vecteurs d’attributs...
✅ Fichier compact sauvegardé : C:\Users\REINA\BRCA2_Pathogenicity\data\processed\combined\brca2_combined_features.csv
✅ Fichier étendu sauvegardé : C:\Users\REINA\BRCA2_Pathogenicity\data\processed\combined\brca2_combined_features_expanded.csv
🎉 Traitement terminé !
