In [None]:
import os
import re
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from collections import Counter


In [2]:
# Chemins des fichiers et dossiers
proteome_dir_path = "data/Proteome_1011"  # Dossier contenant les fichiers de séquences protéiques
phenotype_data_path = "data/Finalset_223phenotypes_1011.csv"
copy_number_variation_path = "data/genesMatrix_CopyNumber.tab"

# Pour les phénotypes et les copy variations

In [None]:
# Chargement des données phénotypiques
phenotype_df = pd.read_csv(phenotype_data_path)

# Chargement des données de variation du nombre de copies
cnv_df = pd.read_csv(copy_number_variation_path, sep="\t", index_col=0).T
cnv_df.index.name = "Standard_name"

# Correction des valeurs manquantes
cnv_df.fillna(0, inplace=True)

# Réindexation pour une compatibilité ultérieure
cnv_df.reset_index(inplace=True)

# Pour les mutations pour chaque proteine sur chaque yeast

In [3]:
# Liste pour stocker les données de mutation
mutations = []

# Parcourir chaque fichier dans le dossier des protéines
for filename in os.listdir(proteome_dir_path):
    if filename.endswith(".fasta"):
        filepath = os.path.join(proteome_dir_path, filename)
        protein_id = filename.split(".")[0]  # Nom de la protéine
        
        # Lecture des séquences du fichier FASTA
        sequences = {}
        with open(filepath, "r") as file:
            current_yeast = None
            for line in file:
                if line.startswith(">"):  # Identifiant de la levure
                    header = line.strip().split()[0][1:]  # Retirer le ">"
                    # Extraire le nom de la levure avant le nom de la protéine
                    current_yeast = header.split(f"_{protein_id}", 1)[0]
                    
                    sequences[current_yeast] = ""
                else:
                    sequences[current_yeast] += line.strip()
        
        # Transposer les séquences pour analyser position par position
        yeast_ids = list(sequences.keys())
        transposed_positions = zip(*sequences.values())  # Colonne par colonne
        
        # Identifier les mutations par rapport à l'acide aminé majoritaire
        for idx, amino_acids in enumerate(transposed_positions, start=1):
            aa_counts = Counter(amino_acids)
            most_common_aa, _ = aa_counts.most_common(1)[0]  # Acide aminé majoritaire
            
            for yeast_id, aa in zip(yeast_ids, amino_acids):
                if aa != most_common_aa:  # Mutation détectée
                    mutations.append({
                        "Protein_ID": protein_id,
                        "Yeast_ID": yeast_id,
                        "Position": idx,
                        "Reference_AA": most_common_aa,
                        "Mutated_AA": aa
                    })

# Convertir les mutations en DataFrame
mutations_df = pd.DataFrame(mutations)

In [None]:
# Liste pour stocker les données de mutation
mutations = []

# Parcourir chaque fichier dans le dossier des protéines
for filename in os.listdir(proteome_dir_path):
    if filename.endswith(".fasta"):
        filepath = os.path.join(proteome_dir_path, filename)
        protein_id = filename.split(".")[0]  # Nom de la protéine
        
        # Lecture des séquences du fichier FASTA
        sequences = {}
        with open(filepath, "r") as file:
            current_yeast = None
            for line in file:
                if line.startswith(">"):  # Identifiant de la levure
                    header = line.strip().split()[0][1:]  # Retirer le ">"
                    # Extraire le nom de la levure avant le nom de la protéine
                    current_yeast = header.split(f"_{protein_id}", 1)[0]
                    
                    sequences[current_yeast] = ""
                else:
                    sequences[current_yeast] += line.strip()
        
        # Transposer les séquences pour analyser position par position
        yeast_ids = list(sequences.keys())
        transposed_positions = zip(*sequences.values())  # Colonne par colonne
        
        # Identifier les mutations par rapport à l'acide aminé majoritaire
        for idx, amino_acids in enumerate(transposed_positions, start=1):
            aa_counts = Counter(amino_acids)
            most_common_aa, _ = aa_counts.most_common(1)[0]  # Acide aminé majoritaire
            
            for yeast_id, aa in zip(yeast_ids, amino_acids):
                mutations.append({
                    "Protein_ID": protein_id,
                    "Yeast_ID": yeast_id,
                    "Index_AA": idx,
                    "Reference_AA": most_common_aa,
                    "Mutated_AA": aa if aa != most_common_aa else "/"
                })

# Convertir les mutations en DataFrame
extend_mutations_df = pd.DataFrame(mutations)

In [None]:
# 4. Sauvegarder les datasets dans des fichiers CSV
mutations_output_path = "data/mutations_proteins_dataset.csv"
phenotype_output_path = "data/phenotype_dataset.csv"
cnv_output_path = "data/copy_number_variation_dataset.csv"

mutations_df.to_csv(mutations_output_path, index=False)
phenotype_df.to_csv(phenotype_output_path, index=False)
cnv_df.to_csv(cnv_output_path, index=False)

print(f"Mutations dataset saved to {mutations_output_path}")
print(f"Phenotype dataset saved to {phenotype_output_path}")
print(f"Copy number variation dataset saved to {cnv_output_path}")

In [None]:
# Sauvegarder les résultats dans un fichier CSV
extend_mutations_output_path = "extend_mutations_dataset.csv"
extend_mutations_df.to_csv(extend_mutations_output_path, index=False)

print(f"Dataset des extend mutations sauvegardé dans {extend_mutations_output_path}")

# Merge les copy number avec les mutations

In [None]:
# Charger les datasets -> FAIRE AVEC EXTEND DES QUE POSSIBLE
mutations_proteins_path = "data/mutations_proteins_dataset.csv"
#mutations_proteins_path = "data/extend_mutations_proteins_dataset.csv"
copy_number_variation_path = "data/copy_number_variation_dataset.csv"

mutations_df = pd.read_csv(mutations_proteins_path)
cnv_df = pd.read_csv(copy_number_variation_path)

# Extraire uniquement le nom de la protéine dans copy_number_variation_dataset
def extract_protein_id(standard_name):
    match = re.match(r".+\.(Y[A-Z0-9]+)(?:_.*)?", standard_name)
    return match.group(1) if match else None

cnv_df['Protein_ID'] = cnv_df['Standard_name'].apply(extract_protein_id)
cnv_df = cnv_df.drop(columns=['Standard_name'])

# Réorganiser copy_number_variation_dataset pour un merge par Protein_ID et Yeast_ID
cnv_melted = cnv_df.melt(id_vars=["Protein_ID"], var_name="Yeast_ID", value_name="Copy_Number")

# Effectuer un merge avec mutations_proteins_dataset
merged_df = mutations_df.merge(
    cnv_melted,
    how="left",
    on=["Protein_ID", "Yeast_ID"]
)

# Sauvegarder le résultat dans un fichier CSV
output_path = "data/merged_mutations_dataset.csv"
merged_df.to_csv(output_path, index=False)

# Résultat
print(f"Merged dataset saved to {output_path}")

Merged dataset saved to data/merged_mutations_dataset.csv
