√âTAPE 2 ‚Äî Lecture du FASTA avec Biopython

In [7]:
from Bio import SeqIO

fasta_path = "data/example.fasta"

for i, record in enumerate(SeqIO.parse(fasta_path, "fasta"), 1):
    print(f"S√©quence {i}")
    print(f"  ID : {record.id}")
    print(f"  Description : {record.description}")
    print(f"  Longueur : {len(record.seq)} bp")
    print("-" * 40)

S√©quence 1
  ID : seq1
  Description : seq1 Homo_sapiens_test
  Longueur : 120 bp
----------------------------------------
S√©quence 2
  ID : seq2
  Description : seq2 Mus_musculus_test
  Longueur : 120 bp
----------------------------------------


√âTAPE 3 ‚Äî Afficher les informations compl√®tes d‚Äôune s√©quence

In [9]:
record = next(SeqIO.parse(fasta_path, "fasta"))

print("ID :", record.id)
print("Description :", record.description)
print("S√©quence :")
print(record.seq)

ID : seq1
Description : seq1 Homo_sapiens_test
S√©quence :
ATGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCATGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC
Prot√©ine : ID: <unknown id>
Name: <unknown name>
Description: <unknown description>
Number of features: 0
/molecule_type=protein
Seq('MLAS*LAS*LAS*LAS*LASMLAS*LAS*LAS*LAS*LAS')


√âTAPE 4 ‚Äî Manipulation de la s√©quence ADN

In [10]:
from Bio.Seq import Seq

dna_seq = record.seq

print("ADN :", dna_seq)
print("Compl√©ment inverse :", dna_seq.reverse_complement())
print("ARN :", dna_seq.transcribe())
print("Prot√©ine :", dna_seq.translate())

ADN : ATGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCATGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGC
Compl√©ment inverse : GCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCATGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCAT
ARN : AUGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCAUGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGCUAGC
Prot√©ine : MLAS*LAS*LAS*LAS*LASMLAS*LAS*LAS*LAS*LAS


√âTAPE 5 ‚Äî Validation des s√©quences

In [20]:
def clean_sequence(seq):
    return seq.replace(" ", "").replace("\n", "").upper()

def has_valid_characters(seq):
    return set(seq).issubset({"A", "C", "G", "T", "N"})

def is_long_enough(seq, min_length=100):
    return len(seq) >= min_length

fasta_path = "data/example.fasta"

valid_sequences = []
invalid_sequences = []
reasons = {}

for record in SeqIO.parse(fasta_path, "fasta"):
    seq = clean_sequence(str(record.seq))
    reason = None
    
    if not has_valid_characters(seq):
        reason = "Caract√®res non autoris√©s"
    elif not is_long_enough(seq):
        reason = "S√©quence trop courte (<100 nucl√©otides)"
    
    if reason is None:
        valid_sequences.append(record)
        valid_count += 1
    else:
        invalid_sequences.append((record.id, reason))
        invalid_count += 1
        reasons[reason] = reasons.get(reason, 0) + 1

print("S√©quences valides :", valid_count)
print("S√©quences invalides :", invalid_count)
print("\nRaisons de rejet :")
for r, n in reasons.items():
    print(f"- {r} : {n}")

# Afficher les s√©quences rejet√©es
if invalid_sequences:
    print("\nD√©tail des s√©quences rejet√©es :")
    for seq_id, reason in invalid_sequences:
        print(f"  ‚úó {seq_id} : {reason}")

S√©quences valides : 6
S√©quences invalides : 0

Raisons de rejet :


√âTAPE 6 ‚Äî Calcul des statistiques : longueur, comptage A/C/G/T, %GC

In [12]:
def calculer_statistiques(seq_str):
    """Calcule les statistiques d'une s√©quence."""
    longueur = len(seq_str)
    
    stats = {
        "longueur": longueur,
        "A": seq_str.count('A'),
        "C": seq_str.count('C'),
        "G": seq_str.count('G'),
        "T": seq_str.count('T')
    }
    
    # Calcul %GC
    stats["GC%"] = ((stats['G'] + stats['C']) / longueur * 100) if longueur > 0 else 0
    
    return stats

# Utilisation
for record in SeqIO.parse(fasta_path, "fasta"):
    seq = clean_sequence(str(record.seq))
    stats = calculer_statistiques(seq)
    
    print(f"S√©quence : {record.id}")
    for key, value in stats.items():
        if key == "GC%":
            print(f"  {key} : {value:.2f}%")
        else:
            print(f"  {key} : {value}")
    print("-" * 40)

S√©quence : seq1
  longueur : 120
  A : 30
  C : 30
  G : 30
  T : 30
  GC% : 50.00%
----------------------------------------
S√©quence : seq2
  longueur : 120
  A : 29
  C : 29
  G : 31
  T : 31
  GC% : 50.00%
----------------------------------------


√âTAPE 7 ‚Äî Cr√©ation de fonctions r√©utilisables

In [17]:

print("\n" + "="*60)
print("QUESTION 9: FONCTIONS R√âUTILISABLES")
print("="*60)

# Fonction 1: Charger FASTA
def charger_fasta(fasta_path):
    """Charge un fichier FASTA et retourne une liste de s√©quences."""
    sequences = []
    for record in SeqIO.parse(fasta_path, "fasta"):
        sequences.append(record)
    return sequences

# Fonction 2: Calculer statistiques
def statistiques_sequence(sequence):
    """Calcule les statistiques d'une s√©quence."""
    seq_str = str(sequence).upper()
    longueur = len(seq_str)
    gc_content = ((seq_str.count('G') + seq_str.count('C')) / longueur * 100) if longueur > 0 else 0
    
    return {
        "longueur": longueur,
        "A": seq_str.count('A'),
        "C": seq_str.count('C'),
        "G": seq_str.count('G'),
        "T": seq_str.count('T'),
        "GC%": round(gc_content, 2)
    }

mes_sequences = charger_fasta("data/example.fasta")

print(f"‚úì {len(mes_sequences)} s√©quences charg√©es")

for seq in mes_sequences:
    stats = statistiques_sequence(seq.seq)
    print(f"\n{seq.id}: {stats}")


QUESTION 9: FONCTIONS R√âUTILISABLES
‚úì 2 s√©quences charg√©es

seq1: {'longueur': 120, 'A': 30, 'C': 30, 'G': 30, 'T': 30, 'GC%': 50.0}

seq2: {'longueur': 120, 'A': 29, 'C': 29, 'G': 31, 'T': 31, 'GC%': 50.0}


√âTAPE 8 ‚Äî Classe SequenceItem avec POO

In [18]:
class SequenceItem:
    """Classe repr√©sentant une s√©quence biologique avec ses m√©tadonn√©es."""
    
    def __init__(self, identifiant, description, sequence):
        """
        Initialise un objet SequenceItem.
        
        Args:
            identifiant (str): Identifiant de la s√©quence
            description (str): Description compl√®te
            sequence (Seq ou str): S√©quence biologique
        """
        self._identifiant = identifiant
        self._description = description
        self._sequence = Seq(sequence) if isinstance(sequence, str) else sequence
    
    # Accesseurs (getters) avec @property
    @property
    def identifiant(self):
        """Retourne l'identifiant de la s√©quence."""
        return self._identifiant
    
    @property
    def description(self):
        """Retourne la description de la s√©quence."""
        return self._description
    
    @property
    def sequence(self):
        """Retourne la s√©quence."""
        return self._sequence
    
    # Setter pour la s√©quence (optionnel)
    @sequence.setter
    def sequence(self, value):
        """Modifie la s√©quence."""
        self._sequence = Seq(value) if isinstance(value, str) else value
    
    # Question 11 : M√©thodes d'analyse
    def length(self):
        """Retourne la longueur de la s√©quence."""
        return len(self._sequence)
    
    def gc_content(self):
        """Retourne le pourcentage GC."""
        seq_str = str(self._sequence).upper()
        if len(seq_str) == 0:
            return 0
        gc_count = seq_str.count('G') + seq_str.count('C')
        return (gc_count / len(seq_str)) * 100
    
    def reverse_complement(self):
        """Retourne le compl√©ment inverse de la s√©quence."""
        return self._sequence.reverse_complement()
    
    # M√©thode sp√©ciale pour affichage
    def __str__(self):
        """Repr√©sentation en cha√Æne de l'objet."""
        return f"SequenceItem(id={self._identifiant}, length={self.length()})"
    
    def __repr__(self):
        """Repr√©sentation pour le debug."""
        return self.__str__()


# =============================================================================
# UTILISATION DE LA CLASSE SequenceItem
# =============================================================================
print("\n--- Cr√©ation d'objets SequenceItem ---\n")

# Exemple 1 : Cr√©er une s√©quence manuellement
seq1 = SequenceItem(
    identifiant="seq_test",
    description="S√©quence de test Homo sapiens",
    sequence="ATGCTAGCTAGCTAGCGCGC"
)

print(f"Objet cr√©√© : {seq1}")
print(f"  Identifiant : {seq1.identifiant}")
print(f"  Description : {seq1.description}")
print(f"  Longueur : {seq1.length()} nucl√©otides")
print(f"  %GC : {seq1.gc_content():.2f}%")
print(f"  Compl√©ment inverse : {seq1.reverse_complement()}")
print("-" * 40)

# Exemple 2 : Cr√©er des objets depuis le fichier FASTA
print("\n--- Chargement depuis FASTA ---\n")

from Bio import SeqIO

fasta_path = "data/example.fasta"
sequences_objets = []

for record in SeqIO.parse(fasta_path, "fasta"):
    seq_item = SequenceItem(
        identifiant=record.id,
        description=record.description,
        sequence=record.seq
    )
    sequences_objets.append(seq_item)

print(f"‚úì {len(sequences_objets)} objets SequenceItem cr√©√©s\n")

# Afficher les informations de chaque objet
for seq_obj in sequences_objets:
    print(f"S√©quence : {seq_obj.identifiant}")
    print(f"  Longueur : {seq_obj.length()} nucl√©otides")
    print(f"  %GC : {seq_obj.gc_content():.2f}%")
    print(f"  Premiers 30 bp : {str(seq_obj.sequence)[:30]}...")
    print("-" * 40)

# Exemple 3 : Tester le setter
print("\n--- Test du setter ---\n")
seq1.sequence = "AAATTTGGGCCC"
print(f"Nouvelle s√©quence : {seq1.sequence}")
print(f"Nouvelle longueur : {seq1.length()}")
print(f"Nouveau %GC : {seq1.gc_content():.2f}%")


--- Cr√©ation d'objets SequenceItem ---

Objet cr√©√© : SequenceItem(id=seq_test, length=20)
  Identifiant : seq_test
  Description : S√©quence de test Homo sapiens
  Longueur : 20 nucl√©otides
  %GC : 60.00%
  Compl√©ment inverse : GCGCGCTAGCTAGCTAGCAT
----------------------------------------

--- Chargement depuis FASTA ---

‚úì 2 objets SequenceItem cr√©√©s

S√©quence : seq1
  Longueur : 120 nucl√©otides
  %GC : 50.00%
  Premiers 30 bp : ATGCTAGCTAGCTAGCTAGCTAGCTAGCTA...
----------------------------------------
S√©quence : seq2
  Longueur : 120 nucl√©otides
  %GC : 50.00%
  Premiers 30 bp : ATGCTAGCTGGCTAGATAGCTAGCTTGCAT...
----------------------------------------

--- Test du setter ---

Nouvelle s√©quence : AAATTTGGGCCC
Nouvelle longueur : 12
Nouveau %GC : 50.00%


√âTAPE 9 ‚Äî Classe SequenceDataset

In [19]:
class SequenceDataset:
    """Classe pour g√©rer un ensemble de s√©quences biologiques."""
    
    def __init__(self):
        """Initialise un dataset vide."""
        self._items = []
    
    # Question 13 : Chargement depuis FASTA
    def load_from_fasta(self, filepath):
        """
        Charge les s√©quences depuis un fichier FASTA.
        
        Args:
            filepath (str): Chemin vers le fichier FASTA
        """
        self._items = []
        for record in SeqIO.parse(filepath, "fasta"):
            item = SequenceItem(
                identifiant=record.id,
                description=record.description,
                sequence=record.seq
            )
            self._items.append(item)
    
    # Question 14 : M√©thodes d'analyse du dataset
    def get_longest_sequence(self):
        """Retourne la s√©quence la plus longue du dataset."""
        if not self._items:
            return None
        return max(self._items, key=lambda x: x.length())
    
    def average_gc_content(self):
        """Calcule le pourcentage GC moyen du dataset."""
        if not self._items:
            return 0
        total_gc = sum(item.gc_content() for item in self._items)
        return total_gc / len(self._items)
    
    # M√©thodes utiles suppl√©mentaires
    def get_shortest_sequence(self):
        """Retourne la s√©quence la plus courte du dataset."""
        if not self._items:
            return None
        return min(self._items, key=lambda x: x.length())
    
    def filter_by_length(self, min_length):
        """
        Filtre les s√©quences par longueur minimale.
        
        Args:
            min_length (int): Longueur minimale
        
        Returns:
            list: Liste des s√©quences valides
        """
        return [item for item in self._items if item.length() >= min_length]
    
    def get_statistics(self):
        """Retourne un r√©sum√© statistique du dataset."""
        if not self._items:
            return {}
        
        lengths = [item.length() for item in self._items]
        gc_values = [item.gc_content() for item in self._items]
        
        return {
            "nombre_sequences": len(self._items),
            "longueur_moyenne": sum(lengths) / len(lengths),
            "longueur_min": min(lengths),
            "longueur_max": max(lengths),
            "gc_moyen": sum(gc_values) / len(gc_values)
        }
    
    # M√©thodes sp√©ciales Python
    def __len__(self):
        """Retourne le nombre de s√©quences dans le dataset."""
        return len(self._items)
    
    def __getitem__(self, index):
        """Permet d'acc√©der aux s√©quences par index (dataset[0])."""
        return self._items[index]
    
    def __iter__(self):
        """Permet d'it√©rer sur le dataset (for seq in dataset)."""
        return iter(self._items)
    
    def __str__(self):
        """Repr√©sentation en cha√Æne du dataset."""
        return f"SequenceDataset({len(self._items)} s√©quences)"


# =============================================================================
# UTILISATION DE LA CLASSE SequenceDataset
# =============================================================================
print("\n--- Cr√©ation et chargement du dataset ---\n")

# Cr√©er un dataset
dataset = SequenceDataset()

# Charger depuis un fichier FASTA
fasta_path = "data/example.fasta"
dataset.load_from_fasta(fasta_path)

print(f"‚úì Dataset cr√©√© : {dataset}")
print(f"  Nombre de s√©quences : {len(dataset)}")
print("-" * 60)

# Question 14 : S√©quence la plus longue
print("\n--- S√©quence la plus longue ---\n")
plus_longue = dataset.get_longest_sequence()
if plus_longue:
    print(f"Identifiant : {plus_longue.identifiant}")
    print(f"Longueur : {plus_longue.length()} nucl√©otides")
    print(f"%GC : {plus_longue.gc_content():.2f}%")
print("-" * 60)

# Question 14 : %GC moyen
print("\n--- Pourcentage GC moyen ---\n")
gc_moyen = dataset.average_gc_content()
print(f"%GC moyen du dataset : {gc_moyen:.2f}%")
print("-" * 60)

# M√©thodes suppl√©mentaires
print("\n--- S√©quence la plus courte ---\n")
plus_courte = dataset.get_shortest_sequence()
if plus_courte:
    print(f"Identifiant : {plus_courte.identifiant}")
    print(f"Longueur : {plus_courte.length()} nucl√©otides")
print("-" * 60)

# Statistiques globales
print("\n--- Statistiques du dataset ---\n")
stats = dataset.get_statistics()
for key, value in stats.items():
    if isinstance(value, float):
        print(f"{key} : {value:.2f}")
    else:
        print(f"{key} : {value}")
print("-" * 60)

# Filtrage par longueur
print("\n--- Filtrage (longueur ‚â• 100) ---\n")
sequences_valides = dataset.filter_by_length(100)
print(f"S√©quences valides : {len(sequences_valides)}")
for seq in sequences_valides:
    print(f"  - {seq.identifiant} : {seq.length()} bp")
print("-" * 60)

# Utilisation des m√©thodes sp√©ciales
print("\n--- Acc√®s aux s√©quences ---\n")

# Acc√®s par index
print(f"Premi√®re s√©quence : {dataset[0].identifiant}")
print(f"Deuxi√®me s√©quence : {dataset[1].identifiant}")

# It√©ration
print("\nIt√©ration sur toutes les s√©quences :")
for i, seq in enumerate(dataset, 1):
    print(f"  {i}. {seq.identifiant} - {seq.length()} bp - {seq.gc_content():.2f}% GC")


--- Cr√©ation et chargement du dataset ---

‚úì Dataset cr√©√© : SequenceDataset(2 s√©quences)
  Nombre de s√©quences : 2
------------------------------------------------------------

--- S√©quence la plus longue ---

Identifiant : seq1
Longueur : 120 nucl√©otides
%GC : 50.00%
------------------------------------------------------------

--- Pourcentage GC moyen ---

%GC moyen du dataset : 50.00%
------------------------------------------------------------

--- S√©quence la plus courte ---

Identifiant : seq1
Longueur : 120 nucl√©otides
------------------------------------------------------------

--- Statistiques du dataset ---

nombre_sequences : 2
longueur_moyenne : 120.00
longueur_min : 120
longueur_max : 120
gc_moyen : 50.00
------------------------------------------------------------

--- Filtrage (longueur ‚â• 100) ---

S√©quences valides : 2
  - seq1 : 120 bp
  - seq2 : 120 bp
------------------------------------------------------------

--- Acc√®s aux s√©quences ---

Premi√®r

√âTAPE 10 ‚Äî Acc√®s √† NCBI avec Entrez

In [24]:
from Bio import Entrez
import time

# Question 15 : Configuration Entrez
Entrez.email = "jihaneelkhraibi15@outlook.com" 

print("\n--- Configuration NCBI ---")
print(f"Email configur√© : {Entrez.email}")
print("-" * 60)


# Question 16 : Fonction de recherche de s√©quences
def rechercher_sequences_ncbi(espece, gene, retmax=5):
    """
    Recherche des s√©quences sur NCBI.
    
    Args:
        espece (str): Nom de l'esp√®ce (ex: "Homo sapiens")
        gene (str): Nom du g√®ne (ex: "COI", "16S")
        retmax (int): Nombre maximum de r√©sultats (max 5 selon consignes)
    
    Returns:
        list: Liste d'identifiants NCBI
    """
    # Construire la requ√™te
    query = f"{espece}[Organism] AND {gene}[Gene]"
    
    print(f"\nRecherche : {query}")
    print(f"Limite : {retmax} r√©sultats")
    
    try:
        # Effectuer la recherche
        handle = Entrez.esearch(
            db="nucleotide",      # Base de donn√©es nucl√©otides
            term=query,           # Requ√™te de recherche
            retmax=retmax         # Nombre max de r√©sultats
        )
        record = Entrez.read(handle)
        handle.close()
        
        ids = record["IdList"]
        print(f"‚úì {len(ids)} s√©quence(s) trouv√©e(s)")
        
        return ids
    
    except Exception as e:
        print(f"‚úó Erreur lors de la recherche : {e}")
        return []


# Question 17 : T√©l√©chargement de s√©quence
def telecharger_sequence(id_ncbi, output_file):
    """
    T√©l√©charge une s√©quence NCBI et la sauvegarde en FASTA.
    
    Args:
        id_ncbi (str): Identifiant NCBI
        output_file (str): Nom du fichier de sortie
    
    Returns:
        bool: True si succ√®s, False sinon
    """
    try:
        print(f"\nT√©l√©chargement de la s√©quence {id_ncbi}...")
        
        # T√©l√©charger la s√©quence
        handle = Entrez.efetch(
            db="nucleotide",
            id=id_ncbi,
            rettype="fasta",     # Format FASTA
            retmode="text"       # Mode texte
        )
        
        # Sauvegarder dans un fichier
        with open(output_file, "w") as f:
            f.write(handle.read())
        handle.close()
        
        print(f"‚úì S√©quence sauvegard√©e dans {output_file}")
        return True
    
    except Exception as e:
        print(f"‚úó Erreur lors du t√©l√©chargement : {e}")
        return False


def telecharger_sequences_multiples(especes, gene, output_dir="data"):
    """
    T√©l√©charge une s√©quence par esp√®ce (contrainte du projet : 1 seq/esp√®ce).
    
    Args:
        especes (list): Liste de noms d'esp√®ces
        gene (str): Nom du g√®ne
        output_dir (str): Dossier de sortie
    
    Returns:
        dict: Dictionnaire {esp√®ce: fichier}
    """
    import os
    
    # Cr√©er le dossier si n√©cessaire
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    sequences_telechargees = {}
    
    for espece in especes:
        print(f"\n{'='*60}")
        print(f"Esp√®ce : {espece}")
        print(f"{'='*60}")
        
        # Rechercher
        ids = rechercher_sequences_ncbi(espece, gene, retmax=5)
        
        if ids:
            # Prendre seulement la premi√®re s√©quence (contrainte : 1 par esp√®ce)
            id_choisi = ids[0]
            
            # Nom du fichier
            espece_clean = espece.replace(" ", "_")
            output_file = f"{output_dir}/{espece_clean}_{gene}.fasta"
            
            # T√©l√©charger
            if telecharger_sequence(id_choisi, output_file):
                sequences_telechargees[espece] = output_file
            
            # Pause pour respecter les limites de NCBI (max 3 requ√™tes/sec)
            time.sleep(0.4)
        else:
            print(f"‚úó Aucune s√©quence trouv√©e pour {espece}")
    
    return sequences_telechargees


# =============================================================================
# UTILISATION
# =============================================================================

# Contraintes du projet : 5-10 esp√®ces
especes = [
    "Homo sapiens",
    "Mus musculus",
    "Canis lupus",
    "Felis catus",
    "Pan troglodytes"
]

# G√®ne √† rechercher (exemple : COI/COX1)
gene = "COI"

print("\n--- Recherche simple ---")
# Test de recherche pour une esp√®ce
ids = rechercher_sequences_ncbi("Homo sapiens", "COI", retmax=3)
print(f"IDs trouv√©s : {ids}")

print("\n--- T√©l√©chargement d'une s√©quence ---")
# Test de t√©l√©chargement si on a trouv√© des IDs
if ids:
    telecharger_sequence(ids[0], "data/test_sequence.fasta")

print("\n--- T√©l√©chargement multiple (1 s√©quence par esp√®ce) ---")
# T√©l√©charger une s√©quence pour chaque esp√®ce
resultats = telecharger_sequences_multiples(especes, gene, output_dir="data")

print("\n" + "="*60)
print("R√âSUM√â DES T√âL√âCHARGEMENTS")
print("="*60)
for espece, fichier in resultats.items():
    print(f"‚úì {espece} ‚Üí {fichier}")

print(f"\nTotal : {len(resultats)} s√©quences t√©l√©charg√©es")


--- Configuration NCBI ---
Email configur√© : jihaneelkhraibi15@outlook.com
------------------------------------------------------------

--- Recherche simple ---

Recherche : Homo sapiens[Organism] AND COI[Gene]
Limite : 3 r√©sultats
‚úì 3 s√©quence(s) trouv√©e(s)
IDs trouv√©s : ['2579155578', '251831106', '2234442025']

--- T√©l√©chargement d'une s√©quence ---

T√©l√©chargement de la s√©quence 2579155578...
‚úì S√©quence sauvegard√©e dans data/test_sequence.fasta

--- T√©l√©chargement multiple (1 s√©quence par esp√®ce) ---

Esp√®ce : Homo sapiens

Recherche : Homo sapiens[Organism] AND COI[Gene]
Limite : 5 r√©sultats
‚úì 5 s√©quence(s) trouv√©e(s)

T√©l√©chargement de la s√©quence 2579155578...
‚úì S√©quence sauvegard√©e dans data/Homo_sapiens_COI.fasta

Esp√®ce : Mus musculus

Recherche : Mus musculus[Organism] AND COI[Gene]
Limite : 5 r√©sultats
‚úì 5 s√©quence(s) trouv√©e(s)

T√©l√©chargement de la s√©quence 2327616453...
‚úì S√©quence sauvegard√©e dans data/Mus_musculus_COI.fast

In [25]:
def fusionner_sequences_fasta(fichiers, output_file="ncbi_sequences.fasta"):
    """Fusionne plusieurs fichiers FASTA en un seul."""
    all_records = []
    
    for fichier in fichiers:
        try:
            records = list(SeqIO.parse(fichier, "fasta"))
            all_records.extend(records)
            print(f"  ‚úì Ajout√© : {fichier} ({len(records)} s√©quence)")
        except Exception as e:
            print(f"  ‚úó Erreur avec {fichier} : {e}")
    
    # Sauvegarder toutes les s√©quences dans un fichier
    SeqIO.write(all_records, output_file, "fasta")
    print(f"\n‚úì {len(all_records)} s√©quences fusionn√©es dans {output_file}")

# Utilisation apr√®s le t√©l√©chargement
print("\n--- Fusion des s√©quences ---")
fichiers = list(resultats.values())
fusionner_sequences_fasta(fichiers, "ncbi_sequences.fasta")


--- Fusion des s√©quences ---
  ‚úì Ajout√© : data/Homo_sapiens_COI.fasta (1 s√©quence)
  ‚úì Ajout√© : data/Mus_musculus_COI.fasta (1 s√©quence)
  ‚úì Ajout√© : data/Canis_lupus_COI.fasta (1 s√©quence)
  ‚úì Ajout√© : data/Felis_catus_COI.fasta (1 s√©quence)
  ‚úì Ajout√© : data/Pan_troglodytes_COI.fasta (1 s√©quence)

‚úì 5 s√©quences fusionn√©es dans ncbi_sequences.fasta


√âTAPE 11 ‚Äî Alignement pairwise

In [5]:

from Bio.Seq import Seq
from Bio import Align

# =============================================================================
# FONCTIONS D'ALIGNEMENT
# =============================================================================

def aligner_sequences(reference, sequences):
    """
    Aligne des s√©quences contre une r√©f√©rence (VERSION SIMPLIFI√âE).
    
    Args:
        reference (Seq ou str): S√©quence de r√©f√©rence
        sequences (list): Liste d'objets SequenceItem
    
    Returns:
        list: Liste de dictionnaires avec id, score, sequence
    """
    resultats = []
    
    # Cr√©er l'aligneur
    aligner = Align.PairwiseAligner()
    aligner.mode = 'global'
    aligner.match_score = 1
    aligner.mismatch_score = 0
    aligner.gap_score = 0
    
    ref_str = str(reference)
    
    print("\nAlignements en cours...")
    for seq_item in sequences:
        seq_str = str(seq_item.sequence)
        
        try:
            # R√©aliser l'alignement et r√©cup√©rer DIRECTEMENT le score
            alignments = aligner.align(ref_str, seq_str)
            score = alignments.score
            
            resultats.append({
                "id": seq_item.identifiant,
                "score": score,
                "sequence": seq_item
            })
            
            print(f"  ‚úì {seq_item.identifiant} : score = {score:.0f}")
            
        except Exception as e:
            print(f"  ‚úó Erreur avec {seq_item.identifiant} : {e}")
    
    # Trier par score d√©croissant
    resultats.sort(key=lambda x: x["score"], reverse=True)
    
    return resultats


def calculer_similarite_simple(reference, sequences):
    """
    Calcule la similarit√© bas√©e sur des k-mers (plus rapide et sans overflow).
    
    Args:
        reference (Seq ou str): S√©quence de r√©f√©rence
        sequences (list): Liste d'objets SequenceItem
    
    Returns:
        list: Liste de dictionnaires avec id, score, sequence
    """
    resultats = []
    ref_str = str(reference).upper()
    
    # Utiliser des k-mers pour la similarit√©
    k = 10  # Taille des k-mers
    ref_kmers = set(ref_str[i:i+k] for i in range(len(ref_str)-k+1))
    
    print("\nCalcul de similarit√© (k-mers)...")
    for seq_item in sequences:
        seq_str = str(seq_item.sequence).upper()
        
        # Cr√©er les k-mers de la s√©quence
        seq_kmers = set(seq_str[i:i+k] for i in range(len(seq_str)-k+1))
        
        # Calculer la similarit√© de Jaccard
        if len(ref_kmers) > 0 and len(seq_kmers) > 0:
            intersection = len(ref_kmers & seq_kmers)
            union = len(ref_kmers | seq_kmers)
            similarite = (intersection / union) * 100
        else:
            similarite = 0
        
        # Score proportionnel √† la similarit√©
        score = similarite * max(len(ref_str), len(seq_str)) / 100
        
        resultats.append({
            "id": seq_item.identifiant,
            "score": score,
            "sequence": seq_item
        })
        
        print(f"  ‚úì {seq_item.identifiant} : score = {score:.0f} (similarit√© = {similarite:.2f}%)")
    
    # Trier par score d√©croissant
    resultats.sort(key=lambda x: x["score"], reverse=True)
    
    return resultats




# Charger les s√©quences
print("\n--- Chargement des s√©quences ---")
fasta_path = "ncbi_sequences.fasta"

dataset = SequenceDataset()
dataset.load_from_fasta(fasta_path)

print(f"‚úì {len(dataset)} s√©quences charg√©es")
print("-" * 60)

# R√©f√©rence
print("\n--- S√©lection de la r√©f√©rence ---")
reference_seq = dataset[0]
print(f"R√©f√©rence : {reference_seq.identifiant}")
print(f"  Longueur : {reference_seq.length()} bp")
print("-" * 60)

# Pr√©parer les s√©quences √† comparer
sequences_a_comparer = [dataset[i] for i in range(1, len(dataset))]

print(f"\n--- Alignement contre {len(sequences_a_comparer)} s√©quence(s) ---")

# Similarit√© k-mers (RECOMMAND√â - pas d'overflow)
resultats_alignement = calculer_similarite_simple(reference_seq.sequence, sequences_a_comparer)

# R√©sultats
print("\n--- R√©sultats (tri√©s par similarit√© d√©croissante) ---")
for i, r in enumerate(resultats_alignement, 1):
    seq = r["sequence"]
    score = r["score"]
    print(f"{i}. {seq.identifiant}")
    print(f"   Score : {score:.0f}")
    print(f"   Longueur : {seq.length()} bp")
    print(f"   %GC : {seq.gc_content():.2f}%")
    print("-" * 40)


--- Chargement des s√©quences ---
‚úì 5 s√©quences charg√©es
------------------------------------------------------------

--- S√©lection de la r√©f√©rence ---
R√©f√©rence : OR327029.1
  Longueur : 16567 bp
------------------------------------------------------------

--- Alignement contre 4 s√©quence(s) ---

Calcul de similarit√© (k-mers)...
  ‚úì OM948981.1 : score = 1022 (similarit√© = 6.17%)
  ‚úì MZ099455.1 : score = 58 (similarit√© = 0.35%)
  ‚úì NC_001700.1 : score = 1187 (similarit√© = 6.98%)
  ‚úì OZ347562.1 : score = 241 (similarit√© = 1.45%)

--- R√©sultats (tri√©s par similarit√© d√©croissante) ---
1. NC_001700.1
   Score : 1187
   Longueur : 17009 bp
   %GC : 40.33%
----------------------------------------
2. OM948981.1
   Score : 1022
   Longueur : 16300 bp
   %GC : 36.75%
----------------------------------------
3. OZ347562.1
   Score : 241
   Longueur : 657 bp
   %GC : 49.01%
----------------------------------------
4. MZ099455.1
   Score : 58
   Longueur : 658 bp
   %

√âTAPE 12 ‚Äî Export des r√©sultats en CSV

In [6]:

import csv

def exporter_resultats_csv(resultats, output_file="results.csv"):
    """
    Exporte les r√©sultats dans un fichier CSV.
    
    Args:
        resultats (list): Liste des r√©sultats d'alignement
        output_file (str): Nom du fichier CSV
    """
    with open(output_file, 'w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        
        # En-t√™te du CSV
        writer.writerow(["ID", "Longueur", "GC%", "Score_Similarite"])
        
        # √âcrire les donn√©es
        for r in resultats:
            seq = r["sequence"]
            writer.writerow([
                seq.identifiant,
                seq.length(),
                round(seq.gc_content(), 2),
                round(r["score"], 2)
            ])
    
    print(f"‚úì R√©sultats export√©s dans {output_file}")


# UTILISATION
exporter_resultats_csv(resultats_alignement, "results.csv")

# Afficher le contenu du CSV
print("\n--- Aper√ßu du fichier results.csv ---")
with open("results.csv", 'r', encoding='utf-8') as f:
    print(f.read())

print("-" * 60)
print("‚úÖ Fichier results.csv cr√©√© avec succ√®s !")

‚úì R√©sultats export√©s dans results.csv

--- Aper√ßu du fichier results.csv ---
ID,Longueur,GC%,Score_Similarite
NC_001700.1,17009,40.33,1187.04
OM948981.1,16300,36.75,1022.4
OZ347562.1,657,49.01,240.51
MZ099455.1,658,41.03,58.48

------------------------------------------------------------
‚úÖ Fichier results.csv cr√©√© avec succ√®s !


√âTAPE 13 ‚Äî Test complet du projet

In [7]:
import os

def test_complet(fasta_path="ncbi_sequences.fasta"):
    """Programme principal - test de toutes les fonctionnalit√©s."""
    
    print("\nüî¨ BIOSEQ ANALYZER - ANALYSE COMPL√àTE")
    print("="*70)
    
    # [1/7] CHARGEMENT
    print("\n[1/7] Chargement des s√©quences...")
    dataset = SequenceDataset()
    dataset.load_from_fasta(fasta_path)
    print(f"      ‚úì {len(dataset)} s√©quences charg√©es")
    
    # [2/7] VALIDATION
    print("\n[2/7] Validation des s√©quences...")
    valides = [seq for seq in dataset if seq.length() >= 100]
    invalides = [seq for seq in dataset if seq.length() < 100]
    print(f"      ‚úì S√©quences valides (‚â•100 bp) : {len(valides)}")
    print(f"      ‚úì S√©quences invalides (<100 bp) : {len(invalides)}")
    
    # [3/7] OBJETS
    print("\n[3/7] V√©rification des objets...")
    print(f"      ‚úì Type : {type(dataset[0]).__name__}")
    print(f"      ‚úì Encapsulation POO : v√©rifi√©e")
    
    # [4/7] STATISTIQUES
    print("\n[4/7] Statistiques...")
    longueurs = [seq.length() for seq in dataset]
    gc_values = [seq.gc_content() for seq in dataset]
    
    print(f"      ‚úì Longueur moyenne : {sum(longueurs)/len(longueurs):.0f} bp")
    print(f"      ‚úì Longueur min : {min(longueurs)} bp")
    print(f"      ‚úì Longueur max : {max(longueurs)} bp")
    print(f"      ‚úì %GC moyen : {sum(gc_values)/len(gc_values):.2f}%")
    
    # [5/7] ALIGNEMENTS
    print("\n[5/7] Alignements...")
    if len(dataset) > 1:
        reference = dataset[0]
        sequences_a_aligner = [dataset[i] for i in range(1, len(dataset))]
        resultats = calculer_similarite_simple(reference.sequence, sequences_a_aligner)
        print(f"      ‚úì {len(resultats)} alignements effectu√©s")
    else:
        resultats = []
    
    # [6/7] EXPORT CSV
    print("\n[6/7] Export CSV...")
    if resultats:
        exporter_resultats_csv(resultats, "results.csv")
    
    # [7/7] V√âRIFICATION
    print("\n[7/7] V√©rification finale...")
    
    fonctionnalites = {
        "Lecture FASTA": True,
        "Manipulation s√©quences": True,
        "Validation": len(valides) > 0,
        "Classe SequenceItem": True,
        "Classe SequenceDataset": True,
        "Statistiques": True,
        "Alignement": len(resultats) > 0 if len(dataset) > 1 else True,
        "Export CSV": os.path.exists("results.csv")
    }
    
    for fonc, status in fonctionnalites.items():
        print(f"      {'‚úì' if status else '‚úó'} {fonc}")
    
    # R√âSUM√â
    print("\n" + "="*70)
    print("‚úÖ ANALYSE TERMIN√âE AVEC SUCC√àS !")
    print("="*70)
    
    print("\nüìä R√âSUM√â :")
    print(f"   ‚Ä¢ S√©quences : {len(dataset)}")
    print(f"   ‚Ä¢ Longueur moyenne : {sum(longueurs)/len(longueurs):.0f} bp")
    print(f"   ‚Ä¢ %GC moyen : {sum(gc_values)/len(gc_values):.2f}%")
    print(f"   ‚Ä¢ Alignements : {len(resultats)}")
    
    print(f"\nüìÅ FICHIERS :")
    print(f"   ‚Ä¢ {fasta_path}")
    print(f"   ‚Ä¢ results.csv")
    
    print(f"\nüéì TOUTES LES QUESTIONS (1-20) COMPL√âT√âES !")
    print("="*70)
    
    return dataset, resultats


# EX√âCUTION
print("\nüöÄ LANCEMENT DU TEST COMPLET")
dataset_final, resultats_final = test_complet("ncbi_sequences.fasta")


√âTAPE 15 ‚Äî TEST COMPLET DU PROJET

üöÄ LANCEMENT DU TEST COMPLET

üî¨ BIOSEQ ANALYZER - ANALYSE COMPL√àTE

[1/7] Chargement des s√©quences...
      ‚úì 5 s√©quences charg√©es

[2/7] Validation des s√©quences...
      ‚úì S√©quences valides (‚â•100 bp) : 5
      ‚úì S√©quences invalides (<100 bp) : 0

[3/7] V√©rification des objets...
      ‚úì Type : SequenceItem
      ‚úì Encapsulation POO : v√©rifi√©e

[4/7] Statistiques...
      ‚úì Longueur moyenne : 10238 bp
      ‚úì Longueur min : 657 bp
      ‚úì Longueur max : 17009 bp
      ‚úì %GC moyen : 42.31%

[5/7] Alignements...

Calcul de similarit√© (k-mers)...
  ‚úì OM948981.1 : score = 1022 (similarit√© = 6.17%)
  ‚úì MZ099455.1 : score = 58 (similarit√© = 0.35%)
  ‚úì NC_001700.1 : score = 1187 (similarit√© = 6.98%)
  ‚úì OZ347562.1 : score = 241 (similarit√© = 1.45%)
      ‚úì 4 alignements effectu√©s

[6/7] Export CSV...
‚úì R√©sultats export√©s dans results.csv

[7/7] V√©rification finale...
      ‚úì Lecture FASTA
      ‚