In [10]:
#projet bioinformatique simple : recherche de séquences dans ADN bactérien.
#nous testerons avec E coli et la B galactosidase.
#une fois un script fonctionnel obtenu, nous passerons à un gène de virulence d'une E coli pathogène (fimH)

In [11]:
#hypothèse 1 : script maison, comparaison de séquences protéines.
#sensible aux décalages d'ORI de lecture, homologies

In [12]:
#libraries
from Bio import SeqIO, pairwise2
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

In [13]:
# Écrire une séquence FASTA pour fimH
with open("fimH.fasta", "w") as f:
    f.write(">fimH_virulence_gene\n")
    f.write("MALWDRVVLAVLAGMGAGKSLSGAKTTITAAEAAKQVELGNNYTGVTVNVTYGDSEAKSL\n")

In [14]:
# Écrire une séquence FASTA pour lacZ_beta_galactosidase
with open("lacZ_beta_galactosidase.fasta", "w") as f:
    f.write(">lacZ_beta_galactosidase_gene\n")
    f.write("MTMITDSLAVVLQRRDWENPGVTQLNRLAAHPPFASWRNSEEARTDRPSQQLRSLNGEWKLLPKSTAEKVKYALSPEELKAAAQKYPVVQALSKDPNEKRDGFLNPQENYPDRLTAACFDRWDLPLSDMYTPYVFPSENGLRCGTRELNYGPHQWRGDFQFNISRYSQQQLMETSHRHLLHAKRLNMLYSHQLGGDFTNKPKIVQKRALNWLAGINWACPAITGRTSGYELLQCSQSLITRDPDFANGNSDSAAVTFGQVDPSQSALDYLHWAHQGTFTVTVTSDNQPWVGSETPAFLYRWIKDEVDKPLTICILEVEGETPLPALPDEVAIAVPTGDRIYFNALEPDQRVTVQENAPLDQSDIDGYTVRTQQLHYHFRVHRFNSDGRTPRDLWQHFETQLSGSNNPAHNRALLDLWVQNQRTTPSIKDVFNPFDWQPNPEGYYDTINNQLLTGKRQLLTPLRDQFTRAPLDNDIGVSEATRIDPNAWLWQQEGQTRLLTASRRHFDALEPDARFAFQVAEAWQKLQKILEQGRGVPGYELGLSRALGWRLAAEVLRRGQALPYIGPALNTSFGVSFNPDIATYILSVNAGISWAFESGALELQKRILNSSGSSIPGIGKSSLTFNQFVEGQNRQLELIRWVHRNTYQYGGDDTNGLEQAKWLMETDPSAVTAFVTMKLGVEASDGEMKPVDIDGYGGIAAVNGHPALADAGTSAWRTYCLDQHLAAAQQLELSGGSPNANPAKLFADQNLRYAHHPSLPTPLRDNDIGVSEADHIDPNAWIERMEEKQLLEGRQARALEALVQVPVRRLRWELEAE\n")

In [15]:
# === Paramètres ===
genome_file = "Escherichiacoli_strK-12substrMG1655.fasta"
virulence_file = "fimH.fasta"
lacZ_beta_galactosidase_file = "lacZ_beta_galactosidase.fasta"

In [16]:
import os
print(os.path.exists("Escherichiacoli_strK-12substrMG1655.fasta"))

True


In [17]:
#trouver les origines de réplication
def find_orfs(seq, min_protein_length=100):
    orfs = []
    for strand, nuc in [(+1, seq), (-1, seq.reverse_complement())]:
        for frame in range(3):
            trans = nuc[frame:].translate(to_stop=False)
            aa_seq = str(trans)
            parts = aa_seq.split("*")
            pos = 0
            for part in parts:
                if len(part) >= min_protein_length:
                    orfs.append(SeqRecord(Seq(part), id=f"orf_{strand}_{frame}_{pos}", description=""))
                pos += len(part) + 1
    return orfs

#chargement du gène de virulence
def load_virulence_proteins(filepath):
    return list(SeqIO.parse(filepath, "fasta"))

def sequence_similarity(seq1, seq2):
    """
    Compare deux séquences (str) et retourne le pourcentage d'identité.
    La comparaison s'arrête à la longueur de la plus courte séquence.
    """
    length = min(len(seq1), len(seq2))
    matches = sum(1 for a, b in zip(seq1[:length], seq2[:length]) if a == b)
    return matches / length if length > 0 else 0.0

#comparaison des séquences protéiques
def compare_proteins(predicted_proteins, reference_proteins, threshold=0.3):
    hits = []
    for i, pred in enumerate(predicted_proteins):
        for j, ref in enumerate(reference_proteins):
            identity = sequence_similarity(str(pred), str(ref))
            if identity >= threshold:
                hits.append((f"ORF_{i}", f"Virulence_{j}", round(identity, 3)))
    return hits





In [20]:
#for orf in orfs:
#    print(f"{orf.id}: {len(orf.seq)} aa")

orf_1_0_97: 835 aa
orf_1_0_1472: 104 aa
orf_1_0_1830: 151 aa
orf_1_0_2398: 192 aa
orf_1_0_3248: 184 aa
orf_1_0_4054: 638 aa
orf_1_0_5144: 374 aa
orf_1_0_6227: 312 aa
orf_1_0_6896: 124 aa
orf_1_0_8399: 167 aa
orf_1_0_10265: 1080 aa
orf_1_0_11389: 175 aa
orf_1_0_11728: 239 aa
orf_1_0_12076: 250 aa
orf_1_0_12327: 111 aa
orf_1_0_12439: 102 aa
orf_1_0_13047: 125 aa
orf_1_0_13173: 167 aa
orf_1_0_13341: 116 aa
orf_1_0_13620: 203 aa
orf_1_0_14105: 285 aa
orf_1_0_15120: 129 aa
orf_1_0_17020: 161 aa
orf_1_0_17863: 124 aa
orf_1_0_17988: 201 aa
orf_1_0_19095: 297 aa
orf_1_0_19468: 239 aa
orf_1_0_20101: 183 aa
orf_1_0_20287: 145 aa
orf_1_0_20526: 122 aa
orf_1_0_20649: 210 aa
orf_1_0_20908: 148 aa
orf_1_0_21879: 156 aa
orf_1_0_22263: 111 aa
orf_1_0_22458: 423 aa
orf_1_0_23441: 313 aa
orf_1_0_24454: 161 aa
orf_1_0_24770: 185 aa
orf_1_0_25616: 106 aa
orf_1_0_26480: 150 aa
orf_1_0_26714: 136 aa
orf_1_0_27357: 133 aa
orf_1_0_27630: 140 aa
orf_1_0_28495: 622 aa
orf_1_0_29986: 358 aa
orf_1_0_31048: 502 aa

In [19]:
# === Chargement et traitement ===
print("[+] Lecture du génome...")
record = SeqIO.read(genome_file, "fasta")

print("[+] Recherche d'ORFs...")
orfs = find_orfs(record.seq)

print(f"[+] {len(orfs)} ORFs détectées.")

print("[+] Chargement des gènes de virulence...")
virulence_genes = load_virulence_proteins(lacZ_beta_galactosidase_file)

print("[+] Comparaison...")
hits = compare_proteins(orfs, virulence_genes)

print(f"[+] {len(hits)} correspondances trouvées :")
for orf_id, vir_id, score in hits:
    print(f"  - {orf_id} ≈ {vir_id} (identité ≈ {score})")


[+] Lecture du génome...
[+] Recherche d'ORFs...




[+] 10187 ORFs détectées.
[+] Chargement des gènes de virulence...
[+] Comparaison...
[+] 0 correspondances trouvées :


In [21]:
#script non fonctionnel

In [22]:
#hypothèse 2 : Blast en ligne avec API NCBI

from Bio.Blast import NCBIWWW
from Bio.Blast import NCBIXML

# Séquence protéique de la β-galactosidase (lacZ)
sequence = """
MTMITDSLAVVLQRRDWENPGVTQLNRLAAHPPFASWRNSEEARTDRPSQQLRSLNGEWKLLPKSTAEKVKYALSPEELKAAAQKYPVVQALSKDPNEKRDGFLNPQENYPDRLTAACFDRWDLPLSDMYTPYVFPSENGLRCGTRELNYGPHQWRGDFQFNISRYSQQQLMETSHRHLLHAKRLNMLYSHQLGGDFTNKPKIVQKRALNWLAGINWACPAITGRTSGYELLQCSQSLITRDPDFANGNSDSAAVTFGQVDPSQSALDYLHWAHQGTFTVTVTSDNQPWVGSETPAFLYRWIKDEVDKPLTICILEVEGETPLPALPDEVAIAVPTGDRIYFNALEPDQRVTVQENAPLDQSDIDGYTVRTQQLHYHFRVHRFNSDGRTPRDLWQHFETQLSGSNNPAHNRALLDLWVQNQRTTPSIKDVFNPFDWQPNPEGYYDTINNQLLTGKRQLLTPLRDQFTRAPLDNDIGVSEATRIDPNAWLWQQEGQTRLLTASRRHFDALEPDARFAFQVAEAWQKLQKILEQGRGVPGYELGLSRALGWRLAAEVLRRGQALPYIGPALNTSFGVSFNPDIATYILSVNAGISWAFESGALELQKRILNSSGSSIPGIGKSSLTFNQFVEGQNRQLELIRWVHRNTYQYGGDDTNGLEQAKWLMETDPSAVTAFVTMKLGVEASDGEMKPVDIDGYGGIAAVNGHPALADAGTSAWRTYCLDQHLAAAQQLELSGGSPNANPAKLFADQNLRYAHHPSLPTPLRDNDIGVSEADHIDPNAWIERMEEKQLLEGRQARALEALVQVPVRRLRWELEAE
"""

print("[+] Envoi de la requête à NCBI...")
result_handle = NCBIWWW.qblast("tblastn", "nt", sequence, entrez_query="Escherichia coli[Organism]", hitlist_size=5)

print("[+] Lecture des résultats...")
blast_record = NCBIXML.read(result_handle)

for alignment in blast_record.alignments:
    print(f"> {alignment.title}")
    for hsp in alignment.hsps:
        print(f"  Score: {hsp.score}, Identité: {hsp.identities}/{hsp.align_length}")
        print(f"  Séquence alignée : {hsp.sbjct[:60]}...")

[+] Envoi de la requête à NCBI...
[+] Lecture des résultats...
> gi|2621922878|gb|CP138427.1| Escherichia coli strain 21EVA chromosome, complete genome
  Score: 458.0, Identité: 85/104
  Séquence alignée : LGPQENYPDRLTAACFDRWDLPLSDMYTPYVFPSENGLRCGTRELNYGPHQWRGDFQFNI...
  Score: 314.0, Identité: 59/61
  Séquence alignée : MTMITDSLAVVLQRRDWENPGVTQLNRLAAHPPFASWRNSEEARTDRPSQQLRSLNGEWR...
  Score: 179.0, Identité: 43/78
  Séquence alignée : EKQLLTPLRDQFTRAPLDNDIGVSEATRIDPNAWVERWKAAGHYQAEAALLQCTADTLAD...
  Score: 97.0, Identité: 22/34
  Séquence alignée : LLTPLRDQFTRAPLDNDIGVSEATRIDPNAWVER...
> gi|2894507772|gb|CP178340.1| Escherichia coli strain ECBR0423 chromosome, complete genome
  Score: 457.0, Identité: 86/104
  Séquence alignée : LGPQENYPDRLTAACFDRWDLPLSDMYTPYVFPSENGLRCGTRELNYGPHQWRGDFQFNI...
  Score: 314.0, Identité: 59/61
  Séquence alignée : MTMITDSLAVVLQRRDWENPGVTQLNRLAAHPPFASWRNSEEARTDRPSQQLRSLNGEWR...
  Score: 174.0, Identité: 42/78
  Séquence alignée : EKQLLTPLRNQFTRAPLDNDIGVSEA

In [23]:
#hypothèse 2 : Blast en ligne avec API NCBI. Test avec gène de virulence.

from Bio import Entrez, SeqIO

# email requis par NCBI pour l'accès aux serveurs
Entrez.email = "utilisateur@exemple.com"

# Étape 1 : Rechercher le gène fimH chez E. coli
search_handle = Entrez.esearch(
    db="protein",
    term="fimH[Gene Name] AND Escherichia coli[Organism]",
    retmax=1
)
search_results = Entrez.read(search_handle)
search_handle.close()

# Vérification
if not search_results["IdList"]:
    print("Aucun résultat trouvé pour fimH.")
else:
    protein_id = search_results["IdList"][0]
    print(f"ID trouvé : {protein_id}")

    # Étape 2 : Récupérer la séquence FASTA
    fetch_handle = Entrez.efetch(
        db="protein",
        id=protein_id,
        rettype="fasta",
        retmode="text"
    )
    fasta_data = fetch_handle.read()
    fetch_handle.close()

    # Étape 3 : Sauvegarder dans un fichier
    with open("fimH_protein.fasta", "w") as f:
        f.write(fasta_data)

    print("Séquence FASTA enregistrée dans 'fimH_protein.fasta'.")

ID trouvé : 2991116757
Séquence FASTA enregistrée dans 'fimH_protein.fasta'.


In [24]:
print("[+] Envoi à NCBI via tblastn…")
result_handle = NCBIWWW.qblast(
    program="tblastn",
    database="nt",
    sequence=open("fimH_protein.fasta").read(),
    entrez_query="Escherichia coli[Organism]",
    hitlist_size=5
)

print("[+] Lecture des résultats…")
blast_record = NCBIXML.read(result_handle)

for align in blast_record.alignments:
    for hsp in align.hsps:
        print(f"> {align.title}")
        print(f"Score={hsp.score}, identité={hsp.identities}/{hsp.align_length}")

[+] Envoi à NCBI via tblastn…
[+] Lecture des résultats…
> gi|209777807|gb|EU904670.1| Escherichia coli strain 493/89 SfmH protein (ECs0595) gene, complete cds >gi|209777809|gb|EU904671.1| Escherichia coli strain 86-24 SfmH protein (ECs0595) gene, complete cds >gi|209777811|gb|EU904672.1| Escherichia coli strain 87-14 SfmH protein (ECs0595) gene, complete cds >gi|209777813|gb|EU904673.1| Escherichia coli strain TB182A SfmH protein (ECs0595) gene, complete cds >gi|209777815|gb|EU904674.1| Escherichia coli strain TW14359 SfmH protein (ECs0595) gene, complete cds
Score=1395.0, identité=261/263
> gi|675819797|emb|LM996360.1| Escherichia coli genome assembly FHI6, scaffold scaffold-26_contig-7.1_64484_345924_[organism:Escherichia
Score=1408.0, identité=263/263
> gi|675820179|emb|LM996742.1| Escherichia coli genome assembly FHI8, scaffold scaffold-24_contig-9.0_1_113555_[organism:Escherichia
Score=1407.0, identité=263/263
> gi|1778445|gb|U82598.1|ECU82598 Escherichia coli genomic sequence of

In [None]:
# email requis par NCBI pour l'accès aux serveurs
Entrez.email = "utilisateur@exemple.com"

# Identifiant GenBank du hit BLAST
accession = "EU904670.1"

# 1. Récupérer la séquence
handle = Entrez.efetch(db="nucleotide", id=accession, rettype="fasta", retmode="text")
record = SeqIO.read(handle, "fasta")
handle.close()

# 2. Afficher et sauvegarder la séquence
print(f">{record.id}\n{record.seq}")

# Optionnel : sauvegarde en fichier fasta
with open(f"{accession}.fasta", "w") as f:
    SeqIO.write(record, f, "fasta")

In [None]:
accession = "EU904670.1"

In [None]:
#amélioration du script hypothèse 2 : ajout d'une boite de dialogue.


import tkinter as tk
from tkinter import simpledialog, messagebox
from Bio import Entrez, SeqIO

# email requis par NCBI pour l'accès aux serveurs
Entrez.email = "votre.email@exemple.com"  # à personnaliser

# Étape 1 : Entrée utilisateur
gene_name = input("Quel gène cherches-tu ? (ex: fimH) ").strip()

# Étape 2 : Rechercher les séquences de gènes associés chez E. coli
print(f"[+] Recherche de séquences pour le gène '{gene_name}' chez E. coli...")
search_term = f"{gene_name}[Gene Name] AND Escherichia coli[Organism] AND complete cds"

handle = Entrez.esearch(db="nucleotide", term=search_term, retmax=5)
record = Entrez.read(handle)
id_list = record["IdList"]
handle.close()

if not id_list:
    print("[-] Aucun résultat trouvé.")
    exit()

print(f"[+] {len(id_list)} séquences trouvées.")

# Étape 3 : Récupération des séquences FASTA
for i, accession in enumerate(id_list):
    handle = Entrez.efetch(db="nucleotide", id=accession, rettype="gb", retmode="text")
    record = SeqIO.read(handle, "genbank")
    handle.close()

    print(f"\n--- Séquence {i+1} ---")
    print(f"Accession : {record.id}")
    print(f"Titre     : {record.description}")

    for feature in record.features:
        if feature.type == "source":
            organism = feature.qualifiers.get("organism", ["Inconnu"])[0]
            strain = feature.qualifiers.get("strain", ["Inconnu"])[0]
            print(f"Organisme : {organism}")
            print(f"Souche    : {strain}")

    if record.seq and not record.seq.defined:
        print("[!] Séquence non définie dans l'enregistrement, on ignore cette entrée.")
        continue

    # Sauvegarde si la séquence est définie
    fasta_filename = f"{gene_name}_{i+1}.fasta"
    with open(fasta_filename, "w") as out_file:
        SeqIO.write(record, out_file, "fasta")
    print(f"[+] Sauvegardé : {fasta_filename}")

In [None]:
#hypothèse 3 : amélioration d' l'hypothèse 2, sélection du gène et du genre+espèce possible.

import tkinter as tk
from tkinter import simpledialog, messagebox
from Bio import Entrez, SeqIO

# Email requis par NCBI
Entrez.email = "votre.email@exemple.com"  # à personnaliser

# Boîte de dialogue pour les entrées
def ask_user_input():
    root = tk.Tk()
    root.withdraw()  # Ne pas afficher la fenêtre principale

    gene = simpledialog.askstring("Recherche de gène", "Quel gène cherches-tu ? (ex: fimH)")
    if not gene:
        messagebox.showinfo("Annulation", "Aucun gène spécifié.")
        exit()

    genre = simpledialog.askstring("Genre", "Quel genre ? (ex: Escherichia)")
    if not genre:
        messagebox.showinfo("Annulation", "Aucun genre spécifié.")
        exit()

    espece = simpledialog.askstring("Espèce", "Quelle espèce ? (ex: coli)")
    if not espece:
        messagebox.showinfo("Annulation", "Aucune espèce spécifiée.")
        exit()

    return gene.strip(), genre.strip(), espece.strip()

# Récupération des entrées
gene_name, genus, species = ask_user_input()

# Requête NCBI
organism = f"{genus} {species}"
print(f"[+] Recherche de séquences pour le gène '{gene_name}' chez {organism}...")
search_term = f"{gene_name}[Gene Name] AND {organism}[Organism] AND complete cds"

handle = Entrez.esearch(db="nucleotide", term=search_term, retmax=5)
record = Entrez.read(handle)
id_list = record["IdList"]
handle.close()

if not id_list:
    print("[-] Aucun résultat trouvé.")
    exit()

print(f"[+] {len(id_list)} séquences trouvées.")

# Téléchargement des séquences
for i, accession in enumerate(id_list):
    handle = Entrez.efetch(db="nucleotide", id=accession, rettype="gb", retmode="text")
    record = SeqIO.read(handle, "genbank")
    handle.close()

    print(f"\n--- Séquence {i+1} ---")
    print(f"Accession : {record.id}")
    print(f"Titre     : {record.description}")

    for feature in record.features:
        if feature.type == "source":
            organism = feature.qualifiers.get("organism", ["Inconnu"])[0]
            strain = feature.qualifiers.get("strain", ["Inconnu"])[0]
            print(f"Organisme : {organism}")
            print(f"Souche    : {strain}")

    if record.seq and not record.seq.defined:
        print("[!] Séquence non définie, ignorée.")
        continue

    fasta_filename = f"{gene_name}_{i+1}.fasta"
    with open(fasta_filename, "w") as out_file:
        SeqIO.write(record, out_file, "fasta")
    print(f"[+] Sauvegardé : {fasta_filename}")