# TP Chapitre 13 : Dictionnaires, tuples et sets

In [16]:
import os
import sys
from urllib.request import urlretrieve

%load_ext autoreload
%autoreload 2

## Ex 13.6.1 : Composition en acides aminés

In [1]:
def get_occurence_aa(seq):
    aa_dict = {}
    for aa in seq:
        aa_dict[aa] = aa_dict.get(aa, 0) + 1
    return aa_dict


seq_aa = "AGWPSGGASAGLAILWGASAIMPGALW"
occurence_aa = get_occurence_aa(seq_aa)
print(occurence_aa)

{'A': 7, 'G': 6, 'W': 3, 'P': 2, 'S': 3, 'L': 3, 'I': 2, 'M': 1}


## Ex 13.6.2 : Mots de 2 et 3 lettres dans une séquence d'ADN

In [10]:
def compt_mot_2_lettres(seq):
    occur_mot_2_lettres = {}
    for i in range(len(seq)-1):
        mot = seq[i:i+2]
        occur_mot_2_lettres[mot] = occur_mot_2_lettres.get(mot, 0) + 1
    return occur_mot_2_lettres


def compt_mot_3_lettres(seq):
    occur_mot_3_lettres = {}
    for i in range(len(seq)-2):
        mot = seq[i:i+3]
        occur_mot_3_lettres[mot] = occur_mot_3_lettres.get(mot, 0) + 1
    return occur_mot_3_lettres


def affichage_mots_in_seq(mot_dict, nb_lettres):
    print(f"Mots de {nb_lettres} lettres")
    for mot, nb_mot in mot_dict.items():
        print(f"{mot} : {nb_mot:>3d}")
    return


seq_adn = "ACCTAGCCATGTAGAATCGCCTAGGCTTTAGCTAGCTCTAGCTAGCTG"
occur_mot_2_lettres = compt_mot_2_lettres(seq_adn)
occur_mot_3_lettres = compt_mot_3_lettres(seq_adn)

affichage_mots_in_seq(occur_mot_2_lettres, 2)
print("\n")
affichage_mots_in_seq(occur_mot_3_lettres, 3)

Mots de 2 lettres
AC :   1
CC :   3
CT :   8
TA :   7
AG :   7
GC :   7
CA :   1
AT :   2
TG :   2
GT :   1
GA :   1
AA :   1
TC :   2
CG :   1
GG :   1
TT :   2


Mots de 3 lettres
ACC :   1
CCT :   2
CTA :   5
TAG :   7
AGC :   5
GCC :   2
CCA :   1
CAT :   1
ATG :   1
TGT :   1
GTA :   1
AGA :   1
GAA :   1
AAT :   1
ATC :   1
TCG :   1
CGC :   1
AGG :   1
GGC :   1
GCT :   5
CTT :   1
TTT :   1
TTA :   1
CTC :   1
TCT :   1
CTG :   1


## Ex 13.6.3 : Mots de 2 lettres dans la séquence du chromosome $\mathrm{I}$ de _Saccharomyces cerevisiae_

In [17]:
# Téléchargement du fichier NC_001133.fna s'il n'est pas présent dans
# le répertoire courant.

if not os.path.isfile('NC_001133.fna'):
    print('Downloading the FASTA file for Saccharomyces cerevisiae...')
    try:
        urlretrieve("https://python.sdv.univ-paris-diderot.fr/data-files/"
                    "NC_001133.fna", "NC_001133.fna")
    except:
        print("Unable to download the file!")
    print('Done!')

Downloading the FASTA file for Saccharomyces cerevisiae...
Done!


In [20]:
def lit_fasta(name_file):
    if not os.path.exists(name_file):
        sys.exit(f"{name_file} don't exist")
    with open(name_file, "r") as filin:
        seq = ""
        for line in filin:
            if line.startswith(">"):
                continue
            seq += line.strip()
    return seq


seq_adn = lit_fasta("NC_001133.fna")
occur_mot = compt_mot_2_lettres(seq_adn)
affichage_mots_in_seq(occur_mot, 2)

Mots de 2 lettres
CC : 9215
CA : 15231
AC : 12491
AT : 19769
TC : 14015
CT : 13111
TA : 16183
AA : 23948
AG : 13628
GC : 8919
TG : 15622
GG : 9432
GT : 12940
TT : 24155
CG : 7084
GA : 14474


## Ex 13.6.4 : Mots de $n$ lettres dans un fichier FASTA

In [21]:
# Téléchargement du fichier NC_000913.fna s'il n'est pas présent dans
# le répertoire courant.

if not os.path.isfile('NC_000913.fna'):
    print('Downloading the FASTA file for Saccharomyces cerevisiae...')
    try:
        urlretrieve("https://python.sdv.univ-paris-diderot.fr/data-files/"
                    "NC_000913.fna", "NC_000913.fna")
    except:
        print("Unable to download the file!")
    print('Done!')

Downloading the FASTA file for Saccharomyces cerevisiae...
Done!


In [26]:
%%time
!python extract_words.py NC_001133.fna 2

Mots de 2 lettres
CC :  9215
CA : 15231
AC : 12491
AT : 19769
TC : 14015
CT : 13111
TA : 16183
AA : 23948
AG : 13628
GC :  8919
TG : 15622
GG :  9432
GT : 12940
TT : 24155
CG :  7084
GA : 14474
CPU times: user 5.16 ms, sys: 9.66 ms, total: 14.8 ms
Wall time: 246 ms


In [27]:
%%time
!python extract_words.py NC_001133.fna 2

Mots de 2 lettres
CC :  9215
CA : 15231
AC : 12491
AT : 19769
TC : 14015
CT : 13111
TA : 16183
AA : 23948
AG : 13628
GC :  8919
TG : 15622
GG :  9432
GT : 12940
TT : 24155
CG :  7084
GA : 14474
CPU times: user 4.64 ms, sys: 9.36 ms, total: 14 ms
Wall time: 238 ms
