# TP Chapitre 10 : Plus sur les chaines de caractères

In [1]:
import os
import sys
from urllib.request import urlretrieve

%load_ext autoreload
%autoreload 2

## Ex 10.8.1 : Parcours d'une liste de chaine de caractère

In [2]:
animaux = ['girafe', 'tigre', 'singe', 'souris']
for animal in animaux:
    print(f"{animal} {len(animal)} caractères")

girafe 6 caractères
tigre 5 caractères
singe 5 caractères
souris 6 caractères


## Ex 10.8.2 : Lecture d'une séquence à partir d'un fichier FASTA

In [3]:
# Téléchargement du fichier UBI4_SCerevisiae.fasta s'il n'est pas présent dans
# le répertoire courant.

if not os.path.isfile('UBI4_SCerevisiae.fasta'):
    print('Downloading the FASTA file for Saccharomyces cerevisiae...')
    try:
        urlretrieve("https://python.sdv.univ-paris-diderot.fr/data-files/"
                    "UBI4_SCerevisiae.fasta", "UBI4_SCerevisiae.fasta")
    except:
        print("Unable to download the file!")
    print('Done!')

In [4]:
def lit_fasta(file_name):
    if not os.path.exists(file_name):
        sys.exit(f"{file_name} does not exist.")
    seq = ""
    with open(file_name, "r") as filin:
        for line in filin:
            if line.startswith(">"):
                continue
            seq += line.strip()
    return seq


file_name = "UBI4_SCerevisiae.fasta"
seq = lit_fasta(file_name)
print(file_name)
print(f"La séquence contient {len(seq)}")
if len(seq) % 3 == 0:
    print("La longueur de la séquence est un multiple de 3 nucléotides")
else:
    print("La longueur de la séquence n'est pas un multiple de 3 nucléotides")
print(f"La séquence possède {int(len(seq)/3)} codons")
print(f"10 premières bases : {seq[:11]}")
print(f"10 dernières bases : {seq[-11:]}")

UBI4_SCerevisiae.fasta
La séquence contient 1146
La longueur de la séquence est un multiple de 3 nucléotides
La séquence possède 382 codons
10 premières bases : ATGCAGATTTT
10 dernières bases : GTGGTAACTGA


## Ex 10.8.3 : Fréquences des bases dans une séquence d'ADN

In [5]:
seq = "ATATACGGATCGGCTGTTGCCTGCGTAGTAGCGT"
bases = ["A", "C", "T", "G"]
for base in bases:
    print(f"fréquence {base} : {(seq.count(base)/len(seq))*100:.2f}")

fréquence A : 17.65
fréquence C : 20.59
fréquence T : 29.41
fréquence G : 32.35


## 10.8.4 : Convertion des acides aminés du code trois lettres au code une lettre

In [6]:
code_aa = {"ALA" : "A",
           "ARG" : "R",
           "ASN" : "N",
           "ASP" : "D",
           "CYS" : "C",
           "GLU" : "E",
           "GLN" : "Q",
           "GLY" : "G",
           "HIT" : "H",
           "ILE" : "I",
           "LEU" : "L",
           "LYS" : "K",
           "MET" : "M",
           "PHE" : "F",
           "PRO" : "P",
           "SER" : "S",
           "THR" : "T",
           "TYR" : "Y",
           "TRP" : "W",
           "VAL" : "V"}
seq = "ALA GLY GLU ARG TRP TYR SER GLY ALA TRP"

def convert_3_lettres_1_lettre(seq):
    seq_1_lettre = []
    seq = seq.split()
    for aa in seq:
        seq_1_lettre.append(code_aa[aa])
    return "".join(seq_1_lettre)


seq_1_lettre = convert_3_lettres_1_lettre(seq)
print(seq_1_lettre)

AGERWYSGAW


## Ex 10.8.5 : Distance de Hamming

In [7]:
def dist_hamming(seq_a, seq_b):
    count = 0
    if len(seq_a) != len(seq_b):
        print("Les deux sequence ne sont pas de même longueur")
    for i in range(len(seq_a)):
        if seq_a[i] != seq_b[i]:
            count += 1
    return count

print(dist_hamming("AGWPSGGASAGLAIL" ,"IGWPSAGASAGLWIL"))
print(dist_hamming("ATTCATACGTTACGATT", "ATACTTACGTAACCATT"))

3
4


## Ex 10.8.6 : Palindrome

In [8]:
def test_palindrome(chaine):
    chaine2 = chaine.lower()
    chaine2 = chaine2.replace(" ", "")
    reverse_string = chaine2[::-1]
    flag = 0
    for i in range(len(chaine2)):
        if chaine2[i] != reverse_string[i]:
            flag = 1
            break
    if flag != 0:
        print(f"{chaine} n'est pas un palindrome")
    else:
        print(f"{chaine} est un palindrome")

In [9]:
test_palindrome("ressasser")
test_palindrome("engage le jeu que je le gagne")
print("\n")
test_palindrome("radar")
test_palindrome("never odd or even")
test_palindrome("karine alla en Iran")
test_palindrome("un roc si biscornu")

ressasser est un palindrome
engage le jeu que je le gagne est un palindrome


radar est un palindrome
never odd or even est un palindrome
karine alla en Iran n'est pas un palindrome
un roc si biscornu est un palindrome


## Ex 10.8.7 : Mot composable

In [10]:
def test_composable(mot, seq_lettres):
    mot2 = mot.lower()
    seq_lettres2 = seq_lettres.lower()
    set_lettres = set(mot2)
    flag = 0
    for lettre in set_lettres:
        if mot2.count(lettre) > seq_lettres2.count(lettre):
            flag = 1
            break
        else:
            continue
    if flag != 0:
        print(f"Le mot {mot} n'est pas composable à partir de {seq_lettres}")
    else:
        print(f"Le mot {mot} est composable à partir de {seq_lettres}")

In [11]:
test_composable("python", "aophrtkny")
test_composable("python", "aeiouyhpq")
test_composable("coucou", "uocuoceokzezh")
test_composable("fonction", "nhwfnitvkloco")

Le mot python est composable à partir de aophrtkny
Le mot python n'est pas composable à partir de aeiouyhpq
Le mot coucou est composable à partir de uocuoceokzezh
Le mot fonction est composable à partir de nhwfnitvkloco


## Ex 10.8.8 : Alphabet et pangramme

In [12]:
def get_alphabet():
    alphabet = ""
    for i in range(97, 123):
        alphabet += chr(i)
    return alphabet


def pangramme(phrase):
    alphabet = get_alphabet()
    tmp_phrase = phrase.replace(" ", "")
    tmp_phrase = tmp_phrase.lower()
    set_phrase = set(tmp_phrase)
    if len(set_phrase) != len(alphabet):
        print(f"{phrase} n'est pas un pangramme")
    else:
        print(f"{phrase} est un pangramme")

In [71]:
def get_alphabet():
    alphabet = ""
    for i in range(97, 123):
        alphabet += chr(i)
    return alphabet


def pangramme(phrase):
    phrase2 = phrase.replace(" ", "")
    phrase2 = phrase2.lower()
    phrase2 = set(phrase2)
    phrase2 = "".join(phrase2)
    alphabet = get_alphabet()
    print(alphabet)
    print("".join(sorted(phrase2)))
    if len(phrase2) != len(alphabet):
        print(f"{phrase} n'est pas un pangramme")
    else:
        print(f"{phrase} est un pangramme")

In [13]:
pangramme("Portez ce vieux whisky au juge blond qui fume")
pangramme("Monsieur Jack vous dactylographiez bien mieux que votre ami Wolf")
pangramme("Buvez de ce whisky que le patron juge fameux")

Portez ce vieux whisky au juge blond qui fume est un pangramme
Monsieur Jack vous dactylographiez bien mieux que votre ami Wolf est un pangramme
Buvez de ce whisky que le patron juge fameux est un pangramme


## Ex 10.8.9 : Lecture d'une séquence à partir d'un fichier GenBank

In [15]:
# Téléchargement du fichier NC_001133.gbk s'il n'est pas présent dans
# le répertoire courant.

if not os.path.isfile('NC_001133.gbk'):
    print('Downloading the GenBank file for Saccharomyces cerevisiae...')
    try:
        urlretrieve("https://python.sdv.univ-paris-diderot.fr/data-files/"
                    "NC_001133.gbk", "NC_001133.gbk")
    except:
        print("Unable to download the file!")
    print('Done!')

In [16]:
def lit_genbank(file_name):
    if not os.path.exists(file_name):
        sys.exit(f"{file_name} don't exist")
    flag = False
    seq = ""
    with open(file_name, "r") as filin:
        for line in filin:
            if line.startswith("//"):
                flag = False
            elif flag == True:
                line = line.split()
                seq += line[1] + line[2] + line[3] + line[4] + line[5] + line[6]
            elif line.startswith("ORIGIN"):
                flag = True
            
    return seq


file_name = "NC_001133.gbk"
seq = lit_genbank(file_name)

print(file_name)
print(f"La séquence contient {len(seq)}")
print(f"10 premières bases : {seq[:11]}")
print(f"10 dernières bases : {seq[-11:]}")

NC_001133.gbk
La séquence contient 230218
10 premières bases : ccacaccacac
10 dernières bases : gtgtgtgtggg


## Ex 10.8.10 : Affichage des carbones alpha d'un structure de protéine

In [17]:
# Téléchargement du fichier 1BTA.pdb s'il n'est pas présent dans
# le répertoire courant.

if not os.path.isfile('1BTA.pdb'):
    print('Downloading the PDB file for barstar protein...')
    try:
        urlretrieve("https://files.rcsb.org/download/1BTA.pdb", "1BTA.pdb")
    except:
        print("Unable to download the file!")
    print('Done!')

In [18]:
def trouve_calpha(file_name):
    if not os.path.exists(file_name):
        sys.exit(f"{file_name} don't exist")
    c_alpha = []
    with open(file_name, "r") as filin:
        for line in filin:
            if line.startswith("ATOM") and line[13:15] == "CA":
                    c_alpha.append(line)
    return c_alpha


list_calpha = trouve_calpha("1BTA.pdb")
for i in range(2):
    print(list_calpha[i])
                

ATOM      2  CA  LYS A   1      -7.542   5.187   9.163  1.00  0.52           C  

ATOM     26  CA  LYS A   2      -3.813   5.485   8.490  1.00  0.44           C  



In [19]:
len(list_calpha)

89

## Ex 10.8.11 : Calcul des distences entre les carbones alpha consécutifs d'une structure de protéine

In [20]:
def calcule_distance(list_c_alpha):
    for i in range(1, len(list_c_alpha)):
        atom1 = list_c_alpha[i-1][30:54].split()
        atom2 = list_c_alpha[i][30:54].split()
        dist = ((float(atom2[0]) - float(atom1[0]))**2 \
                 + (float(atom2[1]) - float(atom1[1]))**2 \
                 + (float(atom2[2]) - float(atom1[2]))**2)**(1/2)
        print(f"{i:>3d} {(i+1):>3d} {dist:.2f}")
    return

calcule_distance(trouve_calpha("1BTA.pdb"))

  1   2 3.80
  2   3 3.80
  3   4 3.83
  4   5 3.82
  5   6 3.81
  6   7 3.83
  7   8 3.82
  8   9 3.82
  9  10 3.83
 10  11 3.80
 11  12 3.82
 12  13 3.81
 13  14 3.81
 14  15 3.81
 15  16 3.81
 16  17 3.80
 17  18 3.80
 18  19 3.80
 19  20 3.81
 20  21 3.80
 21  22 3.81
 22  23 3.80
 23  24 3.80
 24  25 3.82
 25  26 3.82
 26  27 3.81
 27  28 3.82
 28  29 3.82
 29  30 3.84
 30  31 3.84
 31  32 3.85
 32  33 3.85
 33  34 3.82
 34  35 3.80
 35  36 3.81
 36  37 3.78
 37  38 3.77
 38  39 3.77
 39  40 3.80
 40  41 3.83
 41  42 3.82
 42  43 3.83
 43  44 3.82
 44  45 3.81
 45  46 3.82
 46  47 3.81
 47  48 2.87
 48  49 3.83
 49  50 3.80
 50  51 3.81
 51  52 3.79
 52  53 3.79
 53  54 3.81
 54  55 3.82
 55  56 3.82
 56  57 3.83
 57  58 3.81
 58  59 3.82
 59  60 3.81
 60  61 3.82
 61  62 3.84
 62  63 3.81
 63  64 3.84
 64  65 3.82
 65  66 3.82
 66  67 3.83
 67  68 3.81
 68  69 3.84
 69  70 3.82
 70  71 3.80
 71  72 3.81
 72  73 3.78
 73  74 3.83
 74  75 3.82
 75  76 3.79
 76  77 3.79
 77  78 3.80

## Ex10.8.12 : Compteur de gène dans un fichier GenBank

In [21]:
def compteur_gene(file_name):
    if not os.path.exists(file_name):
        sys.exit(f"{file_name} don't exist")
    with open(file_name) as filin:
        nb_gene = 0
        for line in filin:
            line = line.strip()
            if line.startswith("gene  "):
                if "complement" in line:
                    nb_gene += 1
                    tmp_line = line.replace("complement", "").replace("gene", "").strip()
                    tmp_line = tmp_line.replace("<", "").replace(">", "")
                    debut, fin = tmp_line.replace("(", "").replace(")", "").split("..")
                    debut, fin = int(debut), int(fin)
                    nb_bases = fin - debut
                    brin = "complémentaire"
                    print(f"gène {nb_gene:>3d} {brin:<14s} -> {nb_bases:>5d} bases")
                else:
                    nb_gene += 1
                    tmp_line = line.replace("gene", "").strip()
                    tmp_line = tmp_line.replace("<", "").replace(">", "")
                    debut, fin = tmp_line.split("..")
                    debut, fin = int(debut), int(fin)
                    nb_bases = fin - debut
                    brin = "direct"
                    print(f"gène {nb_gene:>3d} {brin:<14s} -> {nb_bases:>5d} bases")
    return


compteur_gene("NC_001133.gbk")

gène   1 complémentaire ->   362 bases
gène   2 direct         ->   227 bases
gène   3 complémentaire ->  1781 bases
gène   4 complémentaire ->   386 bases
gène   5 direct         ->   380 bases
gène   6 complémentaire ->   380 bases
gène   7 direct         ->   284 bases
gène   8 complémentaire ->   290 bases
gène   9 complémentaire ->  3968 bases
gène  10 direct         ->  1373 bases
gène  11 direct         ->  1253 bases
gène  12 direct         ->  1148 bases
gène  13 direct         ->   638 bases
gène  14 direct         ->  1508 bases
gène  15 direct         ->  2642 bases
gène  16 direct         ->   542 bases
gène  17 complémentaire ->  2141 bases
gène  18 direct         ->  2351 bases
gène  19 direct         ->  3143 bases
gène  20 complémentaire ->   740 bases
gène  21 complémentaire ->  1988 bases
gène  22 complémentaire ->  1868 bases
gène  23 complémentaire ->   356 bases
gène  24 direct         ->   332 bases
gène  25 complémentaire ->   512 bases
gène  26 complémentaire -