# TME 4 : Mini-projet Detection de motifs

Nous allons développer des algorithmes pour chercher de motifs dans les données de ChipSeq de C. glabrata.
Pour commencer nous allons d'abord produire des données artificielles qui nous permettront de tester rapidement nos algorithmes. Ensuite nous allons chercher les motifs dans C. glabrata et analyser les résultats.

## Partie A : Recherche de pattern (motifs) identiques


1\. Faites une fonction pour générer aléatoirement des séquences artificielles, puis générer 10 séquences de 41 nucléotides chacune. Toutes les lettres peuvent être équiprobables pour la génération des séquences.

In [7]:
import random

nuc = ('A', 'C', 'G', 'T')

t=10 #nombre de sequences
n=41 #longueur des sequences



def generateRandomSequences(n, t):
    sequences = []
    i = 0
    j = 0
    while i < t:
        seq = ""
        while j < n:
            seq = seq+nuc[random.randint(0,3)]
            j += 1
        sequences.append(seq)
        i += 1
        j = 0
   
    return sequences
    
seqs = generateRandomSequences(n, t)

print (seqs)


['GTGACGTGTTACGATTTCTTTTGTTAGGCCTCACACCCGCG', 'TTCGGCTGCGTTAAATAGGATCATATGATCCCGTAGTGGCA', 'AGGATGGGTGTCTGTGCGTTATTATATGCACAGGTGGACGG', 'CTTCTGGTACTACGAGTTCGATCTCAAATATTCCAACTTTC', 'CATAGAGCAAATTCTCGAGATCACACTTTTAAGCTTAAATT', 'AATGCTTTCACCATTAAAACATTATGGTGGTATGGATTATG', 'CCTAGAAAAGTATTCGATATTGTAACCGTTACACTAACTGA', 'AGAATCGAGCTGTCTATGGATTCTAGGTTTCAAAGCAGTCC', 'TAGGTTTAAATCGCGCATGTTAAGGGGTCAGCAACTATCGG', 'TGGTCCAATCCCGTTTAATGCTAACTTTCCAACTTCACTGA']


2\. Nous allons maintenant implanter dans les séquences artificielles generés avant trois motifs (`nM`=3) de taille 9 (`k`=9) à des positions aléatoires (choisies uniformément le long de la séquence). On considère une proportion ``f``=0.9 de séquences qui possèdent le motif (attention `len(sequences)*f` doit être plus grand que `nM`).

In [8]:
# nombre de motifs nM = 3 
nM = 3 
# taille des motifs k = 9
k = 9 
# frequences des motifs f = .9 
f = .9 

import random

# Generate motifs
def generateMotifs(k, nM):
    return [generateRandomSequences(k, True) for rs in range(nM)]

motifs = generateMotifs(k, nM) 
print (motifs)

def implantMotifs(motifs, f, sequences):
    modified_sequences = []
    for seq in sequences :
        finalstring=seq
        if(random.random()<f):
            motif = random.choice(motifs)
            rand_pos = random.randint(0,len(seq))
            finalstring = finalstring[0:rand_pos] + motif[0] + finalstring[rand_pos+1:len(seq)]
        modified_sequences.append(finalstring)
    return modified_sequences

motif_implanted_seqs = implantMotifs(motifs, f, seqs)
print ("\nModified sequences:", motif_implanted_seqs)

[['TATATCAAA'], ['TATGCTCTA'], ['TTTTAAAAT']]

Modified sequences: ['GTGACGTGTTACGATTTCTTTTTATATCAAATTAGGCCTCACACCCGCG', 'TTCGGCTGCGTTATTTTAAAATATAGGATCATATGATCCCGTAGTGGCA', 'AGGATGGGTGTCTGTGCGTTATTATATATATCAAAGCACAGGTGGACGG', 'CTTCTGGTACTACGAGTTCGATCTCATATGCTCTAATATTCCAACTTTC', 'CATAGAGCAAATTCTCGAGATCACACTTTTAAGCTTATATCAAAAAATT', 'AATGTATATCAAATTTCACCATTAAAACATTATGGTGGTATGGATTATG', 'CCTAGAAAAGTATTCGATATATATCAAATGTAACCGTTACACTAACTGA', 'AGAATCGAGCTGTCTATGGATTATATCAAACTAGGTTTCAAAGCAGTCC', 'TAGGTTTAAATCGCTTTTAAAATCATGTTAAGGGGTCAGCAACTATCGG', 'TGGTCCAATCCCGTTTAATGCTAACTTATGCTCTATCCAACTTCACTGA']


3\. Faites une fonction pour chercher les $m$ motifs de taille $k$ les plus fréquents dans l'ensemble des séquences. Tester cette fonction sur l'ensemble des séquences avec le motif implanté génèré dans la question précédente. Faite aussi une fonction qu'affiche les N motifis les plus fréquents. 

In [9]:
import time
def searchMotifs(k, m, sequences):
    motifs  = {} #key = motif; value=nombre d'occurrence
    for seq in sequences:
        i = 0
        while (i + k) < len(seq):
            new_motif = seq[i:i+k]
            temoin = False #savoir si le motif est deja dans le dict ou pas
            if new_motif in motifs:
                motifs[new_motif] += 1
            else:
                motifs.update({new_motif : 1})
            i += 1
    
    #motifs plus frequents que le seuil f
    motifsfreq = {}
    for motif, valeur in motifs.items():
        if valeur >= m:
            motifsfreq.update({motif : valeur})
            
    return motifs

def printTopFMotifsFreq(motifs, n):

    motifsSort = sorted(motifs, reverse=True, key=motifs.get)
    i = 0
    while (i < n):
        print(motifsSort[i])
        i = i + 1
        

start = time.time()
motifsFound = searchMotifs(9, 2, motif_implanted_seqs)
end = time.time()
print(end-start)
printTopFMotifsFreq(motifsFound, 3)


0.0
TATATCAAA
TTATATCAA
ATATCAAAT


4\. Quell est la complexité de votre algorithme?

<font color='white'>
reponse : O(m * (len(seq) - k) * len(liste_seq))
</font>

5\. Certains motifs sont reverse complémentaires. Implanter des motifs reverse complémentaires dans les séquences déjà générés et en suite chercher ces motifs. Attention: vous devez réutiliser les fonctions développés précédemment, pas besoin de définir des nouvelles fonctions. 

In [10]:
def reversecompl(seq):
    """Renvoie le brin complémentaire d’une séquence."""
    compl = {'A': 'T', 'C': 'G', 'G': 'C', 'T':'A'}
    rev_comp_seq = []
    for a in seq:
        rev_comp_seq += compl.get(a)
    return "".join(reversed(rev_comp_seq))

motifs_revComp = []
for motif in motifs:
    motifs_revComp.append([reversecompl(motif[0])])

motif_revComp_implanted_seqs = implantMotifs(motifs_revComp, f, seqs)
motif_revCompFound = searchMotifs(9, 2, motif_revComp_implanted_seqs)

motifs_Found_revcomp = {}
for motif, value in motif_revCompFound.items():
    motifs_Found_revcomp.update({reversecompl(motif) : value})

print("Normal :")
printTopFMotifsFreq(motifsFound, 3)
print("\nRevComp :")
printTopFMotifsFreq(motifs_Found_revcomp, 3)






Normal :
TATATCAAA
TTATATCAA
ATATCAAAT

RevComp :
TATGCTCTA
ATATGCTCT
TATATGCTC



## Partie B : Recherche de motifs identiques sur vos données

1\. Le fichier "C_glabrata_1000bp_only.fasta" contiens les séquences régulatrices pour tous les gènes de C. glabrata. Nous avons pris les 1000bp en amont du codon start. Chercher les 50 motifs de taille 7 les plus fréquents dans les deux brim de votre génome. Measurer le temps de calcule de chaque operation.

In [11]:
import time

k=7
feq=10
top= 3
genome = "C_glabrata_1000bp_only.fasta"

def readFasta(genome):
    sequence = []
    file = open(genome, "r")
    sequence = []
    for s in file:
        if s[0] != ">":
            sequence.append(s.strip().upper())
    return sequence

sequence = readFasta(genome)

start = time.time()
motifs_Seq_brin1 = searchMotifs(k, feq, sequence)
end = time.time()
print("durée exec 1er brin = {}".format(end - start))


reverse_sequence = []
for seq in sequence:
    reverse_sequence.append(reversecompl(seq))

start = time.time()
motifs_Seq_brin2 = searchMotifs(k, feq, reverse_sequence)
end = time.time()
print("durée exec 2e brin = {}".format(end - start))

print("\nmotifs brin 1 :")
printTopFMotifsFreq(motifs_Seq_brin1, 3)
print("\nmotifs brin 2 :")
printTopFMotifsFreq(motifs_Seq_brin2, 3)



durée exec 1er brin = 1.781813144683838
durée exec 2e brin = 1.671292781829834

motifs brin 1 :
AAAAAAA
TTTTTTT
ATATATA

motifs brin 2 :
TTTTTTT
AAAAAAA
TATATAT


2\. Quel sont les trois motifs de taille 7 les plus frequents? Pensez vous que ces motifs correspondent à de facteur de transcription connus? Justifier votre reponse.

<font color='white'>
Reponse:
Les trois motifs les plus frequents sont AAAAAAA, TTTTTTT et ATATATA. Les facteurs de transcription sont des protéines qui régulent l’expression des gènes pour cela ils se fixent dans des séquences particulières de gènes dites régulatrices dont la complexité est plus élevé que des répétitions de A ou de T ou de AT qui ne sont pas trouvées dans ce type de régions.
    
</font>

3\. Le motif TGATTCAT correspond au facteur de transcription Gcn4 qui est trés souvent trouvé dans le genome de levures. Est-ce que vous avez trouvé ce motif? Si oui avec quel frequence?

In [12]:
motifGcn4 = ['TGATTCA']

# Nous l'avons trouvé avec les fréquences suivantes :

if motifGcn4[0] in motifs_Seq_brin1:
    print("nombre d'occurences de Gcn4 dans brin 1 :",motifs_Seq_brin1[motifGcn4[0]])

if motifGcn4[0] in motifs_Seq_brin2:
    print("nombre d'occurences de Gcn4 dans brin 2 :",motifs_Seq_brin2[motifGcn4[0]])



nombre d'occurences de Gcn4 dans brin 1 : 591
nombre d'occurences de Gcn4 dans brin 2 : 594


4\. Les motifs peu complexes (avec par exemple 5, 6 ou 7 fois la même lettre) sont courants dans les génomes, ils n'ont généralement pas de signification biologique. Dans le contexte de ce projet, vous pouvez eliminer aussi les motifs ayant deux lettre repetées, comme par exemple AGAGAGA. Faites une fonction pour éliminer les motifs peu complexes, _i. e._ qui ont au moins $m$ fois la même lettre ou qui ont deux lettre consecutive répétés. Dans quel position vous trouver Gcn4 apres avoir enlever les motifs peu complexes?</font>. 

In [13]:
from collections import Counter
m = 5

def removeLowComplexe(motifs, minrep):
    validMotif = {}
    for motif, value in motifs.items():
        frequence = Counter(motif)
        # temoin pour savoir si une lettre est repetee ou non
        temoin = True
        for lettre, value in frequence.items():
            if value >= minrep:
                temoin = False
        if temoin == True:
            validMotif.update({motif : value})
                
    return validMotif

def removeLowComplexePair(motifs):
    validMotif = {}
    for motif, value in motifs.items():
       frequence = Counter(motif)
       if len(frequence) > 2:
           validMotif.update({motif : value})

    return validMotif

motifs_brin1_lowComplexe = removeLowComplexe(motifs_Seq_brin1, m)
motifs_brin1 = removeLowComplexePair(motifs_brin1_lowComplexe)

motifs_brin2_lowComplexe = removeLowComplexe(motifs_Seq_brin2, m)
motifs_brin2 = removeLowComplexePair(motifs_brin2_lowComplexe)

print("motifs brin 1 :")
printTopFMotifsFreq(motifs_brin1, 3)
print("\nmotifs brin 2 :")
printTopFMotifsFreq(motifs_brin2, 3)


motifs brin 1 :
GATATTT
TCGAAAA
CGAAAAG

motifs brin 2 :
AGTTATT
CGAGAAA
ACCTTTT


5\. Le fichier "Sequence_by_Peaks_*.fasta" contiens les regions de peak trouvé par ChipSeq, qui contient probablement le Facteur de Transcription que nous cherchons. Apliquer les fonctions precedents pour chercher les 3 (ou plus) motifs les plus fréquents dans les deux brins. Il faut bien evidement enlever les motifs peu complexe.

In [15]:
#Tester plusieur valeurs de k à fin d'augmenter vos chances de trouvé le motif
k_val=8
feq_val=5
top= 3
m_val = 5

sequence_peaks = readFasta("Sequence_by_Peaks_6.fasta")
motifs_chipseq = searchMotifs(k_val, feq_val, sequence_peaks)
motifs_chipseq_lowComplexe = removeLowComplexe(motifs_chipseq, m_val)
motifs_chipseq_removed = removeLowComplexePair(motifs_chipseq_lowComplexe)

reverse_sequence_peaks = []
for seq in sequence_peaks:
    reverse_sequence_peaks.append(reversecompl(seq))
start = time.time()
motifs_chipseq_rev = searchMotifs(k_val, feq_val, reverse_sequence_peaks)
motifs_chipseq_lowComplexe_rev = removeLowComplexe(motifs_chipseq_rev, m_val)
motifs_chipseq_removed_rev = removeLowComplexePair(motifs_chipseq_lowComplexe_rev)
end = time.time()
print(end-start)

printTopFMotifsFreq(motifs_chipseq_removed, top)
print("\npeaks reversed\n")
printTopFMotifsFreq(motifs_chipseq_removed_rev, top)


0.0530085563659668
CTGGTGTG
AGTGTTAT
GTACACCC

peaks reversed

TTACTCCC
CTAGAGGG
CAGAGAGG


6\. Ulitser la base YEASTRACT : http://www.yeastract.com/formsearchbydnamotif.php pour chercher les motifs. 
Avez vous une indication pour le facteur de transcription impliqué ?
