Nom Etudiant 1: SELLAHENNEDI Ménalie 
<br>
Nom Etudiant 2: CHEN Shyiao

# TME 4 : Projet Detection de motifs - Hash Table

Nous allons développer des algorithmes pour chercher de motifs dans les données de ChipSeq de C. glabrata.
Pour commencer nous allons d'abord produire des données artificielles qui nous permettront de tester rapidement nos algorithmes. Ensuite nous allons chercher les motifs dans C. glabrata et analyser les résultats.

## Partie A : Recherche de pattern (motifs) identiques


1\. Faites une fonction pour générer aléatoirement des séquences artificielles, puis générer t=10 séquences de n=41 nucléotides chacune. Toutes les lettres peuvent être équiprobables pour la génération des séquences.

In [1]:
import random
import math

nuc = ('A', 'C', 'G', 'T')

t=10 #nombre de sequences
n=41 #longueur des sequences

#Pour un simple teste
t=3 #nombre de sequences
n=10 #longueur des sequences

def generateRandomSequence(n:int, upper=False):
    """
    Genere une séquence nucléotidique aléatoire 
    entrée n : longueur de la sequence
    entrée upper : bool, si True les nucléotides seront minuscule, False majuscule
    sortie sequence : une séquence nucléotidique aléatoire 
    """
    sequence = ""
    for i in range(0,n):
        s=random.choice(nuc)
        if (upper):
            sequence=sequence+(s.lower())
        else:
            sequence=sequence+(s.upper())

    return sequence

def generateRandomSequences(n:int, t:int):
    """
    Genere plusieurs séquences nucléotidiques aléatoires 
    entrée n : longueur des sequences
    entrée t : nombre de sequences
    sortie sequences : liste de sequences nucléotidiques aléatoires 
    """
    sequences = []
    for i in range (0,t):
        sequences.append(generateRandomSequence(n,upper=False))
    return sequences
    
seqs = generateRandomSequences(n, t);

print (seqs)


['GTACAGAGTG', 'GTTTGTGCGA', 'AGTGGGAATC']


2\. Nous allons maintenant implanter dans les séquences artificielles generés avant un motif de taille `k`=9 à des positions aléatoires (choisies uniformément le long de la séquence). 
Bonus : on considère une proportion ``f``=0.9 de séquences qui possèdent le motif.

In [2]:
# taille des motifs k = 9
k = 3 
# frequences d'occurences des motifs f = 0.9 
f = 0.9 # Pour le bonnus


import random

def generateRandomSequence(n:int, upper=False):
    """
    Genere une séquence nucléotidique aléatoire 
    entrée n : longueur de la sequence
    entrée upper : bool, si True les nucléotides seront minuscule, False majuscule
    sortie sequence : une séquence nucléotidique aléatoire 
    """
    sequence = ""
    for i in range(0,n):
        s=random.choice(nuc)
        if (upper):
            sequence=sequence+(s.lower())
        else:
            sequence=sequence+(s.upper())

    return sequence

def implantMotifs(motifs:str,  sequences:list, f=1):
    """
    Insérer un motif dans des positions aléatoires des séquences
    entrée motifs : motif qui va être implanté dans les séquences
    entrée f : fréquence d'implantation si 1 toutes les sequences contiendra un motif
    entrée séquences : liste de sequences
    sortie modified_sequences: liste de séquences ayant le motif implanté
    """
    modified_sequences     = []
    
    for i in range(0,len(sequences)):
        #pos_insertion=[]
        #j=0
        #while j<=f:
            #pos_insertion.append(random.randint(0,len(sequences[i])))
                                 
        #for k in range(0,f):
             #sequences[i]=sequences[i][0:pos_insertion[k]+1]+motifs+sequences[i][pos_insertion[k]+1:]
        sequences[i]=insertMotif(sequences[i],motifs,random.randint(0,len(sequences[i])-1))      
        modified_sequences.append(sequences[i])         
                                 
    return modified_sequences

def insertMotif(sequence, motif, position):
    return sequence[:position] + motif + sequence[position:]

# Generate motifs
def generateMotifs(k, nM):
    return [generateRandomSequence(k, False) for rs in range(nM)]


motif = generateRandomSequence(3, False)
motif_implanted_seqs = implantMotifs(motif,  seqs, f)
print ("\nModified sequences:", motif_implanted_seqs)

  



Modified sequences: ['GTACAGAGTCTCG', 'GTTTGTGCTCCGA', 'AGTGGGACTCATC']


3\. Faites une fonction pour chercher les $m$ motifs de taille $k$ les plus fréquents dans l'ensemble des séquences. Tester cette fonction sur un l'ensemble de séquences avec le motif implanté génère dans les questions précédentes. Faite aussi une fonction qu'affiche les $top$ motifs les plus fréquents. 

In [3]:
def searchMotifs(k:int, sequences:list):
    """
    Cherche les motifs de taille k dans un ensemble de séquences
    entrée k : taille du motif
    entrée séquences : liste de sequences
    sortie motifs: dictionnaire de motifs, clé=motif, valeur = fréquence d'observation
    >>>searchMotifs(3, ['TAAGTAA', 'TATAA', 'CTATC'])
    {'TAA': 3, 'AAG': 1, 'AGT': 1, 'GTA': 1, 'TAT': 2, 'ATA': 1, 'CTA': 1, 'ATC': 1}
    """
    motifs  = {};
    for i in range (len(sequences)):
        seq=sequences[i]
        long=len(seq)
        for j in range (0, long-k+1):
            key=seq[j:j+k]
            motifs[key] = motifs[key] + 1 if key in motifs else 1     
    return motifs

def getTopMotifs(motifs:dict(), top:int):
    """
    renvoyer les top motifs le plus frequent
    entrée motifs: dictionnaire de motifs, clé=motif, valeur = fréquence d'observation
    entrée top : les top plus frequent 
    sortie motifsfreq: dictionnaire contenant les top motifs les plus fréquents, clé=motif, valeur = fréquence d'observation
    >>>getTopMotifs({'TAA': 3, 'AAG': 1, 'AGT': 1, 'GTA': 1, 'TAT': 2, 'ATA': 1, 'CTA': 1, 'ATC': 1}, 2)
    {'TAA': 3, 'TAT': 2}
    """
    motifsfreq  = {}
    keytrie=sorted(motifs, reverse=True, key=motifs.get)# la liste de key trie (décroissant) par rapport ses valeurs
    i=0
    for key in keytrie:
        if(i<top):
            motifsfreq[key] = motifs[key]    
        else:
            break
        i+=1
    return motifsfreq



motifsFound = searchMotifs(3, ['TAAGTAA', 'TATAA', 'CTATC'])
print (motifsFound)
#{'TAA': 3, 'AAG': 1, 'AGT': 1, 'GTA': 1, 'TAT': 2, 'ATA': 1, 'CTA': 1, 'ATC': 1}
topMotifs = getTopMotifs(motifsFound, 2)
print (topMotifs)
#{'TAA': 3, 'TAT': 2}

{'TAA': 3, 'AAG': 1, 'AGT': 1, 'GTA': 1, 'TAT': 2, 'ATA': 1, 'CTA': 1, 'ATC': 1}
{'TAA': 3, 'TAT': 2}


4\. Quell est la complexité de votre algorithme?

<font color='blue'>
Votre reponse
    - searchMotifs avec n=longueur des séquences et t=nombre de séquence :
   La compléxité de recherche de motifs pour une séquence est O((n-k +1)*(k))= O(n*k-k²+k)=O(n*k)
   Donc O(searchMotifs)=O(t*n*k)
</font>
<font color='blue'>
    -getTopMotifs :
    On suppose que la complexité de sorted() est len(motifs)^2 
    O(getTopMotifs)=O(len(motifs)²+top)
</font>

5\. Certains motifs sont reverse complémentaires. Implanter des motifs reverse complémentaires dans les séquences déjà générés et en suite chercher ces motifs. Attention: vous devez réutiliser les fonctions développés précédemment, pas besoin de définir des nouvelles fonctions. 

In [4]:
list_motif = generateRandomSequences(3, 2)  #liste de motifs où les reverses complémentaires sont à chercher
list_cmp_rev=[]
print('La liste des motifs:')
print(list_motif)
print('\nLa liste des séquences déjà générées:')
print(seqs)  
motif_rev_comp_implanted_seqs=seqs

def reversecompl(seq:str): #depuis TME1
    compl = {'A': 'T', 'C': 'G', 'G': 'C', 'T':'A'}
    l=list(seq)
    l.reverse()
    list_revcompl = [compl[base] for base in l]
    return "".join(list_revcompl)

    
for i in range (len(list_motif)):
    motif_rev_comp=reversecompl(list_motif[i]) #implémentation de motifs reverse complémentaires
    list_cmp_rev.append(motif_rev_comp) #collectés dans une liste
    #print(motif_rev_comp)
    motif_rev_comp_implanted_seqs=implantMotifs(motif_rev_comp, motif_rev_comp_implanted_seqs, f=1)#insertion de chaque motifs reverse compl dans la séquence de base
    #print(motif_rev_comp_implanted_seqs)

print("\nLes séquences avec nos motifs insérés aléatoirement:")
print(motif_rev_comp_implanted_seqs)

#recherche de motifs dans la séquence modifiée
print("\nOn relève les motifs reverse complémentaires avec les fréquences dans chacune des séquences:")
motifsFound = searchMotifs(3, motif_rev_comp_implanted_seqs)
print(motifsFound)


#comparaison des motifs trouvés avec les motifs reverse complémentaires générés en premier
motif_cherche={}
for key in motifsFound:
    if key in list_cmp_rev:
        motif_cherche[key]=motifsFound[key]
        #print(motif_cherche)

print("\n\nL'ensemble des motifs reverse complementaire retrouvés:")
print(motif_cherche)
#print(motifsFound)



       

La liste des motifs:
['AAC', 'TTC']

La liste des séquences déjà générées:
['GTACAGAGTCTCG', 'GTTTGTGCTCCGA', 'AGTGGGACTCATC']

Les séquences avec nos motifs insérés aléatoirement:
['GTGTTACAGAGTCTCGAAG', 'GTTTGTGTTGCTCCGAAGA', 'AGTTGGAATGGGACTCATC']

On relève les motifs reverse complémentaires avec les fréquences dans chacune des séquences:
{'GTG': 2, 'TGT': 3, 'GTT': 4, 'TTA': 1, 'TAC': 1, 'ACA': 1, 'CAG': 1, 'AGA': 2, 'GAG': 1, 'AGT': 2, 'GTC': 1, 'TCT': 1, 'CTC': 3, 'TCG': 1, 'CGA': 2, 'GAA': 3, 'AAG': 2, 'TTT': 1, 'TTG': 3, 'TGC': 1, 'GCT': 1, 'TCC': 1, 'CCG': 1, 'TGG': 2, 'GGA': 2, 'AAT': 1, 'ATG': 1, 'GGG': 1, 'GAC': 1, 'ACT': 1, 'TCA': 1, 'CAT': 1, 'ATC': 1}


L'ensemble des motifs reverse complementaire retrouvés:
{'GTT': 4, 'GAA': 3}



## Partie B : Recherche de motifs identiques sur vos données

1\. Le fichier "C_glabrata_1000bp_only.fasta" contiens les séquences régulatrices pour tous les gènes de votre organisme. Nous avons pris les 1000bp en amont du codon start. Chercher les 50 motifs de taille 7 les plus fréquents dans les deux brim de votre génome.

In [5]:
import time

k=7
feq=10
top= 50
genome = "C_glabrata_1000bp_only.fasta"



def readFasta(fastaFileName):
    """
    Read a fasta file
    entrée fastaFileName: nom du fichier fasta
    sortie sequences: liste contenant toutes les sequences du fichier
    """
    sequence = []
    file = open(genome, "r")
    sequence = []
    for s in file:
        if s[0] != ">":
            sequence.append(s.strip().upper())
    return sequence

sequences   = readFasta(genome)




motifsGenome=searchMotifs(7, sequences)
#print(motifsGenome)
topMotifs = getTopMotifs(motifsGenome, 50)
print(topMotifs)





{'AAAAAAA': 8385, 'TTTTTTT': 7658, 'ATATATA': 3096, 'ATTTTTT': 2970, 'AAAAAAT': 2960, 'TATATAT': 2796, 'AAAAATT': 2469, 'AATTTTT': 2457, 'GAAAAAA': 2417, 'AAAGAAA': 2417, 'AAAATTT': 2308, 'AAATTTT': 2305, 'TATTTTT': 2292, 'TTTTTTC': 2291, 'AAGAAAA': 2243, 'TATATAA': 2198, 'AAAAATA': 2188, 'TTTATTT': 2164, 'TTTCTTT': 2159, 'TGAAAAA': 2152, 'TTATTTT': 2134, 'TTTTATT': 2110, 'AAAAGAA': 2079, 'TTTTCTT': 2052, 'TTTTTCA': 1977, 'CAAAAAA': 1964, 'ATATAAA': 1946, 'AAAATAA': 1940, 'TTCTTTT': 1912, 'ATATATT': 1904, 'AATATAT': 1898, 'AATAAAA': 1889, 'AAATAAA': 1880, 'AGAAAAA': 1864, 'TTTTTAT': 1862, 'CTTTTTT': 1861, 'AAAAAAG': 1853, 'AATAATA': 1824, 'TTTTTTA': 1813, 'TTTTTTG': 1807, 'TTTTTCT': 1804, 'AAATATA': 1797, 'ATATTTT': 1781, 'ATAAAAA': 1780, 'TATATTT': 1771, 'TTATATA': 1734, 'TATTATT': 1729, 'AAAATAT': 1702, 'AAAAAGA': 1669, 'TAAAAAA': 1652}


2\. Quel sont les trois motifs de taille 7 les plus frequents? Pensez vous que ces motifs correspondent à de facteur de transcription connus? Justifier votre reponse.

<font color='blue'>
Les 3 motifs de taille 7 les plus fréquents sont 'AAAAAAA': 8385, 'TTTTTTT': 7658, 'ATATATA': 3096. Ces motifs correspondraient à des facteurs de transcriptions connus car comme ce sont les motifs les plus répandus dans le génôme ils permettraient donc la régulation directe des gènes.
</font>

3\. BONNUS: Le motif TGATTCAT correspond au facteur de transcription Gcn4 qui est trés suivant trouvé dans le genome de levures. Est-ce que vous avez trouvé ce motif? Si oui avec quel frequence?

In [6]:
motifGcn4 = ['TGATTCA']

def searchGivenMotif(motifsTrouve, motifSpecifique):
    """
    Cherche une liste de motifs specifiques dans un dictionaire de motifs trouvés
    entrée motifsTrouve : dictionnaire de motifs, clé=motif, valeur = fréquence d'observation
    entrée motifSpecifique: un motif specifique à chercher
    sortie frequence : la frenquence du motif
    sortie ranking : dans quelle position le motif a été trouvé
    """
    frquence=0; ranking=0
    for key in motifsTrouve:
        if (ranking==len(motifsTrouve)):
            rang=-1
        elif (key==motifSpecifique[0]):
            frequence=motifsTrouve[key]
            break
        ranking=ranking+1
    return frequence, ranking

 
print(searchGivenMotif(motifsGenome,motifGcn4))
print("Donc oui, la fréquence est donc de:")
print(motifsGenome[motifGcn4[0]])

(591, 4818)
Donc oui, la fréquence est donc de:
591


4\. Les motifs peu complexes (avec par exemple 5, 6 ou 7 fois la même lettre) sont courants dans les génomes, ils n'ont généralement pas de signification biologique. Dans le context de ce projet, vous pouvez eliminer aussi les motifis ayant deux lettre repetés, comme par exemple AGAGAGA. Faites une fonction pour éliminer les motifs peu complexes, _i. e._ qui ont au moins $m$ fois la même lettre ou qui ont deux lettre consecutive répétés. Dans quel position vous trouver Gcn4 apres enlever les motifs peu complexes?</font>. 

In [7]:
def removable(motif):
    """
    fonction définie en plus, retourne vrai si le motif peut être supprimé avec 2 critères:
    soit il dispose de 2 lettres consécutives qui se répètent
    soit il dispose d'une ou plusieurs lettres de fréquence de 5, 6 ou 7"""
    freq_lettre={}
    for i in range(0,len(motif)):
        if (i+3 < len(motif)):
            if motif[i]==motif[i+2] and motif[i+1]==motif[i+3]:
                return 1 
        freq_lettre[motif[i]] = freq_lettre[motif[i]] + 1 if motif[i] in freq_lettre else 1 

    return ((5 in freq_lettre.values()) or (6 in freq_lettre.values()) or (7 in freq_lettre.values()))

def removeLowComplexe(motifs):
    """
    Eleve les motifs peu complexe ayant 
    entrée motifs: dictionnaire de motifs, clé=motif, valeur = fréquence d'observation
    sortie motifsClean: dictionnaire de motifs sans les motifs peu complexe.
    """
    motifsClean = {}
    for key in motifs:
        if  removable(key)==0:
            motifsClean[key]=motifs[key]
    #motifsClean={key : motifs[key] for key in motifs if removable(key)==0}
    return motifsClean

removed=removeLowComplexe(motifsGenome)
#print(len(motifsGenome))
#print(len(removed))
print(searchGivenMotif(removed,motifGcn4))
print("Donc, oui la position a bien reculé, la nouvelle position de Gcn4 est:")
print(searchGivenMotif(removed,motifGcn4)[1])


(591, 3532)
Donc, oui la position a bien reculé, la nouvelle position de Gcn4 est:
3532


5\. Le fichier "Sequence_by_Peaks_G*.fasta" contiens les regions de peak trouvé par ChipSeq, qui contient probablement le Facteur de Transcription que nous cherchons. Apliquer les fonctions precedents pour chercher les 3 motifs les plus fréquents dans les deux brim. Il faut bien evidement enlever les motifs peu complexe.

In [8]:
k=8
feq=5
top= 30

genome = "Sequence_by_Peaks_8.fasta"

    ##lecture des séquences du fichier
sequences = readFasta(genome)


    ##recuperation des motifs de l'ensemble des séquences 
motifsGenome=searchMotifs(k, sequences)
#print(motifsGenome)
#print(len(motifsGenome))

    ##les 30 top motifs
topMotifs = getTopMotifs(motifsGenome, top)
#print(topMotifs)

    ##libère les motifs peu complexe
motifsGenome=removeLowComplexe(motifsGenome)
#print(motifsGenome)
#print(len(motifsGenome))

    ##les 30 top nouveaux motifs
topMotifs = getTopMotifs(motifsGenome, top)
#print(topMotifs)


print("\nLes 3 motifs les plus fréquents de ce fichier:")
print(getTopMotifs(motifsGenome, 3))



Les 3 motifs les plus fréquents de ce fichier:
{'GTACTTGT': 10, 'GTTCTAGT': 9, 'CTAGTTCT': 9}


6\. Ulitser la base YEASTRACT : http://www.yeastract.com/formsearchbydnamotif.php pour chercher les motifs. 
Avez vous une indication pour le facteur de transcription impliqué ?
