Nom Etudiant 1: 21106550
<br>
Nom Etudiant 2: 21241759

# TME 2 - 1 : Projet Detection de motifs - Hash Table

Nous allons développer des algorithmes pour chercher de motifs dans les données de ChipSeq de C. glabrata.
Pour commencer nous allons d'abord produire des données artificielles qui nous permettront de tester rapidement nos algorithmes. Ensuite nous allons chercher les motifs dans C. glabrata et analyser les résultats.

## Partie A : Recherche de pattern (motifs) identiques


1\. Faites une fonction pour générer aléatoirement des séquences artificielles, puis générer t=10 séquences de n=41 nucléotides chacune. Toutes les lettres peuvent être équiprobables pour la génération des séquences.

In [1]:
import random

nuc = ('A', 'C', 'G', 'T')

t=10 #nombre de sequences
n=41 #longueur des sequences

#Pour un simple teste
t=3 #nombre de sequences
n=8 #longueur des sequences

def generateRandomSequence(n:int, upper=False):
    """
    Genere une séquence nucléotidique aléatoire 
    entrée n : longueur de la sequence
    entrée upper : bool, si True les nucléotides seront minuscule, False majuscule
    sortie sequence : une séquence nucléotidique aléatoire 
    """
    sequence = "".join([random.choice(nuc) for _ in range(n)])
    if upper:
        return sequence
    return sequence.lower()

def generateRandomSequences(n:int, t:int):
    """
    Genere plusieurs séquences nucléotidiques aléatoires 
    entrée n : longueur des sequences
    entrée t : nombre de sequences
    sortie sequences : liste de sequences nucléotidiques aléatoires 
    """
    return [generateRandomSequence(n) for _ in range(t)]
    
seqs = generateRandomSequences(n, t)

print (seqs)


['gatggcac', 'acgtagac', 'cgtgtatg']


2\. Nous allons maintenant implanter dans les séquences artificielles generés avant un motif de taille `k`=9 à des positions aléatoires (choisies uniformément le long de la séquence). 
Bonus : on considère une proportion ``f``=0.9 de séquences qui possèdent le motif.

In [2]:
# taille des motifs k = 9
k = 3 
# frequences d'occurences des motifs f = 0.9 
f = 0.9 # Pour le bonnus

import random

def implantMotifs(motifs:str,  sequences:list, f=1):
    """
    Insérer un motif dans des positions aléatoires des séquences
    entrée motifs : motif qui va être implanté dans les séquences
    entrée f : fréquence d'implantation si 1 toutes les sequences contiendra un motif
    entrée séquences : liste de sequences
    sortie modified_sequences: liste de séquences ayant le motif implanté
    """
   
    modified_sequences = list()
    
    for i in sequences:
        if random.random() < f:
            pos = random.randint(0, len(i))
            modified_sequences.append(insertMotif(i, motifs, pos))
        else:
            modified_sequences.append(i)
        
    
    return modified_sequences

def insertMotif(sequence, motif, position):
    return sequence[:position] + motif + sequence[position:]

# Generate motifs
def generateMotifs(k, nM):
    return [generateRandomSequence(k, False) for rs in range(nM)]


motif = generateRandomSequence(3, True)

print(motif)
motif_implanted_seqs = implantMotifs(motif,  seqs, f)
print ("\nModified sequences:", motif_implanted_seqs)


AAC

Modified sequences: ['AACgatggcac', 'acgtagAACac', 'cgtAACgtatg']


3\. Faites une fonction pour chercher les $m$ motifs de taille $k$ les plus fréquents dans l'ensemble des séquences. Tester cette fonction sur un l'ensemble de séquences avec le motif implanté génère dans les questions précédentes. Faite aussi une fonction qu'affiche les $top$ motifs les plus fréquents. 

In [3]:
def searchMotifs(k:int, sequences:list):
    """
    Cherche les motifs de taille k dans un ensemble de séquences
    entrée k : taille du motif
    entrée séquences : liste de sequences
    sortie motifs: dictionnaire de motifs, clé=motif, valeur = fréquence d'observation
    >>>searchMotifs(3, ['TAAGTAA', 'TATAA', 'CTATC'])
    {'TAA': 3, 'AAG': 1, 'AGT': 1, 'GTA': 1, 'TAT': 2, 'ATA': 1, 'CTA': 1, 'ATC': 1}
    """
    motifs = dict()
    for seq in sequences:
        for i in range(0, len(seq) - k + 1):
            mot = "".join(seq[i:i+k]).upper()
            if mot not in motifs:
                motifs[mot] = 1
            else:
                motifs[mot] += 1
    return motifs

def getKeys(d:dict(), v:int):
    return [key for key in d if d[key]==v]

def getTopMotifs(motifs:dict(), top:int):
    """
    renvoyer les top motifs le plus frequent
    entrée motifs: dictionnaire de motifs, clé=motif, valeur = fréquence d'observation
    entrée top : les top plus frequent 
    sortie motifsfreq: dictionnaire contenant les top motifs les plus fréquents, clé=motif, valeur = fréquence d'observation
    >>>getTopMotifs({'TAA': 3, 'AAG': 1, 'AGT': 1, 'GTA': 1, 'TAT': 2, 'ATA': 1, 'CTA': 1, 'ATC': 1}, 2)
    {'TAA': 3, 'TAT': 2}
    """
    motifsfreq = dict()

    values_unique = []
    for val in motifs.values():
        if val not in values_unique:
            values_unique.append(val)
    sorted_values = sorted(values_unique, reverse=True)

    counter = 0
    for val in sorted_values:
        for key in getKeys(motifs, val):
            if counter < top:
                motifsfreq[key] = val
                counter += 1
            else:
                break
    return motifsfreq

motifsFound = searchMotifs(3, ['TAAGTAA', 'TATAA', 'CTATC'])
print (motifsFound)
#{'TAA': 3, 'AAG': 1, 'AGT': 1, 'GTA': 1, 'TAT': 2, 'ATA': 1, 'CTA': 1, 'ATC': 1}
topMotifs = getTopMotifs(motifsFound, 2)
print (topMotifs)
#{'TAA': 3, 'TAT': 2}

{'TAA': 3, 'AAG': 1, 'AGT': 1, 'GTA': 1, 'TAT': 2, 'ATA': 1, 'CTA': 1, 'ATC': 1}
{'TAA': 3, 'TAT': 2}


4\. Quelle est la complexité de votre algorithme?

<font color='blue'>
Votre reponse
</font>

5\. Certains motifs sont reverse complémentaires. Implanter des motifs reverse complémentaires dans les séquences déjà générés et en suite chercher ces motifs. Attention: vous devez réutiliser les fonctions développés précédemment, pas besoin de définir des nouvelles fonctions. 

In [4]:
import tme1_orfs as tme1

def implantComplimentsReverse(motifs:str,  sequences:list, f=1):
   
    modified_sequences = list()
    motif_comprev = tme1.reversecompl(motifs)
    for i in sequences:
        if random.random() < f:
            pos = random.randint(0, len(i))
            modified_sequences.append(insertMotif(i, motif_comprev, pos))
        else:
            modified_sequences.append(i)
        
    
    return modified_sequences

motif = generateRandomSequence(3, True)

print(motif)
motif_implanted_seqs = implantComplimentsReverse(motif,  seqs, f)
motif_implanted_seqs

GGT


['gatACCggcac', 'acgACCtagac', 'cgtgtaACCtg']

In [5]:
tme1.reversecompl("ATGATG")

'CATCAT'


## Partie B : Recherche de motifs identiques sur vos données

1\. Le fichier "C_glabrata_1000bp_only.fasta" contiens les séquences régulatrices pour tous les gènes de votre organisme. Nous avons pris les 1000bp en amont du codon start. Chercher les 50 motifs de taille 7 les plus fréquents dans les deux brim de votre génome.

In [6]:
import time

k=7
feq=10
top= 50
genome = "C_glabrata_1000bp_only.fasta"


def readFasta(fastaFileName):
    """
    Read a fasta file
    entrée fastaFileName: nom du fichier fasta
    sortie sequences: liste contenant toutes les sequences du fichier
    """
    sequence = []
    file = open(genome, "r")
    sequence = []
    for s in file:
        if s[0] != ">":
            sequence.append(s.strip().upper())
    return sequence

sequences = readFasta(genome)
motifs_found = searchMotifs(7, sequences)
getTopMotifs(motifs_found, 50)

{'AAAAAAA': 8385,
 'TTTTTTT': 7658,
 'ATATATA': 3096,
 'ATTTTTT': 2970,
 'AAAAAAT': 2960,
 'TATATAT': 2796,
 'AAAAATT': 2469,
 'AATTTTT': 2457,
 'GAAAAAA': 2417,
 'AAAGAAA': 2417,
 'AAAATTT': 2308,
 'AAATTTT': 2305,
 'TATTTTT': 2292,
 'TTTTTTC': 2291,
 'AAGAAAA': 2243,
 'TATATAA': 2198,
 'AAAAATA': 2188,
 'TTTATTT': 2164,
 'TTTCTTT': 2159,
 'TGAAAAA': 2152,
 'TTATTTT': 2134,
 'TTTTATT': 2110,
 'AAAAGAA': 2079,
 'TTTTCTT': 2052,
 'TTTTTCA': 1977,
 'CAAAAAA': 1964,
 'ATATAAA': 1946,
 'AAAATAA': 1940,
 'TTCTTTT': 1912,
 'ATATATT': 1904,
 'AATATAT': 1898,
 'AATAAAA': 1889,
 'AAATAAA': 1880,
 'AGAAAAA': 1864,
 'TTTTTAT': 1862,
 'CTTTTTT': 1861,
 'AAAAAAG': 1853,
 'AATAATA': 1824,
 'TTTTTTA': 1813,
 'TTTTTTG': 1807,
 'TTTTTCT': 1804,
 'AAATATA': 1797,
 'ATATTTT': 1781,
 'ATAAAAA': 1780,
 'TATATTT': 1771,
 'TTATATA': 1734,
 'TATTATT': 1729,
 'AAAATAT': 1702,
 'AAAAAGA': 1669,
 'TAAAAAA': 1652}

2\. Quel sont les trois motifs de taille 7 les plus frequents? Pensez vous que ces motifs correspondent à de facteur de transcription connus? Justifier votre reponse.

Réponse:

In [45]:
motifs_found = searchMotifs(7, sequences)
getTopMotifs(motifs_found, 3)

{'AAAAAAA': 8385, 'TTTTTTT': 7658, 'ATATATA': 3096}

Non, les motifs trouvés ne sont probablement pas des motifs de facteurs de transcription connus, étant donné qu'ils sont tous des motifs très peu complexes (soit 7 fois le même nucléotide, soit deux nucléotides répétés). Ce genre de motif est statistiquement beaucoup plus fréquent dans le génome que les 'vrais' motifs qui nous intéressent. C'est pour ca qu'il fallait mieux ignorer/enlever les motifs peu complexes dans notre récherche de motifs.

3\. BONUS: Le motif TGATTCAT correspond au facteur de transcription Gcn4 qui est trés suivant trouvé dans le genome de levures. Est-ce que vous avez trouvé ce motif? Si oui avec quel frequence?

In [50]:
motifGcn4 = 'TGATTCA'

def searchGivenMotif(motifsTrouve, motifSpecifique):
    """
    Cherche une liste de motifs specifiques dans un dictionaire de motifs trouvés
    entrée motifsTrouve : dictionnaire de motifs, clé=motif, valeur = fréquence d'observation
    entrée motifSpecifique: un motif specifique à chercher
    sortie frequence : la frenquence du motif
    sortie ranking : dans quelle position le motif a été trouvé
    """
    if motifSpecifique not in motifsTrouve:
        return (0, len(motifsTrouve) + 1)
    
    frequence = motifsTrouve[motifSpecifique]
    bigger = 0

    for motif, freq in motifsTrouve.items():
        if motif != motifSpecifique:
            if freq > frequence:
                bigger += 1
    return (frequence, bigger + 1)

In [55]:
print(len(motifs_found))
searchGivenMotif(motifs_found, motifGcn4)

16384


(591, 1814)

**Réponse :** On trouve le motif Gcn4 à la 1814e position (sur 16.384) dans notre dictionnaire, on l'a trouvé 591 fois dans notre échantillon d'ADN.

4\. Les motifs peu complexes (avec par exemple 5, 6 ou 7 fois la même lettre) sont courants dans les génomes, ils n'ont généralement pas de signification biologique. Dans le context de ce projet, vous pouvez eliminer aussi les motifis ayant deux lettre repetés, comme par exemple AGAGAGA. Faites une fonction pour éliminer les motifs peu complexes, _i. e._ qui ont au moins $m$ fois la même lettre ou qui ont deux lettre consecutive répétés. Dans quel position vous trouver Gcn4 apres enlever les motifs peu complexes?</font>. 

In [17]:
from itertools import product

def removeLowComplexe(motifs, size):
    """
    Eleve les motifs peu complexe ayant 
    entrée motifs: dictionnaire de motifs, clé=motif, valeur = fréquence d'observation
    sortie motifsClean: dictionnaire de motifs sans les motifs peu complexe.
    """
    motifsClean = {}
    twoLetterCombs = ["".join(tup) for tup in list(product(["A", "T", "G", "C"], repeat=2))]
    for key, value in motifs.items():
        motif = key.upper()
        if motif.count("A") > size or motif.count("T") > size or motif.count("G") > size or motif.count("C") > size:
            continue
        if True in [x*3 in motif for x in twoLetterCombs]:
            continue
        motifsClean[motif] = value
        
    return motifsClean


In [56]:
motifs_peu_complexe = removeLowComplexe(motifs_found, 4)
print(len(motifs_peu_complexe))
searchGivenMotif(motifs_peu_complexe, motifGcn4)

15456


(591, 1379)

**Réponse :** Après avoir enlevé les motifs peu complexes, on trouve le motif Gcn4 à la 1379e position sur 15.456 motifs totals

5\. Le fichier "Sequence_by_Peaks_G*.fasta" contiens les regions de peak trouvé par ChipSeq, qui contient probablement le Facteur de Transcription que nous cherchons. Apliquer les fonctions precedents pour chercher les 3 motifs les plus fréquents dans les deux brim. Il faut bien evidement enlever les motifs peu complexe.

In [57]:
k=8
feq=5
top= 30

motifs_found = searchMotifs(8, readFasta("Sequence_by_Peaks_3.fasta"))
print(len(motifs_found))
print(motifs_found)
motifs_found = removeLowComplexe(motifs_found, 4)
print(len(motifs_found))
getTopMotifs(motifs_found, 3)

65534
{'CAAACTGG': 106, 'AAACTGGC': 96, 'AACTGGCA': 103, 'ACTGGCAC': 86, 'CTGGCACA': 63, 'TGGCACAG': 100, 'GGCACAGA': 88, 'GCACAGAG': 142, 'CACAGAGA': 231, 'ACAGAGAC': 145, 'CAGAGACT': 106, 'AGAGACTT': 139, 'GAGACTTG': 90, 'AGACTTGG': 81, 'GACTTGGT': 96, 'ACTTGGTC': 91, 'CTTGGTCC': 62, 'TTGGTCCG': 34, 'TGGTCCGT': 28, 'GGTCCGTG': 10, 'GTCCGTGT': 20, 'TCCGTGTC': 26, 'CCGTGTCT': 35, 'CGTGTCTG': 36, 'GTGTCTGT': 130, 'TGTCTGTG': 186, 'GTCTGTGA': 71, 'TCTGTGAG': 93, 'CTGTGAGA': 72, 'TGTGAGAA': 103, 'GTGAGAAC': 62, 'TGAGAACA': 116, 'GAGAACAT': 103, 'AGAACATC': 130, 'GAACATCC': 81, 'AACATCCC': 77, 'ACATCCCA': 121, 'CATCCCAA': 103, 'ATCCCAAT': 148, 'TCCCAATT': 161, 'CCCAATTG': 139, 'CCAATTGT': 183, 'CAATTGTC': 134, 'AATTGTCC': 91, 'ATTGTCCT': 121, 'TTGTCCTA': 76, 'TGTCCTAT': 66, 'GTCCTATG': 33, 'TCCTATGT': 58, 'CCTATGTG': 41, 'CTATGTGG': 56, 'TATGTGGT': 98, 'ATGTGGTA': 110, 'TGTGGTAA': 114, 'GTGGTAAC': 69, 'TGGTAACA': 100, 'GGTAACAA': 113, 'GTAACAAG': 105, 'TAACAAGG': 85, 'AACAAGGT': 106, 'ACAA

{'AAAATTTT': 990, 'GCGATGAG': 891, 'CTCATCGC': 878}

6\. Ulitser la base YEASTRACT : http://www.yeastract.com/formsearchbydnamotif.php pour chercher les motifs. 
Avez vous une indication pour le facteur de transcription impliqué ?
