# Mini	projet	3	:	Prédiction	de	la	structure	secondaire	avec	GOR

***

**PAQUET Michael (000410753) BA-INFO**

# Introduction

Dans le milieu biologique, les protéines peuvent être représentées sous différentes structures en fonction de nos besoins.
Celles-ci sont connues sont le nom de structure primaire resprésentant les protéines sous forme de chaine d'acides aminés, structure secondaire représentant la protéine sous forme d'α-hélices, de β-brins et de coils. Il existe également les structures tertiaires et quaternaire, mais elles ne feront pas l'objet de cette étude-ci.

Afin d'obtenir diverses informations sur une protéine donnée, il est intéressant d'en connaitre sa structure secondaire. C'est pourquoi nous allons parler de methodes nous permettant de prédire cette structure avec un taux d'exactitude relativement élevé. 

Au cours de ce projet-ci, l'algorithme de GOR III a été choisi afin de répondre à notre problématique. Celui-ci permet théoriquement d'avoir un taux d'exactitude nommé Q3 de 63%. Nous allons donc implémenter GOR III, et sur base de données, allons obtenir des résultats dont nous pourrons finalement discuter. 

Voici brièvement comment fonctionne GOR III :
sur base d'un jeu de donnée, l'algorithme créera un modèle constitué d'informations individuelles et d'informations par pair.
- Les informations individuelles sont des propensions représentant "la chaince qu'un acide aminé R soit de structure S".
- Les informations par pair indiquent le nombre de fois qu'on a croisé un acide aminé Y dans le voisinage de R. 

Ainsi, lorsque nous parcourrons une protéine donnée, nous ferons appel à notre modèle calculé précédemment afin d'en prédire la structure secondaire. 

# Implémentation

## Parsing des données

Avant de commencer à réfléchir sur la façon d'implémenter GOR III, il nous faut tout d'abord collecter de façon intélligente les informations dont nous disposons dans un jeu de donnée. Ce jeu de donnée est composé de 3713 protéines. 3000 d'entre elles serviront à construire notre modèle, tandis que les 713 autres seront soumis à notre algorithme. Afin de simplifier cette collection de donnée, les identifiants de chacune des protéines seront listées dans un fichier texte nommé "CATH_info". D'autre part, dans un autre dossier nommé "dssp", un fichier texte par protéine dont le nom en est l'identifiant sera présent. 

Au cours du parsing des données, nous allons donc parcourir CATH_info, et pour chaque identifiant nous parcourrons le fichier de la protéine lié à cet identifiant pour en retirer les informations nous étant utiles. 

In [12]:
def parsing(myFile):
    myfile = open(myFile, "r")
    for line in myfile:
        current = line.replace("\n", "").split(" ")
        ID = current[0][0:4] #ID de la protéine à parser
        chaine = current[0][4] #Chaine à regarder uniquement
        dsspFile = "dataset/dssp/" + ID + ".dssp"
        parsingDSSP(dsspFile, chaine)

__Parsing :__

A noter que dans CATH_info, deux informations sont présentes mais seule la première nous intéresse. 
L'information que nous collectons est composé de l'ID de la protéine, ainsi que la chaine à regarder. En effet, il existe des doublons, c'est pourquoi le fichier nous donne en plus de l'ID la chaine à regarder pour chaque protéine. 
Nous pouvons donc finalement parser le fichiers des protéines.

In [13]:
def parsingDSSP(myFile, chaine):
    myfile = open(myFile, "r")
    parsedFile = open("data.txt", "a")
    cList = ['p', 'q', 'n', 'd', 'l', 'e', 'b', 'f', 'o', 'c', 'k', 'r', 'a', 'm', 'h', 'j', 'g', 'i']
    dic = {"H" : "H", "G" : "H", "I" : "H", "E" : "E", "B" : "E", "T" : "C", "C" : "C", "S" : "C", " ": "C"}
    notAA = ["X", "B", "Z"]
    sequence = ""
    structure = ""
    reading = False
    parsedFile.write("> identifier|protein name|organism\n")
    for line in myfile:
        if line[0:3] == "  #":
            reading = True
        elif reading:
            if line[11] == chaine:
                AA = line[13]
                if AA in cList:
                    AA = "C"
                if AA not in notAA:
                    sequence += AA
                    structure += dic[line[16]]
    parsedFile.write(sequence)
    parsedFile.write("\n")
    parsedFile.write(structure)
    parsedFile.write("\n")

__parsingDSSP :__

Maintenant qu'on est en sein de notre fichier protéine, il nous faut collecter les informations pertinentes. 
Dans ce fichier, les données sont structurée de cette façon : 
- __Numéro de l'AA - Résidu - AA - Structure__, où "-" représente un espace. 

D'autres informations sont également présentes, mais sont inutiles dans le cadre de notre projet. Seuls l'acide aminé et sa structure nous intéressent ici.

A noter que les lettres minuscules sencés représenter un AA seront remplacées par une Cystéine, ce à quoi sert __cList__.
__dico__ nous permet d'associer la structure collectée aux 3 structures principales. En effet, les fichiers présentent plusieurs structures secondaires mais seuls les hélices, les brins et les coils nous intéressent ici. 
Enfin, __notAA__ nous permet de ne pas prendre en compte certaine lettres ne représentant pas un AA. 

Tous ces objets nous permettent au final de collecter l'AA et sa structure secondaire associée, afin de les garder dans un fichier nommé "data.txt". Ce fichier sera construit comme tel : pour chaque acide aminé : 
- \> identifiant
- chaine d'AA
- structures secondaires associées à chaque AA

Voici à titre d'exemple une illustration de ce que donne le fichier "data.txt" pour la première protéine listée dans CATH_info. 

In [19]:
def main():
    try:
        open("data.txt", "r")
        print("Les données sont déjà collectées\n")
    except:
        print("Parsing des données en cours")
        myFile = "dataset/CATH_info.txt"
        parsing(myFile)
    printedFile = open("data.txt", "r")
    i = 0
    for line in printedFile:
        print(line, end = "")
        i+= 1
        if i == 3:
            break
            
main()

Les données sont déjà collectées

> identifier|protein name|organism
RTDCYGNVNRIDTTGASCKTAKPEGLSYCGVSASKKIAERDLQAMDRYKTIIKKVGEKLCVEPAVIAGIISRESHAGKVLKNGWGDRGNGFGLMQVDKRSHKPQGTWNGEVHITQGTTILINFIKTIQKKFPSWTKDQQLKGGISAYNAGAGNVRSYARMDIGTTHDDYANDVVARAQYYKQHGY
CCCCCCCHHHCCCCCECHHHHHHHCCCCCEHHHHHHHHHHCHHHHHCCHHHHHHHHHHHCCCHHHHHHHHHHHHCCCCCCECCECCCCCEECCCCEECCCCCCCCCCCCHHHHHHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHCHHHCCCCCCCCCCCHHHCHHHHHHHHHHHHHHCCC


## GOR III

Maintenant que nous avons collecté toutes les données nécessaires à la construction de notre modèle, il est temps de réfléchir à l'implémentation de GOR III.

Nous en avons parlé plus tôt, GOR III se base sur deux informations : information individuelle et par pair.

__Informations individuelles :__

Afin d'avoir les propenstions individuelles, nous parcourrons notre fichier "data" et pour chaque protéine, nous allons compter le nombre de fois qu'un acide aminé __R__ est de structure __S__.

__Informations par pair :__

Lors du même parcours que celui des informations individuelles, un parcours du voisinage de l'acide aminé __R__ est effectué. La fenêtre que nous parcourrons sera d'une taille 16 sans compter __R__.

$$\cdot \cdot[ \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot R \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot]\cdot \cdot$$

Ainsi, si nous croisons l'acide aminé __Y__ lors du parcours de la fenêtre de __R__, et que __R__ est de structure __S__ :

$$\cdot \cdot[ Y \cdot \cdot \cdot \cdot \cdot \cdot \cdot R \cdot \cdot \cdot \cdot \cdot \cdot \cdot \cdot]\cdot \cdot$$

Alors on incrémente un compteur qui nous informe qu'__Y__ a été rencontré dans le voisinage de __R__ avec une structure __S__. Cette opération est itérée pour chaque acide aminé dans la fenêtre de __R__.

In [30]:
from math import log10, sqrt
from statistics import mean

NBV = 16

def readData(myFile):
    myfile = open(myFile, "r")
    structList = ["H", "C", "E"]
    acidList = "ARDNCEQGHILKMFPSTWYV"
    struct_count = {"H" : 0, "C" : 0, "E" : 0}
    affiliate = {}
    voisins = {}
    for S in structList:
        voisins[S] = {}
        for AA in acidList:
            voisins[S][AA] = {}
            for AA2 in acidList:
                voisins[S][AA][AA2] = 0
    for R in acidList:
        affiliate[R] = {"H" : 0, "C" : 0, "E" : 0}
        
    i = 0
    struct = ""
    chaine = ""
    for line in myfile:
        if i == 9002:
            break
        line = line.replace("\n", "")
        if i%3 == 1:
            chaine = line
        elif i%3 == 2:
            struct = line
        else:
            if chaine != "":
                for j in range(len(chaine)-1):
                    struct_count[struct[j]] += 1
                    affiliate[chaine[j]][struct[j]] += 1
                    for k in range(-8, 9):
                        if j+k >= 0 and j+k <= len(chaine)-1 and k!= 0:
                            voisins[struct[j]][chaine[j]][chaine[j+k]] += 1

            chaine = ""
            struct = ""
        i +=1
    myfile.close()
    return affiliate, voisins, struct_count

__readData :__

Afin de créer nos compteur, il a été choisi de construire des dictionnaires. Ainsi, __voisin__ contiendra nos compteur pour les informations par pair et __affiliate__ les compteurs pour les informations individuelles. 

__Exemple d'execution :__ Executons notre code et regardons par exemple combien de fois une Cystéine est en hélice et combien de fois le couple Cystéine-Alanine apparaissent comme étant en brin.

In [32]:
indi, voisin, struct = readData("data.txt")
print("L'acide aminé C est vu", indi["C"]["H"], "fois étant une hélice.")
print("Le couple C-A est vu", voisin["C"]["A"]["E"], "fois avec C étant un brin")

L'acide aminé C est vu 2640 fois étant une hélice.
Le couple C-A est vu 14887 fois avec C étant un brin


__Propensions :__

Une fois les parcours terminés et nos compteurs à jour, ils nous faut calculer la propension à partir de ceux-ci. Voici la formule mathématique nous le permettant : 

- Probabilité qu'un acide aminé R adopte la structure S :
$$I(\Delta S; R) = I(S; R) - I(n-S; R) = \log{\frac{f_{S, R}}{f_{n-S, R}}} + \log{\frac{f_{n-S}}{f_{S}}}$$

avec __Fs__ la fréquence de la structure, __Fs,r__ la fréquence de l'acide aminé __R__ dans la structure __S__ et __n-S__ les autres structures que __S__.


- Probabilité qu'un couple d'acide aminé Rj et Rj+m apparaissent avec pour structure S:
$$I(\Delta S_{j}; R_{j+m}|R_{j}) = \log{\frac{f_{S_{j}, R_{j+m}, R_{j}}}{f_{n-S_{j}, R_{j+m}, R_{j}}}} + \log{\frac{f_{n-S_{j}, R_{j}}}{f_{S_{j}, R_{j}}}}$$

avec __Fsj,rj+m,rj__ la fréquence d'observation de __Rj+m__ et __Rj__ dans une structure __S__ pour -8 <= __m__ <= 8 et __m__ != 0.

In [41]:
def propension(indi, voisins, struct):
    affiliate = indi
    voisins = voisins
    struct_count = struct
    structList = ["H", "C", "E"]
    acidList = "ARDNCEQGHILKMFPSTWYV"
    probaVoisins = {}
    individuel = {}
    for S in structList:
        probaVoisins[S] = {}
        for AA in acidList:
            probaVoisins[S][AA] = {}
            for AA2 in acidList:
                probaVoisins[S][AA][AA2] = {}
                
    for R in acidList:
        individuel[R] = {"H" : 0, "C" : 0, "E" : 0}
    
    for R in acidList:
        for S in range(len(structList)):
            fsr  = float(affiliate[R][structList[S]])
            fnsr = float(affiliate[R][structList[(S+1)%3]] + affiliate[R][structList[(S+2)%3]])
            fns  = float(struct_count[structList[(S+1)%3]] + struct_count[structList[(S+2)%3]])
            fs   = float(struct_count[structList[S]])
            if fnsr != 0 and fs != 0 and fsr != 0 and fns != 0:
                individuel[R][structList[S]] = log10(fsr/fnsr) + log10(fns/fs)


    for S in structList:
        for AA in acidList:
            for AA2 in acidList:
                fsr  = float(voisins[S][AA][AA2])
                if S == "H":
                    fnsr = float(voisins["E"][AA][AA2] + voisins["C"][AA][AA2])
                    fns  = float(affiliate[AA]["E"] + affiliate[AA]["C"])
                elif S == "C":
                    fnsr = float(voisins["E"][AA][AA2] + voisins["H"][AA][AA2])
                    fns  = float(affiliate[AA]["E"] + affiliate[AA]["H"])
                elif S == "E":
                    fnsr = float(voisins["H"][AA][AA2] + voisins["C"][AA][AA2])
                    fns  = float(affiliate[AA]["H"] + affiliate[AA]["C"])
                fs   = float(affiliate[AA][S])
                if fnsr != 0 and fs != 0 and fsr != 0 and fns != 0:
                    probaVoisins[S][AA][AA2] = log10(fsr/fnsr) + log10(fns/fs)
                    
    return individuel, probaVoisins

In [43]:
I, probaVoisins = propension(indi, voisin, struct)
print(I["A"]["H"])

0.27030196937788364


## Q3 et MCC

Maintenant que nous avons notre modèle, nous allons pouvoir parcourir nos 713 protéines de test et essayer de prédire leur structure secondaire. En faisant cette prédiction, nous allons calculer Q3 et MCC pour avoir une estimation de l'exactitude de notre prédiction. 

In [48]:
def values(indi, voisins):
    individuel = indi
    probaVoisins = voisins
    structList = ["H", "C", "E"]
    acidList = "ARDNCEQGHILKMFPSTWYV"
    myfile = open("data.txt", "r")
    i = 0
    Q3 = []
    TP = 0
    FP = 0
    TN = 0
    FN = 0
    chaine = ""
    struct = ""
    for line in myfile:
        if i >= 9002:
            line = line.replace("\n", "")
            if i%3 == 1:
                chaine = line
            elif i % 3 == 2:
                struct = line
            else:
                if chaine != "":
                    nice = 0
                    for j in range(len(chaine)):
                        structValues = []
                        for S in structList:
                            val = individuel[chaine[j]][S]
                            for k in range(-8, 9):
                                if j+k >= 0 and j+k <= len(chaine)-1 and k!= 0:
                                    val += probaVoisins[S][chaine[j]][chaine[j+k]]
                            structValues.append(val)

                        myGuess = structList[structValues.index(max(structValues))]
                        if myGuess == struct[j]:
                            nice += 1
                            if struct[j] == "H":
                                TP += 1
                            elif struct[j] == "E" or struct[j] == "C":
                                TN += 1
                        else:
                            if myGuess == "H" and (struct[j] == "E" or struct[j] == "C"):
                                FN += 1
                            elif (myGuess == "C" or myGuess == "E") and struct[j] == "H":
                                FP += 1
                            elif (myGuess == "C" and struct[j] == "E") or (myGuess == "E" and struct[j] == "C"):
                                TN += 1

                    Q3.append(nice/len(chaine))
                chaine = ""
                struct = ""
        i += 1

    print(mean(Q3))
    MCC = (TP*TN - FP*FN) / sqrt((TP+FP)*(TP+FN)*(TN*FP)*(TN+FN))
    print(MCC)

In [49]:
values(I, probaVoisins)

0.5237119420743639
0.0023684202003151737


# Résultats

# Observation & discussion

# Conclusion