# Identificação de *Motifs*

In [6]:
import docker, os

a = %pwd
wd = (a.rsplit('/',2))[0]

GENE = "BST2"
BLAST_Results_ncbi=os.path.join("homologue", GENE, "NM_004335_BST2.fasta")
BLAST_Results_uniprot=os.path.join("homologue", GENE, "B20210131216DA2B77BFBD2E6699CA9B6D1C41EB200F810O.fasta")
REF=os.path.join("reference", GENE, "BST2_prot.fasta")
D_MEME='quay.io/biocontainers/meme:5.3.0--py37pl526h072abfd_0'

WORK_HOST_DIRECTORY=wd
WORK_CONT_DIRECTORY='/opt/project'

In [2]:
client = docker.from_env()
bwa_docker_cont = client.containers.run(
    image=D_MEME,
    volumes={WORK_HOST_DIRECTORY: {'bind': WORK_CONT_DIRECTORY,'mode': 'rw'}},
    working_dir= WORK_CONT_DIRECTORY+'/data/motif/',
    entrypoint="bash",
    command='{0}/scripts_bash/meme.sh {1} {2} {3} {4}'.format(WORK_CONT_DIRECTORY, BLAST_Results_ncbi, BLAST_Results_uniprot, REF, GENE))

In [7]:
from Bio import motifs

with open(os.path.join(wd, "data/motif", GENE, "meme/meme.xml")) as file:
    meme_record = motifs.parse(file, "MEME")

for motif in meme_record:
    print(motif.id, ":" ,motif.name, motif.num_occurrences)

motif_1 : YFAVKANSEACRDGLRAQEECRNTTHLLQRQLTRAQDSLLQAEAQANSCN 4
motif_2 : MAPSFYHYLPVPMD 4
motif_3 : LENEVEKLNQELENLRTQKEASTTVQVNSGGSMVVSSLLVLVVPLFLLF 3
motif_4 : MWGPQGWGTRRQW 3
motif_5 : KFYYFS 2


A utilização do MEME para anotação *de novo* resultou em 5 potências motif, apesar disto elas não são constantes 

:::{figure,myclass}
![Figura 1 - NJ BST2](img/weblogo_BST2.png)

Weblogos dos motifs anotados *de novo*
:::

:::{figure,myclass}
![Figura 1 - NJ BST2](img/meme_loc_BST2.png)

Localização dos motifs anotados *de novo*
:::

Com estes motifs mais uma vez coincidem locais identificados anteriormente, por exemplo o dominio [16:81], que sendo uma estrutura tridimensional, pode ser composta por ambos estes motifs de estrutura secundária.

In [8]:
from scripts_python.vcf_gff import gff2rec

motif_in_ref = gff2rec(os.path.join(wd,"data/motif", GENE, "fimo/fimo.gff"))
for seq in motif_in_ref:
    for feature in seq.features:
        print(feature)

type: sequence_motif
location: [42:92](+)
id: YFAVKANSEACRDGLRAQEECRNTTHLLQRQLTRAQDSLLQAEAQANSCN-MEME-1-1-NP_004326.1
qualifiers:
    Key: Alias, Value: ['MEME-1']
    Key: ID, Value: ['YFAVKANSEACRDGLRAQEECRNTTHLLQRQLTRAQDSLLQAEAQANSCN-MEME-1-1-NP_004326.1']
    Key: Name, Value: ['YFAVKANSEACRDGLRAQEECRNTTHLLQRQLTRAQDSLLQAEAQANSCN_NP_004326.1+']
    Key: pvalue, Value: ['4.79e-51']
    Key: qvalue, Value: ['6.17e-49']
    Key: score, Value: ['503']
    Key: sequence, Value: ['IFTIKANSEACRDGLRAVMECRNVTHLLQQELTEAQKGFQDVEAQAATCN']
    Key: source, Value: ['fimo']

type: sequence_motif
location: [0:14](+)
id: MAPSFYHYLPVPMD-MEME-2-1-NP_004326.1
qualifiers:
    Key: Alias, Value: ['MEME-2']
    Key: ID, Value: ['MAPSFYHYLPVPMD-MEME-2-1-NP_004326.1']
    Key: Name, Value: ['MAPSFYHYLPVPMD_NP_004326.1+']
    Key: pvalue, Value: ['8.48e-18']
    Key: qvalue, Value: ['1.34e-15']
    Key: score, Value: ['171']
    Key: sequence, Value: ['MASTSYDYCRVPME']
    Key: source, Value: ['fimo']

type:

Correndo o FIMO sobre a sequência de referência, podemos observar então ver em detalhe a localização e as propriedades destes motifs.

Finalmente corremos o MAST contra as sequências resultantes do BLAST do NCBI (nr/nt). Isto permitiu verificar a conservação deste motifs nas diversas sequências.


:::{figure,myclass}
![Figura 1 - NJ BST2](img/mast_loc_BST2.png)

Exemplo das localização dos motifs anotados num segundo subset de sequências homólogas.
:::