# Propriedades da Proteína

## Estruturas Secundárias
Foi selecionado o organismo *Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2)* e como foram obtidos bastantes resultados possíveis, escolhemos a proteína com o identificador [6W37](http://www.rcsb.org/structure/6W37), pois era a única que cumpria com os requisitos de pertencer ao organismo pretendido.
Ao observar a representação 3D da proteína concluímos que a estrutura secundária desta é composta por folhas-beta.

In [1]:
from Bio.PDB import PDBList, PDBParser, MMCIFParser
import os
import nglview as nv

# reference vars
a = %pwd
wd = (a.rsplit('/',2))[0]
gene = "ORF7a"
seq_id = "MN908947.3"
prot_seq_id = "P0DTC7"
prot_pdb_id = "6W37"
prot_strucuture_file = os.path.join(wd,"data/structures/ORF7a",prot_pdb_id.lower()+".cif")



In [2]:
# retrive PDB file
pdbl = PDBList()
pdbl.retrieve_pdb_file(prot_pdb_id, pdir= prot_strucuture_file.rsplit("/",1)[0], overwrite=True)



Downloading PDB structure '6W37'...


'/home/dm/PycharmProjects/MBINF_LB_projeto/data/structures/ORF7a/6w37.cif'

In [3]:
# Parse File
parser = MMCIFParser()
structure = parser.get_structure(prot_pdb_id, prot_strucuture_file)

# 3d view the protein structure
view = nv.show_biopython(structure)
view

NGLWidget()

In [4]:
from Bio.PDB.MMCIF2Dict import MMCIF2Dict
import re

mmcif_dict = MMCIF2Dict(prot_strucuture_file)

structures = {}
for value in mmcif_dict.keys():
  if re.match('_struct_ref', value):
    value_type = value.split(".",1)[0]
    if value_type not in structures.keys():
        structures[value_type] = {}
    information = value.split(".",1)[1]
    if information in structures[value_type].keys():
        structures[value_type][information] = ", ".join([value[value_type][information], mmcif_dict[value]])
    else:
        structures[value_type][information] = mmcif_dict[value]

for value_type in structures.keys():
    print(value_type)
    for information in structures[value_type].keys():
        print(information, ":", structures[value_type][information])
    print("\n")

_struct_ref
id : ['1']
db_name : ['UNP']
db_code : ['NS7A_SARS2']
pdbx_db_accession : ['P0DTC7']
pdbx_db_isoform : ['?']
entity_id : ['1']
pdbx_seq_one_letter_code : ['ELYHYQECVRGTTVLLKEPCSSGTYEGNSPFHPLADNKFALTCFSTQFAFACPDGVKHVYQLRARSV']
pdbx_align_begin : ['16']


_struct_ref_seq
align_id : ['1']
ref_id : ['1']
pdbx_PDB_id_code : ['6W37']
pdbx_strand_id : ['A']
seq_align_beg : ['1']
pdbx_seq_align_beg_ins_code : ['?']
seq_align_end : ['67']
pdbx_seq_align_end_ins_code : ['?']
pdbx_db_accession : ['P0DTC7']
db_align_beg : ['16']
pdbx_db_align_beg_ins_code : ['?']
db_align_end : ['82']
pdbx_db_align_end_ins_code : ['?']
pdbx_auth_seq_align_beg : ['1']
pdbx_auth_seq_align_end : ['67']




Porém, depois de estudado o ficheiro PDB,quanto as seus aspetos estruturais, podemos observar uma anotação para a referência Uniprot já estudada. Esta coincide com a anotação da mesma para o dominio nas coordenadas [16:81]. Podemos então perceber a importância deste dominio que deverá ser aprufundada.

## Domínios da Proteína
Foi utilizada a ferramenta Phobius para prever os domínios que esta proteína possui. Verificámos, na previsão, a existência de um domínio peptídeo sinal, um domínio não citoplasmático, um domínio transmembranar e um domínio citoplasmático.

:::{figure,myclass}
![Figura 1 - Previsão dos diferentes domínios da proteína ORF7a](img/phobius_ORF7a.png)

Previsão dos diferentes domínios da proteína ORF7a.
:::

~~~
ID   sp|P0DTC7|NS7A_SARS2
FT   SIGNAL        1     15
FT   DOMAIN        1      2       N-REGION.
FT   DOMAIN        3     10       H-REGION.
FT   DOMAIN       11     15       C-REGION.
FT   DOMAIN       16     95       NON CYTOPLASMIC.
FT   TRANSMEM     96    116
FT   DOMAIN      117    121       CYTOPLASMIC.
~~~

O domínio [16:81], que começa a mostrar o seu potencial, apresenta-se segundo esta previsão como sendo extramembranar, sendo assim um potencial local de ligação, para a atuação da proteína.

Existe também concoordância da região transmembranar anotada e a prevista. Além disso ficamos a saber que as duas disulfide bond anotadas são extra celulares.

## Localização da Proteína
Utilizando a ferramenta Virus-mPLoc foi previsto que a localização desta proteína seja no retículo endoplasmático do hospedeiro.

## Locais de Glicosilação
Não encontrámos ferramentas que fizessem a previsão dos locais de glicosilação de uma forma fiável. A única ferramenta encontrada foi [HCV sequence database](https://hcv.lanl.gov/content/sequence/GLYCOSITE/glycosite.html) e visto que a ferramenta NetNGlyc 1.0 Server só pode ser utilizada em proteínas humanas, não é possível aplicar no gene ORF7a.

## Locais de Fosforilação
Não encontrámos ferramentas que fizessem a previsão dos locais de fosforilação e visto que a ferramenta NetPhos só dá para utilizar em organismos eucariontes ou em bactérias, não é possível aplicar no gene ORF7a.

## Locais Conservados