# Propriedades da Proteína

## Obtenção da Sequência
Foi utilizado o *site* do [Ensembl](https://www.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000130303;r=19:17402939-17405648), para obter a hiperligação para o UniProt, [Q10589-1](https://www.uniprot.org/uniprot/Q10589-1).
Foi feito o download em formato FASTA da isoforma Q10589-1, que é considerada a sequência canónica.

## Estruturas Secundárias
Foi selecionado o organismo *Homo sapiens* e como foram obtidos bastantes resultados possíveis, escolhemos a proteína com o identificador [3NWH](http://www.rcsb.org/structure/3NWH), pois era a única que cumpria com os requisitos de pertencer ao organismo pretendido. Também existiam sequências parecidas, mas estas eram de ectodomínios.
Ao observar a representação 3D da proteína concluímos que a estrutura secundária desta é composta por alfa-hélices.

In [1]:
from Bio.PDB import PDBList, PDBParser, MMCIFParser
import os
import nglview as nv

# reference vars
a = %pwd
wd = (a.rsplit('/',2))[0]
gene = "BST2"
seq_id = "NM_004335"
prot_seq_id = "Q10589"
prot_pdb_id = "3MQ7"
prot_strucuture_file = os.path.join(wd,"data/structures", gene,prot_pdb_id.lower()+".cif")



In [2]:
# retrive PDB file
pdbl = PDBList()
pdbl.retrieve_pdb_file(prot_pdb_id, pdir= prot_strucuture_file.rsplit("/",1)[0], overwrite=True)



Downloading PDB structure '3MQ7'...


'/home/dm/PycharmProjects/MBINF_LB_projeto/data/structures/BST2/3mq7.cif'

In [3]:
# Parse File
parser = MMCIFParser()
structure = parser.get_structure(prot_pdb_id, prot_strucuture_file)

# 3d view the protein structure
view = nv.show_biopython(structure)
view



NGLWidget()

In [4]:
from Bio.PDB.MMCIF2Dict import MMCIF2Dict
import re

mmcif_dict = MMCIF2Dict(prot_strucuture_file)

structures = {}
for value in mmcif_dict.keys():
  if re.match('_struct_ref', value):
    value_type = value.split(".",1)[0]
    if value_type not in structures.keys():
        structures[value_type] = {}
    information = value.split(".",1)[1]
    if information in structures[value_type].keys():
        structures[value_type][information] = ", ".join([value[value_type][information], mmcif_dict[value]])
    else:
        structures[value_type][information] = mmcif_dict[value]

for value_type in structures.keys():
    print(value_type)
    for information in structures[value_type].keys():
        print(information, ":", structures[value_type][information])
    print("\n")

_struct_ref
id : ['1']
db_name : ['UNP']
db_code : ['BST2_HUMAN']
pdbx_db_accession : ['Q10589']
entity_id : ['1']
pdbx_seq_one_letter_code : ['KANSEACRDGLRAVMECRNVTHLLQQELTEAQKGFQDVEAQAATCNHTVMALMASLDAEKAQGQKKVEELEGEITTLNHK\nLQDASAEVERLRRENQVLSVRIADKKYYPSSQDSS']
pdbx_align_begin : ['47']
pdbx_db_isoform : ['?']


_struct_ref_seq
align_id : ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12']
ref_id : ['1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1']
pdbx_PDB_id_code : ['3MQ7', '3MQ7', '3MQ7', '3MQ7', '3MQ7', '3MQ7', '3MQ7', '3MQ7', '3MQ7', '3MQ7', '3MQ7', '3MQ7']
pdbx_strand_id : ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L']
seq_align_beg : ['7', '7', '7', '7', '7', '7', '7', '7', '7', '7', '7', '7']
pdbx_seq_align_beg_ins_code : ['?', '?', '?', '?', '?', '?', '?', '?', '?', '?', '?', '?']
seq_align_end : ['121', '121', '121', '121', '121', '121', '121', '121', '121', '121', '121', '121']
pdbx_seq_align_end_ins_code : ['?', '?', '?', '?', '?', '?',

Podemos observar que o ficheiro PDB com maior número de subunidades modeladas, têm as mesmas de forma disjunta. Este defeito, leva à complicação da análise das funções ou atividades das mesmas.

Dentro da localização destas subunidades, que são todas iguais, encontra-se também o que é uma anotação do ficheiro uniprot para existência de um estrutura em helix [51:148], enquanto no PDB esta começa e acaba ligeiramente mais cedo e mais tarde [47:161].


## Domínios da Proteína
Foi utilizada a ferramenta Phobius para prever os domínios que esta proteína possui. Verificámos, na previsão, a existência de um domínio citoplasmático, um domínio transmembranar e um domínio não citoplasmático.

:::{figure,myclass}
![Figura 1 - Previsão dos diferentes domínios da proteína BST2.](img/phobius_BST2.png)

Previsão dos diferentes domínios da proteína BST2.
:::

~~~
ID   sp|Q10589|BST2_HUMAN
FT   DOMAIN        1     21       CYTOPLASMIC.
FT   TRANSMEM     22     44
FT   DOMAIN       45    180       NON CYTOPLASMIC.
//

~~~

## Localização da Proteína
Utilizando a ferramenta Hum-mPLoc 2.0 foi previsto que a localização desta proteína é no núcleo.

## Locais de Glicosilação
Os locais de glicosilação foram previstos usando a ferramenta NetNGlyc 1.0 Server.

~~~
Name:  sp_Q10589_BST2_HUMAN 	Length:  180
MASTSYDYCRVPMEDGDKRCKLLLGIGILVLLIIVILGVPLIIFTIKANSEACRDGLRAVMECRNVTHLLQQELTEAQKG      80
FQDVEAQAATCNHTVMALMASLDAEKAQGQKKVEELEGEITTLNHKLQDASAEVERLRRENQVLSVRIADKKYYPSSQDS     160
SSAAAPQLLIVLLGLSALLQ
................................................................N...............      80
...........N....................................................................     160
....................                                                                 240

(Threshold=0.5)
----------------------------------------------------------------------
SeqName      Position  Potential   Jury    N-Glyc
				 agreement result
----------------------------------------------------------------------
sp_Q10589_BST2_HUMAN   65 NVTH   0.6629     (9/9)   ++
sp_Q10589_BST2_HUMAN   92 NHTV   0.5464     (7/9)   +
----------------------------------------------------------------------

~~~
:::{figure,myclass}
![Figura 2 - Previsão dos locais de glicosilação da proteína BST2.](img/NetGlyc_BST2.gif)

Previsão dos locais de glicosilação da proteína BST2.
:::

## Locais de Fosforilação

Utilizamos a ferramenta NetPhos 3.1 para prever o local fosforilação da serina, treonina ou tirosina em proteínas de organismos eucariotas.

~~~
    SPQXSTHXMANXXNEMARRXWSTRXMALANTIGENXSHXMXSAPIENSXX   #     50
    GNXSTPESVMASTSYDYCRVPMEDGDKRCKLLLGIGILVLLIIVILGVPL   #    100
    IIFTIKANSEACRDGLRAVMECRNVTHLLQQELTEAQKGFQDVEAQAATC   #    150
    NHTVMALMASLDAEKAQGQKKVEELEGEITTLNHKLQDASAEVERLRREN   #    200
    QVLSVRIADKKYYPSSQDSSSAAAPQLLIVLLGLSALLQ              #    250
%1  S....................ST...........................   #     50
%1  ...ST..S....T...Y.................................   #    100
%1  ...T....S........................T................   #    150
%1  .......................................S..........   #    200
%1  ...S........Y.SS..SSS.............S....

~~~

:::{figure,myclass}
![Figura 3 - Previsão dos locais de fosforilação da proteína BST2.](img/netphos_BST2.gif)

Previsão dos locais de fosforilação da proteína BST2.
:::

## Locais Conservados¶

CDC - source: pfam
NO CDD não foram encontrados domínios conservados.
