# Propriedades da Proteína

## Obtenção da Sequência
Foi utilizado o *site* do [Ensembl](https://www.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000005844;r=16:30472658-30523185), para obter a hiperligação para o UniProt, [P20701-1](https://www.uniprot.org/uniprot/P20701-1).
Foi feito o download em formato FASTA da isoforma P20701-1, que é considerada a sequência canónica.

## Estruturas Secundárias
Foi selecionado o organismo *Homo sapiens* e como foram obtidos bastantes resultados possíveis, escolhemos a proteína com o identificador [5E6U](http://www.rcsb.org/structure/5E6U), pois cumpria os requisitos de pertencer ao organismo pretendido, uma das macromoléculas corresponde à integrina alfa-L (ITAL) e porque apresenta o maior número de ligandos o que se traduz numa maior informação sobre a proteína. Ao observar a representação 3D da proteína concluímos que a estrutura secundária desta é composta por folhas-beta e alfa-hélices.

In [None]:
from Bio.PDB import PDBList, PDBParser, MMCIFParser
import os
import nglview as nv

# reference vars
a = %pwd
wd = (a.rsplit('/',2))[0]
gene = "ITGAL"
seq_id = "NM_001114380"
prot_seq_id = "P20701"
prot_pdb_id = "1RD4"
prot_strucuture_file = os.path.join(wd,"data/structures", gene,prot_pdb_id.lower()+".cif")

In [None]:
# retrive PDB file
pdbl = PDBList()
pdbl.retrieve_pdb_file(prot_pdb_id, pdir= prot_strucuture_file.rsplit("/",1)[0], overwrite=True)

In [None]:
# Parse File
parser = MMCIFParser()
structure = parser.get_structure(prot_pdb_id, prot_strucuture_file)

# 3d view the protein structure
view = nv.show_biopython(structure)
view

In [None]:
from Bio.PDB.MMCIF2Dict import MMCIF2Dict
import re

mmcif_dict = MMCIF2Dict(prot_strucuture_file)

structures = {}
for value in mmcif_dict.keys():
  if re.match('_struct_ref', value):
    value_type = value.split(".",1)[0]
    if value_type not in structures.keys():
        structures[value_type] = {}
    information = value.split(".",1)[1]
    if information in structures[value_type].keys():
        structures[value_type][information] = ", ".join([value[value_type][information], mmcif_dict[value]])
    else:
        structures[value_type][information] = mmcif_dict[value]

for value_type in structures.keys():
    print(value_type)
    for information in structures[value_type].keys():
        print(information, ":", structures[value_type][information])
    print("\n")

## Domínios da Proteína
Foi utilizada a ferramenta Phobius para prever os domínios que esta proteína possui. Verificámos, na previsão, a existência de um domínio péptido sinal, um domínio não citoplasmático, um domínio transmembranar e um domínio citoplasmático.

:::{figure,myclass}
![Figura 1 - Previsão dos diferentes domínios da proteína ITAL.](img/phobius_ITGAL.png)

Previsão dos diferentes domínios da proteína ITAL.
:::

~~~
ID   sp|P20701|ITAL_HUMAN
FT   SIGNAL        1     25
FT   DOMAIN        1      9       N-REGION.
FT   DOMAIN       10     20       H-REGION.
FT   DOMAIN       21     25       C-REGION.
FT   DOMAIN       26   1089       NON CYTOPLASMIC.
FT   TRANSMEM   1090   1112
FT   DOMAIN     1113   1170       CYTOPLASMIC.
//
~~~

## Localização da Proteína
Utilizando a ferramenta Hum-mPLoc 2.0 foi previsto que a localização desta proteína é extracelular.

## Locais de Glicosilação
Os locais de glicosilação foram previstos usando a ferramenta NetNGlyc 1.0 Server.

~~~
Name:  sp_P20701_ITAL_HUMAN 	Length:  1170
MKDSCITVMAMALLSGFFFFAPASSYNLDVRGARSFSPPRAGRHFGYRVLQVGNGVIVGAPGEGNSTGSLYQCQSGTGHC      80
LPVTLRGSNYTSKYLGMTLATDPTDGSILACDPGLSRTCDQNTYLSGLCYLFRQNLQGPMLQGRPGFQECIKGNVDLVFL     160
FDGSMSLQPDEFQKILDFMKDVMKKLSNTSYQFAAVQFSTSYKTEFDFSDYVKRKDPDALLKHVKHMLLLTNTFGAINYV     240
ATEVFREELGARPDATKVLIIITDGEATDSGNIDAAKDIIRYIIGIGKHFQTKESQETLHKFASKPASEFVKILDTFEKL     320
KDLFTELQKKIYVIEGTSKQDLTSFNMELSSSGISADLSRGHAVVGAVGAKDWAGGFLDLKADLQDDTFIGNEPLTPEVR     400
AGYLGYTVTWLPSRQKTSLLASGAPRYQHMGRVLLFQEPQGGGHWSQVQTIHGTQIGSYFGGELCGVDVDQDGETELLLI     480
GAPLFYGEQRGGRVFIYQRRQLGFEEVSELQGDPGYPLGRFGEAITALTDINGDGLVDVAVGAPLEEQGAVYIFNGRHGG     560
LSPQPSQRIEGTQVLSGIQWFGRSIHGVKDLEGDGLADVAVGAESQMIVLSSRPVVDMVTLMSFSPAEIPVHEVECSYST     640
SNKMKEGVNITICFQIKSLIPQFQGRLVANLTYTLQLDGHRTRRRGLFPGGRHELRRNIAVTTSMSCTDFSFHFPVCVQD     720
LISPINVSLNFSLWEEEGTPRDQRAQGKDIPPILRPSLHSETWEIPFEKNCGEDKKCEANLRVSFSPARSRALRLTAFAS     800
LSVELSLSNLEEDAYWVQLDLHFPPGLSFRKVEMLKPHSQIPVSCEELPEESRLLSRALSCNVSSPIFKAGHSVALQMMF     880
NTLVNSSWGDSVELHANVTCNNEDSDLLEDNSATTIIPILYPINILIQDQEDSTLYVSFTPKGPKIHQVKHMYQVRIQPS     960
IHDHNIPTLEAVVGVPQPPSEGPITHQWSVQMEPPVPCHYEDLERLPDAAEPCLPGALFRCPVVFRQEILVQVIGTLELV    1040
GEIEASSMFSLCSSLSISFNSSKHFHLYGSNASLAQVVMKVDVVYEKQMLYLYVLSGIGGLLLLLLIFIVLYKVGFFKRN    1120
LKEKMEAGRGVPNGIPAEDSEQLASGQEAGDPGCLKPLHEKDSESGGGKD
................................................................N...............      80
........N.......................................................................     160
...........................N....................................................     240
................................................................................     320
................................................................................     400
................................................................................     480
................................................................................     560
................................................................................     640
........N....................N..................................................     720
.....N...N......................................................................     800
.............................................................N..................     880
................N...............................................................     960
................................................................................    1040
................................................................................    1120
..................................................                                  1200

(Threshold=0.5)
----------------------------------------------------------------------
SeqName      Position  Potential   Jury    N-Glyc
				 agreement result
----------------------------------------------------------------------
sp_P20701_ITAL_HUMAN   65 NSTG   0.7303     (9/9)   ++
sp_P20701_ITAL_HUMAN   89 NYTS   0.7199     (9/9)   ++
sp_P20701_ITAL_HUMAN  188 NTSY   0.7023     (9/9)   ++
sp_P20701_ITAL_HUMAN  649 NITI   0.6562     (8/9)   +
sp_P20701_ITAL_HUMAN  670 NLTY   0.6267     (8/9)   +
sp_P20701_ITAL_HUMAN  726 NVSL   0.6187     (8/9)   +
sp_P20701_ITAL_HUMAN  730 NFSL   0.5626     (7/9)   +
sp_P20701_ITAL_HUMAN  862 NVSS   0.6993     (9/9)   ++
sp_P20701_ITAL_HUMAN  885 NSSW   0.4548     (6/9)   -
sp_P20701_ITAL_HUMAN  897 NVTC   0.7060     (9/9)   ++
sp_P20701_ITAL_HUMAN 1060 NSSK   0.4373     (7/9)   -
sp_P20701_ITAL_HUMAN 1071 NASL   0.4373     (6/9)   -
----------------------------------------------------------------------
~~~

:::{figure,myclass}
![Figura 2 - Previsão dos locais de glicosilação da proteína ITAL.](img/NetNGlyc_ITGAL.gif)

Previsão dos locais de glicosilação da proteína ITAL.
:::

## Locais de Fosforilação
Utilizamos a ferramenta NetPhos 3.1 para prever o local fosforilação da serina, treonina ou tirosina em proteínas de organismos eucariotas.

~~~
    SPPITALHXMANINTEGRINALPHALXSHXMXSAPIENSXXGNITGALPE   #     50
    SVMKDSCITVMAMALLSGFFFFAPASSYNLDVRGARSFSPPRAGRHFGYR   #    100
    VLQVGNGVIVGAPGEGNSTGSLYQCQSGTGHCLPVTLRGSNYTSKYLGMT   #    150
    LATDPTDGSILACDPGLSRTCDQNTYLSGLCYLFRQNLQGPMLQGRPGFQ   #    200
    ECIKGNVDLVFLFDGSMSLQPDEFQKILDFMKDVMKKLSNTSYQFAAVQF   #    250
    STSYKTEFDFSDYVKRKDPDALLKHVKHMLLLTNTFGAINYVATEVFREE   #    300
    LGARPDATKVLIIITDGEATDSGNIDAAKDIIRYIIGIGKHFQTKESQET   #    350
    LHKFASKPASEFVKILDTFEKLKDLFTELQKKIYVIEGTSKQDLTSFNME   #    400
    LSSSGISADLSRGHAVVGAVGAKDWAGGFLDLKADLQDDTFIGNEPLTPE   #    450
    VRAGYLGYTVTWLPSRQKTSLLASGAPRYQHMGRVLLFQEPQGGGHWSQV   #    500
    QTIHGTQIGSYFGGELCGVDVDQDGETELLLIGAPLFYGEQRGGRVFIYQ   #    550
    RRQLGFEEVSELQGDPGYPLGRFGEAITALTDINGDGLVDVAVGAPLEEQ   #    600
    GAVYIFNGRHGGLSPQPSQRIEGTQVLSGIQWFGRSIHGVKDLEGDGLAD   #    650
    VAVGAESQMIVLSSRPVVDMVTLMSFSPAEIPVHEVECSYSTSNKMKEGV   #    700
    NITICFQIKSLIPQFQGRLVANLTYTLQLDGHRTRRRGLFPGGRHELRRN   #    750
    IAVTTSMSCTDFSFHFPVCVQDLISPINVSLNFSLWEEEGTPRDQRAQGK   #    800
    DIPPILRPSLHSETWEIPFEKNCGEDKKCEANLRVSFSPARSRALRLTAF   #    850
    ASLSVELSLSNLEEDAYWVQLDLHFPPGLSFRKVEMLKPHSQIPVSCEEL   #    900
    PEESRLLSRALSCNVSSPIFKAGHSVALQMMFNTLVNSSWGDSVELHANV   #    950
    TCNNEDSDLLEDNSATTIIPILYPINILIQDQEDSTLYVSFTPKGPKIHQ   #   1000
    VKHMYQVRIQPSIHDHNIPTLEAVVGVPQPPSEGPITHQWSVQMEPPVPC   #   1050
    HYEDLERLPDAAEPCLPGALFRCPVVFRQEILVQVIGTLELVGEIEASSM   #   1100
    FSLCSSLSISFNSSKHFHLYGSNASLAQVVMKVDVVYEKQMLYLYVLSGI   #   1150
    GGLLLLLLIFIVLYKVGFFKRNLKEKMEAGRGVPNGIPAEDSEQLASGQE   #   1200
    AGDPGCLKPLHEKDSESGGGKD                               #   1250
%1  ...........................S..........S...........   #     50
%1  S....S..........S........S..........S.S.........Y.   #    100
%1  .................S..S.....S........T...S.YT..Y....   #    150
%1  ........................TY........................   #    200
%1  ...............S.S....................S..SY.......   #    250
%1  STS.......S.Y..............................T......   #    300
%1  ..............T....T.S...........Y............S..T   #    350
%1  .....S...........T........T......Y....TS.....S....   #    400
%1  .SSS..S...S....................................T..   #    450
%1  ..................TS........Y..................S..   #    500
%1  .T........................T.......................   #    550
%1  .........S........................................   #    600
%1  ...Y.........S...S.....T...S......................   #    650
%1  ......S.....SS.......T..S.S............Y.TS.......   #    700
%1  .........S.......................T................   #    750
%1  ...TTS.S.T.......................S......T.........   #    800
%1  ........S..S.......................S.S...S........   #    850
%1  ...S...S.S......Y............S..........S....S....   #    900
%1  .......S...S............S.............S...S.......   #    950
%1  ......S............................T.Y...T........   #   1000
%1  ...........S......................................   #   1050
%1  .....................................T.........SS.   #   1100
%1  .S..SS...S..SS.....Y....S.........................   #   1150
%1  ..............................................S...   #   1200
%1  ..............S.S.....

~~~

:::{figure,myclass}
![Figura 3 - Previsão dos locais de fosforilação da proteína ITAL.](img/netphos_ITGAL.gif)

Previsão dos locais de fosforilação da proteína ITAL.
:::