# XPath e XQuery

# Base de dados e proposta
A base escolhida para essa análise é  a : https://www.uniprot.org/uniparc/

O UniParc é um banco de dados abrangente e não redundante que contém a maioria das seqüências de proteínas publicamente disponíveis no mundo. Optamos por fazer uma análise das 250 primeiras proteínas pois elas estão relacionadas em sua maioria a vírus contidos em vacinas e acreditamos que informações úteis podem ser retiradas dessa base. 

Entre os dados que ela contém estão:
    * type
    * id
    * version
    * active
    * version
    * created 
    * last
    * NCBI_taxonomy_id
    * protein_name
    * gene_name
    
 Para execução desse trabalho utilizamos o XBase abaixo segue a correspondencia da linguagem
     1)     / ->  /*:
     2)    // -> //*:
     3)text() -> data()

## Proposta 1:
É comum que algumas pessoas tenham alergia a alguns tipos de proteina, e isso é especialmente perigoso caso se essa proteina estiver relacionada a algum tipo de organismos contidos em vacinas, portanto uma pesquisa interessante é retornar todas as vacinas relacionadas a algum tipo de proteina

```xquery
let $doc := doc("uniparc-250.xml")
for $p in $doc//*:dbReference
   where contains(data($p/*:property[@type= 'gene_name']/@value), 'VAC') and $p/*:property[@type='NCBI_taxonomy_id']/@value != '10245'
return $p
```

**Algumas Respostas:** 
```xml
<dbReference xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="UniProtKB/Swiss-Prot" id="P68446" version_i="3" active="Y" version="3" created="2007-01-23" last="2019-10-16">
  <property type="NCBI_GI" value="55977540"/>
  <property type="NCBI_taxonomy_id" value="10254"/>
  <property type="protein_name" value="Protein E7"/>
  <property type="gene_name" value="VACWR063"/>
</dbReference>
<dbReference xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="EMBL" id="AAO89342" version_i="1" active="Y" version="1" created="2003-06-16" last="2019-05-31">
  <property type="NCBI_GI" value="29692169"/>
  <property type="NCBI_taxonomy_id" value="10254"/>
  <property type="protein_name" value="soluble, myristylprotein"/>
  <property type="gene_name" value="VACWR063"/>
  <property type="proteome_id" value="UP000000344"/>
  <property type="component" value="Genome"/>
</dbReference>
<dbReference xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="UniProtKB/Swiss-Prot" id="P23373" version_i="1" active="Y" version="1" created="1991-11-01" last="2019-10-16">
  <property type="NCBI_GI" value="137632"/>
  <property type="NCBI_taxonomy_id" value="10254"/>
  <property type="protein_name" value="Probable FAD-linked sulfhydryl oxidase E10"/>
  <property type="gene_name" value="VACWR066"/>
</dbReference>
```

## Proposta 2:
Pode ser interessante analisarmos o total de proteinas relacionadas com a mesma taxonomia  

```xquer
let $doc := doc("uniparc-250.xml")
return count($doc//*:property[@type= 'NCBI_taxonomy_id'][@value= '32606'])
```

**Resposta:** 70

## Proposta 3
Agrupar todas as proteinas com um mesmo proteoma também facilita uma série de analises
```xml
let $doc := doc("uniparc-250.xml")
return $doc//*:property[@type= 'proteome_id'][@value= 'UP000304398']
```

**Resposta:** 
```xml
<property xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="proteome_id" value="UP000304398"/>
<property xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="proteome_id" value="UP000304398"/>
<property xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="proteome_id" value="UP000304398"/>
```

## Proposta 4
Encontrar todas as proteinas que tem mais de uma versão, pois isso significa que todas elas são sintéticas
```xml
let $doc := doc("uniparc-250.xml")
return $doc//*:dbReference[@version_i > 1]
```

**Algumas Respostas:** 
```xml
<dbReference xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="UniProtKB/Swiss-Prot" id="P07612" version_i="3" active="Y" version="3" created="2007-01-23" last="2019-10-16">
  <property type="NCBI_GI" value="138624"/>
  <property type="NCBI_taxonomy_id" value="10254"/>
  <property type="protein_name" value="Protein L1"/>
  <property type="gene_name" value="VACWR088"/>
</dbReference>
<dbReference xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="UniProtKB/Swiss-Prot" id="P07618" version_i="2" active="Y" version="2" created="2004-12-07" last="2019-10-16">
  <property type="NCBI_GI" value="56405312"/>
  <property type="NCBI_taxonomy_id" value="10254"/>
  <property type="protein_name" value="Protein J5"/>
  <property type="gene_name" value="VACWR097"/>
</dbReference>
<dbReference xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="PDB" id="2VDW" version_i="2" active="N" created="2008-10-13" last="2009-07-29">
  <property type="chain" value="B"/>
</dbReference>
```

## Proposta 5
Encontrar todas as proteinas que tem mais de uma versão, e estão ativas
```xml
let $doc := doc("uniparc-250.xml")
return $doc//*:dbReference[@version_i > 1][@active='Y']
```

## Proposta 6
Encontrar proteinas relacionadas a algum tipo de organismos contidos em vacinas
```xml
let $doc := doc("uniparc-250.xml")
for $p in $doc//*:dbReference
   where contains(data($p/*:property[@type= 'gene_name']/@value), 'VAC')
return $p
```

**Algumas Respostas:** 
```xml
<dbReference xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="UniProtKB/Swiss-Prot" id="P68446" version_i="3" active="Y" version="3" created="2007-01-23" last="2019-10-16">
  <property type="NCBI_GI" value="55977540"/>
  <property type="NCBI_taxonomy_id" value="10254"/>
  <property type="protein_name" value="Protein E7"/>
  <property type="gene_name" value="VACWR063"/>
</dbReference>
<dbReference xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="EMBL" id="AAO89342" version_i="1" active="Y" version="1" created="2003-06-16" last="2019-05-31">
  <property type="NCBI_GI" value="29692169"/>
  <property type="NCBI_taxonomy_id" value="10254"/>
  <property type="protein_name" value="soluble, myristylprotein"/>
  <property type="gene_name" value="VACWR063"/>
  <property type="proteome_id" value="UP000000344"/>
  <property type="component" value="Genome"/>
</dbReference>
<dbReference xmlns="http://uniprot.org/uniparc" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" type="UniProtKB/Swiss-Prot" id="P23373" version_i="1" active="Y" version="1" created="1991-11-01" last="2019-10-16">
  <property type="NCBI_GI" value="137632"/>
  <property type="NCBI_taxonomy_id" value="10254"/>
  <property type="protein_name" value="Probable FAD-linked sulfhydryl oxidase E10"/>
  <property type="gene_name" value="VACWR066"/>
</dbReference>
```