# Legionella


Neste trabalho...


## Análise da sequência e das features presentes no NCBI

Começamos por aceder ao NCBI para fazer download de um ficheiro no formato __genbank__ com informação correspondente à nossa zona do genoma, da posição 270001 a 505535.

O primeiro passo foi descobrir qual o __genbank_id__ associado ao accession __NC_002942.5__.
Para isto usamos a função `Entrez.search`. 

Após saber o __genbank_id__, obtivemos o __genbank__ usando a função `Entrez.efetch`.

```python
def fetch_genbank(start, end):
    """
    Procura no NCBI pelo Accession NC_002942.5 e 
    faz download de toda a informação em formato genbank,
    retornando o respectivo record com as features
    entre a posição start e end.
    """

    Entrez.email = "*@*.*"

    handle = Entrez.esearch(db="nucleotide", term="NC_002942.5")
    record = Entrez.read(handle)
    genbank_id = record["IdList"][0]
    handle.close()

    handle = Entrez.efetch(db="nucleotide",
                           rettype="gbwithparts",
                           retmod="text",
                           id=genbank_id,
                           seq_start=start,
                           seq_stop=end)
    record = SeqIO.read(handle, "gb")
    handle.close()

    return record
```

Esta função foi adicionada ao módulo `util.www`.


Deste `record` extraímos as features __gene__, __CDS__, __tRNA__ e __rRNA__.

```python
def extract_features(record):
    """
    Das várias features encontradas no ficheiro genbank, extraímos:
      - gene
      - CDS
      - tRNA
      - rRNA

    Esta função retorna uma lista apenas com as features
    dos tipos indicados acima.
    """

    result = []
    features = record.features
    feature_count = len(features)
    types = ["gene", "CDS", "tRNA", "rRNA"]

    for i in range(feature_count):
        feature = features[i]
        should_extract = feature.type in types

        if should_extract:
            result.append(feature)

    return result
```


Para finalizar, convertemos esta lista de `record` para um dicionário.
A cada um dos `record` retirámos:
- db_xref
- EC_number
- function
- gene
- gene_synonym
- locus_tag
- note
- product
- protein_id
- translation

Além disso, também ficamos com informação sobre a localização de cada gene e em qual das cadeias está presente.

```python
def features_to_dictionary(start, features):
    """
    A cada uma das features, extraimos a seguintes propriedades:
      - db_xref
      - EC_number
      - function
      - gene
      - gene_synonym
      - locus_tag
      - note
      - product
      - protein_id
      - translation

    Também extraímos a localização:
      - start
      - end
      - strand
    """
    dictionary = {}
    properties = ["db_xref",
                  "EC_number",
                  "function",
                  "gene",
                  "gene_synonym",
                  "note",
                  "product",
                  "protein_id",
                  "translation"]

    for feature in features:
        tag = feature.qualifiers["locus_tag"][0]

        if not tag in dictionary:
            # se esta tag ainda não existe,
            # criar um dicionário vazio para ela
            dictionary[tag] = {}

        location = feature.location
        dictionary[tag]["location"] = {}
        dictionary[tag]["location"]["start"] = location._start + start
        dictionary[tag]["location"]["end"] = location._end + start - 1
        dictionary[tag]["location"]["strand"] = location._strand

        if feature.type in ["tRNA", "rRNA"]:
            # Taggar as features com estes dois tipos
            dictionary[tag]["type"] = feature.type
        else:
            # se não, taggar com "mRNA"
            dictionary[tag]["type"] = "mRNA"

        for prop in properties:
            if prop in feature.qualifiers:
                value = feature.qualifiers[prop][0]

                if prop == "db_xref":
                    # renomear esta propriedade e remover "GeneID:"
                    prop = "gene_id"
                    value = value[7:]

                if prop in dictionary[tag]:
                    # se já encontramos esta propriedade
                    # para este locus_tag
                    # verificar que é a mesma
                    current_value = dictionary[tag][prop]
                    assert value == current_value
                else:
                    # se não, adicionar
                    dictionary[tag][prop] = value

    return dictionary
```

No final:

```python
import util.www as www

start = 270001
end = 505535

record = www.fetch_genbank(start, end)
features = extract_features(record)
dictionary = features_to_dictionary(start, features)
print(dictionary)
```

```json
{
  "lpg0232": {
    "db_xref": "GeneID:19831799",
    "function": "Transcription factors / DNA binding proteins",
    "gene": "np20",
    "location": {
      "end": 270569,
      "start": 270036,
      "strand": 1
    },
    "product": "transcriptional regulator np20",
    "protein_id": "YP_094286.1",
    "translation": "MIGCCLIIFPC...",
    "type": "mRNA"
  },
  "lpg0233": {
    "EC_number": "4.1.1.7",
    "db_xref": "GeneID:19831800",
    "function": "Biodegradation of Xenobiotics",
    "gene": "mdlC",
    "location": {
      "end": 272278,
      "start": 270686,
      "strand": -1
    },
    "product": "benzoylformate decarboxylase",
    "protein_id": "YP_094287.1",
    "translation": "MKKTGSDVLK...",
    "type": "mRNA"
  },
  // ...
}
```

In [1]:
import util.rw as rw
import pandas as pd

pd.options.display.max_rows = 1000

ncbi = rw.read_json(".ncbi.json")
df = pd.DataFrame(ncbi).transpose()
df = df.fillna("")
#df[["EC_number", "db_xref", "function", "gene", "product", "protein_id", "type"]]
df

Unnamed: 0,EC_number,function,gene,gene_id,gene_synonym,location,note,product,protein_id,translation,type
lpg0232,,Transcription factors / DNA binding proteins,np20,19831799,,"{'strand': 1, 'end': 270569, 'start': 270036}",,transcriptional regulator np20,YP_094286.1,MIGCCLIIFPCNRDYDKIVRTNYSLVRRLMKHNLLDKAYKHCVNHG...,mRNA
lpg0233,4.1.1.7,Biodegradation of Xenobiotics,mdlC,19831800,,"{'strand': -1, 'end': 272278, 'start': 270686}",,benzoylformate decarboxylase,YP_094287.1,MKKTGSDVLKEFITTFEINYIFGNPGTTELKFLEAIEQCDNATYFL...,mRNA
lpg0234,,Toxin production / other pathogen functions,sidE,19831801,,"{'strand': -1, 'end': 277121, 'start': 272577}",,protein SidE,YP_094288.1,MLIFKSQILILKYLSRSCVMPKYVEGIELTQEGMHAIFERMGHPNI...,mRNA
lpg0235,,,,19831802,,"{'strand': -1, 'end': 277987, 'start': 277484}",,hypothetical protein,YP_094289.1,MKKAFRIMATYYGQCACGKIQFMCTGEPVFTQYCHCNKCREIASLS...,mRNA
lpg0236,,,,19831803,,"{'strand': -1, 'end': 280039, 'start': 278060}",,hypothetical protein,YP_094290.1,MRYTNIELLKRIPQHLKGVMEYYPDVLLFQLNQIQYTHLWHELSSA...,mRNA
lpg0237,,Protein fate / hydrolases / secretion,mhpC,19831804,,"{'strand': 1, 'end': 281114, 'start': 280320}",,lipolytic protein,YP_094291.1,MATLKINGVDIYYELYGQGKPLVLIAGYCCDHTFWNAMLHELAEQF...,mRNA
lpg0238,1.2.1.8,Amino Acid Metabolism,gbsA,19831805,,"{'strand': 1, 'end': 282597, 'start': 281131}",,glycine betaine aldehyde dehydrogenase,YP_094292.1,MEIYKMYIDGKFTLAKSGATRDIFDPANGDLIAKVPESAKEDAILA...,mRNA
lpg0239,2.6.1.19,"Amino Acid Metabolism, Metabolism of Other Ami...",gabT,19831806,,"{'strand': 1, 'end': 283924, 'start': 282572}",,4-aminobutyrate transaminase,YP_094293.1,MKHQLVGTKLMKKIHIKTPIPGPKSQQLMELRRQHVARGPFHATPI...,mRNA
lpg0240,,Replication and Repair,recN,19831807,,"{'strand': 1, 'end': 284787, 'start': 284008}",,DNA repair protein,YP_094294.1,MNDIMWYQNIMRNLLEKLPEASRKDGEFFLDKLFLAVKRVDNKPEM...,mRNA
lpg0241,3.5.1.2,"Amino Acid Metabolism, Metabolism of Other Ami...",,19831808,,"{'strand': 1, 'end': 285979, 'start': 285047}",,glutaminase,YP_094295.1,MSSKLLTIQLLEELVHAAELNQEGKTADYIPELANVNQELTAIAVQ...,mRNA
