# Identificação de Mutantes

## Processamento de sequências

O processo foi baseado numa pipeline de NGS em que várias sequências foram processadas para a obtenção de ficheiros GFF.
Estes ficheiros em teoria terão a anotação da localizações das mutações identificadas no processo de alinhamento.

In [1]:
import docker

a = %pwd
wd = (a.rsplit('/',2))[0]

REF_SEQ='Sars_cov_2.ASM985889v3.dna.toplevel.fa'
SEQ_IDS={'ERR4157959': 'portuguese', 'ERR4395294': 'spanish'}
SEQ = " ".join(SEQ_IDS.keys())

D_BWA='biocontainers/bwa:v0.7.17-3-deb_cv1'
D_SAMTOOLS='biocontainers/samtools:v1.7.0_cv4'
D_BCFTOOLS='quay.io/biocontainers/bcftools:1.9--h68d8f2e_7'

WORK_HOST_DIRECTORY=wd
WORK_CONT_DIRECTORY='/opt/project'

In [None]:
client = docker.from_env()
bwa_docker_cont = client.containers.run(
    image=D_BWA,
    volumes={WORK_HOST_DIRECTORY: {'bind': WORK_CONT_DIRECTORY,'mode': 'rw'}},
    working_dir= WORK_CONT_DIRECTORY+'/data/mutants',
    command='{0}/scripts_bash/bwa.sh {1} "{2}"'.format(WORK_CONT_DIRECTORY, REF_SEQ, SEQ))


In [None]:
sam_docker_cont =client.containers.run(
    image=D_SAMTOOLS,
    volumes={WORK_HOST_DIRECTORY: {'bind': WORK_CONT_DIRECTORY,'mode': 'rw'}},
    working_dir= WORK_CONT_DIRECTORY+'/data/mutants',
    command='{0}/scripts_bash/sam.sh {1} "{2}"'.format(WORK_CONT_DIRECTORY, REF_SEQ, SEQ))

In [None]:
sam_docker_cont =client.containers.run(
    image=D_BCFTOOLS,
    volumes={WORK_HOST_DIRECTORY: {'bind': WORK_CONT_DIRECTORY,'mode': 'rw'}},
    working_dir= WORK_CONT_DIRECTORY+'/data/mutants',
    command='{0}/scripts_bash/bcf.sh {1} "{2}"'.format(WORK_CONT_DIRECTORY, REF_SEQ, SEQ))

## Identificar a localização do gene na sequência de referência

Depois de obtidos os ficheiros GFF, portadores informação relativa às variações, é necessário identificar se alguma destas se encontra na localização do gene ORF7a.

In [2]:
import pprint
import os
from BCBio import GFF

in_file = os.path.join(wd, "data/mutants/Sars_cov_2.ASM985889v3.101.gtf")

examiner = GFF.GFFExaminer()
in_handle = open(in_file)
pprint.pprint(examiner.available_limits(in_handle))
in_handle.close()

FileNotFoundError: [Errno 2] No such file or directory: '../data/mutants/Sars_cov_2.ASM985889v3.101.gtf'

In [None]:
in_handle = open(in_file)
limit_info = dict(gff_id=["MN908947.3"], gff_type=["gene"])
for rec in GFF.parse(in_handle, limit_info=limit_info):
    for gene in rec.features:
        if 'ENSSASG00005000009' in gene.qualifiers['gene_id']:
            ORF7a_ref = gene
in_handle.close()

## Identificar mutações no gene nas amostraras

In [None]:
from scripts_python.vcf_gff import vcf2dict, lookup_var2genes

samples_vars = {}
samples_vars_ORF7a = {}

for sample in SEQ_IDS.keys():
    sample_variations = vcf2dict("{0}/data/mutants/{1}/{1}.sars_cov.raw.vcf".format(wd,sample))
    samples_vars[sample] = sample_variations
    # filter to var in location
    for var in sample_variations.keys():
        samples_vars_ORF7a[sample] = lookup_var2genes(sample_variations, ORF7a_ref)

if samples_vars:
    print("Não foram identificadas mutações")
else:
    for key, value in samples_vars.items():
        print(f"Na amostra {key} foram identificadas alterações em {value}")
