# Processamento de Dados P√≥s-Imputa√ß√£o

Autores: Rafaella Ormond e Jose Jaime Martinez-Magana <br>
***Descri√ß√£o:***<br>
Este script processa dados imputados do servidor TOPMED, convertendo arquivos VCF para o formato PLINK e realizando filtragem de controle de qualidade.

**ENTRADA:** Arquivos de sa√≠da da imputa√ß√£o do servidor TOPMed (por exemplo, VCFs espec√≠ficos por cromossomo ou arquivos de dosagem).<br>
**SA√çDA:** Arquivos PLINK com controle de qualidade, filtrados e prontos para an√°lises subsequentes.


### ***Requisitos:***
### Baixar o Plink
Voc√™ pode baixar o Plink vers√£o 1.9 e 2.0 seguindo as etapas do site oficial.<br>
Para instalar o plink2 [acesse aqui](https://www.cog-genomics.org/plink/2.0/)<br>
Para instalar o plink1.9 [acesse aqui](https://www.cog-genomics.org/plink/1.9/) 

### Baixar o BCFtools
**BCFtools** √© outra ferramenta popular para manipula√ß√£o de arquivos VCF/BCF:  
- [Download do BCFtools](http://samtools.github.io/bcftools/)  

### Resultados da Imputa√ß√£o TOPMED
Este script assume que voc√™ j√° concluiu a imputa√ß√£o usando o servidor TOPMED [link aqui](https://imputation.biodatacatalyst.nhlbi.nih.gov/#!) e fez o download dos resultados<br>
Ap√≥s a conclus√£o da imputa√ß√£o, ser√° necess√°rio baixar:

- O **Relat√≥rio de Controle de Qualidade** (por exemplo, `qcreport.html`)
- As **estat√≠sticas resumidas de QC** (por exemplo, `chunks-excluded.txt`, `snps-excluded.txt`, `typed-only.txt`)
- Os **arquivos VCF imputados**, um por cromossomo (por exemplo, `chr1.dose.vcf.gz`, `chr2.dose.vcf.gz`, ...)

Esses arquivos est√£o dispon√≠veis por meio de links diretos na interface do servidor ap√≥s a conclus√£o do trabalho. Certifique-se de salv√°-los em uma estrutura de pastas consistente para an√°lises subsequentes.

## Op√ß√µes de Software para QC

Voc√™ pode realizar o controle de qualidade p√≥s-imputa√ß√£o usando uma das seguintes op√ß√µes:

1) Plink
2) BCFtools

| Ferramenta | Pr√≥s ‚úÖ | Contras ‚ùå |
|-----------|--------|---------|
| **PLINK** | - Amplamente utilizado em pipelines de GWAS.<br>- Muito r√°pido para grandes conjuntos de dados.<br>- Diversas fun√ß√µes integradas de QC gen√©tico (MAF, HWE, missingness, etc.).<br>- Pode gerar m√∫ltiplos formatos de sa√≠da. | - Requer convers√£o de VCF para formato PLINK primeiro.<br>- Manipula menos bem estruturas complexas de VCF em compara√ß√£o com o BCFtools. |
| **BCFtools** | - Trabalha diretamente com arquivos VCF/BCF compactados.<br>- Muito eficiente para filtragem e subamostragem de grandes arquivos de variantes.<br>- Flex√≠vel para automa√ß√£o em scripts.<br>- Suporta integra√ß√£o via *streaming* com outras ferramentas. | - Exige mais scripts manuais para etapas espec√≠ficas de QC em GWAS.<br>- Menos automatizado para fluxos de trabalho de associa√ß√£o gen√©tica em compara√ß√£o com o PLINK. |

---

üí° **Dica:**  
- Se voc√™ pretende avan√ßar rapidamente para an√°lises de GWAS, **PLINK** √© geralmente a escolha mais f√°cil.  
- Se voc√™ busca m√°xima flexibilidade e trabalha frequentemente com arquivos VCF brutos, **BCFtools** √© uma op√ß√£o poderosa.

Etapas da An√°lise:¬∂
1. **Descompactar os arquivos de imputa√ß√£o**<br>
2. **Plink**<br>
   2.1 Configura√ß√£o do usu√°rio<br>
   2.2 Criar arquivos PLINK e juntar todos os cromossomos<br>
   2.3 Juntar arquivos PLINK e padronizar os IDs das variantes<br>
   2.4 Realizar *LD pruning* no conjunto de dados PLINK mesclado
   
3. **BCFTools**<br>
   3.1 Configura√ß√£o do usu√°rio<br>
   3.2 Controle de Qualidade<br>
   3.3 Converter BCF filtrado para arquivos PLINK separados por cromossomo
   3.4 Juntar arquivos PLINK separados por cromossomo<br>
   3.5 Padronizar IDs das variantes e manter apenas SNPs


### 1. Descompactar os arquivos de imputa√ß√£o
***Descri√ß√£o:***<br>
Descompacte os arquivos de sa√≠da gerados pela imputa√ß√£o.

> **Nota:** Alguns servidores de imputa√ß√£o, como o TOPMed, podem criptografar os arquivos de sa√≠da com uma senha por motivos de seguran√ßa.  
> A senha geralmente √© fornecida na p√°gina de resultados do seu trabalho ou no e-mail de confirma√ß√£o.  
> Certifique-se de substituir a senha de exemplo acima pela senha espec√≠fica do seu conjunto de dados.

Ajuste o caminho e os nomes dos arquivos conforme necess√°rio.

In [None]:
cd ${input_path}

# descompactar todos os arquivos
# adicione a senha do seu trabalho na linha abaixo
password='XXX'
for chr in *.zip
do
    echo unzip -P ${password} -o ${chr}
    unzip -P ${password} -o ${chr}
done

### 2. PLINK

### 2.1 Configura√ß√£o do Usu√°rio

***Descri√ß√£o:***  
Defina os par√¢metros e ajuste os caminhos e arquivos de acordo com a sua an√°lise.

In [None]:
# definir o caminho de entrada
input_path="/path_to_your_data/imputation_results"

# definir o diret√≥rio para arquivos divididos por cromossomo
splitted_path="/path_to_your_data/splitted_files"

# definir o caminho para o execut√°vel do plink2
plink2="/path_to_your_data/plink2"

# definir o diret√≥rio para os arquivos com os cromossomos mesclados
merged_path="/path_to_your_data/merged_files"

# definir o diret√≥rio para os arquivos ap√≥s o LD pruning
ldpruned_path="/path_to_your_data/merged_files_ldpruned"


### 2.2 Criar arquivos PLINK e juntar todos os cromossomos
***Descri√ß√£o:***<br>
Converta os arquivos `.dose.vcf.gz` para o formato PLINK e junte todos os cromossomos em um √∫nico arquivo.

Ajuste o caminho e os arquivos conforme necess√°rio.


In [None]:
# transformar arquivos de dosagem em formato PLINK
for chr in {1..22}
do
    ${plink2} --vcf ${input_path}/chr${chr}.dose.vcf.gz \
              --make-pgen \
              --id-delim '_' \
              --rm-dup 'force-first' \
              --snps-only \
              --out ${splitted_path}/chr${chr}.dose.plink
done


### 2.3 Juntar arquivos PLINK e padronizar IDs das variantes

***Descri√ß√£o:*** <br>
Este script acessa o diret√≥rio que cont√©m os arquivos PLINK divididos por cromossomo, cria uma lista desses arquivos, junta todos em um √∫nico conjunto de arquivos e padroniza os IDs das variantes no formato `chr:bp:ref:alt`, garantindo consist√™ncia nas an√°lises subsequentes.

In [None]:
# mover para o diret√≥rio com arquivos divididos por cromossomo
cd ${splitted_path}

# criar lista de arquivos PLINK, se necess√°rio
# for chr in {2..22}; do echo chr${chr}.dose.plink; done > plink_files.list

# carregar caminho do execut√°vel plink2
plink2="/path_to_your_data/plink2"

# transformar arquivos de dosagem em formato PLINK e juntar todos os cromossomos
${plink2} --pfile chr1.dose.plink \
          --pmerge-list plink_files.list pfile \
          --multiallelics-already-joined \
          --out ${merged_path}/merged.chr.dose.plink

# alterar todos os IDs das variantes para o formato chr:bp:ref:alt
${plink2} --pfile ${merged_path}/merged.chr.dose.plink \
          --set-all-var-ids 'chr@:#:$1:$2' \
          --snps-only 'just-acgt' \
          --make-pgen \
          --out ${merged_path}/merged.chr.dose.plink.norsids.snpsonly

### 3. BCFTools

### 3.1 Configura√ß√£o do Usu√°rio

***Descri√ß√£o:***<br>
Defina os par√¢metros e ajuste os caminhos e arquivos de acordo com a sua an√°lise.


In [None]:
input='/path_to_your_data/00impfiles'
filtered_path='/path_to_your_data/02impfilesfiltered'
plink_path="/path_to_your_data/plink2"
plink_out="/path_to_your_data/plink_per_chr"
merged_path="/path_to_your_data/merged_plink"

### 3.2 Controle de Qualidade
**Descri√ß√£o:**

Este script processa sequencialmente os arquivos de variantes imputadas espec√≠ficos por cromossomo, aplicando filtros de qualidade utilizando o `bcftools`. <br>
As variantes s√£o filtradas com base na qualidade da imputa√ß√£o (R¬≤) e na frequ√™ncia do alelo menor (MAF).<br> 
Os arquivos filtrados s√£o ent√£o compactados e indexados, preparando-os para an√°lises gen√©ticas subsequentes.

In [None]:
# filter BRHC imputed variants
# set the paths for input and output data

# loop over each chromosome sequentially
for chr in {1..22}; do
    bcftools view -i 'R2>0.8 & MAF>0.001' --threads 30 -Oz -o ${filtered_path}/cohort.chr${chr}.dose.filtered.vcf.gz ${input}/chr${chr}.dose.vcf.gz
    bcftools +fill-tags --threads 30 ${filtered_path}/cohort.chr${chr}.dose.filtered.vcf.gz --write-index -Ob -o ${filtered_path}/cohort.chr${chr}.dose.filtered.tag.bcf.gz -- -t AC,AN
done

### 3.3 Converter BCF filtrado para arquivos PLINK separados por cromossomo
***Descri√ß√£o:***<br>

Converte os arquivos BCF filtrados para o formato `.pgen` utilizando o PLINK.<br>
Altere **"cohort"** para o nome do arquivo correspondente.

In [None]:
# filtrar variantes imputadas do BRHC
# definir os caminhos para os dados de entrada e sa√≠da

# loop sobre cada cromossomo, sequencialmente
for chr in {1..22}; do
    echo "Processando o cromossomo ${chr}..."

    # filtra variantes pela qualidade da imputa√ß√£o (R2) e pela frequ√™ncia do alelo menor (MAF)
    bcftools view \
        -i 'R2>0.8 & MAF>0.001' \
        --threads 30 \
        -Oz \
        -o ${filtered_path}/cohort.chr${chr}.dose.filtered.vcf.gz \
        ${input}/chr${chr}.dose.vcf.gz

    # adiciona as tags de contagem al√©lica (AC) e n√∫mero total de alelos (AN)
    bcftools +fill-tags \
        --threads 30 \
        ${filtered_path}/cohort.chr${chr}.dose.filtered.vcf.gz \
        --write-index \
        -Ob \
        -o ${filtered_path}/cohort.chr${chr}.dose.filtered.tag.bcf.gz \
        -- -t AC,AN

    echo "Cromossomo ${chr} conclu√≠do."
done

### 3.4 Juntar arquivos PLINK separados por cromossomo
***Descri√ß√£o:***  
Junta os arquivos `.pgen` individuais de cada cromossomo em um √∫nico conjunto de arquivos PLINK.

Modifique os nomes de acordo com os seus arquivos.

In [None]:
# mover para o diret√≥rio
mkdir -p ${merged_path}

# Criar lista de arquivos para juntar cromossomos (excluindo o cromossomo 1, que ser√° o arquivo base)
for chr in {2..22}; do
    echo "${plink_out}/cohort_chr${chr}.plink" >> ${merged_path}/cohort_merge_list.txt
done

# Removendo todos os duplicados
for chr in {1..22}
do
plink2 --pfile ${datapath}/cohort_chr${chr}.plink --rm-dup 'exclude-all' --make-pgen --out cohort_nodup_chr${chr} \
done

# Gerando o arquivo de lista para a mesclagem
current_path= seu_caminho
for chr in {2..22}
do
echo "${current_path}/cohort_nodup_chr${chr}" >> cohort_merging-09182025.txt
done

# Mesclando os arquivos
plink2 --pfile cohort_nodup_chr1 --pmerge-list cohort_merging.txt 'pfile' --make-pgen --out cohort_nodup_merged


### 3.5 Padronizar IDs das variantes e manter apenas SNPs
***Descri√ß√£o:*** <br>
Atualiza os IDs das variantes para o formato `@:#:$r:$a`, filtra para incluir apenas SNPs dos tipos A/C/G/T e recria o arquivo `.pgen`.

In [None]:
${plink_path} \
    --pfile ${merged_path}/cohort_merged_allchr \
    --set-all-var-ids \
    --snps-only just-acgt \
    --make-pgen \
    --out ${merged_path}/cohort_merged_allchr.snpsonly