# Chiamata delle varianti

Dopo l'allineamento, possiamo procedere a chiamare le varianti (SNP e indel) usando **bcftools**. I passi principali sono:

1. **Generare** un file BCF/VCF con le profondità per ogni posizione (`bcftools mpileup`).
2. **Chiamare** le varianti (`bcftools call`).
3. **Filtrare** e ispezionare il file VCF risultante.

Nota: in questo dataset didattico abbiamo introdotto alcune varianti artificiali per dimostrare il processo.


In [None]:
# 1. Genera pileup
!bcftools mpileup -f data/reference.fa alignment.sorted.bam -Ov -o pileup.vcf

# 2. Chiama le varianti (modalità multiallelica)
!bcftools call -mv -Ov -o variants.vcf pileup.vcf

# 3. Visualizza le varianti chiamate
!cat variants.vcf | head


Dovresti vedere una lista di varianti in formato VCF. Ogni riga descrive una posizione (colonne `CHROM` e `POS`), l'allele di riferimento (`REF`), l'allele alternativo (`ALT`) e altre informazioni sulla qualità e profondità (`QUAL`, `INFO`).

Per confrontare il file di varianti chiamato con le varianti attese fornite (`data/expected_variants.vcf`), puoi usare `bcftools isec` o semplicemente confrontare manualmente le posizioni.

### Esercizi

1. Confronta `variants.vcf` con `data/expected_variants.vcf`: le varianti chiamate corrispondono a quelle attese? In caso negativo, prova a cambiare i parametri di `bcftools call` (ad esempio `-c` per la chiamata consensus) e verifica di nuovo.
2. Filtra le varianti con qualità (`QUAL`) inferiore a 30 usando `bcftools filter -i 'QUAL>30' variants.vcf -Ov -o variants.filtered.vcf`.
3. Esamina il numero di letture che supportano ciascun allele (colonna `DP4` nel campo `INFO`). Cosa puoi dedurre sulla frequenza degli alleli?

Annota le tue risposte.
