# Allineamento delle reads al riferimento

Per identificare le varianti, prima dobbiamo allineare le reads al genoma di riferimento. In questa esercitazione useremo **BWA-MEM** per l'allineamento e **Samtools** per manipolare i file di allineamento.

I passi sono:

1. **Indicizzazione** del genoma di riferimento.
2. **Allineamento** delle reads al riferimento per ottenere un file SAM.
3. **Conversione** del file SAM in BAM, ordinamento e indicizzazione.
4. **Statistiche** di allineamento.


In [None]:
# 1. Indicizza il riferimento
!bwa index data/reference.fa

# 2. Esegui l'allineamento (mem) e genera file SAM
a=!bwa mem data/reference.fa data/sample.fastq -o alignment.sam

# 3. Converti il SAM in BAM, ordina e indicizza
!samtools view -S -b alignment.sam | samtools sort -o alignment.sorted.bam
!samtools index alignment.sorted.bam

# Rimuovi il file SAM per risparmiare spazio
!rm alignment.sam


Una volta creato il file BAM, possiamo utilizzare `samtools flagstat` per ottenere statistiche sull'allineamento e `samtools view` per esplorare singoli allineamenti.


In [None]:
# Statistiche di allineamento
!samtools flagstat alignment.sorted.bam

# Visualizza le prime righe del BAM in formato SAM
!samtools view alignment.sorted.bam | head


### Esercizi

1. Quante reads totali sono state allineate? Qual Ã¨ la percentuale di allineamento?
2. Usa `samtools view alignment.sorted.bam chr1:90-120` per visualizzare le reads allineate nella regione che include una delle varianti (circa 101 bp). Cosa noti?
3. Esplora il file BAM con `samtools tview` (richiede terminale, non funziona in notebook) oppure usa `samtools depth` per calcolare la copertura nella regione delle varianti.

Annota le tue osservazioni.
