# Modulo pysam per formato SAM/BAM

`pysam` è il modulo Python che mette a disposizione le funzionalità per manipolare file in formato SAM/BAM.

Importare il modulo `pysam`

In [2]:
import pysam

## Leggere gli allineamenti

La classe `AlignmentFile` è la classe che rappresenta un SAM/BAM file.

Un oggetto di tipo `AlignmentFile` è ottenuto a partire da un file SAM/BAM nel seguente modo: 

    sam_file = AlignmentFile(sam_file_name, 'r')
    bam_file = AlignmentFile(bam_file_name, 'rb')

Importare la classe `AlignmentFile`.

### Ottenere gli allineamenti da un file BAM

Indicizzare il file tramite la funzione `index()`.

Costruire l'oggetto `AlignmentFile`.

`bam_file` contiene tutti gli allineamenti presenti nel file.

Il numero di reads mappati e non mappati si ottiene accedendo agli attributi `mapped` e `unmapped`.

Reads non mappati dovuti a:

- reads che non sono stati allineati a una posizione specifica del genoma di riferimento ma si inseriscono lo stesso per poter fare debugging
- paired-end reads in cui una delle due parti è mappata e l'altra no (ma si inserisce lo stesso)

Informazione riportata nel campo FLAG.

Le references coinvolte nel file BAM si ottengono accedendo all'attributo `references`.

Il numero di references coinvolte nel file BAM si ottengono accedendo all'attributo `nreferences`.

La lunghezza delle references coinvolte nel file BAM si ottengono accedendo all'attributo `lengths`.

La lunghezza di una reference in particolare si ottiene con il metodo `get_reference_length()`.

Il numero di reads mappati a una determinata regione della reference si ottiene con il metodo `count()`

## Estrarre gli allineamenti

Il metodo `head(n)` restituisce i primi n allineamenti.

Il metodo `fetch()` invocato nei tre seguenti modi: 

    bam_file.fetch()
    bam_file.fetch(ref_name)
    bam_file.fetch(ref_name, start_region, end_region)
    
restituisce un iteratore contenente (rispettivamente):

- tutti gli allineamenti
- tutti gli allineamenti che si riferiscono alla reference `ref_name`
- tutti gli allineamenti che si riferiscono alla sottoregione tra le posizioni `start_region` e `end_region`della reference `ref_name`.

Il singolo allineamento è un oggetto della classe `AlignedSegment`.

---
    
**Esercizio**: estrarre tutti gli allineamenti.

Il numero di allineamenti estratti è:

**Esercizio**: estrarre gli allineamenti relativi alla reference `X` che cadono nella regione tra le posizioni `280000` e `285000`.

**Esercizio**: estrarre i primi 50 allineamenti.

## Accedere alle informazioni di un allineamento

Estrarre il primo allineamento della lista `all_alignments`.

Gli oggetti `AlignedSegment` hanno una serie di attributi che descrivono l'allineamento.

Gli oggetti `AlignedSegment` hanno una serie di metodi:

- `get_tags()` restituisce i tag opzionali

## Metodi di `AlignmentFile`

- `find_introns()` trova gli introni supportati dagli allineamenti passati come argomento. Per ogni introne, viene fornito il numero di reads allineati (spliced alignment).
       
Viene restituito un oggetto `Counter` in cui le chiavi sono tuple *(start, end)* (inroni) e i valori sono il numero di reads che supportano un dato introne.

Il valore di *end* è la posizione della base del reference immediatamente successiva alla fine dell'introne.

**Esercizio**: estrarre gli introni supportati dagli allineamenti.

- `pileup()`, restituisce un iteratore contenente un oggetto `PileupColumn` per ognuna delle basi coperte da allineamenti che cadono nella regione specificata come *argomento*.

Se l'argomento non viene specificato allora vengono considerati tutti gli allineamenti presenti nel BAM file.

       bam_file.pileup()
       bam_file.pileup(ref_name)
       bam_file.pileup(ref_name, start_region, end_region)

Ogni base della reference coperta da qualche allineamento viene chiamata *pileup column*.

---

Trovare tutte le basi della reference coperte dagli allineamenti.

Numero di basi coperte da allineamenti:

**Esercizio**: accedere alla 1000-esima colonna (base) di *pileup* e:

- settare la qualità minima a 0

- accedere alla posizione sulla reference

- estrarre il numero di reads che coprono la base.

- ottenere gli identificatori dei reads che coprono la base.

- estrarre la lista dei reads che coprono la base.

Per il primo oggetto `PileupRead`, accedere alla posizione sul read che corrisponde alla base di pileup sulla *reference*.

L'allineamento del primo read "impilato" è:

Recuperare la sua cigarstring.

## Salvare allineamenti in un file `SAM/BAM`

Le seguenti istruzione:

    output_file = pysam.AlignmentFile(output_file_name, 'w', template=template_file)
    output_file = pysam.AlignmentFile(output_file_name, 'wb', template=template_file)
    
aprono un *handle* in scrittura a un file `SAM/BAM` e usa come Header Section quella presente in `template_file`.

Per salvare un allineamento (oggetto `AlignedSegment`), basta scrivere:

    output_file.write(aligned_segment)
    
---

**Esercizio**: trasformare il file BAM in un file SAM.