# Modulo pysam per formato SAM/BAM

`pysam` è il modulo Python che mette a disposizione le funzionalità per manipolare file in formato SAM/BAM.

Importare il modulo `pysam`

## 1) Leggere gli allineamenti da un file `SAM/BAM`

La classe `AlignmentFile` è la classe che rappresenta un set di allineamenti di *queries* (sequenze corte) a *references* (sequenze lunghe).

Un oggetto di tipo `AlignmentFile` è ottenuto a partire da un file SAM/BAM nel seguente modo: 

    sam_file = AlignmentFile(sam_file_name, 'r')
    bam_file = AlignmentFile(bam_file_name, 'rb')

Importare la classe `AlignmentFile`.

### Costruire l'oggetto `AlignmentFile` a partire dal file `sample.bam`

Indicizzare il file `sample.bam` tramite la funzione `index()`.

Costruire l'oggetto `AlignmentFile` a partire dal file `sample.bam`.

`bam_file` contiene l'oggetto che rappresenta tutti gli allineamenti presenti nel file di BAM in input.

Il numero di reads mappati e non mappati si ottiene accedendo a `mapped` e `unmapped`.

Le references coinvolte nel file BAM si ottengono accedendo a `references`.

Il numero di references coinvolte nel file BAM si ottengono accedendo a `nreferences`.

La lunghezza delle references coinvolte nel file BAM si ottengono accedendo a `lengths`.

La lunghezza di una reference in particolare si ottiene con il metodo `get_reference_length()`.

Il numero di queries (reads) mappati a una determinata regione della reference si ottiene con il metodo `count()`

## 2) Estrarre allineamenti da un oggetto `AlignmentFile`

Il metodo `fetch()` invocato nei tre seguenti modi: 

    bam_file.fetch()
    bam_file.fetch(ref_name)
    bam_file.fetch(ref_name, start_region, end_region)
    
restituisce un iteratore contenente (rispettivamente):

- tutti gli allineamenti del BAM file
- tutti gli allineamenti che si riferiscono alla reference `ref_name`
- tutti gli allineamenti che si riferiscono alla sottoregione tra le posizioni `start_region` e `end_region`della reference `ref_name`.

Un singolo allineamento tra query e reference è un oggetto di tipo `AlignedSegment`.

---
    
Estrarre tutti gli allineamenti del BAM file.

Il numero di allineamenti estratti è:

Estrarre gli allineamenti relativi alla reference `X`.

Estrarre gli allineamenti relativi alla reference `X` che cadono nella regione tra le posizioni `280000` e `285000`.

L'istruzione:

    bam_file.head(n)

restituisve i primi `n` allineamenti del BAM file.

---

Si estraggano i primi 1000 allineamenti.

## 3) Accedere alle informazioni di un allineamento

Estrarre il primo allineamento della lista.

Gli oggetti `AlignedSegment` hanno una serie di attributi che descrivono l'allineamento.

Gli oggetti `AlignedSegment` hanno una serie di metodi tra i quali:

## 4) Qualche metodo di `AlignmentFile`

- `find_introns()` restituisce in un oggetto `Counter` gli introni supportati dagli allineamenti passati come argomento e, per ogni introne, il numero di queries allineate

       bam_file.find_introns(alignment_iterator)
       
Le chiavi sono le tuple *(start, end)* degli introni e i valori sono il supporto come numero di queries. Il valore di *end* è la posizione della base del reference immediatamente successiva alla fine dell'introne.

Estrarre gli introni supportati dagli allineamenti del file in input:

- `pileup()`, restituisce un iteratore contenente un oggetto `PileupColumn` per ognuna delle basi coperte dagli allineamenti che cadono nella regione specificata come *argomento* (se l'argomento non viene specificato allora vengono considerati tutti gli allineamenti presenti nel BAM file).

       bam_file.pileup()
       bam_file.pileup(ref_name)
       bam_file.pileup(ref_name, start_region, end_region)

Ogni base della reference coperta da allineamenti viene chiamata *pileup column*.

---

Trovare tutte le basi della reference coperte dagli allineamenti presenti nel BAM file.

Gli allineamenti presenti nel BAM file coprono un totale di:

Accedere alla 1000-esima colonna (base) di *pileup* e:

- settare la qualità minima a 0

- accedere alla posizione sulla reference

- estrarre il numero di allineamenti (queries o reads) che coprono la base.

- ottenere gli identificatori delle queries (reads) che coprono la base.

- estrarre la lista delle queries (reads) che coprono la base.

Per il primo oggetto `PileupRead`, accedere alla posizione sul read che corrisponde alla base di pileup sulla *reference*.

L'allineamento del primo read "impilato" è:

## 5) Scrivere allineamenti in un file `SAM`

Le seguenti istruzione:

    output_file = pysam.AlignmentFile(output_file_name, 'w', template=template_file)
    output_file = pysam.AlignmentFile(output_file_name, 'wb', template=template_file)
    
aprono un *handle* in scrittura a un file `SAM/BAM` e usa come Header Section quella presente in `template_file`.

Per scrivere un allineamento (oggetto `AlignedSegment`), basta scrivere:

    output_file.write(aligned_segment)