# Modulo pysam per formato SAM/BAM

`pysam` è il modulo Python che mette a disposizione le funzionalità per manipolare file in formato SAM/BAM.

Importare il modulo `pysam`

In [61]:
import pysam

## 1) Leggere gli allineamenti da un file `SAM/BAM`

La classe `AlignmentFile` è la classe che rappresenta un set di allineamenti di *queries* (sequenze corte) a *references* (sequenze lunghe).

Un oggetto di tipo `AlignmentFile` è ottenuto a partire da un file SAM/BAM nel seguente modo: 

    sam_file = AlignmentFile(sam_file_name, 'r')
    bam_file = AlignmentFile(bam_file_name, 'rb')

Importare la classe `AlignmentFile`.

In [62]:
from pysam import AlignmentFile

In [63]:
help(AlignmentFile)

Help on class AlignmentFile in module pysam.libcalignmentfile:

class AlignmentFile(pysam.libchtslib.HTSFile)
 |  AlignmentFile(filepath_or_object, mode=None, template=None,
 |  reference_names=None, reference_lengths=None, text=NULL,
 |  header=None, add_sq_text=False, check_header=True, check_sq=True,
 |  reference_filename=None, filename=None, index_filename=None,
 |  filepath_index=None, require_index=False, duplicate_filehandle=True,
 |  ignore_truncation=False, threads=1)
 |  
 |  A :term:`SAM`/:term:`BAM`/:term:`CRAM` formatted file.
 |  
 |  If `filepath_or_object` is a string, the file is automatically
 |  opened. If `filepath_or_object` is a python File object, the
 |  already opened file will be used.
 |  
 |  If the file is opened for reading and an index exists (if file is BAM, a
 |  .bai file or if CRAM a .crai file), it will be opened automatically.
 |  `index_filename` may be specified explicitly. If the index is not named
 |  in the standard manner, not located in the 

### Costruire l'oggetto `AlignmentFile` a partire dal file `sample.bam`

Indicizzare il file `sample.bam` tramite la funzione `index()`.

In [64]:
pysam.index('./sample.bam')

''

Costruire l'oggetto `AlignmentFile` a partire dal file `sample.bam`.

In [65]:
bam_file = AlignmentFile('./sample.bam', 'rb')

`bam_file` contiene l'oggetto che rappresenta tutti gli allineamenti presenti nel file di BAM in input.

Il numero di reads mappati e non mappati si ottiene accedendo a `mapped` e `unmapped`.

In [66]:
bam_file.mapped

25008

In [67]:
bam_file.unmapped

0

Le references coinvolte nel file BAM si ottengono accedendo a `references`.

In [68]:
bam_file.references

('X',)

Il numero di references coinvolte nel file BAM si ottengono accedendo a `nreferences`.

In [69]:
bam_file.nreferences

1

La lunghezza delle references coinvolte nel file BAM si ottengono accedendo a `lengths`.

In [70]:
bam_file.lengths

(23542271,)

La lunghezza di una reference in particolare si ottiene con il metodo `get_reference_length()`.

In [71]:
bam_file.get_reference_length('X')

23542271

Il numero di queries (reads) mappati a una determinata regione della reference si ottiene con il metodo `count()`

In [72]:
bam_file.count('X', 280000, 300000)

25008

## 2) Estrarre allineamenti da un oggetto `AlignmentFile`

Il metodo `fetch()` invocato nei tre seguenti modi: 

    bam_file.fetch()
    bam_file.fetch(ref_name)
    bam_file.fetch(ref_name, start_region, end_region)
    
restituisce un iteratore contenente (rispettivamente):

- tutti gli allineamenti del SAM/BAM file
- tutti gli allineamenti che si riferiscono alla reference `ref_name`
- tutti gli allineamenti che si riferiscono alla sottoregione tra le posizioni `start_region` e `end_region`della reference `ref_name`.

Un singolo allineamento tra query e reference è un oggetto di tipo `AlignedSegment`.

---
    
Estrarre tutti gli allineamenti del BAM file.

In [73]:
all_alignments = bam_file.fetch()

Il numero di allineamenti estratti è:

In [74]:
all_alignments = list(all_alignments)

In [75]:
len(all_alignments)

25008

Estrarre gli allineamenti relativi alla reference `X`.

In [77]:
x_alignments = bam_file.fetch('X')

In [78]:
len(list(x_alignments))

25008

Estrarre gli allineamenti relativi alla reference `X` che cadono nella regione tra le posizioni `280000` e `285000`.

In [79]:
x_region_alignments = bam_file.fetch('X', 280000, 285000)

In [80]:
len(list(x_region_alignments))

3170

L'istruzione:

    bam_file.head(n)

restituisve i primi `n` allineamenti del BAM file.

---

Si estraggano i primi 1000 allineamenti.

In [81]:
first_alignments = list(bam_file.head(1000))

In [82]:
len(first_alignments)

1000

## 3) Accedere alle informazioni di un allineamento

Estrarre il primo allineamento della lista `all_alignments`.

In [83]:
first_alignment = all_alignments[0]
first_alignment

<pysam.libcalignedsegment.AlignedSegment at 0x110754b80>

Gli oggetti `AlignedSegment` hanno una serie di attributi che descrivono l'allineamento.

In [84]:
first_alignment.cigarstring

'100M'

In [85]:
first_alignment.cigartuples

[(0, 100)]

In [86]:
first_alignment.flag

0

In [87]:
first_alignment.is_paired

False

In [88]:
first_alignment.is_reverse

False

In [89]:
first_alignment.is_secondary

False

In [90]:
first_alignment.mapping_quality

255

In [91]:
first_alignment.reference_start

283185

In [92]:
first_alignment.query_name

'FBtr0300326_e_2967_X_283185'

In [93]:
first_alignment.query_qualities

array('B', [2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [94]:
first_alignment.query_alignment_sequence

'GCCCTTGCATTTATTTCCAGTTTTGGTTTTTTTTTTGTATTTATCAATTACATTTATAATTAATTATACACCATGTATATATATGTATTTATATACTATA'

Gli oggetti `AlignedSegment` hanno una serie di metodi tra i quali:

In [95]:
first_alignment.get_tags()

[('NH', 1), ('HI', 1), ('AS', 98), ('nM', 0)]

In [96]:
first_alignment.get_forward_sequence()

'GCCCTTGCATTTATTTCCAGTTTTGGTTTTTTTTTTGTATTTATCAATTACATTTATAATTAATTATACACCATGTATATATATGTATTTATATACTATA'

In [97]:
first_alignment.to_dict()

{'name': 'FBtr0300326_e_2967_X_283185',
 'flag': '0',
 'ref_name': 'X',
 'ref_pos': '283186',
 'map_quality': '255',
 'cigar': '100M',
 'next_ref_name': '*',
 'next_ref_pos': '0',
 'length': '0',
 'seq': 'GCCCTTGCATTTATTTCCAGTTTTGGTTTTTTTTTTGTATTTATCAATTACATTTATAATTAATTATACACCATGTATATATATGTATTTATATACTATA',
 'qual': '####################################################################################################',
 'tags': ['NH:i:1', 'HI:i:1', 'AS:i:98', 'nM:i:0']}

In [98]:
first_alignment.to_string()

'FBtr0300326_e_2967_X_283185\t0\tX\t283186\t255\t100M\t*\t0\t0\tGCCCTTGCATTTATTTCCAGTTTTGGTTTTTTTTTTGTATTTATCAATTACATTTATAATTAATTATACACCATGTATATATATGTATTTATATACTATA\t####################################################################################################\tNH:i:1\tHI:i:1\tAS:i:98\tnM:i:0'

## 4) Qualche metodo di `AlignmentFile`

- `find_introns()` restituisce in un oggetto `Counter` gli introni supportati dagli allineamenti passati come argomento e, per ogni introne, il numero di queries allineate

       bam_file.find_introns(alignment_iterator)
       
Le chiavi sono le tuple *(start, end)* degli introni e i valori sono il supporto come numero di queries. Il valore di *end* è la posizione della base del reference immediatamente successiva alla fine dell'introne.

Estrarre gli introni supportati dagli allineamenti del file in input:

In [99]:
bam_file.find_introns(bam_file.fetch())

Counter({(286891, 286948): 1255,
         (287041, 287328): 794,
         (287041, 289040): 468,
         (287526, 289040): 707,
         (289272, 289870): 530,
         (289272, 290252): 730,
         (289943, 290252): 593,
         (290596, 294712): 741,
         (290596, 294822): 586})

- `pileup()`, restituisce un iteratore contenente un oggetto `PileupColumn` per ognuna delle basi coperte dagli allineamenti che cadono nella regione specificata come *argomento* (se l'argomento non viene specificato allora vengono considerati tutti gli allineamenti presenti nel BAM file).

       bam_file.pileup()
       bam_file.pileup(ref_name)
       bam_file.pileup(ref_name, start_region, end_region)

Ogni base della reference coperta da allineamenti viene chiamata *pileup column*.

---

Trovare tutte le basi della reference coperte dagli allineamenti presenti nel BAM file.

In [100]:
pileup_iter = bam_file.pileup()

In [101]:
pileup_columns = list(pileup_iter)

Gli allineamenti presenti nel BAM file coprono un totale di:

In [102]:
len(pileup_columns)

11777

Accedere alla 1000-esima colonna (base) di *pileup* e:

- settare la qualità minima a 0

In [103]:
pileup_columns[999].set_min_base_quality(0)

- accedere alla posizione sulla reference

In [104]:
pileup_columns[999].pos

284184

- estrarre il numero di allineamenti (queries o reads) che coprono la base.

In [105]:
pileup_columns[999].nsegments

180

- ottenere gli identificatori delle queries (reads) che coprono la base.

In [106]:
pileup_columns[999].get_query_names()

['FBtr0342963_e_4202_X_294862',
 'FBtr0342963_e_6192_X_294862',
 'FBtr0342963_e_7396_X_294862',
 'FBtr0070103_e_4896_X_294862',
 'FBtr0342963_e_1514_X_294862',
 'FBtr0342963_e_4365_X_294862',
 'FBtr0070103_e_1858_X_294862',
 'FBtr0070103_e_2397_X_294862',
 'FBtr0070103_e_5063_X_294862',
 'FBtr0300326_e_4543_X_294861',
 'FBtr0070103_e_519_X_294861',
 'FBtr0070103_e_7416_X_294861',
 'FBtr0342963_e_2335_X_294861',
 'FBtr0342963_e_4019_X_294861',
 'FBtr0342963_e_4425_X_294861',
 'FBtr0342963_e_4688_X_294861',
 'FBtr0300326_e_2872_X_294861',
 'FBtr0070103_e_1324_X_294861',
 'FBtr0070103_e_4777_X_294861',
 'FBtr0070103_e_6318_X_294861',
 'FBtr0070103_e_8286_X_294861',
 'FBtr0342963_e_4202_X_294862',
 'FBtr0342963_e_6192_X_294862',
 'FBtr0342963_e_7396_X_294862',
 'FBtr0070103_e_4896_X_294862',
 'FBtr0342963_e_1514_X_294862',
 'FBtr0342963_e_4365_X_294862',
 'FBtr0070103_e_1858_X_294862',
 'FBtr0070103_e_2397_X_294862',
 'FBtr0070103_e_5063_X_294862',
 'FBtr0342963_e_4688_X_294861',
 'FBtr030

- estrarre la lista delle queries (reads) che coprono la base.

In [107]:
pileup_columns[999].pileups

[<pysam.libcalignedsegment.PileupRead at 0x10fc2ba90>,
 <pysam.libcalignedsegment.PileupRead at 0x10fc2be50>,
 <pysam.libcalignedsegment.PileupRead at 0x10fc2b7c0>,
 <pysam.libcalignedsegment.PileupRead at 0x10fc2bef0>,
 <pysam.libcalignedsegment.PileupRead at 0x10fc2bf40>,
 <pysam.libcalignedsegment.PileupRead at 0x10fc2bf90>,
 <pysam.libcalignedsegment.PileupRead at 0x110765b80>,
 <pysam.libcalignedsegment.PileupRead at 0x1107655e0>,
 <pysam.libcalignedsegment.PileupRead at 0x1107659a0>,
 <pysam.libcalignedsegment.PileupRead at 0x110765c20>,
 <pysam.libcalignedsegment.PileupRead at 0x110765040>,
 <pysam.libcalignedsegment.PileupRead at 0x110765e00>,
 <pysam.libcalignedsegment.PileupRead at 0x1107652c0>,
 <pysam.libcalignedsegment.PileupRead at 0x1107654f0>,
 <pysam.libcalignedsegment.PileupRead at 0x110765540>,
 <pysam.libcalignedsegment.PileupRead at 0x110765cc0>,
 <pysam.libcalignedsegment.PileupRead at 0x110765950>,
 <pysam.libcalignedsegment.PileupRead at 0x110765860>,
 <pysam.li

Per il primo oggetto `PileupRead`, accedere alla posizione sul read che corrisponde alla base di pileup sulla *reference*.

In [108]:
pileup_columns[999].pileups[0].query_position

99

L'allineamento del primo read "impilato" è:

In [109]:
pileup_columns[999].pileups[0].alignment

<pysam.libcalignedsegment.AlignedSegment at 0x11071cdc0>

## 5) Scrivere allineamenti in un file `SAM/BAM`

Le seguenti istruzione:

    output_file = pysam.AlignmentFile(output_file_name, 'w', template=template_file)
    output_file = pysam.AlignmentFile(output_file_name, 'wb', template=template_file)
    
aprono un *handle* in scrittura a un file `SAM/BAM` e usa come Header Section quella presente in `template_file`.

Per scrivere un allineamento (oggetto `AlignedSegment`), basta scrivere:

    output_file.write(aligned_segment)