
# Analiza jakości sekwencji bazowej z pliku FASTQ

Ten notebook przedstawia przykładowe użycie funkcji `cacl_base_seq_quality` z biblioteki `polars_bio` do analizy jakości bazowej sekwencji DNA.


## Importowanie bibliotek

In [1]:

import polars_bio as pb

  from .autonotebook import tqdm as notebook_tqdm
INFO:polars_bio:Creating BioSessionContext


## Wczytanie przykładowego pliku FASTQ

In [12]:

#Ścieka do pliku .fastq
path = "example.fastq"

print('Odczytano zawartość pliku', path)
fastq = pb.read_fastq(path).collect()
print(fastq)

Odczytano zawartość pliku example.fastq


200rows [00:00, 81728.45rows/s]

shape: (200, 4)
┌────────────────┬───────────────────────────┬──────────────────────────┬──────────────────────────┐
│ name           ┆ description               ┆ sequence                 ┆ quality_scores           │
│ ---            ┆ ---                       ┆ ---                      ┆ ---                      │
│ str            ┆ str                       ┆ str                      ┆ str                      │
╞════════════════╪═══════════════════════════╪══════════════════════════╪══════════════════════════╡
│ SRR9130495.1   ┆ D00236:723:HG32CBCX2:1:11 ┆ NCAATACAAAAGCAATATGGGAGA ┆ #4BDFDFFHGHGGJJJHIIIIGGI │
│                ┆ 08:13…                    ┆ AGCTAC…                  ┆ IJGJJG…                  │
│ SRR9130495.2   ┆ D00236:723:HG32CBCX2:1:11 ┆ NGTCAAAGATAAGATCAAAAGGCA ┆ #1=DDDDD>DHFH@EFHHGHGGFG │
│                ┆ 08:14…                    ┆ CTGGCT…                  ┆ IIIGIG…                  │
│ SRR9130495.3   ┆ D00236:723:HG32CBCX2:1:11 ┆ GTTTTCCTCTGGTTATTTCTAGGT ┆ @




## Obliczanie jakości sekwencji bazowej

Dane mozna wczytać z pliku oraz z wcześniej załodowanych df przez funkcję pb.read_fastq

In [13]:
print('Base sequence quality na podstawie odczytu z read_fastq')
frames = pb.cacl_base_seq_quality(fastq)
print(frames)

Base sequence quality na podstawie odczytu z read_fastq
shape: (101, 7)
┌──────────┬──────┬──────┬────────┬──────┬──────┬──────────────┐
│ position ┆ min  ┆ max  ┆ median ┆ q1   ┆ q3   ┆ sample_count │
│ ---      ┆ ---  ┆ ---  ┆ ---    ┆ ---  ┆ ---  ┆ ---          │
│ i64      ┆ f64  ┆ f64  ┆ f64    ┆ f64  ┆ f64  ┆ i64          │
╞══════════╪══════╪══════╪════════╪══════╪══════╪══════════════╡
│ 0        ┆ 2.0  ┆ 34.0 ┆ 33.0   ┆ 31.0 ┆ 34.0 ┆ 200          │
│ 1        ┆ 10.0 ┆ 34.0 ┆ 34.0   ┆ 31.0 ┆ 34.0 ┆ 200          │
│ 2        ┆ 16.0 ┆ 34.0 ┆ 34.0   ┆ 31.0 ┆ 34.0 ┆ 200          │
│ 3        ┆ 19.0 ┆ 37.0 ┆ 37.0   ┆ 35.0 ┆ 37.0 ┆ 200          │
│ 4        ┆ 16.0 ┆ 37.0 ┆ 37.0   ┆ 35.0 ┆ 37.0 ┆ 200          │
│ …        ┆ …    ┆ …    ┆ …      ┆ …    ┆ …    ┆ …            │
│ 96       ┆ 2.0  ┆ 38.0 ┆ 34.0   ┆ 32.0 ┆ 35.0 ┆ 200          │
│ 97       ┆ 2.0  ┆ 38.0 ┆ 34.0   ┆ 31.0 ┆ 35.0 ┆ 200          │
│ 98       ┆ 7.0  ┆ 40.0 ┆ 34.0   ┆ 32.0 ┆ 35.0 ┆ 200          │
│ 99       ┆ 5.0  

In [9]:

print('Base sequence quality dla pliku', path)
frames_from_file = pb.cacl_base_seq_quality(path)
print(frames_from_file)

Base sequence quality dla pliku example.fastq
shape: (101, 7)
┌──────────┬──────┬──────┬────────┬──────┬──────┬──────────────┐
│ position ┆ min  ┆ max  ┆ median ┆ q1   ┆ q3   ┆ sample_count │
│ ---      ┆ ---  ┆ ---  ┆ ---    ┆ ---  ┆ ---  ┆ ---          │
│ i64      ┆ f64  ┆ f64  ┆ f64    ┆ f64  ┆ f64  ┆ i64          │
╞══════════╪══════╪══════╪════════╪══════╪══════╪══════════════╡
│ 0        ┆ 2.0  ┆ 34.0 ┆ 33.0   ┆ 31.0 ┆ 34.0 ┆ 200          │
│ 1        ┆ 10.0 ┆ 34.0 ┆ 34.0   ┆ 31.0 ┆ 34.0 ┆ 200          │
│ 2        ┆ 16.0 ┆ 34.0 ┆ 34.0   ┆ 31.0 ┆ 34.0 ┆ 200          │
│ 3        ┆ 19.0 ┆ 37.0 ┆ 37.0   ┆ 35.0 ┆ 37.0 ┆ 200          │
│ 4        ┆ 16.0 ┆ 37.0 ┆ 37.0   ┆ 35.0 ┆ 37.0 ┆ 200          │
│ …        ┆ …    ┆ …    ┆ …      ┆ …    ┆ …    ┆ …            │
│ 96       ┆ 2.0  ┆ 38.0 ┆ 34.0   ┆ 32.0 ┆ 35.0 ┆ 200          │
│ 97       ┆ 2.0  ┆ 38.0 ┆ 34.0   ┆ 31.0 ┆ 35.0 ┆ 200          │
│ 98       ┆ 7.0  ┆ 40.0 ┆ 34.0   ┆ 32.0 ┆ 35.0 ┆ 200          │
│ 99       ┆ 5.0  ┆ 38.0 ┆ 3

Typ danych na wyjściu mozna zmieniać parametrem output_type

In [10]:
pb.cacl_base_seq_quality(path, output_type='pandas.DataFrame')

Unnamed: 0,position,min,max,median,q1,q3,sample_count
0,0,2.0,34.0,33.0,31.0,34.0,200
1,1,10.0,34.0,34.0,31.0,34.0,200
2,2,16.0,34.0,34.0,31.0,34.0,200
3,3,19.0,37.0,37.0,35.0,37.0,200
4,4,16.0,37.0,37.0,35.0,37.0,200
...,...,...,...,...,...,...,...
96,96,2.0,38.0,34.0,32.0,35.0,200
97,97,2.0,38.0,34.0,31.0,35.0,200
98,98,7.0,40.0,34.0,32.0,35.0,200
99,99,5.0,38.0,34.0,32.0,35.0,200


Mozna równiez zmieniać liczbę wątków

In [11]:
pb.cacl_base_seq_quality(path, target_partitions=4, output_type='pandas.DataFrame')

Unnamed: 0,position,min,max,median,q1,q3,sample_count
0,0,2.0,34.0,33.0,31.0,34.0,200
1,1,10.0,34.0,34.0,31.0,34.0,200
2,2,16.0,34.0,34.0,31.0,34.0,200
3,3,19.0,37.0,37.0,35.0,37.0,200
4,4,16.0,37.0,37.0,35.0,37.0,200
...,...,...,...,...,...,...,...
96,96,2.0,38.0,34.0,32.0,35.0,200
97,97,2.0,38.0,34.0,31.0,35.0,200
98,98,7.0,40.0,34.0,32.0,35.0,200
99,99,5.0,38.0,34.0,32.0,35.0,200


Notebook zakończony pomyślnie. Możesz teraz przeanalizować wyniki powyżej lub przeprowadzić testy. 

## Aby przeprowadzić dedykowane testy funkcji należy:
Przejśc do katalogu z testami a następnie wykonać komendę:
```bash
pythest test_quality_op.py
```

