In [3]:
import sqlite3
import pandas as pd

# Inleiding

Elke diagnostische NGS-test wordt beschreven door een unieke genesiscode. Deze code bepaalt welke analyses gerund moeten worden, welke capture gebruikt wordt en welke pakket- en eventueel panelfilters toegepast worden. Om deze filters juist te kunnen toepassen heeft de pipeline informatie nodig en deze wordt aangeboden in de vorm van gennamen en BED-files. 

Elke capture, pakket en panel heeft zijn eigen versienummer met daaraan gekoppeld een BED-file en een lijst met gennamen.

# Methode

Er zijn een aantal tabellen die de informatie bevatten die nodig is om de pipeline correct te runnen voor een specifieke genesiscode. Welke genesiscode voor welk sample gerund moet worden staat in de samplesheet die ook gebruikt wordt om de MiSeq te runnen. Voor deze genesiscode wordt uit onderstaande tabellen een capture, pakket en panel gehaald. 



## Tabel genesis
Koppeling tussen genesiscode en capture, pakket, panel en wel of niet runnen van CNV of mozaiek gedeeltes van de pipeline.

In [13]:
pd.read_sql('SELECT * FROM genesis', sqlite3.connect('captures.sqlite')).head()

Unnamed: 0,genesis,capture,pakket,panel,cnvscreening,cnvdiagnostiek,mozaiekdiagnostiek
0,AGP,AGPPVM,AGP,,1,0,0
1,ALS,NEURO,ALS,ALS,1,0,0
2,ARTM,SCD,SCD,,1,1,0
3,BLALBI,BH,ALBI,,1,0,0
4,BLCRD,BH,BH,CRD,1,0,0


## Tabel aandoeningen
Koppeling tussen genesiscode en aandoening.


In [14]:
pd.read_sql('SELECT * FROM aandoeningen', sqlite3.connect('captures.sqlite')).head()

Unnamed: 0,genesis,aandoening
0,AGP,Arthrogrypose
1,ALS,Amyotrofische Laterale Sclerose
2,ARTM,Aritmie
3,BLALBI,Albinisme
4,BLCRD,ConeRod Dystrophie


## Tabel captures

Hierin staan alle captures met versienummer met daaraan gekoppeld een OID, een of meerdere LOT-nummers en de genen op de capture. Ook de grootte van de capture is hier te vinden en deze wordt gebruikt om de verhoudingen tussen verschillende captures te bepalen als deze samen gesequenced worden.

In [15]:
pd.read_sql('SELECT * FROM captures', sqlite3.connect('captures.sqlite')).head()

Unnamed: 0,capture,versie,oid,lot,verdund,grootte,genen
0,AGPPVM,1,44292,40821,0,307000,"[""POLD1"", ""BMPR2"", ""ECEL1"", ""MLH1"", ""MYH8"", ""A..."
1,BH,3,43443,6167501,0,1267000,"[""CSPP1"", ""TEAD1"", ""CRX"", ""RIMS1"", ""MITF"", ""ML..."
2,CHC,1,43442,31614501,1,154000,"[""LHX3"", ""PROP1"", ""SLC5A5"", ""TRH"", ""HOXA3"", ""T..."
3,CM,15,44549,47469,0,508000,"[""RBM20"", ""ACTC1"", ""PRKAG2"", ""DSC2"", ""PLN"", ""P..."
4,COWSO,1,43135,111514901,0,76000,"[""SDHD"", ""PIK3R2"", ""PTEN"", ""PIK3CA"", ""MTOR"", ""..."


## Tabel pakketten

Hierin staan alle pakketten met versienummer met daaraan gekoppeld de genen in het pakket en de grootte van het pakket. 

In [16]:
pd.read_sql('SELECT * FROM pakketten', sqlite3.connect('captures.sqlite')).head()

Unnamed: 0,pakket,versie,grootte,genen
0,AGP,5,36971,"[""ECEL1"", ""MYBPC1"", ""MYH3"", ""MYH8"", ""PIEZO2"", ..."
1,VM,4,57106,"[""ACVRL1"", ""ANTXR1"", ""BMPR2"", ""CAV1"", ""CCM2"", ..."
2,PP,4,71895,"[""ACVRL1"", ""APC"", ""AXIN2"", ""BMPR1A"", ""ENG"", ""E..."
3,BH,3,826173,"[""ABCA4"", ""ABCB6"", ""ABCC6"", ""ABHD12"", ""ACO2"", ..."
4,ALBI,1,64575,"[""AP3B1"", ""BLOC1S3"", ""BLOC1S6"", ""C10orf11"", ""D..."


## Tabel panels

Hierin staan alle panels met versienummer met daaraan gekoppeld de genen in het panel en de grootte van het panel.

In [17]:
pd.read_sql('SELECT * FROM panels', sqlite3.connect('captures.sqlite')).head()

Unnamed: 0,panel,versie,grootte,genen
0,LCA,1,52103,"[""AIPL1"", ""CABP4"", ""CEP290"", ""CRB1"", ""CRX"", ""D..."
1,OVR,1,0,[]
2,RP,2,231550,"[""ABCA4"", ""ADGRA3"", ""ARL2BP"", ""ARL6"", ""BBS1"", ..."
3,CRD,2,111042,"[""ABCA4"", ""ADAM9"", ""AIPL1"", ""ATF6"", ""BEST1"", ""..."
4,CMT,3,85438,"[""BSCL2"", ""CTDP1"", ""DCTN1"", ""EGR2"", ""FGD4"", ""F..."
