# Medicijn hergebruik voor kanker



## Intro
Het ontwikkelen van nieuwe medicijnen kost veel geld en tijd, terwijl het niet altijd nodig is om die helemaal opnieuw te ontwikkelen. We beschikken namelijk al over een breed scala aan goedgekeurde medicijnen. Bij colorectale kanker is er sprake van verhoogde genetische instabiliteit, veroorzaakt door hoge LINE-1 transposonactiviteit, wat een kenmerk is van de ziekte. Ieder heeft ongeveer 100 actieve, maar zwaar gemethyleerde LINE-1's in het genoom. Deze functioneren door middel van reverse transcriptase (RT), afkomstig van hun retrovirale achtergrond. Hierdoor is het mogelijk retrovirale virusremmers, zoals HIV-remmers, te gebruiken als medicijn om deze activiteit te onderdrukken. Dit wordt al toegepast in sommige kankertherapieën en is een voorbeeld van medicijn hergebruik. Het biedt een kans om te onderzoeken of er wellicht andere medicijnen bestaan die potentieel toegepast kunnen worden in de behandeling van kanker.

# Doel

Het doel van dit project is om te onderzoeken of er al mogelijke medicijnen bestaan die van toepassing kunnen zijn bij de behandeling van kanker. Dit gaan we onderzoeken door middel van RNA count data van kanker en niet kanker. Hier worden de differential expressed genes (DEG) van afgeleid, om vervolgens een medicijnen netwerk op te zetten op basis van deze DEG. Dit zal kunnen leiden tot een netwerk model van potentiële medicijnen.

Als een proof of concept gaan we inzoomen op 1 kankersoort. Welke dit zal worden is afhankelijk van de dataset die we vinden.

# Project Imports

In [2]:
import pandas as pd, numpy as np
import networkx as nx
from scipy import stats
from statsmodels.stats.multitest import multipletests
from pyvis.network import Network

# Exploratieve Data Analysis

## DEG zoeken
Starten met het inladen van de data die uitgepakt staat in `data/`. De data komt van [https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE62944](https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE62944). De link bevat meer informatie over de afkomst van de data. De data bevat de count data van gezond en tumor weefsel, deze zijn verbonden door middel van een id, hiermee ook te koppelen aan een type tumor.

In [3]:
# Het normal.txt-bestand inladen en het tonen van de eerste paar regels
normal_data = pd.read_csv("data/GSM1697009_06_01_15_TCGA_24.normal_Rsubread_FeatureCounts.txt", sep="\t", index_col=0)
print("Normal data")
print(normal_data.head())

# Het cancer.txt-bestand inladen en het tonen van de eerste paar regels
cancer_data = pd.read_csv("data/GSM1536837_06_01_15_TCGA_24.tumor_Rsubread_FeatureCounts.txt", sep="\t", index_col=0)
print("\n Cancer data")
print(cancer_data.head())


Normal data
             TCGA-06-0675-11A-32R-A36H-07  TCGA-06-0678-11A-32R-A36H-07  \
1/2-SBSRNA4                            48                            25   
A1BG                                  206                           112   
A1BG-AS1                               87                            44   
A1CF                                    8                             2   
A2LD1                                 138                            99   

             TCGA-06-0680-11A-32R-A36H-07  TCGA-06-0681-11A-41R-A36H-07  \
1/2-SBSRNA4                            36                            28   
A1BG                                  223                           361   
A1BG-AS1                              122                           120   
A1CF                                    5                             1   
A2LD1                                 127                           110   

             TCGA-06-AABW-11A-31R-A36H-07  TCGA-22-4593-11A-01R-1820-07  \
1/2-SBSRNA4

Doormiddel van pandas is de data eenvoudig ingelezen. De rows bestaan uit genen en de kolommen uit id's. Nu het identificeren van welke tumor de counts data is. We maken een functie om labels uit de bestanden te halen.

In [4]:
# chat-gpt
def process_cancer_data(file_path):
    """
        Processes a file with labels and cancer types and returns a dictionary.

        Args:
            file_path (str): Path to the file.

        Returns:
            dict: A dictionary with cancer types as keys and lists of labels as values.
    """
    cancer_dict = {}

    with open(file_path, 'r') as file:
        for line in file:
            label, cancer_type = line.strip().split('\t')
            if cancer_type not in cancer_dict:
                cancer_dict[cancer_type] = []
            cancer_dict[cancer_type].append(label)

    return cancer_dict

Functie toepassen.

In [5]:
normal_data_labels = process_cancer_data("data/GSE62944_06_01_15_TCGA_24_Normal_CancerType_Samples.txt")
print(normal_data_labels.keys())

dict_keys(['BLCA', 'LUAD', 'LIHC', 'BRCA', 'LUSC', 'UCEC', 'PAAD', 'HNSC', 'STAD', 'COAD', 'KIRC', 'PRAD', 'KICH', 'THCA', 'CESC', 'READ', 'CHOL', 'PCPG', 'KIRP', 'ESCA', 'SKCM', 'GBM', 'SARC', 'THYM'])


En nu voor de kankerdata.

In [6]:
cancer_data_labels = process_cancer_data("data/GSE62944_01_27_15_TCGA_20_CancerType_Samples.txt")
print(cancer_data_labels.keys())

dict_keys(['LGG', 'STAD', 'BRCA', 'LIHC', 'KIRP', 'OV', 'KIRC', 'LUAD', 'PRAD', 'COAD', 'BLCA', 'KICH', 'THCA', 'UCEC', 'HNSC', 'LUSC', 'GBM', 'SKCM', 'READ', 'LAML'])


In [7]:
def print_dict_contents(my_dict):
    """
    Prints the count of values for each key in a dictionary.

    Parameters:
        my_dict (dict): A dictionary where each key maps to a collection of values (e.g., list, set, tuple).

    Returns:
        None
    """
    for key, values in my_dict.items():
        count = len(values)
        print(f"Key: {key}, Count: {count}")

print("Normal Data:")
print_dict_contents(normal_data_labels)
print("\nCancer Data:")
print_dict_contents(cancer_data_labels)

Normal Data:
Key: BLCA, Count: 19
Key: LUAD, Count: 59
Key: LIHC, Count: 50
Key: BRCA, Count: 113
Key: LUSC, Count: 51
Key: UCEC, Count: 35
Key: PAAD, Count: 4
Key: HNSC, Count: 44
Key: STAD, Count: 37
Key: COAD, Count: 41
Key: KIRC, Count: 72
Key: PRAD, Count: 52
Key: KICH, Count: 25
Key: THCA, Count: 59
Key: CESC, Count: 3
Key: READ, Count: 10
Key: CHOL, Count: 9
Key: PCPG, Count: 3
Key: KIRP, Count: 32
Key: ESCA, Count: 13
Key: SKCM, Count: 1
Key: GBM, Count: 5
Key: SARC, Count: 2
Key: THYM, Count: 2

Cancer Data:
Key: LGG, Count: 528
Key: STAD, Count: 146
Key: BRCA, Count: 1082
Key: LIHC, Count: 212
Key: KIRP, Count: 226
Key: OV, Count: 344
Key: KIRC, Count: 540
Key: LUAD, Count: 514
Key: PRAD, Count: 423
Key: COAD, Count: 468
Key: BLCA, Count: 273
Key: KICH, Count: 66
Key: THCA, Count: 506
Key: UCEC, Count: 536
Key: HNSC, Count: 481
Key: LUSC, Count: 490
Key: GBM, Count: 170
Key: SKCM, Count: 373
Key: READ, Count: 164
Key: LAML, Count: 164


Nu gaan we van de data een subset maken op basis van kankertype. In de contents van de data hierboven is er het meesten van `BCRA`; We kiezen daarom voor de `BCRA`, dat borstkanker representeert.

In [8]:
cancer_key = "BRCA"
# Making BRCA labels
normal_BRCA_labels = normal_data_labels[cancer_key]
cancer_BRCA_labels = cancer_data_labels[cancer_key]
print(f"Normal BRCA label: {len(normal_BRCA_labels)} | Cancer BRCA label: {len(cancer_BRCA_labels)}")

# Subsetting data to BRCA key
print(f"Normal dataset length: {len(normal_data.columns)} | Cancer dataset length: {len(cancer_data.columns)}")
normal_data_subset = normal_data[normal_BRCA_labels]
cancer_data_subset = cancer_data[cancer_BRCA_labels]
print(f"After subsetting\nNormal dataset length: {len(normal_data_subset.columns)} | Cancer dataset length: {len(cancer_data_subset.columns)}")


Normal BRCA label: 113 | Cancer BRCA label: 1082
Normal dataset length: 741 | Cancer dataset length: 9264
After subsetting
Normal dataset length: 113 | Cancer dataset length: 1082


De counts moeten nog genormaliseerd worden. Dit wordt met een log2 transformatie toegepast op de dataset. Een tpm is ook nog een overwogen optie, alleen voldoet voor dit korte onderzoek de log2.

In [9]:
def log_transform(expression_data):
    """
    Applies a log2(x + 1) transformation to an expression matrix.

    Args:
        expression_data (pd.DataFrame): Raw counts data where rows are genes and columns are samples.

    Returns:
        pd.DataFrame: Log-transformed expression data.
    """
    return np.log2(expression_data + 1)

Nu het toepassen van de normalisering.

In [10]:
normal_data_log = log_transform(normal_data_subset)
cancer_data_log = log_transform(cancer_data_subset)
print(normal_data_log.head())
print(cancer_data_log.head())

             TCGA-BH-A0DV-11A-22R-A12P-07  TCGA-BH-A0BC-11A-22R-A089-07  \
1/2-SBSRNA4                      5.930737                      5.247928   
A1BG                             7.451211                      6.794416   
A1BG-AS1                         6.584963                      4.584963   
A1CF                             2.807355                      2.000000   
A2LD1                            7.960002                      7.888743   

             TCGA-BH-A0BM-11A-12R-A089-07  TCGA-AC-A2FB-11A-13R-A17B-07  \
1/2-SBSRNA4                      6.209453                      5.584963   
A1BG                             8.082149                      7.948367   
A1BG-AS1                         6.022368                      6.426265   
A1CF                             2.584963                      1.584963   
A2LD1                            7.459432                      8.252665   

             TCGA-A7-A13E-11A-61R-A12P-07  TCGA-BH-A0BA-11A-22R-A19E-07  \
1/2-SBSRNA4            

Dat ziet er uit dat het stabiliseren van de dataset met een log2-transformatie succesvol was. Nu het zoeken naar de DEG. Om deze te bepalen maken we gebruik van een meervoudige t-test en een log2 fold change. Wanneer het gen een p value kleiner dan `0.05f` en de log2 fold change groter dan `1.5f` bezit, nemen we het mee als een significante DEG.

In [12]:
deg_results_list = []

for gene in normal_data_subset.index:
    # Retrieving both gene values
    normal_values = normal_data_log.loc[gene].values
    cancer_values = cancer_data_log.loc[gene].values

    # Check if not 0
    if len(normal_values) == 0 or len(cancer_values) == 0:
        continue

    # T test
    t_stat, p_value = stats.ttest_ind(normal_values, cancer_values, nan_policy='omit')

    # Check valid p-value (no Nan)
    if np.isnan(p_value):
        continue

    # Calculate log2 fold change
    log2_fold_change = (cancer_values.mean() + 1e-9) / (normal_values.mean() + 1e-9)
    log2_fold_change = np.log2(log2_fold_change)

    deg_results_list.append({'gene': gene, 'p_value': p_value, 'log2_fold_change': log2_fold_change})

# Make dataframe
deg_results = pd.DataFrame(deg_results_list).set_index('gene')
print(f"Number of results: {len(deg_results)}")

# Correct multiple t-test with Benjamini-Hochberg method
deg_results['adjusted_p_value'] = multipletests(deg_results['p_value'], method='fdr_bh')[1]

significant_genes = deg_results[(deg_results['adjusted_p_value'] < 0.05) & (deg_results['log2_fold_change'].abs() > 1.5)]
print(f"Significant genes: {len(significant_genes)}")
print(significant_genes)


Number of results: 22828
Significant genes: 397
                    p_value  log2_fold_change  adjusted_p_value
gene                                                           
AADACL2        5.946168e-57         -2.053206      1.393625e-55
AADACL3        5.175597e-47         -1.981595      8.751744e-46
ACCN5          2.315207e-08          2.064753      6.013375e-08
ACSM2A         1.131945e-77         -1.854185      5.617400e-76
ACSM2B         2.678361e-69         -1.903352      9.814064e-68
...                     ...               ...               ...
WBSCR28        1.204012e-52          1.992041      2.485099e-51
WT1-AS         2.259882e-23          1.659053      1.407217e-22
XAGE3          6.182491e-49         -2.147741      1.108672e-47
ZNF670-ZNF695  9.198208e-13          2.282103      3.185809e-12
ZP4            4.736589e-08          2.169195      1.203549e-07

[397 rows x 3 columns]


Top, we hebben sigificante DEG voor borstkanker. Nu moeten we onderzoeken welke medicijnen hierbij gepaard gaan.

## Matchen van Medicijnen

Nu eenmaal in bezit van DEGs is de volgende taak, onderzoeken welke bekende medicijnen met deze genen betrokken zijn. Hiervoor zoeken we een dataset die medicijnen verbind aan genen. Een data zoals die van NIH LINCS program. De data staat op [https://maayanlab.cloud/sigcom-lincs/#/Download](https://maayanlab.cloud/sigcom-lincs/#/Download). Deze dataset heeft de vorm 4269x35239, ik ga er vanuit dat al onze deg zich hierin bevinden. Nu eerst de data inlezen.

In [13]:
drug_data = normal_data = pd.read_csv("data/human_geo_sigs.tsv", sep="\t", index_col=0)
print(drug_data.head())

                                                        A1BG      A1CF  \
Identification of differentially expressed circ... -2.198815 -0.297826   
CRISPR Inversion of CTCF Sites Alters Genome To...  0.517292  0.000000   
mRNA differential expression in LNCaP cells exp...  0.208042  0.017953   
EHMT1 and EHMT2 inhibition induce fetal hemoglo...  0.167852  0.000000   
Prolyl hydroxylation regulates protein degradat...  0.340173 -0.002414   

                                                         A2M     A2ML1  \
Identification of differentially expressed circ... -2.457639 -1.564745   
CRISPR Inversion of CTCF Sites Alters Genome To...  0.000000  0.000000   
mRNA differential expression in LNCaP cells exp...  1.650377 -0.820223   
EHMT1 and EHMT2 inhibition induce fetal hemoglo...  0.000000  0.018627   
Prolyl hydroxylation regulates protein degradat... -0.109122 -0.060994   

                                                       A2MP1  A3GALT2  \
Identification of differentially expr

Dit ziet er veel belovend uit. De shape komt op 1 na overeen met wat de beschrijving is. Nu bekijken of al onze genen ook aanwezig zijn. in onze dataset.

In [14]:
# Check missing genes
significant_genes_common = significant_genes.index[significant_genes.index.isin(drug_data.columns)]
print(f"Aantal gemeenschappelijke genen: {len(significant_genes_common)}")
print(significant_genes_common)

Aantal gemeenschappelijke genen: 244
Index(['AADACL2', 'AADACL3', 'ACSM2A', 'ACSM2B', 'ACTL8', 'ACTR3BP2', 'ADAM18',
       'ADAMTS20', 'ADH7', 'ANGPTL7',
       ...
       'TLX1', 'TMEFF2', 'TPPP2', 'TUBA3C', 'UGT1A7', 'UGT2A1', 'WBSCR28',
       'XAGE3', 'ZNF670-ZNF695', 'ZP4'],
      dtype='object', name='gene', length=244)


Helaas missen er een aantal genen, maar gelukkig zijn er veel wel aanwezig. We gaan met de aanwezige genen verder! Dus gaan we een subset maken en hier mee verder.

In [15]:
drug_data_subset_common = drug_data[significant_genes_common]
# Controleer de afmetingen
print(f"Drug data subset shape: {drug_data_subset_common.shape}")
print(f"Significant genes subset shape: {significant_genes_common.shape}")

Drug data subset shape: (4269, 244)
Significant genes subset shape: (244,)


Dat is goed gegaan. Nu we de data concreet hebben gaan we een correlatie analyze uitoefenen. Dit doen we om te onderzoeken welke medicijnen het sterkst met deze genen gecorreleerd worden.

In [16]:
# Bekijk de indexen van beide datasets voor zekerheid
print(significant_genes_common)
print(drug_data_subset_common.index)
"""
# Maak de lege DataFrame om de correlatie op te slaan
correlation_matrix = pd.DataFrame(index=drug_data_subset_common.index, columns=significant_genes_common)

# Bereken de Pearson correlatie tussen elk medicijn en de significante genen
for sample in drug_data_subset_common.index:  # Itereer door de samples in de drug data
    for gene in significant_genes_common.index:  # Itereer door de significante genen
        # Verkrijg de data voor dit sample en gen
        drug_values = drug_data_subset_common.loc[sample].values  # Waarden voor het medicijn
        gene_values = significant_genes_common.loc[gene].values  # Waarden voor het gen

        # Bereken de Pearson correlatie tussen het medicijn en het gen
        corr, _ = stats.pearsonr(drug_values, gene_values)

        # Sla de correlatie op in de matrix
        correlation_matrix.loc[sample, gene] = corr

# Bekijk de correlatiematrix
print(correlation_matrix.head())
"""


Index(['AADACL2', 'AADACL3', 'ACSM2A', 'ACSM2B', 'ACTL8', 'ACTR3BP2', 'ADAM18',
       'ADAMTS20', 'ADH7', 'ANGPTL7',
       ...
       'TLX1', 'TMEFF2', 'TPPP2', 'TUBA3C', 'UGT1A7', 'UGT2A1', 'WBSCR28',
       'XAGE3', 'ZNF670-ZNF695', 'ZP4'],
      dtype='object', name='gene', length=244)
Index(['Identification of differentially expressed circRNA in gallbladder cancer compared with matched normal tissue GSE100363_1',
       'CRISPR Inversion of CTCF Sites Alters Genome Topology and Enhancer/Promoter Function GSE71275_1',
       'mRNA differential expression in LNCaP cells expressing the wild-type androgen receptor (AR-WT) or the ligand-independent AR-V7 splice variant GSE71334_1',
       'EHMT1 and EHMT2 inhibition induce fetal hemoglobin expression [RNA-seq] GSE71421_1',
       'Prolyl hydroxylation regulates protein degradation, synthesis, and splicing in human induced pluripotent stem cell-derived cardiomyocytes GSE71560_1',
       'FUS KO mRNA sequencing and anti-FUS RNA immunopr

AttributeError: 'Index' object has no attribute 'index'

> --Helaas is mijn code gebroken, verder is de uitkomst toch niet wat we zoeken, vandaar reflectie hieronder van toen het nog werkte--

Dit resultaat duit op een misverstand. Mijn resultaat van wat ik verwachte wijkt af, ik heb namelijk relevante studies op basis van mijn deg. Niet relevante medicijnen. Dit komt door het niet goed onderzoeken van mijn data en wat het precies bevat. Conclusie: Het verbinden van expressiedata en data afkomstig van relevante studies is mogelijk, dus dan zal het ook mogelijk moeten zijn om dit met medicijn-data te doen. Op zichzelf toont dit aan dat het gebruiken van expressie data vele kanten en mogelijkheden biedt, en ook invalshoeken die je soms niet verwacht of al onderzocht zijn.

Voor nu weer een stap terug, het zoeken van Medicijn data.

Er is een handmatig geannoteerde dataset die genen aan medicijnen verbindt. Deze bevat 875 verschillende middelen met elk relevante genen. Met mijn lijst van DEGs kan ik het hiermee in een netwerk leggen. De data is afkomstig uit [https://maayanlab.cloud/CREEDS/](https://maayanlab.cloud/CREEDS/), de v1.0	Manual single drug perturbations. Eerst kijken of het echt over middelen gaat, aangezien dit eerder wel beter gecontroleerd kon worden. De achtergrond staat het volgende artikel:
 > Wang, Z., Monteiro, C., Jagodnik, K. et al. Extraction and analysis of signatures from the Gene Expression Omnibus by the crowd. Nat Commun 7, 12846 (2016). https://doi.org/10.1038/ncomms12846.

In [17]:
drug_file = "data/single_drug_perturbations-v1.0.gmt"

with open(drug_file, 'r') as file:
    drug_file = {}
    for line in file:
        parts = line.strip().split('\t')
        drug_file[parts[0]] = parts[2:]

# print all compounds
for gene_set, genes in drug_file.items():
    print(f"Genenset: {gene_set}, Aantal genen: {len(genes)}")

Genenset: Fluorouracil-up, Aantal genen: 314
Genenset: Fluorouracil-dn, Aantal genen: 283
Genenset: Resveratrol-up, Aantal genen: 359
Genenset: Resveratrol-dn, Aantal genen: 241
Genenset: Citalopram-up, Aantal genen: 341
Genenset: Citalopram-dn, Aantal genen: 250
Genenset: Ethanol-up, Aantal genen: 331
Genenset: Ethanol-dn, Aantal genen: 240
Genenset: Sodium arsenite-up, Aantal genen: 309
Genenset: Sodium arsenite-dn, Aantal genen: 284
Genenset: Vitamin c-up, Aantal genen: 250
Genenset: Vitamin c-dn, Aantal genen: 322
Genenset: Perfluorooctanoic acid-up, Aantal genen: 218
Genenset: Perfluorooctanoic acid-dn, Aantal genen: 373
Genenset: Formaldehyde-up, Aantal genen: 271
Genenset: Formaldehyde-dn, Aantal genen: 329
Genenset: Tretinoin-up, Aantal genen: 359
Genenset: Tretinoin-dn, Aantal genen: 241
Genenset: Vitamin e-up, Aantal genen: 258
Genenset: Vitamin e-dn, Aantal genen: 340
Genenset: Gefitinib-up, Aantal genen: 117
Genenset: Gefitinib-dn, Aantal genen: 483
Genenset: Methylpredniso

Top er zijn stoffen aanwezig. Maar zijn het ook de genen die we hebben? Hiervoor gaan we de genen filteren om te kijken op welke stoffen ze invloed hebben.

In [None]:
total_hits = 0
relevant_gene_sets = []
for gene_set, genes in drug_file.items():
   present_genes_count =  len([gene for gene in genes if gene in significant_genes.index])
   if present_genes_count > 0:
       relevant_gene_sets.append(gene_set)

   print(f"Gene set: {gene_set}, Present gene count: {present_genes_count}")

   total_hits += present_genes_count

print(f"Total hits: {total_hits}")
print(f"Relevant drugs count:{len(relevant_gene_sets)}")

Er zijn genen aanwezig. Nu moet hier een netwerk van gemaakt kunnen worden.

In [19]:
# Maak een lege graaf
G = nx.Graph()

# Voeg genen en medicijnen toe als knopen
for drug, genes in drug_file.items():
    for gene in genes:
        if gene in significant_genes.index:
            G.add_edge(drug, gene)

# Pas node-groottes en labels aan
for node in G.nodes:
    if node in drug_file:  # Node is een medicijn
        G.nodes[node]['size'] = 20
        G.nodes[node]['color'] = 'blue'
        G.nodes[node]['label'] = f"Drug: {node}"
        G.nodes[node]['titel'] = f"Drug: {node}"
    elif node in significant_genes.index:  # Node is een gen
        G.nodes[node]['size'] = 15
        G.nodes[node]['label'] = f"Gene: {node}"
        G.nodes[node]['color'] = 'green'

# Visualiseren
net = Network(notebook=True)  # Als je in Jupyter werkt
net.from_nx(G)  # Converteer NetworkX-graaf naar Pyvis


# Verhoog de labelgrootte en voeg extra opties toe voor de visualisatie
net.set_options("""
var options = {
  "physics": {
    "barnesHut": {
      "gravitationalConstant": -2000,
      "centralGravity": 0.3,
      "springLength": 95,
      "springConstant": 0.04,
      "damping": 0.09
    },
    "minVelocity": 0.75
  },
  "interaction": {
    "hover": true,
    "tooltipDelay": 100,
    "hideEdgesOnDrag": false
  },
  "nodes": {
    "font": {
      "size": 16,
      "face": "arial",
      "align": "center"
    },
    "labelHighlightBold": true
  },
  "background": {
    "color": "rgba(0,0,0,0)"
  },
  "height": "100%",
  "width": "100%"
}
""")



net.show("network.html")

network.html


De blauwe en groene nodes geven respectievelijk medicijnen en genen weer. Indien de namen niet zichtbaar zijn, moet er worden ingezoomd.

In het netwerk is pertuzumab, een kankermedicijn, in HER2-positieve kanker, om precies te zijn. Alleen is het verbonden met het H3F3A-gen, dat eigenlijk helemaal geen directe connectie heeft met HER2. Het H3F3A-gen codeert voor het histoneiwit H3.3, dat door middel van mutaties genomische instabiliteit kan verhogen. Verder dragen de defecte varianten van het H3F3A-gen vaak bij aan agressief kankergedrag, vooral bij bepaalde hersentumoren.

De omgeving kan daardoor ook vrij vergelijkbaar zijn. Maar eerlijk is eerlijk, qua wat er bekend is over een stof zoals pertuzumab, wordt dit niet toegepast op een H3F3A-positieve kanker. Dus dat zal geen nieuwe vondst opleveren.

Dat deze stof en dit gen in de dataset verbonden staan, is de reden waarom deze connectie is ontstaan. Hierdoor is het, denk ik, waardevoller om te kijken naar stoffen die invloed hebben op meerdere genen die verbonden zijn aan bekende kankergenen. Of juist de kankergenen en welke stoffen daarbij horen, zoals cocaïne, die ook in verbinding staat met H3F3A.

Mogelijk kan een andere grotere chemical perturbations-dataset ook al meer inzichten geven, aangezien niet alle genen in de huidige dataset aanwezig zijn.

Want hoe zou het netwerk er dan uit hebben gezien? Zou er dan een 'missing link'-gen of stof tussen het H3F3A-gen en HER2 kunnen liggen? Hoe onwaarschijnlijk dit voorbeeld ook is, met onderzoek is het de kunst om altijd nieuwe, onverwachte vragen te stellen én inzichten te verkrijgen, zelfs als de uitkomsten niet altijd verwacht worden.

En daarom denk ik dat een netwerk zoals deze een stap de goede kant op is. Al is het geen verwacht resultaat, maar het levert wel een antwoord.