# Simulation experiment for detection thresholds for variant calling

This notebook is to get detection thresholds for the limit of the variant calling based on: 

1. Read depth
2. Error rate
3. Number of mutations

The data from this comes from: https://pubs.acs.org/doi/10.1021/acscentsci.7b00548 Ape AGW


In [7]:
import pandas as pd
# Visualisation things to make the figures look nice
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
from sciutil import SciUtil


data_dir = 'ePCR_data/'
fig_dir = 'ePCR_figures/'


plt.rcParams['svg.fonttype'] = 'none'
axis_line_width = 1.0
axis_font_size = 12
title_font_size = 12
label_font_size = 10
figsize = (5, 4) # Figure size
font = 'Arial'
style = 'ticks'
font_family = 'sans-serif'

# Create a figure with 2x2 subplots
sns.set_style("whitegrid")
cmap = 'viridis'
palette = sns.color_palette("viridis", as_cmap=True)
sns.set_palette(cmap)

sns.set(rc={'figure.figsize': figsize, 'font.family': font_family,
            'font.sans-serif': font, 'font.size': label_font_size}, style=style)

def set_ax_params(ax):
    ax.tick_params(direction='out', length=2, width=axis_line_width)
    ax.spines['bottom'].set_linewidth(axis_line_width)
    ax.spines['top'].set_linewidth(0)
    ax.spines['left'].set_linewidth(axis_line_width)
    ax.spines['right'].set_linewidth(0)
    ax.tick_params(labelsize=axis_font_size)
    ax.tick_params(axis='x', which='major', pad=2.0)
    ax.tick_params(axis='y', which='major', pad=2.0)
    ax.set_xticklabels(ax.get_xticklabels(), rotation=45, horizontalalignment='right')
    ax.tick_params(labelsize=label_font_size)


u = SciUtil()

# Generate mutations on a "real" sequence
# Decided to choose tauD from Ecoli K12

parent_sequence_aa = 'MTPSDIPGYDYGRVEKSPITDLEFDLLKKTVMLGEKDVMYLKKACDVLKDQVDEILDLAGGWVASNEHLIYYFSNPDTGEPIKEYLERVRARFGAWILDTTCRDYNREWLDYQYEVGLRHHRSKKGVTDGVRTVPHIPLRYLIAWIYPITATIKPFLAKKGGSPEDIEGMYNAWFKSVVLQVAIWSHPYTKENDWLEHHHHHH*'

parent_sequence = 'ATGACTCCCTCGGACATCCCGGGATATGATTATGGGCGTGTCGAGAAGTCACCCATCACGGACCTTGAGTTTGACCTTCTGAAGAAGACTGTCATGTTAGGTGAAAAGGACGTAATGTACTTGAAAAAGGCGTGTGACGTTCTGAAAGATCAAGTTGATGAGATCCTTGACTTGGCGGGTGGTTGGGTAGCATCAAATGAGCATTTGATTTATTACTTCTCCAATCCGGATACAGGAGAGCCTATTAAGGAATACCTGGAACGTGTACGCGCTCGCTTTGGAGCCTGGATTCTGGACACTACCTGCCGCGACTATAACCGTGAATGGTTAGACTACCAGTACGAAGTTGGGCTTCGTCATCACCGTTCAAAGAAAGGGGTCACAGACGGAGTACGCACCGTGCCCCATATCCCACTTCGTTATCTTATCGCATGGATCTATCCTATCACCGCCACTATCAAGCCATTTTTGGCTAAGAAAGGTGGCTCTCCGGAAGACATCGAAGGGATGTACAACGCTTGGTTCAAGTCTGTAGTTTTACAAGTTGCCATCTGGTCACACCCTTATACTAAGGAGAATGACTGGCTCGAGCACCACCACCACCACCACTGA'

# Introduce mutations at a given frequency and an error rate

Test setup:

Change to 0.1 - 5% 0.2% step size. 

1. For number of mutations from 1 to the sequence length test mutating each one and correlate this to the p value
2. For sequencing error rates from 0 to 100% make sequences ranging with this and see what the results are for the p value and the error
3. For different sequence lengths also check how sequence length corresponds to the pvalue

In [8]:
from levseq import *
from tqdm import tqdm

label = 'ParLQ'

## Experiment 1: Varying the sequencing error rate for a single mutation

In [9]:
# We're going to make an experiment of 10 plates with different sequencing error rates
read_depth = 10
number_of_wells = 96
epcr_mutation_rate = 0.02
frequency_cutoff = 0.5
library_number = 96 # Usually do a 96 well plate
verbose = False
sequencing_error = 0.1

experiment_df = pd.DataFrame()
for sequencing_error in range(0, 50, 5):
    sequencing_error_rate = sequencing_error/100.0
    run_df = make_experiment(f'SeqError_{sequencing_error}', read_depth, sequencing_error_rate, parent_sequence,
                             library_number, number_of_wells, epcr_mutation_rate, frequency_cutoff)
    run_df.reset_index(inplace=True)
    experiment_df = pd.concat([experiment_df, run_df])

# Also plot each one
experiment_df.to_csv(f'{data_dir}Experiment1_SeqError_{label}.csv', index=False)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:10<00:00,  9.02it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:11<00:00,  8.23it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.59it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:13<00:00,  7.33it/s]
100%|███████████████████

-----------------------------------------
-----------------------------------------


  3%|██████▍                                                                                                                                                                                                        | 3/96 [00:00<00:15,  6.19it/s]

-----------------------------------------
-----------------------------------------


  6%|████████████▉                                                                                                                                                                                                  | 6/96 [00:00<00:15,  5.99it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


  8%|█████████████████▎                                                                                                                                                                                             | 8/96 [00:01<00:14,  6.15it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 11%|███████████████████████▌                                                                                                                                                                                      | 11/96 [00:01<00:15,  5.52it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 14%|███████████████████████████▉                                                                                                                                                                                  | 13/96 [00:02<00:14,  5.84it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 16%|████████████████████████████████▏                                                                                                                                                                             | 15/96 [00:02<00:13,  5.94it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 19%|██████████████████████████████████████▋                                                                                                                                                                       | 18/96 [00:03<00:12,  6.01it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 21%|██████████████████████████████████████████▉                                                                                                                                                                   | 20/96 [00:03<00:12,  6.11it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 23%|███████████████████████████████████████████████▏                                                                                                                                                              | 22/96 [00:03<00:12,  6.16it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 25%|███████████████████████████████████████████████████▌                                                                                                                                                          | 24/96 [00:03<00:11,  6.13it/s]

-----------------------------------------
-----------------------------------------


 27%|███████████████████████████████████████████████████████▊                                                                                                                                                      | 26/96 [00:04<00:11,  6.09it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 30%|██████████████████████████████████████████████████████████████▏                                                                                                                                               | 29/96 [00:04<00:10,  6.12it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 32%|██████████████████████████████████████████████████████████████████▌                                                                                                                                           | 31/96 [00:05<00:10,  6.08it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 35%|████████████████████████████████████████████████████████████████████████▉                                                                                                                                     | 34/96 [00:05<00:10,  5.78it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 38%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                                | 36/96 [00:06<00:10,  5.86it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 40%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                            | 38/96 [00:06<00:09,  5.95it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 42%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 40/96 [00:06<00:09,  6.07it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 44%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 42/96 [00:07<00:08,  6.03it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 47%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 45/96 [00:07<00:08,  6.05it/s]

-----------------------------------------
-----------------------------------------


 49%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 47/96 [00:07<00:07,  6.14it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 51%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 49/96 [00:08<00:07,  6.04it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 51/96 [00:08<00:07,  6.02it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 53/96 [00:08<00:07,  5.91it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 55/96 [00:09<00:06,  6.14it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 57/96 [00:09<00:06,  6.13it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 59/96 [00:09<00:06,  6.13it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 64%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 61/96 [00:10<00:05,  6.12it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 63/96 [00:10<00:05,  6.04it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 65/96 [00:10<00:05,  6.06it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 67/96 [00:11<00:04,  6.05it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 69/96 [00:11<00:04,  6.03it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 71/96 [00:11<00:04,  6.06it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 73/96 [00:12<00:03,  6.06it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 75/96 [00:12<00:03,  5.45it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 78/96 [00:13<00:03,  5.87it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 80/96 [00:13<00:02,  5.95it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 83/96 [00:13<00:02,  6.00it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 85/96 [00:14<00:01,  6.09it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 87/96 [00:14<00:01,  6.16it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 89/96 [00:14<00:01,  6.10it/s]

-----------------------------------------
-----------------------------------------


 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 91/96 [00:15<00:00,  6.07it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 93/96 [00:15<00:00,  6.05it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 95/96 [00:15<00:00,  5.99it/s]

-----------------------------------------
-----------------------------------------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:16<00:00,  5.98it/s]
  1%|██▏                                                                                                                                                                                                            | 1/96 [00:00<00:16,  5.94it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


  4%|████████▋                                                                                                                                                                                                      | 4/96 [00:00<00:15,  5.91it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


  7%|███████████████                                                                                                                                                                                                | 7/96 [00:01<00:14,  5.98it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


  9%|███████████████████▍                                                                                                                                                                                           | 9/96 [00:01<00:14,  5.96it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 11%|███████████████████████▌                                                                                                                                                                                      | 11/96 [00:01<00:14,  5.95it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 15%|██████████████████████████████                                                                                                                                                                                | 14/96 [00:02<00:13,  5.94it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 17%|██████████████████████████████████▎                                                                                                                                                                           | 16/96 [00:02<00:13,  5.94it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 20%|████████████████████████████████████████▊                                                                                                                                                                     | 19/96 [00:03<00:12,  5.97it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 22%|█████████████████████████████████████████████                                                                                                                                                                 | 21/96 [00:03<00:13,  5.54it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 24%|█████████████████████████████████████████████████▎                                                                                                                                                            | 23/96 [00:03<00:12,  5.67it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 26%|█████████████████████████████████████████████████████▋                                                                                                                                                        | 25/96 [00:04<00:12,  5.80it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 28%|█████████████████████████████████████████████████████████▉                                                                                                                                                    | 27/96 [00:04<00:11,  5.85it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 31%|████████████████████████████████████████████████████████████████▍                                                                                                                                             | 30/96 [00:05<00:11,  5.89it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 33%|████████████████████████████████████████████████████████████████████▋                                                                                                                                         | 32/96 [00:05<00:10,  5.91it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 35%|████████████████████████████████████████████████████████████████████████▉                                                                                                                                     | 34/96 [00:05<00:10,  5.93it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 38%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                                | 36/96 [00:06<00:10,  5.95it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 40%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                            | 38/96 [00:06<00:09,  5.94it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 42%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 40/96 [00:06<00:09,  5.91it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 44%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 42/96 [00:07<00:09,  5.98it/s]

-----------------------------------------
-----------------------------------------


 45%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 43/96 [00:07<00:09,  5.40it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 47%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 45/96 [00:07<00:08,  5.69it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 49%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 47/96 [00:08<00:08,  5.88it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 51%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 49/96 [00:08<00:07,  5.93it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 51/96 [00:08<00:07,  6.25it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 53/96 [00:09<00:07,  6.05it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 55/96 [00:09<00:06,  6.01it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 57/96 [00:09<00:06,  5.98it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 60/96 [00:10<00:06,  5.97it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 62/96 [00:10<00:05,  5.97it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 64/96 [00:10<00:05,  5.42it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 66/96 [00:11<00:05,  5.84it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 68/96 [00:11<00:04,  5.92it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 70/96 [00:11<00:04,  5.93it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 72/96 [00:12<00:04,  5.94it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 75/96 [00:12<00:03,  5.93it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 77/96 [00:13<00:03,  5.93it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 79/96 [00:13<00:02,  5.92it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 82/96 [00:13<00:02,  5.94it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 84/96 [00:14<00:02,  5.40it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 86/96 [00:14<00:01,  5.65it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 88/96 [00:14<00:01,  5.81it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 90/96 [00:15<00:01,  5.88it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 92/96 [00:15<00:00,  5.97it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 95/96 [00:16<00:00,  5.99it/s]

-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------
-----------------------------------------


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:16<00:00,  5.88it/s]


## Experiment 2: varying read depth and it's effect on significance

In [10]:
# We're going to make an experiment of 10 plates with different sequencing error rates
read_depth = 0
number_of_wells = 96
epcr_mutation_rate = 0.02
frequency_cutoff = 0.5
library_number = 96 # Usually do a 96 well plate
verbose = False
sequencing_error = 0.1

# Here we do it from 1-10 completely and then in intervals of 10 so that we can clearly see the impact
experiment_df = pd.DataFrame()
for read_depth in range(1, 30, 1):
    run_df = make_experiment(f'ReadDepth_{read_depth}', read_depth, sequencing_error, parent_sequence, 
                     library_number, number_of_wells, epcr_mutation_rate, frequency_cutoff)
    run_df.reset_index(inplace=True)
    experiment_df = pd.concat([experiment_df, run_df])
    
 # Also plot each one
experiment_df.to_csv(f'{data_dir}Experiment2_ReadDepth_{label}.csv', index=False)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:11<00:00,  8.35it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:11<00:00,  8.14it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:11<00:00,  8.06it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:11<00:00,  8.04it/s]
100%|███████████████████

## Experiment 3: effect of sequence length on significance


In [11]:
# We're going to make an experiment of 10 plates with different sequencing error rates
read_depth = 10
number_of_wells = 96
epcr_mutation_rate = 0.02
frequency_cutoff = 0.5
library_number = 96 # Usually do a 96 well plate
verbose = False
sequencing_error = 0.1


experiment_df = pd.DataFrame()
for seq_len in range(5, 2000, 50):
    if seq_len >= len(parent_sequence):
        break
    run_df = make_experiment(f'SeqLen_{seq_len}', read_depth, sequencing_error, parent_sequence[:seq_len*3],
             library_number, number_of_wells, epcr_mutation_rate, frequency_cutoff)
    run_df.reset_index(inplace=True)
    experiment_df = pd.concat([experiment_df, run_df])

# Also plot each one
experiment_df.to_csv(f'{data_dir}Experiment3_{label}.csv', index=False)


  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [00:00<00:00, 191.21it/s]
  variant_df['accuracy'] = np.array(corrects) / (np.array(corrects) + np.array(incorrects))


















































































  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [00:03<00:00, 26.40it/s]
  variant_df['accuracy'] = np.array(corrects) / (np.array(corrects) + np.array(incorrects))










100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:06<00:00, 14.29it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:09<00:00, 10.36it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.62it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.65it/s]
100%|███████████████████

## Experiment 4: effect of frequency cutoff

In [12]:
# We're going to make an experiment of 10 plates with different sequencing error rates
read_depth = 10
number_of_wells = 96
epcr_mutation_rate = 0.02
frequency_cutoff = 0.5
library_number = 96 # Usually do a 96 well plate
verbose = False
sequencing_error = 0.1

experiment_df = pd.DataFrame()
for frequency_cutoff in range(5, 100, 10):
    run_df = make_experiment(f'FreqCutoff_{frequency_cutoff}', read_depth, sequencing_error, parent_sequence, library_number, number_of_wells, epcr_mutation_rate, frequency_cutoff/100.0)
    run_df.reset_index(inplace=True)
    experiment_df = pd.concat([experiment_df, run_df])

 # Also plot each one
experiment_df.to_csv(f'{data_dir}Experiment4_{label}.csv', index=False)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.65it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.60it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.40it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.48it/s]
100%|███████████████████

## Experiment 5: ePCR mutation rate

In [13]:
# We're going to make an experiment of 10 plates with different sequencing error rates
read_depth = 10
number_of_wells = 96
epcr_mutation_rate = 0.02
frequency_cutoff = 0.5
library_number = 96 # Usually do a 96 well plate
verbose = False
sequencing_error = 0.1


experiment_df = pd.DataFrame()
for epcr_mutation_rate in range(1, 20, 2):
    run_df = make_experiment(f'ePCR_{epcr_mutation_rate}', read_depth, sequencing_error, parent_sequence, library_number, number_of_wells, 
                             epcr_mutation_rate/1000.0, frequency_cutoff)
    run_df.reset_index(inplace=True)
    experiment_df = pd.concat([experiment_df, run_df])

 # Also plot each one
experiment_df.to_csv(f'{data_dir}Experiment5_{label}.csv', index=False)


  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 46/46 [00:06<00:00,  7.54it/s]
  variant_df['accuracy'] = np.array(corrects) / (np.array(corrects) + np.array(incorrects))






















































  return _methods._mean(a, axis=axis, dtype=dtype,
  ret = ret.dtype.type(ret / rcount)
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 84/84 [00:11<00:00,  7.47it/s]
  variant_df['accuracy'] = np.array(corrects) / (np.array(corrects) + np.array(incorrects))
















100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 94/94 [00:12<00:00,  7.53it/s]
  variant_df['accuracy'] = np.array(corrects) / (np.array(corrects) + np.array(incorrects))






100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.53it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.68it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.61it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:12<00:00,  7.66it/s]
100%|███████████████████

## Experiment 6: mixed well rates


In [14]:
# We're going to make an experiment of 10 plates with different sequencing error rates
read_depth = 10
number_of_wells = 96
epcr_mutation_rate = 0.02
frequency_cutoff = 0.5
library_number = 96 # Usually do a 96 well plate
verbose = False
sequencing_error = 0.1
number_wells_to_mix = 20
experiment_df = pd.DataFrame()

for mixture_rate in range(10, 90, 10):
    run_df = make_experiment(f'mixedWells_{mixture_rate}', read_depth, sequencing_error, parent_sequence, library_number, number_of_wells, 
                             epcr_mutation_rate, frequency_cutoff, number_wells_to_mix, mixture_rate/100.0, 
                             qc_files_path='/Users/arianemora/Documents/code/MinION/simulation/ePCR_QC/')
    run_df.reset_index(inplace=True)
    experiment_df = pd.concat([experiment_df, run_df])

 # Also plot each one
experiment_df.to_csv(f'{data_dir}Experiment6_{label}.csv', index=False)


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:13<00:00,  6.93it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:13<00:00,  6.88it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:13<00:00,  6.95it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:13<00:00,  6.91it/s]
100%|███████████████████

In [15]:
# We're going to make an experiment of 10 plates with different sequencing error rates
read_depth = 10
number_of_wells = 96
epcr_mutation_rate = 0.02
frequency_cutoff = 0.2
library_number = 96 # Usually do a 96 well plate
verbose = False
sequencing_error = 0.1
number_wells_to_mix = 20
experiment_df = pd.DataFrame()

for mixture_rate in range(10, 90, 10):
    run_df = make_experiment(f'mixedWells_{mixture_rate}', read_depth, sequencing_error, parent_sequence, library_number, number_of_wells, 
                             epcr_mutation_rate, frequency_cutoff, number_wells_to_mix, mixture_rate/100.0, 
                             qc_files_path='/Users/arianemora/Documents/code/MinION/simulation/ePCR_QC/')
    run_df.reset_index(inplace=True)
    experiment_df = pd.concat([experiment_df, run_df])

 # Also plot each one
experiment_df.to_csv(f'{data_dir}Experiment6_freq_0.2_{label}.csv', index=False)


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:13<00:00,  6.92it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:13<00:00,  6.92it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:13<00:00,  6.93it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:13<00:00,  6.93it/s]
100%|███████████████████

In [16]:
# We're going to make an experiment of 10 plates with different sequencing error rates
read_depth = 20
number_of_wells = 96
epcr_mutation_rate = 0.02
frequency_cutoff = 0.5
library_number = 96 # Usually do a 96 well plate
verbose = False
sequencing_error = 0.1
number_wells_to_mix = 20
experiment_df = pd.DataFrame()

for mixture_rate in range(10, 90, 10):
    run_df = make_experiment(f'mixedWells_{mixture_rate}', read_depth, sequencing_error, parent_sequence, library_number, number_of_wells, 
                             epcr_mutation_rate, frequency_cutoff, number_wells_to_mix, mixture_rate/100.0, 
                             qc_files_path='/Users/arianemora/Documents/code/MinION/simulation/ePCR_QC/')
    run_df.reset_index(inplace=True)
    experiment_df = pd.concat([experiment_df, run_df])

 # Also plot each one
experiment_df.to_csv(f'{data_dir}Experiment6_freq_20_{label}.csv', index=False)


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:15<00:00,  6.27it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:15<00:00,  6.25it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:15<00:00,  6.34it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:15<00:00,  6.24it/s]
100%|███████████████████

In [17]:
# We're going to make an experiment of 10 plates with different sequencing error rates
read_depth = 20
number_of_wells = 96
epcr_mutation_rate = 0.02
frequency_cutoff = 0.2
library_number = 96 # Usually do a 96 well plate
verbose = False
sequencing_error = 0.1
number_wells_to_mix = 20
experiment_df = pd.DataFrame()

for mixture_rate in range(10, 90, 10):
    run_df = make_experiment(f'mixedWells_{mixture_rate}', read_depth, sequencing_error, parent_sequence, library_number, number_of_wells, 
                             epcr_mutation_rate, frequency_cutoff, number_wells_to_mix, mixture_rate/100.0, 
                             qc_files_path='/Users/arianemora/Documents/code/MinION/simulation/ePCR_QC/')
    run_df.reset_index(inplace=True)
    experiment_df = pd.concat([experiment_df, run_df])
 # Also plot each one
experiment_df.to_csv(f'{data_dir}Experiment6_freq_20_0.2_{label}.csv', index=False)


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:15<00:00,  6.30it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:15<00:00,  6.36it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:15<00:00,  6.31it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 96/96 [00:15<00:00,  6.31it/s]
100%|███████████████████