# Tombo: Extracting and Plotting Stats from 16S rRNA

## Sample Comparison statistics

### Compute per position KS-tests

$F_{n}(x)={1 \over n}\sum _{i=1}^{n}I_{[-\infty ,x]}(X_{i})$  
$D_{n}=\sup _{x}|F_{n}(x)-F(x)|$

* Code used to generate KS tests for each position
    * note: return_stat = True
    
```
def compute_ks_tests(samp_base_levels, ctrl_base_levels, return_stat):
    def compute_pos_ks_test(pos_samp_levels, pos_ctrl_levels):
        """Compute effect size statistic or p-value of two-sample
        Kolmogorov-Smirnov test

        Using definition from
        https://github.com/scipy/scipy/blob/v0.14.0/scipy/stats/stats.py#L3886
        """
        samp_n, ctrl_n = pos_samp_levels.shape[0], pos_ctrl_levels.shape[0]
        pos_all_levels = np.concatenate([pos_samp_levels, pos_ctrl_levels])
        samp_cdf = np.searchsorted(
            pos_samp_levels, pos_all_levels, side='right') / samp_n
        ctrl_cdf = np.searchsorted(
            pos_ctrl_levels, pos_all_levels, side='right') / ctrl_n
        d = np.max(np.absolute(samp_cdf - ctrl_cdf))
        if return_stat:
            # subtract 1 so most significant are smallest values
            return 1 - d
        en = np.sqrt(samp_n * ctrl_n / float(samp_n + ctrl_n))
        return stats.distributions.kstwobign.sf((en + 0.12 + 0.11 / en) * d)


    samp_valid_indices = np.logical_not(np.isnan(samp_base_levels))
    ctrl_valid_indices = np.logical_not(np.isnan(ctrl_base_levels))
    return np.array([compute_pos_ks_test(
        np.sort(pos_samp_levels[samp_valid_indices[i]]),
        np.sort(pos_ctrl_levels[ctrl_valid_indices[i]]))
                     for i, (pos_samp_levels, pos_ctrl_levels) in enumerate(zip(
                             samp_base_levels, ctrl_base_levels))])
 ```
### Compute Window Mean

* lag = $l$  
$WindowMean_j = \frac{\sum _{i=j-l}^{j+l}D_i}{l}$


* Code used to calculate window mean 
    
 ```
 def calc_window_means(stats, lag):
    """Compute mean over a moving window across a set of statistics
    """
    assert lag > 0, 'Invalid window provided.'
    width = (lag * 2) + 1
    if stats.shape[-1] < width:
        raise th.TomboError(
            "Statistics vector too short for window mean compuation.")
    m_stats = np.empty(stats.shape)
    m_stats[:] = np.NAN
    m_stats[...,lag:-lag] = np.mean(np.lib.stride_tricks.as_strided(
        stats, shape=stats.shape[:-1] + (stats.shape[-1] - width + 1, width),
        strides=stats.strides + (stats.strides[-1],)), -1)

    return m_stats
```

In [340]:
# Tombo library
from tombo import tombo_helper, tombo_stats, resquiggle
# matplotlib library
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
from mpl_toolkits.mplot3d import Axes3D
# py3helpers
from py3helpers.classification import ClassificationMetrics
from py3helpers.utils import merge_lists
# Other common libraries
import pandas as pd
from sklearn.utils import assert_all_finite
from scipy import signal
from sklearn.linear_model import LinearRegression
import numpy as np
# built in library
import os


In [4]:
HOME = "/Users/andrewbailey/CLionProjects/personal/projects" 

In [5]:
CBF5_GAL_vs_CBF5_GLU = os.path.join(HOME, "ares_rRNA/tombo/CBF5_GAL_vs_GLU.level_compare_sample.tombo.stats")
CBF5_GAL_vs_NOP58_GAL = os.path.join(HOME, "ares_rRNA/tombo/CBF5_GAL_vs_NOP58_GAL.level_compare_sample.tombo.stats")
Nop58_GAL_vs_Nop58_GLU = os.path.join(HOME, "ares_rRNA/tombo/Nop58_GAL_vs_GLU.level_compare_sample.tombo.stats")
IVT_vs_CBF5_GAL_and_Nop58_GAL = os.path.join(HOME, "ares_rRNA/tombo/IVT_vs_CBF5_GAL_and_Nop58_GAL.level_compare_sample.tombo.stats")

output_mods = "/Users/andrewbailey/CLionProjects/personal/projects/ares_rRNA/mod_files/yeast_18S_25S_mods.positions"


In [281]:
mods_data = {"RDN18-1": [], "RDN25-1": []}
with open(output_mods, 'r') as fh:
    for line in fh:
        split_line = line.split()
        contig = split_line[0]
        pos = int(split_line[1])
        strand = split_line[2]
        find = split_line[3]
        mods = split_line[4]
        mods_data[contig].append([pos, strand, find, mods])


In [70]:
%matplotlib notebook
stats_files = [CBF5_GAL_vs_CBF5_GLU, CBF5_GAL_vs_NOP58_GAL, Nop58_GAL_vs_Nop58_GLU, IVT_vs_CBF5_GAL_and_Nop58_GAL]
labels = ["CBF5_GAL vs CBF5_GLU", "CBF5_GAL vs NOP58_GAL", "Nop58_GAL vs Nop58_GLU", "IVT vs CBF5_GAL_and_Nop58_GAL"]
save_fig_path = None

title = "Histogram of per-position D-statistics"
y_label = "Reference"

fig = plt.figure(figsize=(8, 8))
panel1 = plt.axes([0.1, 0.1, .8, .8])
panel1.set_xlabel("Reference")
panel1.set_ylabel("1 - D-statistic")
panel1.grid(color='black', linestyle='-', linewidth=1, alpha=0.5)

panel1.set_title(label=title)

for i in range(len(stats_files)):
    assert os.path.exists(stats_files[i])
    ts = tombo_stats.TomboStats(stats_files[i])
    for contig in ts:
        if contig[0] == "RDN18-1" and contig[1] == "+":
            all_data = contig[4]
            panel1.plot([x[1] for x in all_data], [x[0] for x in all_data], label=labels[i])

for mod in mods_data["RDN18-1"]:
    pos = mod[0]
    strand = mod[1]
    find = mod[2]
    mods = mod[3]
    panel1.axvline(x=pos, linewidth=2, color='r')
            
            
panel1.xaxis.set_major_locator(ticker.MultipleLocator(200))
panel1.xaxis.set_minor_locator(ticker.MultipleLocator(50))

panel1.xaxis.set_major_formatter(ticker.FormatStrFormatter('%d'))

panel1.legend()

# option to save figure or just show it
if save_fig_path is not None:
    plt.savefig(save_fig_path)


<IPython.core.display.Javascript object>

In [247]:
%matplotlib notebook
# stats_files = [CBF5_GAL_vs_CBF5_GLU, CBF5_GAL_vs_NOP58_GAL, Nop58_GAL_vs_Nop58_GLU, IVT_vs_CBF5_GAL_and_Nop58_GAL]
# labels = ["CBF5_GAL vs CBF5_GLU", "CBF5_GAL vs NOP58_GAL", "Nop58_GAL vs Nop58_GLU", "IVT vs CBF5_GAL_and_Nop58_GAL"]
stats_files = [IVT_vs_CBF5_GAL_and_Nop58_GAL]
labels = ["IVT vs CBF5_GAL_and_Nop58_GAL"]

save_fig_path = None

title = "Histogram of per-position D-statistics"
y_label = "Reference"

fig = plt.figure(figsize=(8, 8))
panel1 = plt.axes([0.1, 0.1, .8, .8])
panel1.set_xlabel("Reference")
panel1.set_ylabel("1 - D-statistic")
panel1.grid(color='black', linestyle='-', linewidth=1, alpha=0.5)
panel1.set_title(label=title)

for i in range(len(stats_files)):
    assert os.path.exists(stats_files[i])
    ts = tombo_stats.TomboStats(stats_files[i])
    for contig in ts:
        if contig[0] == "RDN25-1" and contig[1] == "+":
            all_data = contig[4]
            panel1.plot([x[1] for x in all_data], [x[0] for x in all_data], label=labels[i])

for mod in mods_data["RDN25-1"]:
    pos = mod[0]
    strand = mod[1]
    find = mod[2]
    mods = mod[3]
    panel1.axvline(x=pos, linewidth=2, color='r')
            

            
panel1.xaxis.set_major_locator(ticker.MultipleLocator(200))
panel1.xaxis.set_minor_locator(ticker.MultipleLocator(50))

panel1.xaxis.set_major_formatter(ticker.FormatStrFormatter('%d'))

panel1.legend()

# option to save figure or just show it
if save_fig_path is not None:
    plt.savefig(save_fig_path)

<IPython.core.display.Javascript object>

In [396]:
# stats_files = [CBF5_GAL_vs_CBF5_GLU, CBF5_GAL_vs_NOP58_GAL, Nop58_GAL_vs_Nop58_GLU, IVT_vs_CBF5_GAL_and_Nop58_GAL]
# labels = ["CBF5_GAL vs CBF5_GLU", "CBF5_GAL vs NOP58_GAL", "Nop58_GAL vs Nop58_GLU", "IVT vs CBF5_GAL_and_Nop58_GAL"]

def get_data_from_tombo(stats_file, contig_name, strand="+"):
    assert os.path.exists(stats_file)
    ts = tombo_stats.TomboStats(stats_file)
    for contig in ts:
        if contig[0] == contig_name and contig[1] == strand:
            all_data = contig[4]
            raw_data = [1-x[0] for x in all_data]
            ref_positions = [x[1] for x in all_data]
            return raw_data, ref_positions

def get_score(n):
    if n == 0:
        return -3
    elif n == 1:
        return 1
    else:
        return 0.5**(n-1)
    
def get_peaks_accuracy(peaks, properties, mods_data, contig_name, min_ref):
    score = 0
    fp = 0
    tp = 0
    tn = 0
    fn = 0
    mod_index = 0
    mods_per_peak = []
    mod_per_peak_widths = []
    n_mods = len(mods_data[contig_name])
    for l, r in zip(properties["left_ips"]+min_ref, properties["right_ips"]+min_ref):
        total_mods = 0
        all_mods_found = []
        keep_going = True
        while keep_going:
            pos = mods_data[contig_name][mod_index][0]
            if pos < l:
                fn += 1
                mod_index += 1
            elif r < pos:
                if total_mods == 0:
                    fp += 1
                keep_going = False
            else:
                tp += 1
                total_mods += 1
                mod_index += 1
                all_mods_found.append(pos)

            if mod_index == n_mods:
                mod_index -= 1
                keep_going = False

    #         print(l, r, pos, keep_going, tp, fp, tn, fn, score)
        score += get_score(total_mods)
        if total_mods > 1:
            delta = all_mods_found[-1] - all_mods_found[0]
        else:
            delta = 0
        mods_per_peak.append([total_mods, delta])
        mod_per_peak_widths.append([r-l])
    return tp, fp, tn, fn, score, mods_per_peak, mod_per_peak_widths

stats_files = [IVT_vs_CBF5_GAL_and_Nop58_GAL]
labels = ["IVT vs CBF5_GAL_and_Nop58_GAL"]
raw_data, ref_positions = get_data_from_tombo(stats_files[0], contig_name)


def plot_fit(reg, mods_per_peak, mod_per_peak_widths):
    fig = plt.figure()
    ax = fig.add_subplot(111, projection='3d')
    xs = [x[0] for x in mods_per_peak]
    ys = [x[1] for x in mods_per_peak]
    ax.scatter(xs=xs, ys=ys, zs=mod_per_peak_widths)
    z = reg.predict(X)
    ax.plot(xs=[x[0] for x in z], ys=[x[1] for x in z], zs=merge_lists(X))
    plt.show()

def get_score_and_regression(raw_data, 
                             ref_positions,
                             mods_data, 
                             contig_name,
                             height=None, 
                             distance=None, 
                             threshold=None, 
                             width=None, 
                             prominence=None, 
                             wlen=None, 
                             rel_height=None):
    if params["distance"] < 1.0:
        params["distance"] = None
    if params["threshold"] < 0.0:
        params["threshold"] = None
    if params["wlen"] < 2:
        params["wlen"] = None

    peaks, properties = signal.find_peaks(raw_data, 
                                          height=height, 
                                          distance=distance, 
                                          threshold=threshold, 
                                          width=width, 
                                          prominence=prominence, 
                                          wlen=wlen, 
                                          rel_height=rel_height)
    if len(peaks) == 0:
        return None, -np.inf, None, None, None, None, None, None, peaks, properties
    min_ref = min(ref_positions)
    tp, fp, tn, fn, score, mods_per_peak, mod_per_peak_widths = get_peaks_accuracy(peaks, properties, mods_data, contig_name, min_ref)
    X, y = np.array(mod_per_peak_widths), np.array(mods_per_peak)
    reg = LinearRegression().fit(X, y)
#     print(reg.coef_)
#     print(reg.intercept_)
    reg_score = reg.score(X, y)
#     print(tp, fp, tn, fn, score, reg_score, sum(reg.coef_)[0])        
    total_score = score + reg_score 
    return reg, total_score, tp, fp, tn, fn, mods_per_peak, mod_per_peak_widths, peaks, properties
    
params = {'distance': 2.0, 'height': 0.2959250003809115, 'prominence': 0.11429451218571234, 'rel_height': 0.8861512083132655, 'threshold': 0.00030208778547160023, 'width': 2.2135169834611252, 'wlen': 13.0}
params = {'distance': 5.0, 'height': 0.2532024424595917, 'prominence': 0.13614535026861102, 'rel_height': 0.8085693579673158, 'threshold': -0.6946835603575771, 'width': 2.0, 'wlen': 13.0}

# threshold, width, prominence, distance, height, wlen, rel_height = 0.0, 0.0, 0.0, 4.444444444444445, 0.3333333333333333, 8.88888888888889, 1.0
# threshold, width, prominence, distance, height, wlen, rel_height = None, 1, 0.1, None, 0.2, None, 0.9
# reg, total_score, tp, fp, tn, fn, mods_per_peak, mod_per_peak_widths, peaks, properties = get_score_and_regression(raw_data, 
#                                                                                                 ref_positions,
#                                                                                                 mods_data, 
#                                                                                                 contig_name,
#                                                                                                 height=height, 
#                                                                                                 distance=distance, 
#                                                                                                 threshold=threshold, 
#                                                                                                 width=width, 
#                                                                                                 prominence=prominence, 
#                                                                                                 wlen=wlen, 
#                                                                                                 rel_height=rel_height)
reg, total_score, tp, fp, tn, fn, mods_per_peak, mod_per_peak_widths, peaks, properties = get_score_and_regression(raw_data, 
                                                                                                ref_positions,
                                                                                                mods_data, 
                                                                                                contig_name,
                                                                                                **params)



print(total_score, tp, fp, tn, fn)
print(mods_per_peak, mod_per_peak_widths)
X, y = np.array(mod_per_peak_widths), np.array(mods_per_peak)

print(reg.score(X, y))
plot_fit(reg, mods_per_peak, mod_per_peak_widths)


35.52913312069469 61 1 0 14
[[0, 0], [1, 0], [1, 0], [1, 0], [2, 2], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [2, 4], [1, 0], [1, 0], [1, 0], [2, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [3, 4], [2, 2], [3, 3], [1, 0], [1, 0], [2, 3], [2, 2], [2, 1], [2, 6], [1, 0], [1, 0], [1, 0], [2, 2], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [3, 2], [3, 4], [1, 0], [1, 0]] [[8.494855824479961], [8.696050842505997], [3.8411401818284503], [6.584462879144098], [7.628910544198789], [5.1723293957084024], [6.296218956188341], [6.9981632982664905], [7.892614451090708], [3.377123319178395], [8.294460682676117], [7.434042982490155], [8.55821786874776], [5.664886543711646], [5.128829489940017], [7.659107601987671], [7.174468567787017], [5.170810694900183], [5.66368495038023], [4.701884439721653], [6.299161931879098], [5.719104455469278], [8.181386314503015], [5.182747589978135], [3.236345900249944], [7.496582644296723], [3.9286703444126942], [8.441992011792081], [5.644600564557095],

<IPython.core.display.Javascript object>

### Hyperparameter Tuning
Using hyperopt to do a bayesian hyperparameter optimization
https://towardsdatascience.com/automated-machine-learning-hyperparameter-tuning-in-python-dfda59b72f8a


In [395]:
from hyperopt import hp, tpe, Trials, fmin, STATUS_OK

def objective(params):

    reg, total_score, tp, fp, tn, fn, mods_per_peak, mod_per_peak_widths, peaks, properties = get_score_and_regression(
        raw_data, 
        ref_positions,
        mods_data, 
        contig_name, 
        **params)

    return {'loss': -total_score, 'params': params, 'status': STATUS_OK}


space = {
    'height': hp.uniform('height', 0, 1.0),
    'distance': hp.quniform('distance', -1.0, 10, 1),
    'threshold': hp.uniform('threshold', -1.0, 1.0),
    'width': hp.quniform('width', 0, 20, 1.0),
    'prominence': hp.uniform('prominence', 0, 1.0),
    'wlen': hp.quniform('wlen', -1.0, 60, 1),
    'rel_height': hp.uniform('rel_height', 0, 1.0)
}
# Algorithm
tpe_algorithm = tpe.suggest
# Trials object to track progress
bayes_trials = Trials()

MAX_EVALS = 2000

# Optimize
best = fmin(fn = objective, space = space, algo = tpe.suggest, 
            max_evals = MAX_EVALS, trials = bayes_trials)
print(best)

100%|██████████| 2000/2000 [05:49<00:00,  2.99trial/s, best loss: -35.52913312069469]
{'distance': 5.0, 'height': 0.2532024424595917, 'prominence': 0.13614535026861102, 'rel_height': 0.8085693579673158, 'threshold': -0.6946835603575771, 'width': 2.0, 'wlen': 13.0}


In [372]:
## Grid search
threshold = None
width = 1
prominence = 0.1
distance = None
height = 0.2
wlen = None
rel_height = 0.9
max_score = 0
num_steps = 10
top_scores = []
for i in np.linspace(0, 1, num_steps):
    for j in np.linspace(0, 30, num_steps):
        for k in np.linspace(0, 1, num_steps):
            for l in np.linspace(0, 10, num_steps):
                if l == 0:
                    l = None
                for m in np.linspace(0, 1, num_steps):
                    for n in np.linspace(0, 10, num_steps):
                        if n == 0:
                            n = None
                        for o in np.linspace(0, 1, num_steps):
                            threshold = i
                            width = j
                            prominence = k
                            distance = l
                            height = m
                            wlen = n
                            rel_height = o
                            reg, total_score, tp, fp, tn, fn, mods_per_peak, mod_per_peak_widths, peaks, properties = get_score_and_regression(raw_data, 
                                                                                                ref_positions,
                                                                                                mods_data, 
                                                                                                contig_name,
                                                                                                height=height, 
                                                                                                distance=distance, 
                                                                                                threshold=threshold, 
                                                                                                width=width, 
                                                                                                prominence=prominence, 
                                                                                                wlen=wlen, 
                                                                                                rel_height=rel_height)
                            if total_score >= max_score:
                                max_score = total_score
                                top_scores.append([i, j, k, l, m, n, o])
                                print(total_score, [i, j, k, l, m, n, o])
            print(i, j, k, l, m)                        



2.2979397159931856 [0.0, 0.0, 0.0, None, 0.2222222222222222, None, 0.3333333333333333]
3.00140790673619 [0.0, 0.0, 0.0, None, 0.2222222222222222, None, 0.7777777777777777]
9.538283353782234 [0.0, 0.0, 0.0, None, 0.2222222222222222, 3.3333333333333335, 1.0]
9.538283353782234 [0.0, 0.0, 0.0, None, 0.2222222222222222, 4.444444444444445, 1.0]
13.483437988510282 [0.0, 0.0, 0.0, None, 0.2222222222222222, 5.555555555555555, 0.8888888888888888]
13.483437988510282 [0.0, 0.0, 0.0, None, 0.2222222222222222, 6.666666666666667, 0.8888888888888888]
14.196269142675499 [0.0, 0.0, 0.0, None, 0.2222222222222222, 10.0, 0.8888888888888888]
15.05382480112845 [0.0, 0.0, 0.0, None, 0.3333333333333333, 3.3333333333333335, 1.0]
15.05382480112845 [0.0, 0.0, 0.0, None, 0.3333333333333333, 4.444444444444445, 1.0]
20.50529153773778 [0.0, 0.0, 0.0, None, 0.3333333333333333, 5.555555555555555, 0.8888888888888888]
20.50529153773778 [0.0, 0.0, 0.0, None, 0.3333333333333333, 6.666666666666667, 0.8888888888888888]
20.90

0.0 30.0 0.6666666666666666 10.0 1.0
0.0 30.0 0.7777777777777777 10.0 1.0
0.0 30.0 0.8888888888888888 10.0 1.0
0.0 30.0 1.0 10.0 1.0
0.1111111111111111 0.0 0.0 10.0 1.0
0.1111111111111111 0.0 0.1111111111111111 10.0 1.0
0.1111111111111111 0.0 0.2222222222222222 10.0 1.0
0.1111111111111111 0.0 0.3333333333333333 10.0 1.0
0.1111111111111111 0.0 0.4444444444444444 10.0 1.0
0.1111111111111111 0.0 0.5555555555555556 10.0 1.0
0.1111111111111111 0.0 0.6666666666666666 10.0 1.0
0.1111111111111111 0.0 0.7777777777777777 10.0 1.0
0.1111111111111111 0.0 0.8888888888888888 10.0 1.0
0.1111111111111111 0.0 1.0 10.0 1.0
0.1111111111111111 3.3333333333333335 0.0 10.0 1.0
0.1111111111111111 3.3333333333333335 0.1111111111111111 10.0 1.0
0.1111111111111111 3.3333333333333335 0.2222222222222222 10.0 1.0
0.1111111111111111 3.3333333333333335 0.3333333333333333 10.0 1.0
0.1111111111111111 3.3333333333333335 0.4444444444444444 10.0 1.0
0.1111111111111111 3.3333333333333335 0.5555555555555556 10.0 1.0
0.1111

0.2222222222222222 13.333333333333334 0.3333333333333333 10.0 1.0
0.2222222222222222 13.333333333333334 0.4444444444444444 10.0 1.0
0.2222222222222222 13.333333333333334 0.5555555555555556 10.0 1.0
0.2222222222222222 13.333333333333334 0.6666666666666666 10.0 1.0
0.2222222222222222 13.333333333333334 0.7777777777777777 10.0 1.0
0.2222222222222222 13.333333333333334 0.8888888888888888 10.0 1.0
0.2222222222222222 13.333333333333334 1.0 10.0 1.0
0.2222222222222222 16.666666666666668 0.0 10.0 1.0
0.2222222222222222 16.666666666666668 0.1111111111111111 10.0 1.0
0.2222222222222222 16.666666666666668 0.2222222222222222 10.0 1.0
0.2222222222222222 16.666666666666668 0.3333333333333333 10.0 1.0
0.2222222222222222 16.666666666666668 0.4444444444444444 10.0 1.0
0.2222222222222222 16.666666666666668 0.5555555555555556 10.0 1.0
0.2222222222222222 16.666666666666668 0.6666666666666666 10.0 1.0
0.2222222222222222 16.666666666666668 0.7777777777777777 10.0 1.0
0.2222222222222222 16.666666666666668 0.

0.3333333333333333 26.666666666666668 0.5555555555555556 10.0 1.0
0.3333333333333333 26.666666666666668 0.6666666666666666 10.0 1.0
0.3333333333333333 26.666666666666668 0.7777777777777777 10.0 1.0
0.3333333333333333 26.666666666666668 0.8888888888888888 10.0 1.0
0.3333333333333333 26.666666666666668 1.0 10.0 1.0
0.3333333333333333 30.0 0.0 10.0 1.0
0.3333333333333333 30.0 0.1111111111111111 10.0 1.0
0.3333333333333333 30.0 0.2222222222222222 10.0 1.0
0.3333333333333333 30.0 0.3333333333333333 10.0 1.0
0.3333333333333333 30.0 0.4444444444444444 10.0 1.0
0.3333333333333333 30.0 0.5555555555555556 10.0 1.0
0.3333333333333333 30.0 0.6666666666666666 10.0 1.0
0.3333333333333333 30.0 0.7777777777777777 10.0 1.0
0.3333333333333333 30.0 0.8888888888888888 10.0 1.0
0.3333333333333333 30.0 1.0 10.0 1.0
0.4444444444444444 0.0 0.0 10.0 1.0
0.4444444444444444 0.0 0.1111111111111111 10.0 1.0
0.4444444444444444 0.0 0.2222222222222222 10.0 1.0
0.4444444444444444 0.0 0.3333333333333333 10.0 1.0
0.4444

0.5555555555555556 6.666666666666667 1.0 10.0 1.0
0.5555555555555556 10.0 0.0 10.0 1.0
0.5555555555555556 10.0 0.1111111111111111 10.0 1.0
0.5555555555555556 10.0 0.2222222222222222 10.0 1.0
0.5555555555555556 10.0 0.3333333333333333 10.0 1.0
0.5555555555555556 10.0 0.4444444444444444 10.0 1.0
0.5555555555555556 10.0 0.5555555555555556 10.0 1.0
0.5555555555555556 10.0 0.6666666666666666 10.0 1.0
0.5555555555555556 10.0 0.7777777777777777 10.0 1.0
0.5555555555555556 10.0 0.8888888888888888 10.0 1.0
0.5555555555555556 10.0 1.0 10.0 1.0
0.5555555555555556 13.333333333333334 0.0 10.0 1.0
0.5555555555555556 13.333333333333334 0.1111111111111111 10.0 1.0
0.5555555555555556 13.333333333333334 0.2222222222222222 10.0 1.0
0.5555555555555556 13.333333333333334 0.3333333333333333 10.0 1.0
0.5555555555555556 13.333333333333334 0.4444444444444444 10.0 1.0
0.5555555555555556 13.333333333333334 0.5555555555555556 10.0 1.0
0.5555555555555556 13.333333333333334 0.6666666666666666 10.0 1.0
0.55555555555

0.6666666666666666 23.333333333333336 0.3333333333333333 10.0 1.0
0.6666666666666666 23.333333333333336 0.4444444444444444 10.0 1.0
0.6666666666666666 23.333333333333336 0.5555555555555556 10.0 1.0
0.6666666666666666 23.333333333333336 0.6666666666666666 10.0 1.0
0.6666666666666666 23.333333333333336 0.7777777777777777 10.0 1.0
0.6666666666666666 23.333333333333336 0.8888888888888888 10.0 1.0
0.6666666666666666 23.333333333333336 1.0 10.0 1.0
0.6666666666666666 26.666666666666668 0.0 10.0 1.0
0.6666666666666666 26.666666666666668 0.1111111111111111 10.0 1.0
0.6666666666666666 26.666666666666668 0.2222222222222222 10.0 1.0
0.6666666666666666 26.666666666666668 0.3333333333333333 10.0 1.0
0.6666666666666666 26.666666666666668 0.4444444444444444 10.0 1.0
0.6666666666666666 26.666666666666668 0.5555555555555556 10.0 1.0
0.6666666666666666 26.666666666666668 0.6666666666666666 10.0 1.0
0.6666666666666666 26.666666666666668 0.7777777777777777 10.0 1.0
0.6666666666666666 26.666666666666668 0.

0.8888888888888888 3.3333333333333335 0.7777777777777777 10.0 1.0
0.8888888888888888 3.3333333333333335 0.8888888888888888 10.0 1.0
0.8888888888888888 3.3333333333333335 1.0 10.0 1.0
0.8888888888888888 6.666666666666667 0.0 10.0 1.0
0.8888888888888888 6.666666666666667 0.1111111111111111 10.0 1.0
0.8888888888888888 6.666666666666667 0.2222222222222222 10.0 1.0
0.8888888888888888 6.666666666666667 0.3333333333333333 10.0 1.0
0.8888888888888888 6.666666666666667 0.4444444444444444 10.0 1.0
0.8888888888888888 6.666666666666667 0.5555555555555556 10.0 1.0
0.8888888888888888 6.666666666666667 0.6666666666666666 10.0 1.0
0.8888888888888888 6.666666666666667 0.7777777777777777 10.0 1.0
0.8888888888888888 6.666666666666667 0.8888888888888888 10.0 1.0
0.8888888888888888 6.666666666666667 1.0 10.0 1.0
0.8888888888888888 10.0 0.0 10.0 1.0
0.8888888888888888 10.0 0.1111111111111111 10.0 1.0
0.8888888888888888 10.0 0.2222222222222222 10.0 1.0
0.8888888888888888 10.0 0.3333333333333333 10.0 1.0
0.88

1.0 26.666666666666668 0.0 10.0 1.0
1.0 26.666666666666668 0.1111111111111111 10.0 1.0
1.0 26.666666666666668 0.2222222222222222 10.0 1.0
1.0 26.666666666666668 0.3333333333333333 10.0 1.0
1.0 26.666666666666668 0.4444444444444444 10.0 1.0
1.0 26.666666666666668 0.5555555555555556 10.0 1.0
1.0 26.666666666666668 0.6666666666666666 10.0 1.0
1.0 26.666666666666668 0.7777777777777777 10.0 1.0
1.0 26.666666666666668 0.8888888888888888 10.0 1.0
1.0 26.666666666666668 1.0 10.0 1.0
1.0 30.0 0.0 10.0 1.0
1.0 30.0 0.1111111111111111 10.0 1.0
1.0 30.0 0.2222222222222222 10.0 1.0
1.0 30.0 0.3333333333333333 10.0 1.0
1.0 30.0 0.4444444444444444 10.0 1.0
1.0 30.0 0.5555555555555556 10.0 1.0
1.0 30.0 0.6666666666666666 10.0 1.0
1.0 30.0 0.7777777777777777 10.0 1.0
1.0 30.0 0.8888888888888888 10.0 1.0
1.0 30.0 1.0 10.0 1.0


In [382]:
title = "Histogram of per-position D-statistics"
contig_name = "RDN25-1"
fig = plt.figure(figsize=(8, 8))
panel1 = plt.axes([0.1, 0.1, .8, .8])
panel1.set_xlabel("Reference")
panel1.set_ylabel("D-statistic")
panel1.grid(color='black', linestyle='-', linewidth=1, alpha=0.5)
panel1.set_title(label=title)
panel1.plot(ref_positions, raw_data, label=labels[0])

for mod in mods_data[contig_name]:
    pos = mod[0]
    strand = mod[1]
    find = mod[2]
    mods = mod[3]
    panel1.axvline(x=pos, linewidth=2, color='r')

panel1.plot([ref_positions[x] for x in peaks], [raw_data[x] for x in peaks], "x")
panel1.vlines(x=[ref_positions[x] for x in peaks], ymin=[raw_data[x] for x in peaks] - properties["prominences"],
            ymax = [raw_data[x] for x in peaks], color = "C1")
panel1.hlines(y=properties["width_heights"], xmin=properties["left_ips"]+min_ref,
               xmax=properties["right_ips"]+min_ref, color = "C1")
panel1.xaxis.set_major_locator(ticker.MultipleLocator(200))
panel1.xaxis.set_minor_locator(ticker.MultipleLocator(50))

panel1.xaxis.set_major_formatter(ticker.FormatStrFormatter('%d'))

panel1.legend()
plt.show()

<IPython.core.display.Javascript object>

In [141]:
%matplotlib notebook
tombo_data = {}
label_data = {}
probs = []


ts = tombo_stats.TomboStats(CBF5_GAL_vs_NOP58_GAL)
for contig in ts:
    if contig[0] == "RDN25-1" and contig[1] == "+":
        all_data = contig[4]
        min_pos = all_data[0][1]
        max_pos = all_data[-1][1]
        baseline_probs = [x[0] for x in all_data]


column_names = ["unmod", "mod"]
ts = tombo_stats.TomboStats(IVT_vs_CBF5_GAL_and_Nop58_GAL)
for contig in ts:
    if contig[0] == "RDN25-1" and contig[1] == "+":
        all_data = contig[4]
        min_pos = all_data[0][1]
        max_pos = all_data[-1][1]
        for x in all_data:
            tombo_data[x[1]] = [x[0], 1-x[0]]
            label_data[x[1]] = [1, 0]
            probs.append(x[0])

save_fig_path = None

title = "Distribution of 1-D-statistics"

fig = plt.figure(figsize=(8, 8))
panel1 = plt.axes([0.1, 0.1, .8, .8])
panel1.set_xlabel("1-D-statistic")
panel1.set_ylabel("Counts")
panel1.grid(color='black', linestyle='-', linewidth=1, alpha=0.5)
panel1.set_title(label=title)
panel1.hist(probs, label="IVT vs Native", bins=30)
panel1.hist(baseline_probs, label="Native vs Native", bins=10)
panel1.axvline(x=np.mean(probs)-(2*(np.std(probs))), linewidth=5, color='g')
panel1.axvline(x=np.mean(baseline_probs)-(2*(np.std(baseline_probs))), linewidth=5, color='y')

#     kde1 = KernelDensity(kernel="gaussian", bandwidth=0.5).fit(x)

            
for mod in mods_data["RDN25-1"]:
    pos = mod[0] 
    strand = mod[1]
    find = mod[2]
    mods = mod[3]
    label_data[pos] = [0, 1]
    if tombo_data[pos][0] > 0.85:
        print(pos, tombo_data[pos][0])
    panel1.axvline(x=tombo_data[pos][0], linewidth=1, color='r')

final_prob_data = []
final_label_data = []                       
for i in range(min_pos, max_pos+1):
    final_prob_data.append(tombo_data[i])
    final_label_data.append(label_data[i])     

cm = ClassificationMetrics(pd.DataFrame(final_label_data, columns=column_names), 
                           pd.DataFrame(final_prob_data, columns=column_names), 
                           label_ids=list(range(min_pos, max_pos+1)))
cm.plot_roc("mod")



<IPython.core.display.Javascript object>

2394 0.9799274938269981
2869 0.9164800944920103


<IPython.core.display.Javascript object>

In [139]:
threshold = 0.93
peak_threshold = 0.8
ts = tombo_stats.TomboStats(IVT_vs_CBF5_GAL_and_Nop58_GAL)
for contig in ts:
    if contig[0] == "RDN25-1" and contig[1] == "+":
        all_data = contig[4]
        all_peaks = []
        in_peak = False
        peak_data = []
        min_value = 1
        for x in all_data:
            if x[0] < threshold:
                peak_data.append([x[1], x[0]])
                in_peak = True
                min_value = min(min_value, x[0])
            else:
                if in_peak and min_value < peak_threshold:
                    all_peaks.append(peak_data)
                in_peak = False
                peak_data =[]
                min_value = 1

true_mods =  [mod[0] for mod in mods_data["RDN25-1"]]
mod_found = [0 for mod in mods_data["RDN25-1"]]
mod_index = 0
has_mod = [0 for x in range(len(all_peaks))]
interval_lengths = []
for i, cluster in enumerate(all_peaks):
    interval = range(cluster[0][0], cluster[-1][0]+1)
    interval_lengths.append(len(interval))
    for j in range(len(true_mods)):
        if true_mods[j] in interval:
            mod_found[j] = 1
            has_mod[i] = 1

            
true_mods =  [mod[0] for mod in mods_data["RDN25-1"]]
prev_mod = true_mods[0]
num_clusters = 0
for x in true_mods[1:]:
#     print(x)
    if prev_mod - 5 <= x <= prev_mod + 5:
        num_clusters += 1
    prev_mod = x
    
print(num_clusters)
print(np.mean(interval_lengths), np.std(interval_lengths))
print(len(true_mods), len(all_peaks))            
print("sum(mod_found) / len(mod_found)", sum(mod_found) / len(mod_found))
print("sum(has_mod) / len(has_mod)", sum(has_mod) / len(has_mod))



24
17.86842105263158 10.270476472910563
75 38
sum(mod_found) / len(mod_found) 0.9733333333333334
sum(has_mod) / len(has_mod) 0.868421052631579


In [235]:
nanocompore = "/Users/andrewbailey/CLionProjects/personal/projects/ares_rRNA/nanocompore_analysis/out_nanocompore_results.tsv"

nanocompore_data = pd.read_csv(nanocompore, sep="\t")
nanocompore_data.columns



Index(['pos', 'chr', 'genomicPos', 'ref_id', 'strand', 'ref_kmer',
       'GMM_logit_pvalue', 'GMM_cov_type', 'GMM_n_clust', 'cluster_counts',
       'Logit_LOR'],
      dtype='object')

In [242]:
%matplotlib notebook
stats_files = [nanocompore]
labels = ["IVT vs Nop58_GAL"]

save_fig_path = None
contig = "RDN25-1"
title = "Histogram of per-position GMM_logit_pvalue"

fig = plt.figure(figsize=(8, 8))
panel1 = plt.axes([0.1, 0.1, .8, .8])
panel1.set_xlabel("Reference")
panel1.set_ylabel("log(GMM_logit_pvalue)")
panel1.grid(color='black', linestyle='-', linewidth=1, alpha=0.5)
panel1.set_title(label=title)

for i in range(len(stats_files)):
    assert os.path.exists(stats_files[i])
    nanocompore_data = pd.read_csv(nanocompore, sep="\t")
    contig_data = nanocompore_data[nanocompore_data["ref_id"]==contig]
    panel1.plot([x["pos"] for index, x in contig_data.iterrows()], [np.log(x["GMM_logit_pvalue"]) for index, x in contig_data.iterrows()], label=labels[i])

for mod in mods_data["RDN25-1"]:
    pos = mod[0]
    strand = mod[1]
    find = mod[2]
    mods = mod[3]
    panel1.axvline(x=pos, linewidth=2, color='r')
            

            
panel1.xaxis.set_major_locator(ticker.MultipleLocator(200))
panel1.xaxis.set_minor_locator(ticker.MultipleLocator(50))

panel1.xaxis.set_major_formatter(ticker.FormatStrFormatter('%d'))

panel1.legend()

# option to save figure or just show it
if save_fig_path is not None:
    plt.savefig(save_fig_path)

<IPython.core.display.Javascript object>

In [246]:
%matplotlib notebook

nc_data = {}
label_data = {}
probs = []
contig = "RDN25-1"

contig_data = nanocompore_data[nanocompore_data["ref_id"]==contig]
contig_data.dropna(1, "all", inplace=True)

column_names = ["unmod", "mod"]
min_pos = min(contig_data["pos"])
max_pos = max(contig_data["pos"])


for index, row in contig_data.iterrows():
    pvalue = row['GMM_logit_pvalue']
    if sum(row.isna()) > 0:
        pvalue = 1
    nc_data[row['pos']] = [pvalue, 1-pvalue]
    label_data[row['pos']] = [1, 0]
    probs.append(row['GMM_logit_pvalue'])

save_fig_path = None

title = "Distribution of GMM_logit_pvalue"

fig = plt.figure(figsize=(8, 8))
panel1 = plt.axes([0.1, 0.1, .8, .8])
panel1.set_xlabel("GMM_logit_pvalue")
panel1.set_ylabel("Counts")
panel1.grid(color='black', linestyle='-', linewidth=1, alpha=0.5)
panel1.set_title(label=title)
panel1.hist(probs, label="IVT vs Native", bins=30)
panel1.axvline(x=np.mean(probs)-(2*(np.std(probs))), linewidth=5, color='g')

#     kde1 = KernelDensity(kernel="gaussian", bandwidth=0.5).fit(x)

            
for mod in mods_data["RDN25-1"]:
    pos = mod[0] 
    strand = mod[1]
    find = mod[2]
    mods = mod[3]
    label_data[pos] = [0, 1]
#     if nc_data[pos][0] > 0.85:
#         print(pos, nc_data[pos][0])
    panel1.axvline(x=nc_data[pos][0], linewidth=1, color='r')

final_prob_data = []
final_label_data = []                       
for i in sorted(list(nc_data.keys())):
    final_prob_data.append(nc_data[i])
    final_label_data.append(label_data[i])     
a = pd.DataFrame(final_label_data, columns=column_names) 
b = pd.DataFrame(final_prob_data, columns=column_names) 

cm = ClassificationMetrics(pd.DataFrame(final_label_data, columns=column_names), 
                           pd.DataFrame(final_prob_data, columns=column_names), 
                           label_ids=sorted(nc_data.keys()))
cm.plot_roc("unmod")



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  if __name__ == '__main__':


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>