# Prepare degradation kinetics data for MATLAB

## 1. Import data and modules

In [7]:
import pandas as pd 
import numpy as np 
from datetime import timedelta
import datetime

In [8]:
# round 1
degradation_data = pd.read_excel('raw_data/BrocCurve1.xlsx',sheet_name = 'Subtract BG')

# round 2
degradation_data_updated_gain70 = pd.read_excel('raw_data/RNAcurvehigherconc.xlsx',sheet_name = 'Gain 70')
degradation_data_updated_gain75 = pd.read_excel('raw_data/RNAcurvehigherconc.xlsx',sheet_name = 'Gain 75')

In [9]:
degradation_data.head(10)

Unnamed: 0,Time,10 nM,50 nM,100 nM,200 nM,500 nM,750 nM,1500 nM
0,00:00:00,252.666667,692.0,1505.666667,3480.666667,10749.666667,6011.666667,24367.666667
1,00:01:30,153.0,723.0,1299.0,2867.666667,9327.666667,5287.333333,21983.666667
2,00:03:00,159.0,599.333333,1070.333333,2293.666667,7984.0,4490.333333,19460.666667
3,00:04:30,79.0,492.0,865.666667,1946.333333,6982.0,3747.333333,17283.0
4,00:06:00,95.0,434.666667,764.333333,1691.0,5901.333333,3287.0,15642.666667
5,00:07:30,37.0,344.666667,679.333333,1423.666667,5243.0,2825.0,14150.0
6,00:09:00,85.333333,321.0,656.333333,1341.0,4649.0,2480.333333,13187.666667
7,00:10:30,52.666667,279.0,577.666667,1116.666667,4113.666667,2266.333333,11907.333333
8,00:12:00,27.666667,322.333333,471.0,1004.333333,3671.333333,2009.0,11073.333333
9,00:13:30,59.666667,278.333333,464.666667,906.666667,3323.0,1846.666667,10447.666667


In [12]:
degradation_data_updated_gain70.head(10)

Unnamed: 0,Time,10,50,100,500,1000,5000,10000,20000,BG,10.1,50.1,100.1,500.1,1000.1,5000.1,10000.1,20000.1
0,00:00:00,345.666667,622.0,835.0,3001.666667,5413.666667,25678.333333,50749.0,81222.333333,344.0,1.666667,278.0,491.0,2657.666667,5069.666667,25334.333333,50405.0,80878.333333
1,00:01:00,312.666667,605.333333,831.666667,3056.0,5617.666667,27399.0,55602.666667,93230.0,325.666667,-31.333333,261.333333,487.666667,2712.0,5273.666667,27055.0,55258.666667,92886.0
2,00:02:00,280.0,549.0,780.0,2994.666667,5583.0,27421.333333,55833.333333,94988.666667,296.333333,-64.0,205.0,436.0,2650.666667,5239.0,27077.333333,55489.333333,94644.666667
3,00:03:00,258.0,545.333333,731.666667,2890.666667,5451.0,26948.666667,54604.0,93518.333333,239.0,-86.0,201.333333,387.666667,2546.666667,5107.0,26604.666667,54260.0,93174.333333
4,00:04:00,242.666667,503.333333,709.333333,2765.0,5310.666667,26192.0,53401.333333,91242.0,214.666667,-101.333333,159.333333,365.333333,2421.0,4966.666667,25848.0,53057.333333,90898.0
5,00:05:00,218.333333,489.333333,653.666667,2654.666667,5079.333333,25408.666667,52339.333333,89344.333333,179.0,-125.666667,145.333333,309.666667,2310.666667,4735.333333,25064.666667,51995.333333,89000.333333
6,00:06:00,192.0,453.0,617.0,2523.0,4879.333333,24700.0,51033.333333,87547.0,176.0,-152.0,109.0,273.0,2179.0,4535.333333,24356.0,50689.333333,87203.0
7,00:07:00,177.0,428.333333,582.333333,2373.666667,4617.0,23816.0,50076.666667,86181.666667,156.0,-167.0,84.333333,238.333333,2029.666667,4273.0,23472.0,49732.666667,85837.666667
8,00:08:00,168.333333,397.666667,548.333333,2243.333333,4411.0,23010.333333,49245.666667,85170.333333,131.0,-175.666667,53.666667,204.333333,1899.333333,4067.0,22666.333333,48901.666667,84826.333333
9,00:09:00,172.666667,382.666667,511.666667,2155.666667,4214.666667,22215.0,48223.666667,83886.0,133.333333,-171.333333,38.666667,167.666667,1811.666667,3870.666667,21871.0,47879.666667,83542.0


## 2. Convert kinetics data into a MATLAB-easy format

**Remove outlier column**

In [4]:
degradation_data = degradation_data.drop(columns = '750 nM')

In [11]:
# remove empty columns in updated data 
degradation_data_updated_gain70 = degradation_data_updated_gain70.dropna(axis=1)
degradation_data_updated_gain75 = degradation_data_updated_gain75.dropna(axis=1)

**Split data into gain 100 and gain 50**

In [5]:
split_index = degradation_data.loc[degradation_data['Time'] == 'Gain 50'].index[0]
degradation_gain_100 = degradation_data.iloc[:split_index]
degradation_gain_50 = degradation_data.iloc[split_index+1:]

In [6]:
print(len(degradation_gain_50))
print(len(degradation_gain_100))

41
41


In [7]:
degradation_gain_100.head(10)

Unnamed: 0,Time,10 nM,50 nM,100 nM,200 nM,500 nM,1500 nM
0,00:00:00,252.666667,692.0,1505.666667,3480.666667,10749.666667,24367.666667
1,00:01:30,153.0,723.0,1299.0,2867.666667,9327.666667,21983.666667
2,00:03:00,159.0,599.333333,1070.333333,2293.666667,7984.0,19460.666667
3,00:04:30,79.0,492.0,865.666667,1946.333333,6982.0,17283.0
4,00:06:00,95.0,434.666667,764.333333,1691.0,5901.333333,15642.666667
5,00:07:30,37.0,344.666667,679.333333,1423.666667,5243.0,14150.0
6,00:09:00,85.333333,321.0,656.333333,1341.0,4649.0,13187.666667
7,00:10:30,52.666667,279.0,577.666667,1116.666667,4113.666667,11907.333333
8,00:12:00,27.666667,322.333333,471.0,1004.333333,3671.333333,11073.333333
9,00:13:30,59.666667,278.333333,464.666667,906.666667,3323.0,10447.666667


**Replace timestamp with timeVec**

In [13]:
def get_timeVec(df):
    timeVec = df['Time'].apply(lambda x:(x.hour*60+x.minute)*60+x.second)
    return timeVec

In [9]:
timeVec_gain50 = get_timeVec(degradation_gain_50)
timeVec_gain100 = get_timeVec(degradation_gain_100)

In [14]:
# Updated data
timeVec_gain70 = get_timeVec(degradation_data_updated_gain70)
timeVec_gain75 = get_timeVec(degradation_data_updated_gain75)

**Remove Time column from dataframes**

In [10]:
degradation_gain_50 = degradation_gain_50.drop(columns='Time')
degradation_gain_100 = degradation_gain_100.drop(columns='Time')

In [16]:
degradation_data_updated_gain70 = degradation_data_updated_gain70.drop(columns='Time')
degradation_data_updated_gain75 = degradation_data_updated_gain75.drop(columns='Time')

**Save timeVec and data in separate tabs**

In [17]:
def output_df(df,df_timeVec,output_file_name):
    with pd.ExcelWriter(output_file_name) as writer:  
        df_timeVec.to_excel(writer, sheet_name='timeVec')
        df.to_excel(writer, sheet_name='degradation')

In [11]:
output_file_name_1 = 'processed_data/degradation_curve_gain_50.xlsx'
output_file_name_2 = 'processed_data/degradation_curve_gain_100.xlsx'

In [13]:
output_df(degradation_gain_50,timeVec_gain50,output_file_name_1)
output_df(degradation_gain_100,timeVec_gain100,output_file_name_2)

In [18]:
# updated data 
output_file_name_updated70 = 'processed_data/degradation_curve_gain_70.xlsx'
output_file_name_updated75 = 'processed_data/degradation_curve_gain_75.xlsx'

output_df(degradation_data_updated_gain70,timeVec_gain70,output_file_name_updated70)
output_df(degradation_data_updated_gain75,timeVec_gain75,output_file_name_updated75)