In [59]:
from typing import List
import numpy as np
import plotly.express as px
import pandas as pd

In [103]:
N = [0,0,0.5]
_ = [0,0,-1]

A = [-1,1,0]
C = [1,1,1]
T = [1,-1,0]
U = T
G = [-1,-1,1]

dict_base_embeddings = {
    "N": N,
    "-": _,
    
    "A": A,
    "C": C,
    "T": T,
    "U": U,
    "G": G,

    "M": np.mean([A, C], axis=0).tolist(),
    "W": np.mean([A, T], axis=0).tolist(),
    "R": np.mean([A, G], axis=0).tolist(),
    "Y": np.mean([C, T], axis=0).tolist(),
    "S": np.mean([C, G], axis=0).tolist(),
    "K": np.mean([T, G], axis=0).tolist(),

    "B": np.mean([C, G, T], axis=0).tolist(),
    "D": np.mean([A, G, T], axis=0).tolist(),
    "H": np.mean([A, C, T], axis=0).tolist(),
}

df_base_embeddings = pd.DataFrame(dict_base_embeddings.values(), index=dict_base_embeddings.keys(), columns=["x", "y", "z"])
dict_base_embeddings

{'N': [0, 0, 0.5],
 '-': [0, 0, -1],
 'A': [-1, 1, 0],
 'C': [1, 1, 1],
 'T': [1, -1, 0],
 'U': [1, -1, 0],
 'G': [-1, -1, 1],
 'M': [0.0, 1.0, 0.5],
 'W': [0.0, 0.0, 0.0],
 'R': [-1.0, 0.0, 0.5],
 'Y': [1.0, 0.0, 0.5],
 'S': [0.0, 0.0, 1.0],
 'K': [0.0, -1.0, 0.5],
 'B': [0.3333333333333333, -0.3333333333333333, 0.6666666666666666],
 'D': [-0.3333333333333333, -0.3333333333333333, 0.3333333333333333],
 'H': [0.3333333333333333, 0.3333333333333333, 0.3333333333333333]}

In [98]:
px.scatter_3d(df_base_embeddings, x="x", y="y", z="z", text=df_base_embeddings.index, color=df_base_embeddings.index)

In [99]:
def parse_fasta_dataset(file_path: str = "../data/LTP_09_2021_compressed_staph_muscle.fasta", max_seqs:int = False):
    dataset = []
    current_idx = 0
    current_meta = {}
    with open(file_path, "r") as f:
        for line in f.readlines():
            if line[0] == ">":
                if current_meta != {}:
                    current_meta["sequence"] = current_meta["sequence"].strip()
                    dataset.append(current_meta)
                line_list = line.replace("\n", "").replace(">", "").split("\t")
                if len(line_list) < 2:
                    current_meta  = {key: line_list[idx] for idx, key in enumerate(["name"])}
                elif len(line_list) < 3:
                    current_meta  = {key: line_list[idx] for idx, key in enumerate(["id", "name"])}
                else:
                    current_meta  = {key: line_list[idx] for idx, key in enumerate(["id", "name", "tags"])}
                    current_meta["tags"] = current_meta["tags"].split(";")
                current_meta["sequence"] = ""
                current_idx += 1
                if current_idx > max_seqs and max_seqs>=1:
                    break
            else:
                current_meta["sequence"] += line.replace("\n", " ")
    return dataset

dataset = parse_fasta_dataset(max_seqs=-1)
print(len(dataset))

67


In [104]:
def encode_sequences(sequence: str) -> List[List[float]]:
    dict_base_embeddings = {
        'N': [0, 0, 0.5],
        '-': [0, 0, -1],
        'A': [-1, 1, 0],
        'C': [1, 1, 1],
        'T': [1, -1, 0],
        'U': [1, -1, 0],
        'G': [-1, -1, 1],
        'M': [0.0, 1.0, 0.5],
        'W': [0.0, 0.0, 0.0],
        'R': [-1.0, 0.0, 0.5],
        'Y': [1.0, 0.0, 0.5],
        'S': [0.0, 0.0, 1.0],
        'K': [0.0, -1.0, 0.5],
        'B': [0.3333333333333333, -0.3333333333333333, 0.6666666666666666],
        'D': [-0.3333333333333333, -0.3333333333333333, 0.3333333333333333],
        'H': [0.3333333333333333, 0.3333333333333333, 0.3333333333333333]
    }
    return [dict_base_embeddings.get(z, [1, 1, 1]) for z in sequence.strip().replace(" ", "")]

In [106]:
[encode_sequences(x["sequence"]) for x in dataset][0]

[[0, 0, -1],
 [0, 0, -1],
 [0, 0, -1],
 [0, 0, -1],
 [0, 0, -1],
 [0, 0, -1],
 [0, 0, -1],
 [0, 0, -1],
 [-1, 1, 0],
 [-1, -1, 1],
 [-1, 1, 0],
 [-1, -1, 1],
 [1, -1, 0],
 [1, -1, 0],
 [1, -1, 0],
 [-1, -1, 1],
 [-1, 1, 0],
 [1, -1, 0],
 [0, 0, -1],
 [1, 1, 1],
 [1, 1, 1],
 [1, -1, 0],
 [-1, -1, 1],
 [-1, -1, 1],
 [1, 1, 1],
 [1, -1, 0],
 [1, 1, 1],
 [-1, 1, 0],
 [-1, -1, 1],
 [1, -1, 0],
 [-1, 1, 0],
 [1, -1, 0],
 [-1, -1, 1],
 [-1, 1, 0],
 [-1, 1, 0],
 [1, 1, 1],
 [-1, -1, 1],
 [1, 1, 1],
 [1, -1, 0],
 [-1, -1, 1],
 [-1, -1, 1],
 [1, 1, 1],
 [-1, -1, 1],
 [-1, -1, 1],
 [1, 1, 1],
 [-1, -1, 1],
 [1, -1, 0],
 [-1, -1, 1],
 [1, 1, 1],
 [1, 1, 1],
 [1, -1, 0],
 [-1, 1, 0],
 [-1, 1, 0],
 [1, -1, 0],
 [-1, 1, 0],
 [1, 1, 1],
 [-1, 1, 0],
 [1, -1, 0],
 [-1, -1, 1],
 [1, 1, 1],
 [-1, 1, 0],
 [-1, 1, 0],
 [-1, -1, 1],
 [1, -1, 0],
 [1, 1, 1],
 [-1, -1, 1],
 [-1, 1, 0],
 [-1, -1, 1],
 [1, 1, 1],
 [-1, -1, 1],
 [-1, 1, 0],
 [-1, 1, 0],
 [1, 1, 1],
 [-1, 1, 0],
 [-1, -1, 1],
 [-1, 1, 0],
 [1, -1