In [27]:
from typing import Dict, Set
import copy
import random

# Function that creates a sequence and returns the sequence itself
Sequence = str
Kmer = str
Label = str

def generateSequence(length) -> Sequence:
    return ''.join(random.choices(['A', 'C', 'G', 'T'], k=length))

def getKmersFromSequence(sequence, kmer_size):
    if len(sequence) < kmer_size:
        return []
    return [sequence[i: i+kmer_size] for i in range(len(sequence) - kmer_size + 1)]

class GenomicDB(object):
    def __init__(
        self,
        kmer_size
    ) -> None:
        self.kmer_size = kmer_size
        self.orig_db: Dict[Kmer, Set[Label]] = {} # Set for efficient search
        self.db = copy.deepcopy(self.orig_db)
        self.threshold = -1

    def setThreshold(
        self,
        thresh
    ) -> None:
        # Sanity check needed
        self.threshold = thresh
        self.db = copy.deepcopy(self.orig_db)
        if self.threshold == -1:
            return
        kmers_to_trim = []
        for kmer in self.db:
            if len(self.db[kmer]) > self.threshold: # אם מספר הלינג'ים גדול מהטרשהולד אז נכניס אותם לקיימרס טו טרים   
                kmers_to_trim.append(kmer)
        for kmer in kmers_to_trim:
            self.db.pop(kmer)

    def addToDB(
        self,
        sequence: Sequence,
        name: str
    ) -> None:
        kmers = getKmersFromSequence(sequence, self.kmer_size)
        for kmer in kmers:
            if kmer in self.orig_db:
                self.orig_db[kmer].add(name)
            else:
                self.orig_db[kmer] = set([name])
        self.setThreshold(self.threshold)


    def querySequence(
        self,
        sequence) -> None:
        results = {}
        true_label = None
        true_label_count = 0
        for kmer in getKmersFromSequence(sequence, self.kmer_size):
            if kmer in self.db:
                for label in self.db[kmer]:
                    if not label in results:
                        results[label] = 0
                    results[label] += 1
                    if results[label] > true_label_count:
                        true_label = label
                        true_label_count = results[label]
        return true_label


In [28]:
db = GenomicDB(kmer_size=8)

In [29]:
sequences = []
length = 10000
for i in range(5):
    sequences.append(generateSequence(length))    
    db.addToDB(
        sequence=sequences[i],
        name=f"{i}")    

In [30]:
len(db.db) #גודל הדאטא בייס הפנימי , מספר הקיימרים,    אצל זוהיר זה יצא 35097  
#db.querySequence(sequences[0])

34987

In [33]:
db.setThreshold(1) 

In [34]:
len(db.db) #  אצל זוהיר זה יצא  25395 ,מה שאמור להישאר זה כל הקיימרים שיש להם לכל היותר אורגניזם אחד , כלומר זה מספר הקיימרים הייחודיים 

25183

In [39]:
db.setThreshold(5) 

In [40]:
len(db.db)

34987

אנחנו בונים את הדאטא בייס ואז משחקים עם פונקציית הסט טרשהולד ואז אנחנו בוחנים את הדיוק שלנו לפי הטרשהולד. 

כאשנחנו נבנה את הדברים הללו עם המידע של קורונה , המספרים הללו אמורים להשתנות בצורה דרסטית (אנחנו אמורים להישאר עם בערך 300 קיימרים - ולא 25 אלף כמו כאן) 

 add to database קודם להכניס את הגנומים לדאטא בייס על ידי 

 add to database הערה חשובה מזוהיר: לעשות

בגלל שזה ייקח הרבה זמן  setThreshold לפני שאנחנו מגדירים את ערך הסף עם

 sequences  ואז בסוף להכניס ל

# שיטת הפעולה: 

אנחנו לוקחים קובץ פסטה , קוראים מהקובץ את הגנום , מכניסים אותו לתוך סטרינג פייתוני טהור , ואז משתמשים בפונקציה אד טו דאטאבייס - נותנים לה את הסיקוונס, ברגע שנתנו לה את הסיקוונס ועשינו אד טו דאטאבייס אז זהו זה ,סיימנו והקובץ הזה נמצא בדאטא בייס שלנו , אנחנו גם מוסיפים את השם שלו. ואז אנחנו עושים את זה עם כל שאר הקבצים . ובסוף מה שאנחנו צריכים לעשות זה קווארי , כלומר לחפש . 

  אל תחפשו דברים שהכנסתם כבר לדאטאבייס (כמו שעשינו כאן למעלה) אלא דברים שלא הכנסנו .

 למשל אם הורדנו 10 אקסשנים מלינאג' מסוים אז מכניסים אחד מהם ומחפשים 9 אחרים

In [45]:
# Import parts of Biopython
from Bio import SeqIO
import os
import numpy as np

In [46]:
 directory = './data/'

In [47]:
# Iterate over each file in the directory
for filename in os.listdir(directory):
    file_path = os.path.join(directory, filename)
    
    # Check if the path is a file (not a directory)
    if os.path.isfile(file_path):
        # Process the file as needed
        print("File:", file_path)

File: ./data/KU714439.1.fasta
File: ./data/NC_001498.1.fasta
File: ./data/NC_001542.1.fasta
File: ./data/NC_002640.1.fasta
File: ./data/NC_003977.2.fasta
File: ./data/NC_004297.1.fasta
File: ./data/NC_026431.1.fasta
File: ./data/NC_035889.1.fasta
File: ./data/NC_038294.1.fasta
File: ./data/NC_039345.1.fasta
