Δίνονται τα παρακάτω patterns από το αλφάβητο A, C, G, T:
* pattern1=ΑΤΤΑGA,
* pattern2=ΑCGCΑTΤT
* pattern3=ΑGGΑCTCΑΑ,
* pattern4=ΑΤΤTCΑGT
---
 Σχεδιάστε και υλοποιήστε μία μέθοδο σύνθεσης συμβολοσειράς, η οποία λειτουργεί ως εξής:
- α) επιλέγει ένα έως τρία σύμβολα με τυχαίο τρόπο και τα τοποθετεί στην αρχή της συμβολοσειράς.
- β) Επιλέγει κάθε ένα από τα παραπάνω patterns μία φορά, με τη σειρά που αναγράφονται και αντικαθιστά το πολύ δύο σύμβολα σε τυχαίες θέσεις, είτε με ένα άλλο τυχαία επιλεγμένο σύμβολο (για κάθε θέση ξεχωριστά) είτε με την κενή συμβολοσειρά (διαγραφή συμβόλου). Ότι προκύπτει συνενώνεται με την υφιστάμενη έως εκείνη τη στιγμή συμβολοσειρά.
- γ) Προσθέτει ένα έως δύο τυχαία σύμβολα στο τέλος της συμβολοσειράς. Δημιουργήστε συνολικά 100 συμβολοσειρές με τον αλγόριθμο σύνθεσης. Διαλέξτε με τυχαίο τρόπο 10 συμβολοσειρές και τοποθετήστε τις σε ένα σύνολο datasetA, 70 σε ένα σύνολο datasetB και τις υπόλοιπες 20 σε ένα σύνολο datasetC.

In [2]:
import random
from typing import List

# Για αναπαραγωγισιμότητα
random.seed(42)

### Βοηθητικές Συναρτήσεις
#### - `prepend_random`: Προσθέτει στην αρχή 1–3 τυχαία σύμβολα.
#### - `mutate_pattern`: Εφαρμόζει έως `max_mutations` (default 2) τυχαίες αλλαγές (substitution ή deletion) στο δοθέν pattern.
#### - `append_random`: Προσθέτει στο τέλος 1–2 τυχαία σύμβολα.
#### - `save_fasta`: Αποθηκεύει τις αλληλουχίες σε αρχείο FASTA.

In [None]:
def prepend_random(min_len: int = 1, max_len: int = 3) -> str:
    """
    Προσθέτει στην αρχή min_len–max_len τυχαία σύμβολα.
    Επιστρέφει την τροποποιημένη συμβολοσειρά.
    :param min_len: Ελάχιστο μήκος της τυχαίας συμβολοσειράς
    :param max_len: Μέγιστο μήκος της τυχαίας συμβολοσειράς
    :return: Τυχαία συμβολοσειρά από τα σύμβολα A, C, G, T
    """
    k = random.randint(min_len, max_len)
    return ''.join(random.choices(['A', 'C', 'G', 'T'], k=k))


def mutate_pattern(pattern: str, max_mutations: int = 2) -> str:
    """
    Εφαρμόζει έως max_mutations τυχαίες μεταλλάξεις:
    - Κάθε μετάλλαξη: 50% substitution (σε ένα τυχαίο σύμβολο), 50% deletion.
    :param pattern: Αρχικό pattern
    :param max_mutations: Μέγιστος αριθμός μεταλλάξεων
    :return: Τροποποιημένο pattern
    """
    pattern_list = list(pattern)
    m = random.randint(0, max_mutations)
    # Επιλογή θέσεων για μετάλλαξη
    positions = random.sample(range(len(pattern_list)), m)
    for pos in positions:
        if random.random() < 0.5:
            # Substitution
            pattern_list[pos] = random.choice(['A', 'C', 'G', 'T'])
        else:
            # Deletion
            pattern_list[pos] = ''
    return ''.join(pattern_list)


def append_random(min_len: int = 1, max_len: int = 2) -> str:
    """
    Προσθέτει στο τέλος min_len–max_len τυχαία σύμβολα.
    :param min_len: Ελάχιστο μήκος της τυχαίας συμβολοσειράς
    :param max_len: Μέγιστο μήκος της τυχαίας συμβολοσειράς
    :return: Τυχαία συμβολοσειρά από τα σύμβολα A, C, G, T
    """
    k = random.randint(min_len, max_len)
    return ''.join(random.choices(['A', 'C', 'G', 'T'], k=k))

def save_fasta(seqs: List[str], filename: str) -> bool:
    """
    Αποθηκεύει τις αλληλουχίες σε αρχείο FASTA.
    :param seqs: Λίστα αλληλουχιών
    :param filename: Όνομα αρχείου
    :return: True αν η αποθήκευση ήταν επιτυχής, αλλιώς False
    """
    try:
        with open(filename, 'w') as f:
            for i, s in enumerate(seqs, 1):
                f.write(f">seq{i}\n{s}\n")
        return True
    except IOError as e:
        print(f"Error writing to file {filename}: {e}")
        return False

### Συνάρτηση Σύνθεσης Αλληλουχίας
#### Η `generate_sequence`:
#### 1. Καλεί `prepend_random`.
#### 2. Για κάθε από τα τέσσερα patterns καλεί `mutate_pattern` και συγχωνεύει.
#### 3. Καλεί `append_random`.


In [4]:
patterns = ["ATTAGA", "ACGCATTT", "AGGACTCAA", "ATTTCAGT"]

def generate_sequence() -> str:
    """
    Δημιουργεί μία σύνθετη αλληλουχία σύμφωνα με:
    - 1–3 αργικά σύμβολα στην αρχή
    - Επικαλύψεις των patterns με έως 2 mutations το καθένα
    - 1–2 σύμβολα στο τέλος
    :return: Σύνθετη αλληλουχία
    """
    seq = prepend_random(1, 3)
    for pat in patterns:
        mut = mutate_pattern(pat, max_mutations=2)
        seq += mut
    seq += append_random(1, 2)
    return seq

### Δημιουργία και Διαχωρισμός Datasets
#### - Παράγουμε 100 αλληλουχίες.
#### - Ανακατεύουμε με seed=42.
#### - Χωρίζουμε σε 10, 70, 20 στοιχεία για datasetA, datasetB, datasetC.
#### - Εκτυπώνουμε βασικά στατιστικά.

In [None]:
# Δημιουργία
sequences: List[str] = [generate_sequence() for _ in range(100)]

# Shuffle και Διαχωρισμός
random.shuffle(sequences)
datasetA = sequences[:10]
datasetB = sequences[10:80]
datasetC = sequences[80:]

# Εκτύπωση Στατιστικών
print(f"Συνολικές αλληλουχίες: {len(sequences)}")
print(f"datasetA: {len(datasetA)} (π.χ. {datasetA[0]})")
print(f"datasetB: {len(datasetB)}")
print(f"datasetC: {len(datasetC)}")

In [None]:
save_fasta(datasetA, 'datasetA.fasta')
save_fasta(datasetB, 'datasetB.fasta')
save_fasta(datasetC, 'datasetC.fasta')
print("Files saved: datasetA.fasta, datasetB.fasta, datasetC.fasta")
