In [1]:
%%capture
! pip install Bio;

## **Age revealing**

### **1. Mitochondrial Eve**
I find it disconcerting that the age can vary greatly depending on how many mutations per year you put in.



> The answer is near what it should look like so it's fine


In [2]:
from Bio import SeqIO

#путь к FASTA файлу с выравниваниями
alignment_file = "/content/aligned.fasta"

# Идентификатор митохондриальной Евы
#(взяли центральную Африку, так как эта ветка отделилась раньше если смотреть по дереву)
reference_id = "FJ713601.1"

# Скорость мутаций для всего митохондриального генома
mutation_rate = 1 / 4000  # мутаций в год

# Чтение файла FASTA
sequences = {}
for record in SeqIO.parse(alignment_file, "fasta"):
    sequences[record.id] = str(record.seq)

# Проверяем, что референсная последовательность есть в данных
if reference_id not in sequences:
    raise ValueError(f"Reference sequence {reference_id} not found in the alignment file.")

# Референсная последовательность
reference_seq = sequences[reference_id]

# Проходим по всем последовательностям и считаем мутации
mutation_counts = {}
for seq_id, seq in sequences.items():
    if seq_id == reference_id:
        continue  # пропускаем референсную последовательность
    # Считаем количество мутаций по сравнению с референсом
    mutations = sum(1 for a, b in zip(reference_seq, seq) if a != b and a != '-' and b != '-')
    mutation_counts[seq_id] = mutations

# Находим максимальное и среднее количество мутаций
max_mutations = max(mutation_counts.values())
max_seq_id = max(mutation_counts, key=mutation_counts.get)
mean_mutations = sum(mutation_counts.values())/len(mutation_counts.values())

# Возраст = (количество мутаций) / (2 * скорость мутаций)
# Умножаем скорость на 2, так как мутации происходят по обеим ветвям эволюции
estimated_age_max = max_mutations / (2 * mutation_rate)
estimated_age_mean = mean_mutations / (2 * mutation_rate)

print(f"Максимальное количество мутаций по сравнению с митохондриальной Евой: {max_mutations}")
print(f"Идентификатор последовательности с максимальными мутациями: {max_seq_id}")
print(f"Оцененный возраст митохондриальной Евы по максимому: {estimated_age_max:.0f} лет")
print(f"Оцененный возраст митохондриальной Евы по среднему: {estimated_age_mean:.0f} лет")

Максимальное количество мутаций по сравнению с митохондриальной Евой: 96
Идентификатор последовательности с максимальными мутациями: KX440262.1
Оцененный возраст митохондриальной Евы по максимому: 192000 лет
Оцененный возраст митохондриальной Евы по среднему: 170227 лет


### **2. Recent Neanderthal-modern human ancestor**

> The answer is near what I found on the Internet so it's fine

In [6]:
from Bio import SeqIO

# Путь к FASTA файлу с выравниваниями
alignment_file = "/content/extended_alignment.fasta"

# Идентификатор неандертальца (один из)
reference_id = "KX198088"

# Идентификаторы, которые нужно исключить из анализа
exclude_ids = {'KT780370', 'FN673705', 'FR695060', 'KX198088', 'KX198087', 'KX198086', 'KX198085', 'KX198084'}

# Скорость мутаций
mutation_rate = 1 / 4000  # мутаций в год

# Чтение файла FASTA
sequences = {}
for record in SeqIO.parse(alignment_file, "fasta"):
    sequences[record.id] = str(record.seq)

# Проверяем, что референсная последовательность есть в данных
if reference_id not in sequences:
    raise ValueError(f"Reference sequence {reference_id} not found in the alignment file.")

# Референсная последовательность
reference_seq = sequences[reference_id]

# Проходим по всем последовательностям и считаем мутации
mutation_counts = {}
for seq_id, seq in sequences.items():
    # Пропускаем референсную последовательность и исключенные идентификаторы
    if seq_id in exclude_ids:
        continue
    # Считаем количество мутаций по сравнению с референсом
    mutations = sum(1 for a, b in zip(reference_seq, seq) if a != b and a != '-' and b != '-')
    mutation_counts[seq_id] = mutations

# Проверка, что остались последовательности для анализа после исключения
if not mutation_counts:
    raise ValueError("No sequences left for analysis after exclusion.")

# Находим максимальное и среднее количество мутаций
max_mutations = max(mutation_counts.values())
max_seq_id = max(mutation_counts, key=mutation_counts.get)

# Возраст = (количество мутаций) / (2 * скорость мутаций)
# Умножаем скорость на 2, так как мутации происходят по обеим ветвям эволюции
estimated_age_max = max_mutations / (2 * mutation_rate)

print(f"Максимальное количество мутаций по сравнению с неандертальцем: {max_mutations}")
print(f"Идентификатор последовательности с максимальными мутациями: {max_seq_id}")
print(f"Оцененный возраст ближайшего к нам неандертальца: {estimated_age_max:.0f} лет")

Максимальное количество мутаций по сравнению с неандертальцем: 218
Идентификатор последовательности с максимальными мутациями: KX440262.1
Оцененный возраст ближайшего к нам неандертальца: 436000 лет
