**ФИО:** Смольков Максим Дмитриевич

**Группа:** 25152

# **Алгоритм Витерби:**:

Входные данные:

Вероятности перехода между состояниями N (NonCpG) и C (CpG):
```
trans_prob = [[0.90, 0.01],  # N>N, N>C
              [0.01, 0.90]]  # C>N, C>C
```

Эмиссионные вероятности:
```
emit_prob = [
    {'A': 0.4, 'C': 0.1, 'G': 0.1, 'T': 0.4},  # для N
    {'A': 0.1, 'C': 0.4, 'G': 0.4, 'T': 0.1}]  # для C
```

Последовательность нуклеотидов:
```
seq = 'ATTTAATCGCGCGCGATTACGTACTAGCTAATTAACGGGCGGCGCGCATTATAA'
```
Необходимо реализовать функцию, которая с помощью алгоритма Витерби определяет наиболее вероятную последовательность состояний для заданной последовательности нуклеотидов и выводит строку этих состояний.


In [2]:
def viterbi_algorithm(seq, trans_prob, emit_prob):
    """
    Алгоритм Витерби для поиска наиболее вероятной последовательности скрытых состояний.
    
    Параметры:
    seq - строка с последовательностью нуклеотидов
    trans_prob - матрица вероятностей переходов между состояниями
    emit_prob - список словарей эмиссионных вероятностей для каждого состояния
    """
    
    # Состояния: N (индекс 0) и C (индекс 1)
    states = ['N', 'C']
    num_states = len(states)
    
    # Инициализация таблиц
    n = len(seq)
    V = [[0.0 for _ in range(num_states)] for _ in range(n)]  # Таблица вероятностей
    path = [[0 for _ in range(num_states)] for _ in range(n)]  # Таблица путей
    
    # Шаг 1: Инициализация (первый символ)
    for i in range(num_states):
        first_nucleotide = seq[0]
        # Равномерное начальное распределение (0.5 для каждого состояния)
        V[0][i] = 0.5 * emit_prob[i].get(first_nucleotide, 0.0)
        path[0][i] = 0  # Начальное состояние
    
    # Шаг 2: Рекурсия
    for t in range(1, n):
        nucleotide = seq[t]
        for j in range(num_states):
            # Находим максимальную вероятность перехода из предыдущих состояний
            max_prob = 0.0
            max_state = 0
            
            for i in range(num_states):
                prob = V[t-1][i] * trans_prob[i][j] * emit_prob[j].get(nucleotide, 0.0)
                if prob > max_prob:
                    max_prob = prob
                    max_state = i
            
            V[t][j] = max_prob
            path[t][j] = max_state
    
    # Шаг 3: Завершение (нахождение конечного состояния с максимальной вероятностью)
    max_final_prob = 0.0
    last_state = 0
    
    for i in range(num_states):
        if V[n-1][i] > max_final_prob:
            max_final_prob = V[n-1][i]
            last_state = i
    
    # Шаг 4: Восстановление пути (обратный проход)
    best_path = [0] * n
    best_path[n-1] = last_state
    
    for t in range(n-2, -1, -1):
        best_path[t] = path[t+1][best_path[t+1]]
    
    # Преобразование индексов состояний в символы
    result = ''.join(states[state] for state in best_path)
    
    return result, max_final_prob

In [4]:
# Входные данные из задания
trans_prob = [
    [0.90, 0.10],  # N->N, N->C
    [0.10, 0.90]   # C->N, C->C
]

emit_prob = [
    {'A': 0.4, 'C': 0.1, 'G': 0.1, 'T': 0.4},  # для N
    {'A': 0.1, 'C': 0.4, 'G': 0.4, 'T': 0.1}   # для C
]

seq = "ATTTAATCGCGCGCGATTACGTACTAGCTAATTAACGGGCGGCGCGCATTATAA"

# Запуск алгоритма
result_sequence, probability = viterbi_algorithm(seq, trans_prob, emit_prob)

print("Последовательность нуклеотидов:")
print(seq)
print("\nНаиболее вероятная последовательность состояний (N/C):")
print(result_sequence)
print(f"\nВероятность этой последовательности: {probability:.10e}")

# Дополнительная информация о результатах
print("\nСтатистика:")
print(f"Количество N-состояний: {result_sequence.count('N')}")
print(f"Количество C-состояний: {result_sequence.count('C')}")
print(f"Доля CpG-островков (C): {result_sequence.count('C')/len(result_sequence)*100:.1f}%")

Последовательность нуклеотидов:
ATTTAATCGCGCGCGATTACGTACTAGCTAATTAACGGGCGGCGCGCATTATAA

Наиболее вероятная последовательность состояний (N/C):
NNNNNNNCCCCCCCCNNNNNNNNNNNNNNNNNNNNCCCCCCCCCCCCNNNNNNN

Вероятность этой последовательности: 9.0738697708e-32

Статистика:
Количество N-состояний: 34
Количество C-состояний: 20
Доля CpG-островков (C): 37.0%
