In [1]:
!pip install biopython --quiet

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/3.3 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━[0m [32m2.2/3.3 MB[0m [31m78.4 MB/s[0m eta [36m0:00:01[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m3.3/3.3 MB[0m [31m67.2 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.3/3.3 MB[0m [31m44.3 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
import numpy as np
from Bio import AlignIO
from tqdm import tqdm

def normalize(arr):
    """Normaliza un array asegurando que no haya división por cero."""
    sums = np.sum(arr, axis=-1, keepdims=True)
    # Evitar división por cero reemplazando ceros con unos
    sums = np.where(sums == 0, 1.0, sums)
    return arr / sums

def forward(obs, A, B, pi):
    T, N = len(obs), A.shape[0]
    alpha = np.zeros((T, N))
    alpha[0] = pi * B[:, obs[0]]

    # Versión vectorizada del bucle forward
    for t in range(1, T):
        alpha[t] = (alpha[t-1] @ A) * B[:, obs[t]]

    return alpha

def backward(obs, A, B):
    T, N = len(obs), A.shape[0]
    beta = np.zeros((T, N))
    beta[T-1] = 1.0

    # Versión vectorizada del bucle backward
    for t in range(T-2, -1, -1):
        beta[t] = (A @ (B[:, obs[t+1]] * beta[t+1]))

    return beta

def compute_xi(alpha, beta, A, B, obs):
    T = len(obs)
    N = A.shape[0]
    xi = np.zeros((T-1, N, N))

    for t in range(T-1):
        # Cálculo vectorizado de xi
        numerator = np.outer(alpha[t], beta[t+1] * B[:, obs[t+1]]) * A
        denominator = np.sum(numerator)
        xi[t] = numerator / denominator if denominator > 0 else 0

    return xi

def baum_welch_multiple(sequences, N, M, max_iters=100, tol=1e-6):
    # Inicialización con valores más estables
    A = normalize(np.random.rand(N, N) + 0.1)
    B = normalize(np.random.rand(N, M) + 0.1)
    pi = normalize(np.random.rand(N) + 0.1)

    # Para seguimiento de convergencia
    prev_log_prob = float('-inf')

    for it in tqdm(range(max_iters), desc="Entrenando..."):
        A_num = np.zeros((N, N))
        A_den = np.zeros(N)
        B_num = np.zeros((N, M))
        B_den = np.zeros(N)
        pi_accum = np.zeros(N)

        total_log_prob = 0

        for seq in sequences:
            obs = np.array([aa_to_index[aa] for aa in seq])
            T = len(obs)

            # Algoritmos forward y backward
            alpha = forward(obs, A, B, pi)
            beta = backward(obs, A, B)

            # Calcular log-likelihood
            prob_sum = np.sum(alpha[-1])
            # Asegurar que no tomamos log(0)
            log_prob = np.log(max(prob_sum, 1e-300))
            total_log_prob += log_prob

            # Calcular gamma
            gamma = (alpha * beta)
            scale = np.sum(gamma, axis=1, keepdims=True)
            # Evitar división por cero
            scale = np.where(scale < 1e-300, 1e-300, scale)
            gamma = gamma / scale

            # Calcular xi
            xi = compute_xi(alpha, beta, A, B, obs)

            # Acumular estadísticas
            pi_accum += gamma[0]
            A_num += np.sum(xi, axis=0)
            A_den += np.sum(gamma[:-1], axis=0)

            # Acumular estadísticas para B, ignorando gaps
            for t in range(T):
                if seq[t] != "-":
                    B_num[:, obs[t]] += gamma[t]
                    B_den += gamma[t]

        # Mostrar progreso
        if (it + 1) % 5 == 0 or it == 0:
            tqdm.write(f"Iteración {it+1}/{max_iters} - Log-likelihood: {total_log_prob:.4f}")

        # Verificar convergencia
        if abs(total_log_prob - prev_log_prob) < tol:
            tqdm.write(f"Convergencia alcanzada en iteración {it+1}")
            break

        prev_log_prob = total_log_prob

        # Actualizar parámetros con manejo de valores nulos
        # Asegurar que A_den no tenga ceros antes de la división
        A_den[A_den < 1e-300] = 1e-300
        A_den = A_den.reshape(-1, 1)
        A = A_num / A_den

        # Asegurar que B_den no tenga ceros antes de la división
        B_den[B_den < 1e-300] = 1e-300
        B_den = B_den.reshape(-1, 1)
        B = B_num / B_den

        # Normalizar pi
        pi = normalize(pi_accum)

        # Verificar que todas las matrices sean válidas (sin NaN o inf)
        if np.any(np.isnan(A)) or np.any(np.isnan(B)) or np.any(np.isnan(pi)):
            tqdm.write("¡Advertencia: Se detectaron valores NaN! Reiniciando matrices...")
            A = normalize(np.random.rand(N, N) + 0.1)
            B = normalize(np.random.rand(N, M) + 0.1)
            pi = normalize(np.random.rand(N) + 0.1)

    return A, B, pi

# Mapa de aminoácidos a índices
amino_acids = "ARNDCQEGHILKMFPSTWYVB-"
aa_to_index = {aa: i for i, aa in enumerate(amino_acids)}

# Cargar secuencias
def load_sequences(file_path):
    alignment = AlignIO.read(file_path, "fasta")
    sequences = [str(record.seq) for record in alignment]
    return sequences

if __name__ == "__main__":
    try:
        # Cargar datos
        sequences = load_sequences("/content/drive/MyDrive/Algoritmos para bioinformatica/Proyecto/Cluster95_alineamiento.fasta")

        # Parámetros del modelo
        N = 3  # Número de estados ocultos
        M = 22  # Número de aminoácidos (incluyendo gap)

        # Ejecutar el algoritmo
        A, B, pi = baum_welch_multiple(sequences, N, M)

        # Mostrar resultados
        print("\nMatriz de transición A:")
        print(A)
        print("\nMatriz de emisión B:")
        print(B)
        print("\nDistribución inicial π:")
        print(pi)
    except Exception as e:
        print(f"Error durante la ejecución: {str(e)}")

Entrenando...:   1%|          | 1/100 [01:03<1:44:09, 63.13s/it]

Iteración 1/100 - Log-likelihood: -1742826.6569


Entrenando...:   1%|          | 1/100 [02:02<3:22:04, 122.47s/it]

Convergencia alcanzada en iteración 2

Matriz de transición A:
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]

Matriz de emisión B:
[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

Distribución inicial π:
[0. 0. 0.]



