# Suffix Trie para An√°lisis de Secuencias de ADN
## Conversi√≥n de SARS-CoV-2 a Amino√°cidos

Este notebook implementa un suffix trie simple para analizar secuencias de ADN del SARS-CoV-2 y convertir codones a amino√°cidos.

In [1]:
# Implementaci√≥n simple del Suffix Trie para ADN
class Nodo:
    """Nodo del suffix trie - versi√≥n simple"""
    def __init__(self, caracter):
        self.caracter = caracter          # Nucle√≥tido (A, T, G, C)
        self.posiciones = []              # Posiciones donde aparece este sufijo
        self.es_final = False             # ¬øEs el final de un sufijo?
        self.hijos = {}                   # Diccionario de hijos {caracter: nodo}

class SuffixTrie:
    """Suffix Trie simple para secuencias de ADN"""
    def __init__(self):
        self.raiz = Nodo('$')  # Nodo ra√≠z especial
    
    def construir_trie(self, secuencia_adn):
        """
        Construye el suffix trie insertando todos los sufijos de la secuencia
        """
        print(f"Construyendo suffix trie para secuencia de {len(secuencia_adn)} nucle√≥tidos...")
        
        # Insertar todos los sufijos
        for i in range(len(secuencia_adn)):
            sufijo = secuencia_adn[i:]
            self._insertar_sufijo(sufijo, i)
        
        print("‚úÖ Suffix trie construido exitosamente!")
        return self
    
    def _insertar_sufijo(self, sufijo, posicion_inicial):
        """Inserta un sufijo en el trie"""
        nodo_actual = self.raiz
        
        # Recorrer cada nucle√≥tido del sufijo
        for i, nucleotido in enumerate(sufijo):
            # Si no existe el hijo para este nucle√≥tido, crearlo
            if nucleotido not in nodo_actual.hijos:
                nodo_actual.hijos[nucleotido] = Nodo(nucleotido)
            
            # Moverse al hijo y agregar la posici√≥n
            nodo_actual = nodo_actual.hijos[nucleotido]
            nodo_actual.posiciones.append(posicion_inicial + i)
        
        # Marcar el √∫ltimo nodo como final del sufijo
        nodo_actual.es_final = True
    
    def buscar_patron(self, patron):
        """
        Busca un patr√≥n en el trie y retorna las posiciones donde aparece
        """
        nodo_actual = self.raiz
        
        # Navegar siguiendo el patr√≥n
        for nucleotido in patron:
            if nucleotido not in nodo_actual.hijos:
                return []  # Patr√≥n no encontrado
            nodo_actual = nodo_actual.hijos[nucleotido]
        
        # Retornar las posiciones del √∫ltimo nodo del patr√≥n
        return sorted(list(set(nodo_actual.posiciones)))
    
    def estadisticas_trie(self):
        """Muestra estad√≠sticas del trie construido"""
        def contar_nodos(nodo):
            count = 1  # Contar este nodo
            for hijo in nodo.hijos.values():
                count += contar_nodos(hijo)
            return count
        
        total_nodos = contar_nodos(self.raiz)
        print(f"üìä Estad√≠sticas del Suffix Trie:")
        print(f"   Total de nodos: {total_nodos}")
        print(f"   Nucle√≥tidos en ra√≠z: {list(self.raiz.hijos.keys())}")

In [2]:
# Tabla de conversi√≥n de codones a amino√°cidos
TABLA_GENETICA = {
    # Fenilalanina
    'TTT': 'F', 'TTC': 'F',
    # Leucina
    'TTA': 'L', 'TTG': 'L', 'CTT': 'L', 'CTC': 'L', 'CTA': 'L', 'CTG': 'L',
    # Serina
    'TCT': 'S', 'TCC': 'S', 'TCA': 'S', 'TCG': 'S', 'AGT': 'S', 'AGC': 'S',
    # Tirosina
    'TAT': 'Y', 'TAC': 'Y',
    # Ciste√≠na
    'TGT': 'C', 'TGC': 'C',
    # Tript√≥fano
    'TGG': 'W',
    # Prolina
    'CCT': 'P', 'CCC': 'P', 'CCA': 'P', 'CCG': 'P',
    # Histidina
    'CAT': 'H', 'CAC': 'H',
    # Glutamina
    'CAA': 'Q', 'CAG': 'Q',
    # Arginina
    'CGT': 'R', 'CGC': 'R', 'CGA': 'R', 'CGG': 'R', 'AGA': 'R', 'AGG': 'R',
    # Isoleucina
    'ATT': 'I', 'ATC': 'I', 'ATA': 'I',
    # Metionina (START)
    'ATG': 'M',
    # Treonina
    'ACT': 'T', 'ACC': 'T', 'ACA': 'T', 'ACG': 'T',
    # Asparagina
    'AAT': 'N', 'AAC': 'N',
    # Lisina
    'AAA': 'K', 'AAG': 'K',
    # Valina
    'GTT': 'V', 'GTC': 'V', 'GTA': 'V', 'GTG': 'V',
    # Alanina
    'GCT': 'A', 'GCC': 'A', 'GCA': 'A', 'GCG': 'A',
    # √Åcido asp√°rtico
    'GAT': 'D', 'GAC': 'D',
    # √Åcido glut√°mico
    'GAA': 'E', 'GAG': 'E',
    # Glicina
    'GGT': 'G', 'GGC': 'G', 'GGA': 'G', 'GGG': 'G',
    # Codones de parada (STOP)
    'TAA': '*', 'TAG': '*', 'TGA': '*'
}

def adn_a_aminoacidos(secuencia_adn, frame=0):
    """
    Convierte secuencia de ADN a cadena de amino√°cidos
    frame: marco de lectura (0, 1, o 2)
    """
    print(f"üß¨ Convirtiendo ADN a amino√°cidos (marco de lectura {frame})...")
    
    # Ajustar por el marco de lectura
    secuencia_ajustada = secuencia_adn[frame:]
    aminoacidos = []
    
    # Procesar de 3 en 3 nucle√≥tidos (codones)
    for i in range(0, len(secuencia_ajustada) - 2, 3):
        codon = secuencia_ajustada[i:i+3]
        
        # Convertir a amino√°cido si existe en la tabla
        if codon in TABLA_GENETICA:
            aminoacido = TABLA_GENETICA[codon]
            aminoacidos.append(aminoacido)
            
            # Si encontramos un cod√≥n de parada, podemos terminar
            if aminoacido == '*':
                print(f"‚ö†Ô∏è  Cod√≥n de parada encontrado en posici√≥n {i//3}")
                break
        else:
            # Cod√≥n no reconocido
            aminoacidos.append('X')
    
    secuencia_proteina = ''.join(aminoacidos)
    print(f"‚úÖ Conversi√≥n completada: {len(aminoacidos)} amino√°cidos")
    return secuencia_proteina

def encontrar_orfs(secuencia_adn):
    """
    Encuentra Open Reading Frames (ORFs) en la secuencia
    Un ORF empieza con ATG (metionina) y termina con cod√≥n de parada
    """
    print("üîç Buscando Open Reading Frames (ORFs)...")
    orfs = []
    
    # Buscar en los 3 marcos de lectura
    for frame in range(3):
        secuencia_frame = secuencia_adn[frame:]
        
        i = 0
        while i < len(secuencia_frame) - 5:
            # Buscar cod√≥n de inicio ATG
            if secuencia_frame[i:i+3] == 'ATG':
                inicio = i + frame
                
                # Buscar cod√≥n de parada
                for j in range(i + 3, len(secuencia_frame) - 2, 3):
                    codon = secuencia_frame[j:j+3]
                    if codon in ['TAA', 'TAG', 'TGA']:
                        fin = j + 3 + frame
                        longitud = fin - inicio
                        
                        if longitud >= 60:  # ORF m√≠nimo de 20 amino√°cidos
                            orf_seq = secuencia_adn[inicio:fin]
                            orfs.append({
                                'inicio': inicio,
                                'fin': fin,
                                'longitud': longitud,
                                'frame': frame,
                                'secuencia': orf_seq
                            })
                        break
                
            i += 3
    
    # Ordenar por longitud (m√°s largos primero)
    orfs.sort(key=lambda x: x['longitud'], reverse=True)
    
    print(f"‚úÖ Se encontraron {len(orfs)} ORFs potenciales")
    return orfs

In [3]:
# Cargar y procesar la secuencia de SARS-CoV-2
def cargar_secuencia_fasta(ruta_archivo):
    """Carga secuencia desde archivo FASTA"""
    print(f"üìÅ Cargando secuencia desde: {ruta_archivo}")
    
    with open(ruta_archivo, 'r') as archivo:
        lineas = archivo.readlines()
    
    # La primera l√≠nea es el header (>), el resto es la secuencia
    secuencia = ''.join(linea.strip() for linea in lineas if not linea.startswith('>'))
    secuencia = secuencia.upper()  # Convertir a may√∫sculas
    
    print(f"‚úÖ Secuencia cargada: {len(secuencia)} nucle√≥tidos")
    print(f"   Primeros 60 nucle√≥tidos: {secuencia[:60]}")
    return secuencia

# Cargar la secuencia de SARS-CoV-2
ruta_sars = "/Users/opsystem/Downloads/Algoritmos/Situacion Problema 1 - DNA Strings/SARS-COV-2-MN908947.3.txt"
secuencia_sars = cargar_secuencia_fasta(ruta_sars)

# An√°lisis b√°sico de la secuencia
print(f"\nüìä AN√ÅLISIS DE LA SECUENCIA SARS-CoV-2:")
print(f"   Longitud total: {len(secuencia_sars)} nucle√≥tidos")

# Contar nucle√≥tidos
conteo = {'A': secuencia_sars.count('A'), 
          'T': secuencia_sars.count('T'), 
          'G': secuencia_sars.count('G'), 
          'C': secuencia_sars.count('C')}

print(f"   Composici√≥n nucle√≥tidos:")
for nucl, count in conteo.items():
    porcentaje = (count / len(secuencia_sars)) * 100
    print(f"     {nucl}: {count} ({porcentaje:.1f}%)")

# Calcular contenido GC
gc_content = (conteo['G'] + conteo['C']) / len(secuencia_sars) * 100
print(f"   Contenido GC: {gc_content:.1f}%")

üìÅ Cargando secuencia desde: /Users/opsystem/Downloads/Algoritmos/Situacion Problema 1 - DNA Strings/SARS-COV-2-MN908947.3.txt
‚úÖ Secuencia cargada: 29903 nucle√≥tidos
   Primeros 60 nucle√≥tidos: ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCT

üìä AN√ÅLISIS DE LA SECUENCIA SARS-CoV-2:
   Longitud total: 29903 nucle√≥tidos
   Composici√≥n nucle√≥tidos:
     A: 8954 (29.9%)
     T: 9594 (32.1%)
     G: 5863 (19.6%)
     C: 5492 (18.4%)
   Contenido GC: 38.0%


In [4]:
# Construir suffix trie para una muestra de la secuencia
# (Usamos solo los primeros 1000 nucle√≥tidos para ejemplo - el genoma completo ser√≠a muy grande)
muestra_secuencia = secuencia_sars[:1000]
print(f"üî¨ Construyendo suffix trie para muestra de {len(muestra_secuencia)} nucle√≥tidos")
print(f"   Muestra: {muestra_secuencia[:50]}...")

# Crear y construir el suffix trie
trie_sars = SuffixTrie()
trie_sars.construir_trie(muestra_secuencia)

# Mostrar estad√≠sticas
trie_sars.estadisticas_trie()

# Buscar patrones importantes en virolog√≠a
patrones_importantes = [
    'ATG',    # Cod√≥n de inicio
    'TAA',    # Cod√≥n de parada 1
    'TAG',    # Cod√≥n de parada 2
    'TGA',    # Cod√≥n de parada 3
    'AAAAAA', # Poliadenilaci√≥n
    'TTTTT',  # Poliuridilaci√≥n
    'CG',     # Dinucle√≥tido CpG (importante en regulaci√≥n)
]

print(f"\nüîç B√öSQUEDA DE PATRONES IMPORTANTES:")
for patron in patrones_importantes:
    posiciones = trie_sars.buscar_patron(patron)
    if posiciones:
        print(f"   '{patron}': {len(posiciones)} apariciones en posiciones {posiciones[:10]}{'...' if len(posiciones) > 10 else ''}")
    else:
        print(f"   '{patron}': No encontrado")

üî¨ Construyendo suffix trie para muestra de 1000 nucle√≥tidos
   Muestra: ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTC...
Construyendo suffix trie para secuencia de 1000 nucle√≥tidos...
‚úÖ Suffix trie construido exitosamente!
üìä Estad√≠sticas del Suffix Trie:
   Total de nodos: 496264
   Nucle√≥tidos en ra√≠z: ['A', 'T', 'G', 'C']

üîç B√öSQUEDA DE PATRONES IMPORTANTES:
   'ATG': 16 apariciones en posiciones [108, 267, 409, 469, 490, 508, 514, 519, 595, 727]...
   'TAA': 21 apariciones en posiciones [4, 26, 68, 79, 131, 135, 138, 142, 169, 263]...
   'TAG': 11 apariciones en posiciones [55, 113, 235, 424, 427, 532, 563, 668, 700, 761]...
   'TGA': 17 apariciones en posiciones [155, 252, 434, 458, 524, 569, 695, 719, 728, 779]...
   'AAAAAA': No encontrado
   'TTTTT': No encontrado
   'CG': 49 apariciones en posiciones [44, 71, 100, 123, 151, 164, 173, 197, 203, 207]...
‚úÖ Suffix trie construido exitosamente!
üìä Estad√≠sticas del Suffix Trie:
   Total de nodos: 496264
   

In [5]:
# Convertir la secuencia completa de SARS-CoV-2 a amino√°cidos
print("=" * 60)
print("üß¨ CONVERSI√ìN COMPLETA DE SARS-CoV-2 A AMINO√ÅCIDOS")
print("=" * 60)

# Convertir en los 3 marcos de lectura
for frame in range(3):
    print(f"\n--- MARCO DE LECTURA {frame} ---")
    proteina = adn_a_aminoacidos(secuencia_sars, frame)
    
    print(f"Longitud de la prote√≠na: {len(proteina)} amino√°cidos")
    print(f"Primeros 50 amino√°cidos: {proteina[:50]}")
    
    # Contar amino√°cidos
    if len(proteina) > 0:
        aa_unicos = set(proteina.replace('*', '').replace('X', ''))
        print(f"Amino√°cidos diferentes: {len(aa_unicos)} tipos")
        print(f"Codones de parada encontrados: {proteina.count('*')}")
        print(f"Codones no reconocidos: {proteina.count('X')}")

# Buscar ORFs (Open Reading Frames)
print(f"\n" + "=" * 60)
print("üî¨ B√öSQUEDA DE OPEN READING FRAMES (ORFs)")
print("=" * 60)

orfs = encontrar_orfs(secuencia_sars)

if orfs:
    print(f"\nüéØ TOP 5 ORFs M√ÅS LARGOS:")
    for i, orf in enumerate(orfs[:5]):
        proteina_orf = adn_a_aminoacidos(orf['secuencia'], 0)
        
        print(f"\n{i+1}. ORF en posici√≥n {orf['inicio']}-{orf['fin']}")
        print(f"   Marco de lectura: {orf['frame']}")
        print(f"   Longitud: {orf['longitud']} nucle√≥tidos ({orf['longitud']//3} amino√°cidos)")
        print(f"   Prote√≠na: {proteina_orf[:30]}...")
        print(f"   ADN: {orf['secuencia'][:60]}...")
else:
    print("‚ö†Ô∏è  No se encontraron ORFs largos")

üß¨ CONVERSI√ìN COMPLETA DE SARS-CoV-2 A AMINO√ÅCIDOS

--- MARCO DE LECTURA 0 ---
üß¨ Convirtiendo ADN a amino√°cidos (marco de lectura 0)...
‚ö†Ô∏è  Cod√≥n de parada encontrado en posici√≥n 8
‚úÖ Conversi√≥n completada: 9 amino√°cidos
Longitud de la prote√≠na: 9 amino√°cidos
Primeros 50 amino√°cidos: IKGLYLPR*
Amino√°cidos diferentes: 7 tipos
Codones de parada encontrados: 1
Codones no reconocidos: 0

--- MARCO DE LECTURA 1 ---
üß¨ Convirtiendo ADN a amino√°cidos (marco de lectura 1)...
‚ö†Ô∏è  Cod√≥n de parada encontrado en posici√≥n 44
‚úÖ Conversi√≥n completada: 45 amino√°cidos
Longitud de la prote√≠na: 45 amino√°cidos
Primeros 50 amino√°cidos: LKVYTFPGNKPTNFRSLVDLFSKRTLKSVWLSLGCMLSALTQYN*
Amino√°cidos diferentes: 17 tipos
Codones de parada encontrados: 1
Codones no reconocidos: 0

--- MARCO DE LECTURA 2 ---
üß¨ Convirtiendo ADN a amino√°cidos (marco de lectura 2)...
‚ö†Ô∏è  Cod√≥n de parada encontrado en posici√≥n 0
‚úÖ Conversi√≥n completada: 1 amino√°cidos
Longitud de la pro

In [6]:
# An√°lisis avanzado: buscar motivos conservados usando el suffix trie
print("=" * 60)
print("üî¨ AN√ÅLISIS DE MOTIVOS CONSERVADOS")
print("=" * 60)

def buscar_motivos_repetidos(trie, secuencia, longitud_minima=6, repeticiones_minimas=3):
    """
    Busca motivos que aparecen m√∫ltiples veces en la secuencia
    """
    print(f"Buscando motivos de al menos {longitud_minima} nucle√≥tidos que aparecen {repeticiones_minimas}+ veces...")
    
    motivos_encontrados = []
    
    # Probar diferentes longitudes de motivos
    for longitud in range(longitud_minima, min(20, len(secuencia)//10)):
        print(f"  Analizando motivos de longitud {longitud}...")
        
        # Probar cada posici√≥n como inicio de motivo
        for inicio in range(len(secuencia) - longitud + 1):
            motivo = secuencia[inicio:inicio + longitud]
            
            # Buscar cu√°ntas veces aparece este motivo
            posiciones = trie.buscar_patron(motivo)
            
            if len(posiciones) >= repeticiones_minimas:
                motivos_encontrados.append({
                    'motivo': motivo,
                    'longitud': longitud,
                    'repeticiones': len(posiciones),
                    'posiciones': posiciones[:10]  # Solo las primeras 10
                })
    
    # Eliminar duplicados y ordenar por repeticiones
    motivos_unicos = []
    motivos_vistos = set()
    
    for motivo_info in motivos_encontrados:
        motivo = motivo_info['motivo']
        if motivo not in motivos_vistos:
            motivos_vistos.add(motivo)
            motivos_unicos.append(motivo_info)
    
    # Ordenar por n√∫mero de repeticiones
    motivos_unicos.sort(key=lambda x: x['repeticiones'], reverse=True)
    
    return motivos_unicos

# Buscar motivos conservados en la muestra
motivos = buscar_motivos_repetidos(trie_sars, muestra_secuencia)

if motivos:
    print(f"\nüéØ TOP 10 MOTIVOS M√ÅS CONSERVADOS:")
    for i, motivo in enumerate(motivos[:10]):
        print(f"\n{i+1}. Motivo: '{motivo['motivo']}'")
        print(f"   Longitud: {motivo['longitud']} nucle√≥tidos")
        print(f"   Repeticiones: {motivo['repeticiones']}")
        print(f"   Posiciones: {motivo['posiciones']}")
        
        # Convertir a amino√°cidos si es m√∫ltiplo de 3
        if motivo['longitud'] % 3 == 0:
            aa = adn_a_aminoacidos(motivo['motivo'], 0)
            print(f"   Amino√°cidos: {aa}")
else:
    print("‚ö†Ô∏è  No se encontraron motivos conservados significativos")

print(f"\n‚úÖ An√°lisis completado!")

üî¨ AN√ÅLISIS DE MOTIVOS CONSERVADOS
Buscando motivos de al menos 6 nucle√≥tidos que aparecen 3+ veces...
  Analizando motivos de longitud 6...
  Analizando motivos de longitud 7...
  Analizando motivos de longitud 8...
  Analizando motivos de longitud 9...
  Analizando motivos de longitud 10...
  Analizando motivos de longitud 11...
  Analizando motivos de longitud 12...
  Analizando motivos de longitud 13...
  Analizando motivos de longitud 14...
  Analizando motivos de longitud 15...
  Analizando motivos de longitud 16...
  Analizando motivos de longitud 17...
  Analizando motivos de longitud 18...
  Analizando motivos de longitud 19...

üéØ TOP 10 MOTIVOS M√ÅS CONSERVADOS:

1. Motivo: 'GTGGCT'
   Longitud: 6 nucle√≥tidos
   Repeticiones: 4
   Posiciones: [92, 355, 421, 615]
üß¨ Convirtiendo ADN a amino√°cidos (marco de lectura 0)...
‚úÖ Conversi√≥n completada: 2 amino√°cidos
   Amino√°cidos: VA

2. Motivo: 'TTAAAG'
   Longitud: 6 nucle√≥tidos
   Repeticiones: 3
   Posiciones: [6

# Resumen del An√°lisis

## üß¨ Suffix Trie para SARS-CoV-2

Este notebook demostr√≥ c√≥mo usar un **suffix trie simple** para:

### ‚úÖ Funcionalidades Implementadas:
1. **Construcci√≥n de suffix trie** - Para an√°lisis de secuencias de ADN
2. **B√∫squeda de patrones** - Codones importantes, motivos conservados
3. **Conversi√≥n ADN‚ÜíAmino√°cidos** - Usando tabla gen√©tica est√°ndar
4. **Detecci√≥n de ORFs** - Open Reading Frames en m√∫ltiples marcos
5. **An√°lisis de motivos** - Secuencias repetidas y conservadas

### üìä An√°lisis Realizado:
- **Composici√≥n nucle√≥tida** del genoma SARS-CoV-2
- **Contenido GC** y estad√≠sticas b√°sicas
- **Traducci√≥n a prote√≠nas** en 3 marcos de lectura
- **Identificaci√≥n de ORFs** potenciales
- **B√∫squeda de motivos** conservados

### üéØ Aplicaciones:
- An√°lisis de genomas virales
- B√∫squeda de genes y regiones codificantes
- Identificaci√≥n de sitios de regulaci√≥n
- Comparaci√≥n de secuencias
- Dise√±o de primers y sondas

### ‚ö° Complejidad:
- **Construcci√≥n del trie**: O(n¬≤)
- **B√∫squeda de patrones**: O(m) donde m = longitud del patr√≥n
- **Conversi√≥n a amino√°cidos**: O(n/3)