# Definición de funciones

In [None]:
# Generador de cadenas de una determinada longitud
from random import choice
def generar_cadena(length):
  DNA=""
  for count in range(length):
    DNA+=choice("CGTA")
  return DNA

In [None]:
# Encontrar en una secuencia, un tandem de repetición específico (si lo hay)
def repeticion_tandem_especifica(cadena, tandem):
    cortado = cadena.split(tandem) # 'Cortamos' la cadena por los elementos que buscamos. P.E --> 'ABC'.split('B') = ['A',C']
    lengths = list(map(len, cortado)) # Calculamos la longitud de cada una de las subcadenas generadas cortando, es decir, la distancia que hay hasta cada ocurrencia que buscamos
    pos = lengths[0]
    tamaño_tandem = len(tandem)
    ocurrencias = 0
    al_final = False # Para controlar si la ocurrencia se repite al final y devolverla correctamente

    for l in lengths[1:]:
        if l == 0:
            ocurrencias += 1
            al_final = True
            continue
        ocurrencias += 1
        if ocurrencias > 1:
          yield (pos, ocurrencias)
        pos += l + tamaño_tandem * ocurrencias
        ocurrencias = 0
        al_final = False
    
    if al_final and ocurrencias > 1:
        yield (pos, ocurrencias)

In [None]:
# Encontrar en una cadena, todo tandem de repetición existente
def todo_tandem_posible(cadena):
  # Consideramos que de base están presentes todos los nucleótidos en cualquier cadena de ADN
  for nucleotido in 'CGTA':
    yield nucleotido

  # Contemplaremos tamaños de tandem desde 2 (1 ya contemplado en el bucle anterior) hasta la mitad de la cadena
  tamaños_de_tandem = int(len(cadena)/2) - 1  
  len_cadena = len(cadena)
  for l in range(tamaños_de_tandem):
    # Última iteración al llegar al tamaño de mitad de la cadena: Si ya hemos llegado a la mitad, únicamente podría ser tándem la propia mitad
    if l+1 == tamaños_de_tandem:
      yield cadena[:tamaños_de_tandem + 1]
      # Si el tamaño de la cadena es impar, añadimos la otra posibilidad de tandem de max tamaño P.E --> [A,B,C,D,F] daría [A,B] y [B,C] 
      if len(cadena)%2 == 1: 
        yield cadena[1:tamaños_de_tandem + 2]
      continue
    # Cualquier otro tamaño de tandem, caso genérico
    contemplados = []
    len_contemplados = 0
    max_len_contemplados = 4**(l+2) # máximo número de combinaciones que podría haber dado un tamaño de tandem
    for i in range(len_cadena - (l+1)):
      actual = cadena[i:l+2+i]
      if actual not in contemplados:
        contemplados.append(actual)
        yield actual
        len_contemplados += 1
        if max_len_contemplados == len_contemplados:
          break

In [None]:
# Encontrar en una cadena todos los tandems de repetición de una determinada longitud (si los hay)
def tandems_longitud(cadena, longitud):
  max_tamaño = int(len(cadena)/2) 
  len_cadena = len(cadena)

  if longitud == max_tamaño:
      yield cadena[:max_tamaño]
      # Si el tamaño de la cadena es impar, añadimos la otra posibilidad de tandem de max tamaño P.E --> [A,B,C,D,F] daría [A,B] y [B,C] 
      if len(cadena)%2 == 1: 
        yield cadena[1:max_tamaño + 1]
  # Cualquier otro tamaño de tandem, caso genérico
  else:
    contemplados = []
    len_contemplados = 0
    max_len_contemplados = 4**longitud # máximo número de combinaciones que podría haber dado un tamaño de tandem
    for i in range(len_cadena - longitud):
      actual = cadena[i:longitud+i]
      if actual not in contemplados:
        contemplados.append(actual)
        yield actual
        len_contemplados += 1
        if max_len_contemplados == len_contemplados:
          break

In [None]:
# Programa main para ejecutar los anteriores
def obtener_repeticiones(cadena, busqueda=None, longitud=None):
  if busqueda and longitud:
    print('No se puede buscar repeticiones de un tándem específico y de una longitud determinada a la vez. Elige uno u otro.')
  elif busqueda:
    repeticiones = list(repeticion_tandem_especifica(cadena, busqueda))
    if repeticiones:
      print('Tandem ' + busqueda)
      for index, ocurrencias in repeticiones:
        print(str(ocurrencias) + ' ocurrencias en la posición ' + str(index))
  elif longitud:
    if longitud > len(cadena)/2:
      print('El tamaño de tandem es demasiado grande para esta cadena')
    else:
      for tandem in tandems_longitud(cadena, longitud):
        repeticiones = list(repeticion_tandem_especifica(cadena, tandem))
        if repeticiones:
          print('Tandem ' + tandem)
          for index, ocurrencias in repeticiones:
            print(str(ocurrencias) + ' ocurrencias en la posición ' + str(index))
  else:  
    for tandem in todo_tandem_posible(cadena):
      repeticiones = list(repeticion_tandem_especifica(cadena, tandem))
      if repeticiones:
        print('Tandem ' + tandem)
        for index, ocurrencias in repeticiones:
          print(str(ocurrencias) + ' ocurrencias en la posición ' + str(index))

# Pruebas

In [None]:
a = generar_cadena(100)
print(a)

GTGGCTAGTCTCTCACCCGATGTTGGACGCTTCCTCGAGCGGTGATGCAGTTGTTTCAGTACGGAAGTTATCCATCAGTCCGTGGACCAGATCACTGTCC


In [None]:
# Sin argumentos adicionales, busca todos los tándems existentes
obtener_repeticiones(a)

Tandem C
3 ocurrencias en la posición 15
2 ocurrencias en la posición 32
2 ocurrencias en la posición 71
2 ocurrencias en la posición 79
2 ocurrencias en la posición 86
2 ocurrencias en la posición 98
Tandem G
2 ocurrencias en la posición 2
2 ocurrencias en la posición 24
2 ocurrencias en la posición 40
2 ocurrencias en la posición 62
2 ocurrencias en la posición 83
Tandem T
2 ocurrencias en la posición 22
2 ocurrencias en la posición 30
2 ocurrencias en la posición 50
3 ocurrencias en la posición 53
2 ocurrencias en la posición 67
Tandem A
2 ocurrencias en la posición 64
Tandem CT
2 ocurrencias en la posición 9
Tandem TC
3 ocurrencias en la posición 8
Tandem GTT
2 ocurrencias en la posición 49


In [None]:
obtener_repeticiones(a, longitud=2)

Tandem CT
2 ocurrencias en la posición 9
Tandem TC
3 ocurrencias en la posición 8


In [None]:
obtener_repeticiones(a, busqueda='GTT')

Tandem GTT
2 ocurrencias en la posición 49


# Cadenas de ADN como lenguajes de duplicación con lazos de compensación

In [None]:
from itertools import permutations
perms = [''.join(p) for p in permutations('AGCT')]

In [None]:
# Todas las permutaciones posibles de las cuatro bases
print(perms)

['AGCT', 'AGTC', 'ACGT', 'ACTG', 'ATGC', 'ATCG', 'GACT', 'GATC', 'GCAT', 'GCTA', 'GTAC', 'GTCA', 'CAGT', 'CATG', 'CGAT', 'CGTA', 'CTAG', 'CTGA', 'TAGC', 'TACG', 'TGAC', 'TGCA', 'TCAG', 'TCGA']


Propiedad 1 --> Para cualquier alfabeto arbitrario V y cualquier cadena w, h(D*cl(w)) es regular.

In [None]:
# Con esta función podemos obtener la expresión regular de una cadena.
def expresion_regular(inout):
  result = 'h(D*cl(' + inout + ')) es denotado por '
  for i,elem in enumerate(inout):
    if i == 0:  
      result += elem + elem + '*'
    else:
      anteriores = inout[:i]
      result += elem + '(' + elem
      for j in reversed(range(i)):
        result += '+' + inout[j:i+1]
      result += ')*'
  print(result)

In [None]:
# Expresiones regulares de todas las permutaciones posibles de las cuatro bases
for perm in perms:
  expresion_regular(perm)

h(D*cl(AGCT)) es denotado por AA*G(G+AG)*C(C+GC+AGC)*T(T+CT+GCT+AGCT)*
h(D*cl(AGTC)) es denotado por AA*G(G+AG)*T(T+GT+AGT)*C(C+TC+GTC+AGTC)*
h(D*cl(ACGT)) es denotado por AA*C(C+AC)*G(G+CG+ACG)*T(T+GT+CGT+ACGT)*
h(D*cl(ACTG)) es denotado por AA*C(C+AC)*T(T+CT+ACT)*G(G+TG+CTG+ACTG)*
h(D*cl(ATGC)) es denotado por AA*T(T+AT)*G(G+TG+ATG)*C(C+GC+TGC+ATGC)*
h(D*cl(ATCG)) es denotado por AA*T(T+AT)*C(C+TC+ATC)*G(G+CG+TCG+ATCG)*
h(D*cl(GACT)) es denotado por GG*A(A+GA)*C(C+AC+GAC)*T(T+CT+ACT+GACT)*
h(D*cl(GATC)) es denotado por GG*A(A+GA)*T(T+AT+GAT)*C(C+TC+ATC+GATC)*
h(D*cl(GCAT)) es denotado por GG*C(C+GC)*A(A+CA+GCA)*T(T+AT+CAT+GCAT)*
h(D*cl(GCTA)) es denotado por GG*C(C+GC)*T(T+CT+GCT)*A(A+TA+CTA+GCTA)*
h(D*cl(GTAC)) es denotado por GG*T(T+GT)*A(A+TA+GTA)*C(C+AC+TAC+GTAC)*
h(D*cl(GTCA)) es denotado por GG*T(T+GT)*C(C+TC+GTC)*A(A+CA+TCA+GTCA)*
h(D*cl(CAGT)) es denotado por CC*A(A+CA)*G(G+AG+CAG)*T(T+GT+AGT+CAGT)*
h(D*cl(CATG)) es denotado por CC*A(A+CA)*T(T+AT+CAT)*G(G+TG+ATG+CATG)*
h(D*cl

Propiedad 2 --> Para cualquier alfabeto V con card(V)=1 y cualquier w, h(D* cl(w)) = D* (w) y Para cualquier alfabeto V con card(V)>1 existe w tal que h(D* cl(w)) no contiene D*(w)

La primera afirmación es trivial ya que si w = a^n entonces h(D* cl(a^n)) = D* (a^n) = a^na*

In [None]:
w = 'CGTA'
expresion_regular(w)

h(D*cl(CGTA)) es denotado por CC*G(G+CG)*T(T+GT+CGT)*A(A+TA+GTA+CGTA)*


In [None]:
from random import randrange
# Generar una secuencia de duplicación aleatoria en una cadena
def secuencia_duplicacion(input):
  tamaño_duplicacion = randrange(1,len(input))
  inicio = int((len(input) - tamaño_duplicacion)/2)
  cadena_a_duplicar = input[inicio:tamaño_duplicacion+inicio]
  extremos = input.split(cadena_a_duplicar)
  return extremos[0] + cadena_a_duplicar*2 + extremos[1]

In [None]:
print(secuencia_duplicacion(secuencia_duplicacion('CGTA')))

CGTCGTGTCGTA


La cadena CGTCGTGTCGTA generada con secuencias de duplicación a partir de CGTA no pertenece al lenguaje h(D*cl(CGTA)) mostrado arriba, con lo que se demuestra la segunda afirmación.